推薦アルゴリズムの今までとこれから
- 内藤 遥(CA)
推薦アルゴリズム
Amebaの推薦アルゴリズム
- Fresh!とかで使ってる
- 今はバッチで推薦を作ってる
- リアルタイム化したい
マルチメディア機械学習への取り組み
- 藤坂 祐介(CA)
CAが扱うデータ
アメブロの画像カテゴライズ
- ブログのジャンルのカテゴライズを自動化したい
- 自然言語解析 + 投稿画像解析
画像カテゴライズ
- 画像300K枚手動でラベル付け
- kerasで分析
スパム画像検知
- Content moderation(コンテンツ健全化)
アメブロ
- スパム画像は全体の0.1%
- 人手でやってたから自動化したい
- 有人監視のデータを溜めてモデル作った
- スコア出してオペレータの判断を補助
- でもうまくいってない
- 画像の種類が多すぎた
マッチングアプリ
- プロフィール画像の使い回し
- 業者のユーザ
- 類似画像フィルタ(dhash)
- xxビット一致したら検知、みたいな感じでやった
- 大量に検知できた
楽曲の盛り上がり検知
- サビを検知する
- AWA
- 無料プランは30秒だけ
- それをサビにしたい
- サビ部分を自動検知したい
- 音楽データにタグ付け
- ここがイントロとか
- デコードして解析
- 結果は51%
大規模分散深層学習と ChainerMN の進歩と課題
- 秋葉 拓哉(PreferredNetworks)
何やってる会社か
- chainer作ってる
深層学習
- 3つ全部重要
- アルゴリズム
- データ
- 計算力
大規模分散学習野何が難しいか
分散深層学習の基礎
ニューラルネットワークのイテレーション
- Forward
- Backward
- optimize
- これを何万回も繰り返す
同期型 vs 非同期型
- 全ワーカー同期して処理するか非同期でやるか
- 非同期のほうが速そう
- Googleのbrainが非同期がいいと論文出してる
- 2012年に発表されたもの
- 古すぎる
- 速くても意味がない重要なのは精度
- 同期のほうが精度が上
- Googleのbrainも動機がいいと論文出した
- 分散深層学習
- Forward
- Backward
- All-Reduce
- ここで全部同期させる
- optimize
- ChainerMN
- MN -> Multi Node
- 分散深層学習できる
- なんで同期のほうが精度いいのか
- Gradient Staleness
- 非同期でやってる間にモデルが更新されてる
- 処理が終わってマージしようとした時は、元にしたモデルは古い
- だから精度上がらないし壊してしまうことも