ozaki25’s diary

「春の機械学習祭り〜Data Engineering & Data Analysis WS#4〜」に参加してきました

勉強会メモ

2018/3/29
https://cyberagent.connpass.com/event/80969/

推薦アルゴリズムの今までとこれから

内藤遥(CA)

推薦アルゴリズム

協調フィルタリング
- これを買った人はこれも多く買ってます的な
- 評価データがたまらないと推薦できない
コンテンツベース
- アイテムの特徴で推薦を決める
- ドメイン知識必要だけどデータなくても行ける

Amebaの推薦アルゴリズム

Fresh!とかで使ってる
今はバッチで推薦を作ってる
リアルタイム化したい

マルチメディア機械学習への取り組み

藤坂祐介(CA)

CAが扱うデータ

テキスト、画像、動画...
Ameba、AbemaTV、Fresh!

アメブロの画像カテゴライズ

ブログのジャンルのカテゴライズを自動化したい
- 自然言語解析 + 投稿画像解析

画像カテゴライズ

画像300K枚手動でラベル付け
kerasで分析

スパム画像検知

Content moderation(コンテンツ健全化)

アメブロ

スパム画像は全体の0.1%
人手でやってたから自動化したい
有人監視のデータを溜めてモデル作った
- スコア出してオペレータの判断を補助
- でもうまくいってない
- 画像の種類が多すぎた

マッチングアプリ

プロフィール画像の使い回し
- 業者のユーザ
類似画像フィルタ(dhash)
- xxビット一致したら検知、みたいな感じでやった
大量に検知できた

楽曲の盛り上がり検知

サビを検知する
AWA
- 無料プランは30秒だけ
- それをサビにしたい
- サビ部分を自動検知したい
音楽データにタグ付け
- ここがイントロとか
デコードして解析
結果は51%

大規模分散深層学習と ChainerMN の進歩と課題

秋葉拓哉(PreferredNetworks)

何やってる会社か

chainer作ってる

深層学習

3つ全部重要
- アルゴリズム
- データ
- 計算力

大規模分散学習野何が難しいか

お金かけてGPUつむだけではだめ
- アルゴリズム
- 実装

分散深層学習の基礎

ニューラルネットワークのイテレーション

Forward
Backward
optimize
これを何万回も繰り返す

同期型 vs 非同期型

全ワーカー同期して処理するか非同期でやるか
非同期のほうが速そう
Googleのbrainが非同期がいいと論文出してる
- 2012年に発表されたもの
- 古すぎる
速くても意味がない重要なのは精度
- 同期のほうが精度が上
- Googleのbrainも動機がいいと論文出した
分散深層学習
- Forward
- Backward
- All-Reduce
  - ここで全部同期させる
- optimize
ChainerMN
- MN -> Multi Node
- 分散深層学習できる
なんで同期のほうが精度いいのか
- Gradient Staleness
- 非同期でやってる間にモデルが更新されてる
- 処理が終わってマージしようとした時は、元にしたモデルは古い
- だから精度上がらないし壊してしまうことも