「春の機械学習祭り 〜Data Engineering & Data Analysis WS#4〜」に参加してきました

推薦アルゴリズムの今までとこれから

  • 内藤 遥(CA)

推薦アルゴリズム

  • 協調フィルタリング
    • これを買った人はこれも多く買ってます的な
    • 評価データがたまらないと推薦できない
  • コンテンツベース
    • アイテムの特徴で推薦を決める
    • ドメイン知識必要だけどデータなくても行ける

Amebaの推薦アルゴリズム

  • Fresh!とかで使ってる
  • 今はバッチで推薦を作ってる
  • リアルタイム化したい

マルチメディア機械学習への取り組み

  • 藤坂 祐介(CA)

CAが扱うデータ

  • テキスト、画像、動画...
  • Ameba、AbemaTV、Fresh!

アメブロの画像カテゴライズ

  • ブログのジャンルのカテゴライズを自動化したい

画像カテゴライズ

  • 画像300K枚手動でラベル付け
  • kerasで分析

スパム画像検知

  • Content moderation(コンテンツ健全化)

アメブロ

  • スパム画像は全体の0.1%
  • 人手でやってたから自動化したい
  • 有人監視のデータを溜めてモデル作った
    • スコア出してオペレータの判断を補助
    • でもうまくいってない
    • 画像の種類が多すぎた

マッチングアプリ

  • プロフィール画像の使い回し
    • 業者のユーザ
  • 類似画像フィルタ(dhash)
    • xxビット一致したら検知、みたいな感じでやった
  • 大量に検知できた

楽曲の盛り上がり検知

  • サビを検知する
  • AWA
    • 無料プランは30秒だけ
    • それをサビにしたい
    • サビ部分を自動検知したい
  • 音楽データにタグ付け
    • ここがイントロとか
  • デコードして解析
  • 結果は51%

大規模分散深層学習と ChainerMN の進歩と課題

  • 秋葉 拓哉(PreferredNetworks)

何やってる会社か

  • chainer作ってる

深層学習

大規模分散学習野何が難しいか

分散深層学習の基礎

ニューラルネットワークイテレーション

  • Forward
  • Backward
  • optimize
  • これを何万回も繰り返す

同期型 vs 非同期型

  • 全ワーカー同期して処理するか非同期でやるか
  • 非同期のほうが速そう
  • Googleのbrainが非同期がいいと論文出してる
    • 2012年に発表されたもの
    • 古すぎる
  • 速くても意味がない重要なのは精度
    • 同期のほうが精度が上
    • Googleのbrainも動機がいいと論文出した
  • 分散深層学習
    • Forward
    • Backward
    • All-Reduce
      • ここで全部同期させる
    • optimize
  • ChainerMN
    • MN -> Multi Node
    • 分散深層学習できる
  • なんで同期のほうが精度いいのか
    • Gradient Staleness
    • 非同期でやってる間にモデルが更新されてる
    • 処理が終わってマージしようとした時は、元にしたモデルは古い
    • だから精度上がらないし壊してしまうことも