糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

「David Blei x Owen Zhang来日記念カンファレンス『データサイエンス最先端活用』」を (半分だけ) 聞いた

http://recruit.ai/event/datascience_update0210.html
David M. BleiOwen Zhang の話が聞けるということで行ってきた.
朝起きた瞬間から嫌な予感はしていたけれど、会場に着いたあたりで頭痛吐き気悪寒脂汗が止まらなくなってしまったため、午前中だけ聞いて帰って寝た.
メモが後半になるにつれ適当になっているのもそのため.

[基調講演1] "Probabilistic Topic Models and User Behavior" : Columbia大学 David Blei教授

資料 : Probabilistic Topic Models and User Behavior(pdf)
資料を読めば大体わかるので、いくつか載っていない点や気になった点をメモ.

  • トピックモデル、色々ある
    • トピックがわかる
    • その時系列変化がわかる (Dynamic Topic Model, ICML 2006)
    • 画像と文章で caption 生成ができる
    • SNS からのコミュニティ抽出ができる
  • トピックモデルの使いみちはトピックを眺めることだけじゃない (企業での利用例)
    • 別タスクにて学習器の特徴量として使う
    • The New York Times では記事推薦に使っている
    • Apple (?) では情報検索に
    • Yahoo! ではメールの分析に使っている
  • LDA の説明
    • Graphical Model の説明
      • レゴブロックみたいにフレキシブル
      • 一見して変数の関係がわかる
    • 色々な実装があるけれども、gensim: Topic modelling for humans はスケーラブルでいい
  • トピックモデルとユーザ行動 : Collabolative Topic Model
  • 最後に
    • We should seek out unfamiliar summaries of observational material, and establish their useful properties... And still more novelty can come from finding, and evading, still deeper lying constraints. (Tukey, 1962)
  • 質疑
    • Q. トピックの解釈はどうすればいいのか
      • A. 中身を見て色々議論していく
    • Q. LDA の hyperparameter である alpha/beta の調整はどうすればいいのか

[招待講演1] "鋼鉄の錬金術師を目指すNS Solutionsの取組紹介" : 株式会社新日鉄住金ソリューションズ 本橋智光様

  • 発表者について
    • データ分析にまつわる研究開発の部署ができたのはここ数年?
  • NSSOL がデータ分析を?
    • 親会社は新日鉄
      • 鉄の温度は直接測ることができない
      • 鉄の製造とデータ分析は深い関係がある
  • KDD Cup 2015 の話
    • タスク : 中国の MOOC における離脱予測
    • 2位
      • 最終日までは祝賀ムードだったのに最後で抜かれた
    • アプローチ : 各自が大量の特徴量を作る
  • データ分析にまつわる業務
    • 全案件のうち、70% はテーマを考えるところから
  • 各事例の紹介
    • 製造業におけるデータ分析
      • 製造業、どんどんデータ分析にもとづく施策が導入されている
      • 詳細は非公開
      • 製造業、実験計画法などの文化があるのでやりやすそう
    • LDA で業務報告書を検索
      • トラブル事例など
      • 全文検索だとヒットしない
    • 新製品の需要予測
      • 発売から一週間の売上情報を使って一ヶ月後の出荷量を予測
      • 結構な精度で予測を実現
    • 販売戦略
      • どんなに高精度で予測ができても売上に結びつかない
      • どこがボトルネックか、どうやって売上を伸ばすか、まで必要
      • 複数のモデルを切り替えながら予測して可解釈性を高めたり
    • タクシーの需要予測
      • 空車率が高い、ベテランと非ベテランで空車率に差がある
      • 需要予測で効率化
    • マーケティング施策
    • Jリーグ・マッチスケジューラー (日程くん)
      • 様々な制約条件 (ホーム/アウェイが続くと困る、遠征ばかりだと困る、など) がある中で試合の日程を組む
      • 天皇杯が終わらないと試合予定が組めないのでいつも待っている
  • その他
    • 自社サービス : Data Veraci
    • Data Robot ともやっている.作ってくるモデルがすごい.
  • 質疑
    • Q. モデルの解釈性とブラックボックス化について
      • A. 現場が強いところは解釈性を求める
    • Q. (自分) 実案件において精度をどこまで追求するのか、やり始めるとキリがないタスクであるのでどのあたりで見切りをつけるのか
      • A. 現状の予測を置き換えるのならばそれと同等まで、モデルが存在しないタスクであれば現場の肌感と合う程度まで
    • Q. 分析と事業への反映のスピード感はどうか

[招待講演2] 事業成長とデータとの付き合い方 : 株式会社エウレカ 中村裕一

  • Pairs(ペアーズ) - 恋愛・婚活マッチングアプリ の話
  • 様々なデータがある
    • モグラ、位置、チャネル、時系列、行動、購買
  • 豊富なデータを事業開始当時から活用できたか?
    • No
    • 様々な課題があった
      • 量不足、質不足、基準が不明確、最終的な利用方法が不明
    • やりたいことは色々あったが最初からは無理
  • まずは分析するためのデータを追う
    • 「現状のデータが高度な分析を行うに値するデータであるのか」をチェックするところから始めた
    • 管理画面を作って基礎集計を表示する
      • 例 : ユニークユーザ、アクティブユーザなど
      • 「今何を見るべきか」に集中した
    • ある程度規模が大きくなってきたらようやく分析が可能になる
  • 規模拡大に伴うシステムの変化
    • 当初の SQL + PHP から Redshift へ
    • Go によるフルスクラッチにともない、 BigQuery で一元管理
      • 通化によって各種 KPI の定義がバラバラだったものを統一
  • 結論 : データは武器にも弱点にもなる
  • 質疑
    • Q. (自分) 施策の精度が上がることによりマッチングが効率化されてしまったらサイトでお金を落とさなくなるのではないか
      • その場での思いつきだったけど、例えば人材紹介サービスであればマッチングによる成功報酬があるが、出合い系だとそういうわけでもないので難しいのでは、というのは真面目に考えた
      • A. 究極的にはそうだが、現状はそこまでなるとは考えていない.マッチングの精度が上がることを目指している.