「David Blei x Owen Zhang来日記念カンファレンス『データサイエンス最先端活用』」を (半分だけ) 聞いた
http://recruit.ai/event/datascience_update0210.html
David M. Blei に Owen Zhang の話が聞けるということで行ってきた.
朝起きた瞬間から嫌な予感はしていたけれど、会場に着いたあたりで頭痛吐き気悪寒脂汗が止まらなくなってしまったため、午前中だけ聞いて帰って寝た.
メモが後半になるにつれ適当になっているのもそのため.
[基調講演1] "Probabilistic Topic Models and User Behavior" : Columbia大学 David Blei教授
資料 : Probabilistic Topic Models and User Behavior(pdf)
資料を読めば大体わかるので、いくつか載っていない点や気になった点をメモ.
- トピックモデル、色々ある
- トピックがわかる
- その時系列変化がわかる (Dynamic Topic Model, ICML 2006)
- 画像と文章で caption 生成ができる
- SNS からのコミュニティ抽出ができる
- トピックモデルの使いみちはトピックを眺めることだけじゃない (企業での利用例)
- 別タスクにて学習器の特徴量として使う
- The New York Times では記事推薦に使っている
- Apple (?) では情報検索に
- Yahoo! ではメールの分析に使っている
- LDA の説明
- Graphical Model の説明
- レゴブロックみたいにフレキシブル
- 一見して変数の関係がわかる
- 色々な実装があるけれども、gensim: Topic modelling for humans はスケーラブルでいい
- Graphical Model の説明
- トピックモデルとユーザ行動 : Collabolative Topic Model
- Collaborative Topic Modeling for Recommending Scientific Articles (KDD 2011)
- この論文は昔読んでいた(Collaborative Deep Learning for Recommender Systems (KDD 2015) 読んだ - 糞ネット弁慶)がもう一度おさらい
- ユーザのアイテムへの評価を潜在ベクトルの線形和として求める
- EM like な手法で推定
- arXiv の分析に関する話
- Collaborative Topic Modeling for Recommending Scientific Articles (KDD 2011)
- 最後に
- We should seek out unfamiliar summaries of observational material, and establish their useful properties... And still more novelty can come from finding, and evading, still deeper lying constraints. (Tukey, 1962)
- 質疑
- Q. トピックの解釈はどうすればいいのか
- A. 中身を見て色々議論していく
- Q. LDA の hyperparameter である alpha/beta の調整はどうすればいいのか
- Q. トピックの解釈はどうすればいいのか
[招待講演1] "鋼鉄の錬金術師を目指すNS Solutionsの取組紹介" : 株式会社新日鉄住金ソリューションズ 本橋智光様
- 発表者について
- データ分析にまつわる研究開発の部署ができたのはここ数年?
- NSSOL がデータ分析を?
- 親会社は新日鉄
- 鉄の温度は直接測ることができない
- 鉄の製造とデータ分析は深い関係がある
- 親会社は新日鉄
- KDD Cup 2015 の話
- タスク : 中国の MOOC における離脱予測
- 2位
- 最終日までは祝賀ムードだったのに最後で抜かれた
- アプローチ : 各自が大量の特徴量を作る
- 周期性のある特徴量にフーリエ変換をしたり(?)
- データ分析にまつわる業務
- 全案件のうち、70% はテーマを考えるところから
- 各事例の紹介
- 製造業におけるデータ分析
- 製造業、どんどんデータ分析にもとづく施策が導入されている
- 詳細は非公開
- 製造業、実験計画法などの文化があるのでやりやすそう
- LDA で業務報告書を検索
- トラブル事例など
- 全文検索だとヒットしない
- 新製品の需要予測
- 発売から一週間の売上情報を使って一ヶ月後の出荷量を予測
- 結構な精度で予測を実現
- 販売戦略
- どんなに高精度で予測ができても売上に結びつかない
- どこがボトルネックか、どうやって売上を伸ばすか、まで必要
- 複数のモデルを切り替えながら予測して可解釈性を高めたり
- タクシーの需要予測
- 空車率が高い、ベテランと非ベテランで空車率に差がある
- 需要予測で効率化
- マーケティング施策
- メール配信、マーケティングオートメーションのシステム提供、マーケティング支援ならチーターデジタル|Marketing Gate(マーケティングゲート)(Mosaic) とひも付けて分析
- ターゲティング、離脱防止
- コストダウン、売上アップを実現
- Jリーグ・マッチスケジューラー (日程くん)
- 様々な制約条件 (ホーム/アウェイが続くと困る、遠征ばかりだと困る、など) がある中で試合の日程を組む
- 天皇杯が終わらないと試合予定が組めないのでいつも待っている
- 製造業におけるデータ分析
- その他
- 自社サービス : Data Veraci
- Data Robot ともやっている.作ってくるモデルがすごい.
- 質疑
- Q. モデルの解釈性とブラックボックス化について
- A. 現場が強いところは解釈性を求める
- Q. (自分) 実案件において精度をどこまで追求するのか、やり始めるとキリがないタスクであるのでどのあたりで見切りをつけるのか
- A. 現状の予測を置き換えるのならばそれと同等まで、モデルが存在しないタスクであれば現場の肌感と合う程度まで
- Q. 分析と事業への反映のスピード感はどうか
- Q. モデルの解釈性とブラックボックス化について
[招待講演2] 事業成長とデータとの付き合い方 : 株式会社エウレカ 中村裕一様
- Pairs(ペアーズ) - 恋愛・婚活マッチングアプリ の話
- 様々なデータがある
- デモグラ、位置、チャネル、時系列、行動、購買
- 豊富なデータを事業開始当時から活用できたか?
- まずは分析するためのデータを追う
- 「現状のデータが高度な分析を行うに値するデータであるのか」をチェックするところから始めた
- 管理画面を作って基礎集計を表示する
- 例 : ユニークユーザ、アクティブユーザなど
- 「今何を見るべきか」に集中した
- ある程度規模が大きくなってきたらようやく分析が可能になる
- 規模拡大に伴うシステムの変化
- 結論 : データは武器にも弱点にもなる
- 質疑
- Q. (自分) 施策の精度が上がることによりマッチングが効率化されてしまったらサイトでお金を落とさなくなるのではないか
- その場での思いつきだったけど、例えば人材紹介サービスであればマッチングによる成功報酬があるが、出合い系だとそういうわけでもないので難しいのでは、というのは真面目に考えた
- A. 究極的にはそうだが、現状はそこまでなるとは考えていない.マッチングの精度が上がることを目指している.
- Q. (自分) 施策の精度が上がることによりマッチングが効率化されてしまったらサイトでお金を落とさなくなるのではないか