WSDM2012勉強会 : ATND
思ったよりも人が来て驚愕した.お疲れ様でした.
また,発表してくださった皆様,及びUstと会場確保をおこなってくださった皆様,ありがとうございました.
自分の読んだ論文はOvercoming Browser Cookie Churn with Clustering.短期間で消えてしまうクッキーだけを使ってクッキーをクラスタリングし,ロバストにユーザを特定するという話.
Overcoming browser cookie churn with clustering in wsdm2012 reading
View more presentations from ybenjo
@nokuno: Finding Your Friends and Following Them to Where You Are(Best Paper)
http://www.slideshare.net/nokuno/finding-your-friends-and-following-them-to-where-you-are-wsdm2012
概要
タスク
- 地理情報を使って友達関係の予測
- 友達関係を使って地理情報の予測
データ
- search api叩きまくり
- フィルタリングするとデータが減っている
友人関係の予測
- 特徴量
- text: stopword抜きの内積
- co-location: 同じ場所にいた時間
- graph: jaccardの分母がminになったもの
- jaccardなどは使い物にならなかった
- 学習
- 決定木
- LSHを使って類似度を使って高速化(?)
地理情報の予測
- Dynamic Bayesian Network
- 諸々の属性を入れる
- 全ては離散化されている
- 学習
- Supervised
- 最大化
- Unsupervised
- geo-tagが無いユーザにも使える
- EM + forward-backward
- Supervised
評価
- follow予測
- いい感じ
- エッジを使わなくても予測が可能
- Q: 曲線に段差があるのは特定位置では予測が失敗しやすいとか?
- Q: baselineは何?
- いい感じ
- 地理情報予測
- 考慮するfriendの数を変えて予測
- geo-tag使わずとも57%ぐらいで当てられる
- Q: 位置情報を当てるとは?
- A: 場所名レベル
- Q: そもそもどう当てるんだっけ
- A: 「飯食ってる」→「うはwwwwww松屋特定したwwwwwwww」レベルの話
- geo-tagジャンキーのユーザのpostを当てられたからといって,一般ユーザを当てられるか…?
@tsubosaka: Finding the right consumer : Optimizing for conversion in display advertising campaigns
概要
コンバージョンを起こしそうなユーザを推定する
広告
提案手法
実験
- 10個のキャンペーンを利用
- global-modelのお陰でcold-start問題が防げそう
- Q: 大企業じゃなきゃできないか
- Q: 広告のコンテンツとかどれぐらい使っているのか
@smly: When will it happen?: relationship prediction in heterogeneous information networks
http://speakerdeck.com/u/smly/p/wsdm2012-reading
概要
- 異種のノード/リンクで作られるリンク予測
- 例: いつ@y_benjoがある論文を引用するか?
- 「いつ?」という情報が入るのでtopological featureとしてmeta pathを導入
- GLMによるイベント発生時間のモデル化
手法
- mapping functionを用意してnode/edgeに情報を割り振る
- 特定のオブジェクト間にリンクが貼られる相対時間を求める
- homegeneous networkではlink predictionはよくやられる
- 色々特徴量は提案されている
- heterogeneous nerworkにおける特徴量を考える必要がある
- meta-pathを使う
- ノード間の関係性を定義する関数
- Author -> write -> Paper
- ノード間の関係性を定義する関数
- まず「似た著者」の関係をmeta-pathで定義して特徴量を作る
- type a: 似た著者はtarget relationを持っている
- type b: target relationを持っている似た著者
- type c: Cを仲介して関係を持つもの
- 合計19個の特徴量
モデル化
結果
- インターバルを変えて実験
- 時間予測は指数分布が適していた
- 引用すべきなのに引用していない関係などが抽出できたのでそういう用途にも使用可能では
その他論文紹介
@john_a_dreams: Correlating financial time series with micro-blogging activity
WSDM2012勉強会 - Correlating Financial Time Series with Micro-Blogging A…
データ収集と前処理
特徴量
- activity based
- graph based
- 相関のある特徴量の特定
- 相互相関係数
- 企業によって相関の様子は異なる
- どの企業なら相関が強いかの分析も行う
- 負債額が少ないと相関が強い???
- 上位20銘柄ぐらいでまとめると分散が小さくなるので良いとか
- データ量を増やしたらどうなるか?
- 相関が落ちた…→量より質
シミュレーション
- 独特
- 全部買って全部売るの繰り返し
- 結局ほぼ増えてない…
- シミュレーションがアレだから
- K銘柄決め打ち
@sleepy_yoshi: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertica…
概要
- ランキング学習の話
- 論文の話
ランキング学習
- スコアリング→ソート
- ランキング関数を学習するのが目的
- 目的関数の設定にも色々アプローチあり
- pointwise
- 結果ごとに
- pairwise
- 2つの組を考えて
- listwise
- クエリのリストに対して
- pointwise
論文紹介
アプローチ
- label aggregation
- 1ラベルのランキング学習に落としこむ
- model aggregation
- 複数ラベルのランキングを線形和
- featureについては言及なし!!!察しろ!!!!!!!!!!!!!!!!!
label aggregation
- linear aggregation
- ヒンジロスを二乗?
- 微分できるようにしたい?
- ヒンジロスを二乗?
- joint learning method
- gradient-and-projection?
model aggregation
- aggregation functionのhを学習
実験
- 普通の実験
- A/Bテスト