糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

WSDM2012読書会を開催しました & Overcoming Browser Cookie Churn with Clustering読んだ

WSDM2012勉強会 : ATND
思ったよりも人が来て驚愕した.お疲れ様でした.
また,発表してくださった皆様,及びUstと会場確保をおこなってくださった皆様,ありがとうございました.
自分の読んだ論文はOvercoming Browser Cookie Churn with Clustering.短期間で消えてしまうクッキーだけを使ってクッキーをクラスタリングし,ロバストにユーザを特定するという話.

@nokuno: Finding Your Friends and Following Them to Where You Are(Best Paper)

http://www.slideshare.net/nokuno/finding-your-friends-and-following-them-to-where-you-are-wsdm2012

概要
  • 地理情報と友達関係のインタラクション
    • 地理情報を使って友達関係の予測,友達関係を使って地理情報の予測
  • twitter, 4sq, fb with Geo-tags
  • デモ
    • geo-tag付きのtweet + geo-tagついてないけど友人関係のtweet
    • 論文のオーサーにメールを送ったら別の研究も
    • 病気の流行などを予測,可視化
タスク
  • 地理情報を使って友達関係の予測
  • 友達関係を使って地理情報の予測
データ
  • search api叩きまくり
    • フィルタリングするとデータが減っている
友人関係の予測
  • 特徴量
    • text: stopword抜きの内積
    • co-location: 同じ場所にいた時間
    • graph: jaccardの分母がminになったもの
      • jaccardなどは使い物にならなかった
  • 学習
    • 決定木
    • LSHを使って類似度を使って高速化(?)
地理情報の予測
  • Dynamic Bayesian Network
    • 諸々の属性を入れる
    • 全ては離散化されている
  • 学習
    • Supervised
      • 最大化
    • Unsupervised
      • geo-tagが無いユーザにも使える
      • EM + forward-backward
評価
  • follow予測
    • いい感じ
      • エッジを使わなくても予測が可能
    • Q: 曲線に段差があるのは特定位置では予測が失敗しやすいとか?
    • Q: baselineは何?
  • 地理情報予測
    • 考慮するfriendの数を変えて予測
    • geo-tag使わずとも57%ぐらいで当てられる
    • Q: 位置情報を当てるとは?
      • A: 場所名レベル
    • Q: そもそもどう当てるんだっけ
      • A: 「飯食ってる」→「うはwwwwww松屋特定したwwwwwwww」レベルの話
    • geo-tagジャンキーのユーザのpostを当てられたからといって,一般ユーザを当てられるか…?

@tsubosaka: Finding the right consumer : Optimizing for conversion in display advertising campaigns

WSDM 2012 勉強会資料

概要

コンバージョンを起こしそうなユーザを推定する

広告
  • 市場規模でかい
  • ユーザの広告への配信
    • 現在行動を起こしているユーザへ配信
      • コンテンツ連動型,検索連動型
    • 過去の行動を基にユーザへ配信
      • ターゲティング広告
      • 既存研究: カテゴリベース,広告ベース
      • 既存研究: クリック最大化,コンバージョン最大化
  • 従来研究の課題
    • カテゴリ,キャンペーンごと
    • コンバージョンする/しないの二値分類
    • 新規の広告キャンペーンに対してモデル作成ができない
提案手法
  • キャンペーンごとのlocal model + 他のキャンペーン情報のglobal modelを使ってコンバージョンの推定精度向上
  • user representation
  • campaign representation
    • 二つの要素から構成されている
    • 広告画像そのものではなく,踏んだ先のページの情報
    • コンバージョンしたユーザの情報
  • model representation
    • f = g + f_c
      • g: キャンペーンのデータのみの関数
      • f_c: キャンペーン固有
  • Q: 大文字のXは?
    • A: 変数選択によるフィルタリング後の変数
実験
  • 10個のキャンペーンを利用
  • global-modelのお陰でcold-start問題が防げそう
  • Q: 大企業じゃなきゃできないか
  • Q: 広告のコンテンツとかどれぐらい使っているのか

@smly: When will it happen?: relationship prediction in heterogeneous information networks

http://speakerdeck.com/u/smly/p/wsdm2012-reading

概要
  • 異種のノード/リンクで作られるリンク予測
    • 例: いつ@y_benjoがある論文を引用するか?
  • 「いつ?」という情報が入るのでtopological featureとしてmeta pathを導入
  • GLMによるイベント発生時間のモデル化
手法
  • mapping functionを用意してnode/edgeに情報を割り振る
  • 特定のオブジェクト間にリンクが貼られる相対時間を求める
  • homegeneous networkではlink predictionはよくやられる
    • 色々特徴量は提案されている
  • heterogeneous nerworkにおける特徴量を考える必要がある
  • meta-pathを使う
    • ノード間の関係性を定義する関数
      • Author -> write -> Paper
  • まず「似た著者」の関係をmeta-pathで定義して特徴量を作る
    • type a: 似た著者はtarget relationを持っている
    • type b: target relationを持っている似た著者
    • type c: Cを仲介して関係を持つもの
    • 合計19個の特徴量
モデル化
  • いつリンクが作られるかというモデル
  • Tの区間内にリンクが貼られるかをまず考える
    • Tの区間後にリンクが貼られるかは別に考える
  • expontial/Weibull/geometric distributionを使う
  • このモデル化で色々答えられる
    • t年以内に関係が作られるか?
    • 関係が作られる平均時間は?
    • 確率\alphaでいつ関係ができるか?
結果
  • インターバルを変えて実験
  • 時間予測は指数分布が適していた
  • 引用すべきなのに引用していない関係などが抽出できたのでそういう用途にも使用可能では
その他論文紹介

@john_a_dreams: Correlating financial time series with micro-blogging activity

WSDM2012勉強会 - Correlating Financial Time Series with Micro-Blogging A…

概要
データ収集と前処理
  • tweet取得対象銘柄
    • S&P 500から150銘柄をランダム
  • 取得データ
  • 株式情報に関連するtweetを集めるには?
    • ticker symbol
    • 正規表現マッチ…
      • ある程度チェックし正規表現を作りなおしたり企業を対象から外したり
  • graph
    • tweetから(tweet, user, url, hashtag)のグラフを作る
    • similarity node(jaccard > 0.8)を作って非公式RTも考える
特徴量
  • activity based
  • graph based
  • 相関のある特徴量の特定
    • 相互相関係数
    • 企業によって相関の様子は異なる
    • どの企業なら相関が強いかの分析も行う
      • 負債額が少ないと相関が強い???
      • 上位20銘柄ぐらいでまとめると分散が小さくなるので良いとか
    • データ量を増やしたらどうなるか?
      • 相関が落ちた…→量より質
シミュレーション
  • 独特
    • 全部買って全部売るの繰り返し
  • 結局ほぼ増えてない…
    • シミュレーションがアレだから
    • K銘柄決め打ち

@sleepy_yoshi: Learning to Rank with Multi-Aspect Relevance for Vertical Search

WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertica…

概要
  • ランキング学習の話
  • 論文の話
ランキング学習
  • スコアリング→ソート
  • ランキング関数を学習するのが目的
  • 目的関数の設定にも色々アプローチあり
    • pointwise
      • 結果ごとに
    • pairwise
      • 2つの組を考えて
    • listwise
      • クエリのリストに対して
論文紹介
  • vertical searchにおけるランキングの最適化
    • 特に位置情報
  • 複数のaspectに対するランキング関数の学習
    • text matching
    • distance
    • reputation
    • 適合度計算がめんどくさい…
  • label aggregation, model aggregation
  • 従来のアプローチ
    • 一つのaspectを最適化
    • 複数には対応していない
アプローチ
  • label aggregation
    • 1ラベルのランキング学習に落としこむ
  • model aggregation
    • 複数ラベルのランキングを線形和
  • featureについては言及なし!!!察しろ!!!!!!!!!!!!!!!!!
label aggregation
  • linear aggregation
    • ヒンジロスを二乗?
      • 微分できるようにしたい?
  • joint learning method
  • gradient-and-projection?
model aggregation
  • aggregation functionのhを学習
実験
  • 普通の実験
  • A/Bテスト