糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

WSDM2013 論文斜め読み

とりあえずタイトルだけ見て興味を持ったものを概要だけメモして後で二度読みしないで済むようにする.
Mining the Web to Predict Future Eventsはあとでちゃんと読む.

Characterizing and Curating Conversation Threads: Expansion, Focus, Volume, Re-entry

Characterizing and curating conversation threads
スレッドにアノテーションする.その際

  • length prediction: スレッドがどれぐらい伸びるかの予測
    • これはスレッドがどれぐらい面白いかの指標になる
  • reentry prediction: 一度投稿したユーザが後で再度投稿するか否かの予測
    • これは,一度あるスレッドに投稿したユーザに対してスレッドの伸びなどを通知する必要があるか,という話に繋がる.
    • 議論系だったら通知する必要があるし,書き捨てるタイプだったらその必要はない

を解く.
データはfacebookwikipedia

Exploiting Homophily Effect for Trust Prediction

Exploiting homophily effect for trust prediction
trust predictionを通常のlink predictionのようにsupervisedにやったりPropagationさせるのではなく,unsupervisedにやる.
やり方はユーザの類似性を使ってユーザ間の関係を低次元表現する.

Sharding Social Networks

Sharding social networks
ソーシャルネットワークのデータベースをいかに効率的にシャーディングするかという話.著者が全員元Y!.

What’s in a Name? An Unsupervised Approach to Link Users across Communities

What's in a name?
複数のコミュニティにおいて,ユーザ(user)を一人の人間(natural person)を結びつけるタスクを考える.
このタスクは通常

  • alias-disambiguation: 同じユーザ名でも中の人が異なるものを区別するタスク
  • alias-conation: 一人の人間が異なるユーザ名を使っているのを特定するタスク

に別れるが,今回は前者,すなわち同名ユーザの区別に取り組む.これが解ければかなり良い感じになるんだけど,122人のユーザ名に対してのベースライン(同じユーザ名は全部同じ人とした場合)の精度が56.44%ぐらいなので簡単な問題じゃない.
今回はこれを「異なる2つのコミュニティにいる同じユーザ名が同一人物かどうか」を解くpairwiseな分類をやる.でも人手でのタグ付けがだるいのでunsupervisedに学習データを作る.この時,

  • レアなユーザ名は中の人が一人である可能性が高い
  • ありがちなユーザ名は中の人が複数いる可能性が高い

という考えにもとづき,ユーザ名をword segmentationしてn-gram probabilityを求め,昇順にソートした上位10%をpositive,下位10%をnegativeとする.その後は普通に機械学習

Latent Factor Models with Additive and Hierarchically-smoothed User Preferences

Latent factor models with additive and hierarchically-smoothed user preferences
アイテムにメタデータがついてる時,それを使えば推薦が楽だけど

という問題がある.また,潜在変数を考慮した推薦は良い感じだけどレアなアイテムにおけるパフォーマンスが酷い.
なのでLFUMを提案する.大雑把に言えばカテゴリの階層構造を使って全体の好みとユーザ固有の好みを組み合わせてモデリングする.メタデータは連続値(例: 価格)や離散値(例: ブランド)どっちでも対応できる.

App Recommendation: A Contest between Satisfaction and Temptation

App recommendation
アプリの推薦は,古いアプリを新しいそれに置き換えさせるような要素を考慮しなきゃならないという点で普通のアイテム推薦と違う.
提案法では,ユーザが既に持っているアプリにおける「実際の満足度」と,まだ持っていないアプリに対する「推定した満足度」を仮定し,新しいアプリをインストールするかしないかは,この二つの値の比較によって行われているとする.

Bursty Subgraphs in Social Networks

Bursty subgraphs in social networks
ソーシャルネットワーク上でのバーストを検出する.その際,

  • action graph
    • あるトピックにおいてい,あるアクションとそれが起こった時間をノード,そのアクションによって引き起こされた他のアクションとの間にエッジを張ったグラフ
  • holistic graph
    • ユーザをノード,エッジをトピック特有のアクションの比率などを重みにしたグラフ

という二つのグラフを考える.その後

  • intrinsic burst model
    • ユーザの相互作用を考えないモデル.例えばスポーツの実況などのように独立して起こるバースト.
  • social burst model
    • 相互作用を考えるモデル

バースト検出.「バーストしてるかしてないかがオートマトンで切り替わる〜」みたいなのが書いてあるっぽいしkleinbergの方法みたいなノリっぽい.

Arrival and Departure Dynamics in Social Networks

Arrival and departure dynamics in social networks
ユーザがグラフに参加したり離れたりの動きをモデリング.データはDBLP.

Mining the Web to Predict Future Events

Mining the web to predict future events
abstが短すぎる.本文がマーク・トゥエインの言葉"The past does not repeat itself, but it rhymes(歴史は繰り返さないが,韻を踏む)"の引用から入っててハードSFっぽい.あとで真面目に読む.
ニューヨーク・タイムズ22年分のデータから未来予測を行う.
疫病のアウトブレイク,死,暴動の予測において30-60%の再現率で70-90%の精度を実現した.