糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

MMRate: Inferring Multi-aspect Diffusion Networks with Multi-pattern Cascades (KDD 2014) 読んだ

MMRate

概要

既存の情報拡散モデルでは情報のトピックに関わらず同じような拡散をするという仮定が置かれている.
しかし,あるトピックでは2ユーザ間で起こる伝搬が,別のトピックでは同ユーザ間では起こらないという現象は存在するだろう.
トピックごとに異なる情報拡散をモデル化する.
contributions は次の二点.

  • 複数の側面にもとづくユーザの相互作用と,カスケードにおける様々な伝搬パターンを利用するために, multi-aspect diffusion network を推定する問題を定式化した.
  • 30万リツイートで構成されるカスケードを分析した結果,(1) 複数の伝搬パターンが存在すること,2) ユーザのretweet行動は著しく異なることを発見した.

問題設定

  • カスケード : .Nはユーザ数で固定.ベクトルの中身はそのユーザが当該情報に接触したtimestamp.∞ の場合は接触していないものとする.
    • この時,(1) 自分より前の時刻に感染したノードからしか感染しない,(2) 感染元となるノードはひとつだけとする(またこの時感染元をparent,被感染側をchildと呼ぶ) という二つの仮定を置く
  • カスケードデータセット : カスケードをM個集めたもの.入力データ.
  • Aspect distribution : まず,カスケードデータセット全体でK次元のベクトルを持つ.これはAspect distribution.その上で,各カスケード i がK次元のベクトルを持つ.これは1-of-K表現のベクトルであり,各カスケードは単一のaspectを持つ.
  • 拡散パターン : カスケードごとの拡散パターンを,感染が起こった2ノード間の時間差を引数とする関数で表現する.は拡散の早さを決めるパラメータ.
  • Aspect-sensitive information diffusion graph : Aspect ごとにユーザ間に異なるエッジがある非対称なサブグラフを考える.この関係はそもそもデータには存在しない.

問題はカスケードデータセットからや,時間に伴うパラメータ,カスケードごとのAspectを推定する事.

推定

まず,カスケードAspect k において,ノード i がノード j に感染させる確率を

とする.は時間差で,は拡散パターンを示すパラメータ.については指数,power-law,レイリー分布の三つを考える.すなわち,時間差とノード間の強さの二つのパラメータで情報拡散をモデル化する.
あとは尤度の式が書ければEMでパラメータ推定が可能.尤度の式にの分布に従って survival function の項が入ってくるあたりに注意が必要.ひとつながりの連続時間を直接扱うモデルはこういう項が入ってくるのが正直めんどくさい.