糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com

The Dynamics of Repeat Consumption(WWW 2014) 読んだ

論文

The Dynamics of Repeat Consumption(pdf)

概要

同じ商品を繰り返し買う行動はいかにして起こるのか? の論文
結論としては「繰り返し買われるものは，最近買われた商品」の一言．

データセット

youtubeの再生履歴，google+のチェックイン履歴，Brightkiteのチェックイン履歴，wikipediaの閲覧履歴，YES.comの再生履歴，シェークスピア(?)など．

基礎分析

データに関する統計．重要なのは

ユーザは人気のアイテムを消費している
Satiation(ユーザがあるアイテムを飽きること)は今回は観測されていない
repeat consumingの割合を見ると程度の差こそあれ，全てのデータセットで現れている事がわかる
- 「分布を見るとパラメータの異なるポアソン分布に似ている」とあるが後半での利用無し
- よくよく考えてみると，リピートの傾向が2つの峰を持つという事がそもそも考えにくいのでこのような形になるのは当然と言えば当然
recensyに関する話，直近のK回の商品がK+1回目に含まれている率をhit ratioとしてplot
- この hit ratio に色々と補正をしていくけれども，hit ratioのupper boundが1 - ユニークな商品数/総履歴数というのがわからない．両方1だと0になる．

モデル

Quality model
- 商品そのものだけでリピートするかしないかを決めるモデル．商品eを選択する確率は $S(e)$ に比例する．確率値にするにはsoftmaxを取る．
Recency model
- 重み $w(t)$ に従い，t回前にその商品を買っていたら重みを足す．例えば，ある商品を3回前，4回前，11回前に買っていたら値は $w(3) + w(4) + w(11)$ となる．極めてシンプルなモデル．確率値にするにはsoftmaxを取る．
Hybrid model
- Quality と Recency の積
Tipping behavior
- recency model の $w(t)$ について， $w(t) \geq w(t+1)$ が全てについて成立するとき，ある段階からユーザは同じ商品しか買わなくなる．その証明

実験

上述したデータセットを使った実験．

sとwの推定方法を変え複数パターンで実験している．
- もっとも対数尤度が良かったものを1とし，それからどれぐらい変化したかでしか記述されていない．何故オリジナルの値が無いのか．
s/wともにlearnedが1.0/1.0として，sがuniform/wがlearnedで0.9ぐらいの精度が出ている．recencyだけが重要で，Qualityはほとんど寄与していないと見るのが妥当と思われる．
YES.com による実験結果が記述されていない．何故載せられていないのかが理解できない
- 恐らく， s と w の学習結果が彼らの論文にそぐわない形であったため省かれている
- 「多くのデータセットで普遍的に発生する現象だ」という主張が根底にあったはずなので，ちょっと納得がいかない
- 後段では「PLECOというモデルではうまくいかなかった」とか触れていてここもアンバランス

ADDITIVITY

ちょっと何を言っているか理解できなかった．