Understanding Click Noise: A Noise-aware Click Model for Web Search(WSDM2012) 読んだ

2011年最後に読んだ論文．
Understanding Click Noise: A Noise-aware Click Model for Web Search(WSDM2012)

概要

クリックスルーログは万能じゃないし実際ノイジーというかクエリと関係ないドキュメントをクリックする行動とかまじでありまくりなのでそれをモデルに組み込む．

提案手法

あるクエリに対し $M$ 件のドキュメントが返ってた時，上から $i$ 件目にあるドキュメントをクリックする動作 $C_i$ について考える．
ここで，そのクリックがノイズであるかどうかを示す変数 $N$ を考える． $N=0$ の時，ユーザはクエリと関係ないドキュメントはクリックしない．また， $N=1$ の時，ユーザがドキュメントをクリックするかはどうかは関連度だけに依存しない．
$P(N_i=1) = g(f_1, f_2, \cdots,f_n)$
$P(N_i = 1)$ ，つまりノイズかどうかはfeatureを作って学習する．
$P(C_i = 1 | E_i = 0) = 0$
$E_i$ はユーザがそのドキュメントをクリックするかどうか判断する変数．ユーザがクリックしないという判断をした場合にはクリックは起こらない．
$P(C_i = 1 | E_i = 1, L_i = 1, N_i = 0) = r_{\phi(i)}$
$L_i$ は人手によってつけられたドキュメントとクエリが関連あるかどうかの変数．クリックするという判断をしてドキュメントとクエリに関連があり，ノイズで無い場合にクリックされる確率は $r_{\phi(i)}$ で与えられる．
$P(C_i = 1 | E_i = 1, L_i = 0, N_i = 0) = 0$
クリックするという判断をしてドキュメントとクエリに関連が無い場合，かつノイズで無い場合にはドキュメントはクリックされない．
$P(C_i = 1 | E_i = 1, N_i = 1) = b$
クリックするという判断をして，かつ，ノイズである場合，クリックされる確率は $b$ で与えられる．
これだけだと比較的シンプル．これの何が良いかというとUser Browsing Model(UBM)や Dynamic Bayesian Network Model(DBN)に組み込むのが非常に容易．というか四季の形を崩さずに本当にそのまま導入できる．すごい．

わからなかったところ

$P(N_i=1) = g(f_1, f_2, \cdots,f_n)$ の $g()$ の学習のあたりでグラフィカルモデルとか出てきたのとfeatureというか $\Theta$ が何なのかピンと来なかった．
クリックモデルはid:tsubosakaさんにUser Browsing Models: Relevance versus Examination (pdf)を勧められたので来年はまずこれを読む．

糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com

Understanding Click Noise: A Noise-aware Click Model for Web Search(WSDM2012) 読んだ

概要

提案手法

わからなかったところ