2011年最後に読んだ論文.
Understanding Click Noise: A Noise-aware Click Model for Web Search(WSDM2012)
概要
クリックスルーログは万能じゃないし実際ノイジーというかクエリと関係ないドキュメントをクリックする行動とかまじでありまくりなのでそれをモデルに組み込む.
提案手法
あるクエリに対し件のドキュメントが返ってた時,上から件目にあるドキュメントをクリックする動作について考える.
ここで,そのクリックがノイズであるかどうかを示す変数を考える.の時,ユーザはクエリと関係ないドキュメントはクリックしない.また,の時,ユーザがドキュメントをクリックするかはどうかは関連度だけに依存しない.
,つまりノイズかどうかはfeatureを作って学習する.
はユーザがそのドキュメントをクリックするかどうか判断する変数.ユーザがクリックしないという判断をした場合にはクリックは起こらない.
は人手によってつけられたドキュメントとクエリが関連あるかどうかの変数.クリックするという判断をしてドキュメントとクエリに関連があり,ノイズで無い場合にクリックされる確率はで与えられる.
クリックするという判断をしてドキュメントとクエリに関連が無い場合,かつノイズで無い場合にはドキュメントはクリックされない.
クリックするという判断をして,かつ,ノイズである場合,クリックされる確率はで与えられる.
これだけだと比較的シンプル.これの何が良いかというとUser Browsing Model(UBM)や Dynamic Bayesian Network Model(DBN)に組み込むのが非常に容易.というか四季の形を崩さずに本当にそのまま導入できる.すごい.
わからなかったところ
のの学習のあたりでグラフィカルモデルとか出てきたのとfeatureというかが何なのかピンと来なかった.
クリックモデルはid:tsubosakaさんにUser Browsing Models: Relevance versus Examination (pdf)を勧められたので来年はまずこれを読む.