企業が持つ implicit feedback のデータを公開するためには
- アクティブユーザ数や収益や平均クリック数といった business metric を隠したい
- 公平性を担保したい
- Population Bias を減らしたい
という三つの気持ちがある.
今回はログ中のユーザをサンプリングして公開用データを構築するわけですが,ユーザごとにサンプリング時の重み w
を推定する問題として定式化する.
この時
- business metric を隠すために,サンプリング後のクリック数の分布と特定の分布 (zipf など) との Wasserstein distance を取る
- 公平性のためにサンプリング後のユーザの属性の分布と uniform distribution との KL divergence
- Population Bias 対策でサンプリング後の記事のカテゴリ分布と uniform distribution との KL divergence
- ここで uniform するのが fairness っぽい研究の匂いがする
の3つを重みのハイパーパラメタをかけた線形和を最小にするように を推定する.以上.
よくわからなかったところ
- 数学力が低すぎて 3.4 を読んだだけではどうやって
w
を推定していいか全く分からなかった.一番ナイーブな方法はw
をただの user の重みとみなして適当にやることですがきっとそういうわけではないだろう.5.4 で Faking Fairness via Stealthily Biased Sampling (AAAI 2020)が言及されていますが査読で何か言われなかったのだろうか - サンプリングの方針としてユーザを選ぶ
sampling user
とユーザの行動ログをサンプリングするsampling behavior log
の二つがあって本論文では前者が採用されている.後者を採用しない理由は時系列つきのログでよくやる「次に登場するアイテムは何か?」というタスクに対応できないからだと言われているが一部が欠けていても (よほど強烈なマルコフ性などが存在しない限り) できなくはないのではないかと思った - Table 1 の最下段は
2CC
の typo だと思う - 4.2.4 にて Zipf(1) における Population Bias を考慮した結果が考慮していない結果とあまり差がない (これは本当に悲しい) 理由がよくわからなかった
- 4.3 で述べられている timestamp の分布が近いみたいな話,いい話ではあるのだけど狙っていないのにどうしてこうなったのかがよくわかっていない
- そもそも「企業が持つデータセットが有用である」とは一体どういう事なのかを考え始めるとよくわからなくなってきた