A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys 2020) 読んだ

論文

Gunosy と理研AIPの論文．

企業が持つ implicit feedback のデータを公開するためには

アクティブユーザ数や収益や平均クリック数といった business metric を隠したい
公平性を担保したい
Population Bias を減らしたい

という三つの気持ちがある．

今回はログ中のユーザをサンプリングして公開用データを構築するわけですが，ユーザごとにサンプリング時の重み w を推定する問題として定式化する．

この時

business metric を隠すために，サンプリング後のクリック数の分布と特定の分布 (zipf など) との Wasserstein distance を取る $L_{\mathrm{click}}(w)$
公平性のためにサンプリング後のユーザの属性の分布と uniform distribution との KL divergence $L_{\mathrm{attribute}}(w)$
Population Bias 対策でサンプリング後の記事のカテゴリ分布と uniform distribution との KL divergence
- ここで uniform するのが fairness っぽい研究の匂いがする

の3つを重みのハイパーパラメタをかけた線形和を最小にするように $w$ を推定する．以上．

よくわからなかったところ

数学力が低すぎて 3.4 を読んだだけではどうやって w を推定していいか全く分からなかった．一番ナイーブな方法は w をただの user の重みとみなして適当にやることですがきっとそういうわけではないだろう．5.4 で Faking Fairness via Stealthily Biased Sampling (AAAI 2020)が言及されていますが査読で何か言われなかったのだろうか
サンプリングの方針としてユーザを選ぶ sampling user とユーザの行動ログをサンプリングする sampling behavior log の二つがあって本論文では前者が採用されている．後者を採用しない理由は時系列つきのログでよくやる「次に登場するアイテムは何か?」というタスクに対応できないからだと言われているが一部が欠けていても (よほど強烈なマルコフ性などが存在しない限り) できなくはないのではないかと思った
Table 1 の最下段は 2CC の typo だと思う
4.2.4 にて Zipf(1) における Population Bias を考慮した結果が考慮していない結果とあまり差がない (これは本当に悲しい) 理由がよくわからなかった
4.3 で述べられている timestamp の分布が近いみたいな話，いい話ではあるのだけど狙っていないのにどうしてこうなったのかがよくわかっていない
そもそも「企業が持つデータセットが有用である」とは一体どういう事なのかを考え始めるとよくわからなくなってきた
- 思いついたひとつに「公開データセットで得られた知見は未公開のデータセットにおいても有用である (だからこそ公開データセットでの精度改善には意味がある)」というのがありそうだけど，これは一体どうやって検証したものだろうか
- 十分に検討された疑似データと実データセットの差とは何か，実データセットだとどのような価値があるのだろうか．「実データセットを用いた検証の結果〜」とは論文の abstract に死ぬほど登場する言葉ではあるが，それは一体どういう価値があるのか考え直したい気持ちがある (Iris や Mushroom だって実データセットだ)

糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com

A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys 2020) 読んだ

よくわからなかったところ