Comprehensive Audience Expansion based on End-to-End Neural Prediction (pdf)
もうひとつオーディエンス拡張の論文.特にモデルが目新しいわけでもなく,実験もよくわからない (Table 3 は何を行っているのか意味不明) だけど気になったところを書く.
オーディエンス拡張は広告を配信したい人から「この人たちに類似したユーザに広告を配信したい」という seed となるユーザ S を受け取り,全ユーザ U の中から S に類似したユーザを探す作業である.Finding Users Who Act Alike (KDD 2019)では教師なしの手法で取り組んだわけですがこの論文では seed を正例,U - S からランダムにサンプリングしたものを負例として教師あり学習で解くアプローチにもとづいている.
- 負例をどの程度サンプリングすべきか
- 詳細が不明な実験の結果 (Table 3 がどのように得られたのかの説明が全く無いのですごい),負例は正例の2倍程度が良い,と述べている
- PU-Learning の枠組みとして捉えられるのではないか
- Positive (seed) と Unlabeled (U - S) として考えることで,ランダムなサンプリングよりもかしこく負例を得る
- 論文中で実験を行っているのは次の 3 手法
- Partially Supervised Classification of Text Documents (ICML 2002) における Spy sampling
- Pre-Train sampling (参考文献不明)
- Bootstrap sampling (subset をサンプリングしながらモデルを学習・予測して負例をサンプリング)
- 実験の結果, Spy sampling が良いと述べているが Table 4 の要素がどういう理由で bold で記載されているのかが全く説明が無いのですごい
- section 4 の実験は特に sampling strategy とは関係がない