糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Modeling Consumer Preferences and Price Sensitivities from Large-Scale Grocery Shopping Transaction Logs (WWW 2017) 読んだ

Modeling Consumer Preferences and Price Sensitivities from Large-Scale Grocery Shopping Transaction Logs (WWW 2017)

概要

ある商品の購入数を予測する上で階層構造を導入する.更に値段も重要だからモデルに組み込む.
具体的には 個購入する時,
にてカテゴリ を選ぶという行動
にて を購入するという行動として,
とする.
なので,あるカテゴリを購入するかどうか,するのなら何を選ぶか,その上でいくつ買うか,という過程をモデル化する.

モデル化は基本的には行列分解に基づく特徴量だのの線形和をリンク関数に通す方法.GLMix: Generalized Linear Mixed Models For Large-Scale Response Predictionを引用しているけどその前に気持ちとしてはFactorization meets the neighborhood.時間要素を無視すれば Koren のそれと同じモデルになると式 (3) でも指摘されている.
その上でカテゴリの選択にはシグモイドを,商品選択には softmax を,個数にはポアソン分布を通す.ここまではいい.
どうやって価格を入れるかというと,商品 の価格 を log に通して重み をかける.

推定そのものは MLE (maximum likelihood estimation) と BPR (Bayesian Personalized Ranking) について触れられている.
パラメータの数が非常に多いのでかなり頑張ってデータを確保して推定しないとうまく働かなさそうという感想.

疑問

モデル化に際し,重みを商品とユーザごとに求める理由が不明.価格弾力性を導入するという気持ちはわかるけど,商品の価格が時間ごとにどの程度変化するのかについてここまで細かく対応する必要があるのか,という点がわからない.著者 Julian McAuley は accept された論文の review comment を公開しており,それを見ると overall で -2 をつけたレビュアーも

More details on the price variability of the datasets is required to understand the datasets. What types of discounts/specials were observed, what relative decreases in price were achieved.

https://cseweb.ucsd.edu/~jmcauley/reviews/www17.txt

と指摘している.
また,「精度が上がったから導入した意味はあった」というのは論文で用いられる論法であるけど,そこまで劇的に改善しているわけではないとレビュアーも指摘している.