糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Life-stage Prediction for Product Recommendation in E-commerce (KDD 2015) 読んだ

Life-stage Prediction for Product Recommendation in E-commerce
母親-赤ん坊(mum-baby)を対象に,赤ん坊の年齢(というより,胎児/新生児-六ヶ月/1歳/1-3歳/といったような状態)を推定してレコメンデーションの精度を上げる.
著者4人のうち3人がアリババ.

モチベーション

ライフステージと購買には強い関係がある.例は適当に考えてほしい.
しかし既存研究では全く考えられていない(Unfortunately, most of the existing methods do not consider the concept of life-stages, which exists in many verticals in E-commerce),だから取り組むとのこと.そんなことは無いだろうと思うのだけど.

手法

まず Maximum Entropy Semi Markov Model を使う.Semi Markov Model は潜在変数が続く時間が確率分布に従うモデル.なので,潜在変数 (life-stage) がある程度の時間分布に従う.ここは大体納得できるはず.
その上で,「ユーザの行動に従って life-stage が決定される」.これは普通の Hidden Markov Model と逆の発想.ここでよくわからなくなる.行動に従って life-stage が決まるというのは,因果関係が逆のように思える.

しかしこれはスケーラブルではない.よって,ロジスティック回帰で現在の行動(とそれにもとづく特徴量),時間経過,前回の life-stage を入力として現在の life-stage をロジスティック回帰で推定する.これを Semi Markov Model と呼んでいいのか.

感想というか疑問

論文がacceptされない人間が何を言っても負け犬の遠吠えだけど,正直に言って,ここの記述はどうかと思う.
そもそも,イントロのコントリビューションでは「Maximum Entropy Semi Markov Model にもとづく life-stage の推定を提案した」と言っているが,確かに,MESMM の説明に1/2ページを費やしてはいるが,実際には行われていない.
アブストラクトでも「ビタビのような効率的な手法を提案する (We develop an efficient approximate solution using large scale logistic regression and a Viterbi-like algorithm.)」と述べているのに,出てくるのはロジスティック回帰のみである.どこに Viterbi-like な手法があるのか,全く読み取れなかった.時間tにおける状態の推定を逐次的に推定することをそう呼んでいるのかもしれない(そもそも Viterbi という単語が論文中2回しか登場していない).

また,一部のユーザは子供の誕生日を入力しているのでこれを使って学習用データを作っている.読み始めた時はこの情報が無いものだと思っていた.そりゃあれば推定できる.
無い状態ならば left-to-right な Semi Markov Model で同様の推定ができそう.そっちの結果こそ読んでみたい.