Product selection problem: improve market share by learning consumer behavior (KDD 2014) 読んだ

Product selection problem
KDD2014も終わったので興味がある論文を少しずつ読んでいく．

概要

属性付の商品データ，自社製品，他社製品が市場に存在するとする．自社の新商品集合について，どれを出すのがもっともシェアを奪えるかを推定する．

手法

理解があやふやなため，途中から未知の記号が出てくることや，そもそも(実データを使っているが)推定と呼べるのかどうか，が分かっていない．
間違った理解をしているとしか思えないが，とりあえず書いていく．

記号・前提

消費者集合 $C$ ，商品集合 $P_E$ が存在する．商品集合は自社商品集合 $P_M$ と他社商品集合 $P_C$ で構成されている．
各商品 $p_j$ には，d次元の属性ベクトル $\mathbf{q_j}=\{q_{j1}, \cdots, q_{jd}\}$ が紐付いている．同時に，各消費者 $c_i$ も要件ベクトル $\mathbf{r}_i = \{r_{1d},\cdots,r_{id}\}$ を持っている．

商品選択モデル

消費者の商品選択モデル (consumer adoptation model) は次の三段階(論文では二段階で書かれているがわかりにくい)で行われる．

まず，消費者 $c_i$ は属性の値全てが要件ベクトルの値を上回る商品集合 $FP'(c_i|P)$ を全商品の中から取得する
次に，の中からある距離尺度が最大になる商品集合を抽出する．
1. そもそもこの時点で商品が一意に決まるのではないか
その後， $c_i$ が商品 $p_j$ を選ぶ確率 $Pr(i, j|P)=1/|FP(c_i|P)|$ とする，つまりは $FP(c_i|P)$ からランダムに一つ選ぶ

距離尺度dは
$d_{i,j} = w\sum_{t=1}^d w_t(q_{jt} - r_{it})$
すなわち，上回っている要素がスコアになる．
$w_t$ は次の4つを考える．

DM: 要件が全て満たされていたら1を返す
NM: 全ての w = 1.0
PM: 価格に関する次元だけw=1にし，他は0にする
RM: 価格以外を1にし，価格を0にする

マーケットシェアの定義

全ユーザ，全商品に対して計算した商品選択確率の総和

distance metric learning

実シェアがわかっている時には，それぞれの距離尺度によるシェアの重み $\theta$ 付総和が実シェアとなるので，そのように $theta$ ，すなわち距離尺度の選択確率を求めることができる．

top-1 algorithm

ここで，k-MMPというのを考える．これは新商品候補からk個の商品を市場に投入した時，自社のシェアが最大にあるような商品集合を指す．
まずはこれの k = 1 を考える．
擬似コードでアルゴリズムが示されているが，話は非常にシンプルで距離尺度，ユーザ，新商品候補ごとにマーケットシェアの増加分を計算して最大になるものを選ぶというもの．
わからないを列挙しておく．

全体の for 文はユーザごとの i で囲まれているはずでは
salesというのは何かと思ったら関数ではなくて hashmap か

あとはこれの top-k を求めるのがNP-Hardだという主張につながる．なんでNP-Hardか理解していなかったけどこれある商品を投入すると他の商品で奪うことができるシェアが変化するから，という理屈だと思う．

実験

人口データと実データで実験．
実データの実験がかなり理解できない．

we do not have the information about products' real-world market share and consumers' adoption models

という話からはじまっていて，適当に決めた $\bar{theta}$ からデータを作ってそれを推定するとうまくいく，という話になっていくけど，ここで説かれている問題は制約付きの線形回帰なんだし，そもそも問題としての難易度が高いとは思えない．その上，適当に決めたデータから作ったデータを推定しているというのは前節で行っていた人工データによる実験とどう違うのかが分からない．
6.2 の impact of distance metrics においても，距離尺度が違えば追加される新商品も変わってくる，と著者らは主張しているが，そもそも距離尺度が変われば出てくる結果は当然変わるだろうし(例えば価格だけを見る指標なら安い商品しか出てこない)，精度評価などを度外視した話なのでその結果に対して良し悪しを言うことができないと思う．この実験結果がどういう意味を持っているのかよくわからない．

タイトルに Learning Consumer Behavior と入っているので推定を行っているのかと思ったら，そもそも推定を行っておらず(実データでの実験において消費者の属性に対する選好はデータ中に存在するレビューの評点を用いている)，論文の主となっているk-MMPの探索も効率的に発見するという話で(良い悪いの話ではなく)パラメータ推定を行っている論文では無いように思える．そもそも，実データを用いたとしても新商品でシェアがどの程度変化するかという話は実験上確かめられないと思う．例えば，購買履歴をある時間で区切って，それ以降に登場した新商品を使ってそれがどの程度のシェアを得るか，というのを推定するなら話はわかるけれど，本論でそのような設定の実験は行われていない．
モデルもかなりナイーブに作られているので(消費者の選好に対する重み付けが共通なことや，そもそもの重みの付け方がその4つしか存在しないのかということ)，きっと論文の主眼はNP-Hardな探索が効率的にできるという話なのだろう．

最後まですっきりしなかったので，何か根本的に理解がおかしい．

糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com