糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

From Online Behaviors to Offline Retailing (KDD 2016) 読んだ

From Online Behaviors to Offline Retailing
オンラインの行動とオフラインの購買を同時に分析する.すなわち,「オフラインの行動とオンラインの行動にはどういう関係があるか」がわかる.
また,実験では「直近での検索行動を用いることによりその後の購買で何を買うか」を予測している.

提案手法 : Online to Offline Topic Model (OTOTM)

入力として用いるのは次の二つ.

  • オンラインにおける各ユーザの検索履歴 (単語集号)
  • オフラインにおける各ユーザの購買履歴 (ブランド集合)
    • 今回はショッピングモールにおける購買したブランドを用いている

またこれ以降,各ユーザの検索履歴および購買履歴は bag-of-words / bag-of-brands として取り扱う.
すなわち,系列性や順序関係は考慮しない.

まずこれを LDA でモデリングすることを考えてみると,

  • online topic が生成されて
    • 単語 で生成される
  • offline topic が生成されて
    • ブランド で生成される

という過程が思いつくわけだが,これでは online と offline の関係がわからない.

そこで提案手法である OTOTM では

  • にもとづき online topic が生成される
    • online topic にもとづき単語 から生成される
  • にもとづき online topic が生成される
    • online topic にもとづき offline topic から生成される
      • offline tpic にもとづき,ブランド から生成される

となる.これにより, online と offline の関係が明らかになる.推定は Gibbs sampling.

しかし,これだけでは

  • offline での購買予測に online での topic を全て使っている
    • 周辺化する時に全 topic を使うことを指している
  • online での行動のほとんどは offline での購買に関係していない

という問題が生じる.
そこで, lift と名付けた指標を導入する.これは とする.
この値が大きいほど online topic t は offline topic l と関係が強い.
あとは予測時に lift がある程度以上の topic のみを考慮する.