糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Predicting the Conversion Probability for Items on C2C Ecommerce Sites(CIKM 2009) 読んだ

Predicting the conversion probability for items on C2C ecommerce sites

概要

著者はeBay research Lab.そもそもeBayにラボがあるのを最近知った.しかしここは公式ページにpublicationsがまとまっていないので非常に探しにくい.
売れる商品/売れない商品を予測する.手法は(古典的な)線形回帰/ロジスティック回帰を用い,評価はprec/recall,P@N.

用いる特徴量

以下列挙.

  • アイテムの特徴量
    • カテゴリの人気度
    • 商品の単語を区切って単語の人気度
    • その商品の競合相手(類似する商品数)
      • そのうち売れた商品の比
    • 商品の価格 - 類似商品の平均価格
    • fix priceかどうか(ヤフオクで言うところの即決ですかね)
    • 商品の量
    • 返品対応
    • Best Offer(eBay独自のシステム,購入後に値段交渉できるかどうか)
    • 在庫かどうか
  • 出品者の特徴量
    • 評価(ポジティブ/ネガティブ)
    • 全評価におけるポジティブ評価の比
    • Seller Level(というのがあるらしい)

評価

  • ロジスティック回帰についてはprec/recall.回帰については,P@N.

P@Nについては,前提として,あるカテゴリをクリックして表示した状態を考える.商品の表示は登録された順なので,全商品が等確率で表示されると考えることが出来る.つまり,ベースラインのP@NはどんなNに対しても売れた商品数 / 売れた商品+売れなかった商品とできる(ここは本当にこれでいいのか怪しい.これではロジスティック回帰のP@1,P@100とこのP@10を比較することになるのではないか?).

考察

  • 効いた特徴,効かなかった特徴の分析
  • 特徴ごとの相関を見たり
  • Revenue Analysis
    • P@Nに商品の価格を付けて総和を取る
    • 意味がわからない

感想

「特徴つけて予測しましたー」という感じ.特徴生成についてもオーソドックスというか,自然に導出できるものが多かったと思う.
正直,こういったネタは既出すぎるのかと思ったがそうでもないのかもしれない.よく考えるとECサイトがこういう論文を書くのは珍しい.というよりも他の企業ではそもそもデータがないので書けない.データの優位性を見せつけられた論文.