Rare item detection in e-commerce site(WWW 2009) 読んだ
Rare item detection in e-commerce site
ポスター原稿.eBay Research Labs.
概要
出品されたアイテムがレアものかどうか判定する.
方法
アルゴリズムは二段階.
まずレアでありそうなアイテムをフィルタリング
フィルタリングに使う特徴は次の4つ.
- Listing quantity : そのアイテムが本当にレアならListing quantityが1らしい(listing quantityって何)
- Feedback Score(FS) : レアアイテムを出品するのはヘビーユーザーでも新参ユーザーでもないカジュアルユーザー.よって出品者のFeedback Scoreはぐらいだろう
- Seller's store : カジュアルユーザーがレアアイテムを出品しやすいのだから企業アカウントからの出品物は弾く
- Positive feedback percent(PFP) : 評判が良いユーザ()からのアイテムを信頼する
判別
フィルタリング後のアイテムに次の特徴量を使って判別(なのか回帰なのかよく分からない).
元論文には"There features are further combined with a linear interpolation function, "とか書いてある.
- タイトルのレア度 : 同じカテゴリにある別アイテムとのタイトルの類似度を見る.タイトルの単語をtf-idfで重み付けしたベクトルでのコサイン類似度をとすると,カテゴリにあるアイテムのタイトルのレア度とする.つまりはタイトルが一番似ているものが小さければ小さいほどレア.
- Listing type : レアアイテムは値段がどうなるか予測がつかないので,"Buy it now"(即買)より"auction"で出品される事が多い
- Description : レアアイテムにはその背景が語られる事が多い.出品者はレアアイテムをただ売るのではなく,それがどういったものなのか記述するのである.なので,descriptionからいくつかの特徴,例えば,「何かテンプレートを使っているか?」(これは使われていないものをはじく為?)や「一人称で書かれているか?」などを抽出する.
- Watch count : まあそりゃね
- Bid count : レアアイテムなら皆そりゃ欲しがるだろうということでbid countがレア度を反映するだろうとのこと
結果
各カテゴリで試してレア度の上位10/20/50件でprecisionを見る(recallはeBayの中にどれだけレアアイテムがあるか把握できてないから無理とか).各カテゴリのエキスパートに結果を見てもらったところ,平均90%のprecを実現.すごい.