糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Keyword Extraction for Contextual Advertisement(WWW 2008) 読んだ

Keyword extraction for contextual advertisement
ポスター原稿.eBay Research Labs.

概要

あるWebページのジャンルを推定し,それに見合った広告を提示したい.
コンテンツマッチな広告のためにキーワード抽出と,(タイトルには入ってないが)ページのカテゴリ推定の手法を提案.

キーワード抽出

まずは,Webページに含まれるキーワード候補となるtermに特徴量を付与し,人手によるラベルデータを教師データとして使った線形回帰/ロジスティック回帰でキーワードを抽出.
特徴量はWebページから得られるものとeBay側で得られるものの二種類.

Webページから得られる特徴
  • Tern frequency
  • Phrase length
  • title
  • Meta keywords/Meta description
  • Capitalization
  • Term's Position
  • H1/H2
  • Positive/Negative font attributes
  • Internal/External anchor text
eBay側で得られる特徴
  • Tern frequency in Query log
  • Entropy(Leaf category), Entropy(Root category) : eBayにはカテゴリの木構造があるのでそれを使う
  • Number of Categories : entropyと似てるよねとか言われてる
  • Number of Items

カテゴリ推定

前段の手法でキーワード群とそのスコアが抽出できた.しかしキーワード単体だけでは曖昧である.例えば,"css"というキーワードが抽出されたとしても,それがCascading Style Sheetsを意味し,WebページがWebデザインについて言及しているのか,Sony CSS-PHA Cybershot Stationを意味し,デジカメについて言及しているのかは,キーワード単体それだけでは判別できない.よって,次にWebページのカテゴリ推定を考える.
まずはキーワードごとに2つのベクトルを作る.一つは,が各カテゴリに登場した回数を格納したベクトル(supply data).もう一つはクエリとしてを入力し,その上で閲覧/購入/入札されたカテゴリの回数のベクトル(deman data).あとはこの二つのベクトルの類似度が一番高いカテゴリを記憶していく(?).
キーワード群の上位件について近いカテゴリを計算し,それをカテゴリ構造の木のrootまで遡り,もっとも多く現れたrootをそのWebページのカテゴリとする.

感想

特徴量のあたりやカテゴリ推定のベクトルうんちゃらのあたりから適当.