Keyword Extraction for Contextual Advertisement(WWW 2008) 読んだ

Keyword extraction for contextual advertisement
ポスター原稿．eBay Research Labs．

概要

あるWebページのジャンルを推定し，それに見合った広告を提示したい．
コンテンツマッチな広告のためにキーワード抽出と，（タイトルには入ってないが）ページのカテゴリ推定の手法を提案．

キーワード抽出

まずは，Webページに含まれるキーワード候補となるtermに特徴量を付与し，人手によるラベルデータを教師データとして使った線形回帰/ロジスティック回帰でキーワードを抽出．
特徴量はWebページから得られるものとeBay側で得られるものの二種類．

Webページから得られる特徴

Tern frequency
Phrase length
title
Meta keywords/Meta description
Capitalization
Term's Position
H1/H2
Positive/Negative font attributes
Internal/External anchor text

eBay側で得られる特徴

Tern frequency in Query log
Entropy(Leaf category), Entropy(Root category) : eBayにはカテゴリの木構造があるのでそれを使う
Number of Categories : entropyと似てるよねとか言われてる
Number of Items

カテゴリ推定

前段の手法でキーワード群とそのスコアが抽出できた．しかしキーワード単体だけでは曖昧である．例えば，"css"というキーワードが抽出されたとしても，それがCascading Style Sheetsを意味し，WebページがWebデザインについて言及しているのか，Sony CSS-PHA Cybershot Stationを意味し，デジカメについて言及しているのかは，キーワード単体それだけでは判別できない．よって，次にWebページのカテゴリ推定を考える．
まずはキーワード $i$ ごとに2つのベクトルを作る．一つは， $i$ が各カテゴリに登場した回数を格納したベクトル(supply data)．もう一つはクエリとして $i$ を入力し，その上で閲覧/購入/入札されたカテゴリの回数のベクトル(deman data)．あとはこの二つのベクトルの類似度が一番高いカテゴリを記憶していく（？）．
キーワード群の上位 $N$ 件について近いカテゴリを計算し，それをカテゴリ構造の木のrootまで遡り，もっとも多く現れたrootをそのWebページのカテゴリとする．

感想

特徴量のあたりやカテゴリ推定のベクトルうんちゃらのあたりから適当．

糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com

Keyword Extraction for Contextual Advertisement(WWW 2008) 読んだ

概要

キーワード抽出

Webページから得られる特徴

eBay側で得られる特徴

カテゴリ推定

感想