糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Rated aspect summarization of short comments(WWW 2009) 読んだ

Rated aspect summarization of short comments

概要

またもeBay Research Labs.
商品及びそのrate(評価値),コメントからAspect(側面)別にコメントを要約してrateまで出す.具体的に言うとこんな感じ.
https://img.skitch.com/20110605-buysjbwugipg1ybb8t37i2ctpe.jpg

記法

まず,ある商品についたコメントをとし,をコメント集合とする.これには特定のrate(評価値)が付与されている.
コメントはphrase(語句)の集合で表現されるものとする.phrase はhead termとmodifier(修飾語句)のペアで構成されているものとする.例えばならばとなる.
また,Aspect Clusterとしてを考える.つまりはhead termをクラスタリングする.ついでにAspectに対するRatingとしてを考えておく.

アルゴリズム

三段階で構成される.

  1. k個のAspectクラスタリングによって決定
  2. Aspect別のrateを計算
  3. Aspectのrateを説明するようなphraseを抽出

こう書くと意外とナイーブ.以下順を追って説明する.

Aspect Discovery and Clustering

まずはクラスタリングしたい.色々提案している.

K-means

が共起した回数をとして,と特徴ベクトルを作ってからK-means.

Unstructured pLSA

k個のunigramの言語モデルを作ってから
とかする.これの対数尤度が

とかなるらしいのでこれをEMで更新していくと次の式になるらしい.
(うつすのだるくなった)
で,あとはクラスタリング

Structured pLSA

Unstructured pLSAと似た感じだけど,今度はhead termとmodifierのセットで考える.
としてとすると対数尤度が

とかなるのでこれもEMで推定.

Incorporating Aspect Priors

これもトピックモデル.

とかやって色々やるけど謎.

Aspect Rating Problem

で,クラスタリング結果からaspectにratingする.
まずはphrase について,2つの方法でrating を予測する.その後,aspect clusterごとに平均をとる.

Local Prediction


つまりはコメントにつけられたrateをtにおける全てのphraseにつける.

Glocab Prediction

もっとちゃんとやる.Aspectごとにrateの出やすさを見て


とする(これもunigramの言語モデルであると言っている).つまりは一番でやすいrを推定してる.
その後,
とする.

Rating Aggregation

これでphrase fごとのratingができた.あとはAspect ratingを

とやる.つまりはにあるfごとに平均取る.

Representative Phrases Extraction

最後に,Aspectを代表するようなphraseを抽出する.

つまりはrが最も大きいphraseを出す.

感想

トピックモデル全然読めないので半分程度しか理解してない.で表現できればいいのだからlivedoorグルメのデータ(livedoor Techブログ : livedoor グルメの DataSet を公開)を使って試したい.