Rated aspect summarization of short comments
記法
まず,ある商品についたコメントをとし,をコメント集合とする.これには特定のrate(評価値)が付与されている.
コメントはphrase(語句)の集合で表現されるものとする.phrase はhead termとmodifier(修飾語句)のペアで構成されているものとする.例えばならば,となる.
また,Aspect Clusterとしてを考える.つまりはhead termをクラスタリングする.ついでにAspectに対するRatingとしてを考えておく.
Aspect Discovery and Clustering
まずはをクラスタリングしたい.色々提案している.
K-means
とが共起した回数をとして,と特徴ベクトルを作ってからK-means.
Unstructured pLSA
k個のunigramの言語モデルを作ってから
とかする.これの対数尤度が
とかなるらしいのでこれをEMで更新していくと次の式になるらしい.
(うつすのだるくなった)
で,あとはでクラスタリング.
Structured pLSA
Unstructured pLSAと似た感じだけど,今度はhead termとmodifierのセットで考える.
としてとすると対数尤度が
とかなるのでこれもEMで推定.
Incorporating Aspect Priors
これもトピックモデル.
とかやって色々やるけど謎.
Aspect Rating Problem
で,クラスタリング結果からaspectにratingする.
まずはphrase について,2つの方法でrating を予測する.その後,aspect clusterごとに平均をとる.
Local Prediction
つまりはコメントにつけられたrateをtにおける全てのphraseにつける.
Glocab Prediction
もっとちゃんとやる.Aspectごとにrateの出やすさを見て
とする(これもunigramの言語モデルであると言っている).つまりは一番でやすいrを推定してる.
その後,
とする.
Rating Aggregation
これでphrase fごとのratingができた.あとはAspect ratingを
とやる.つまりはにあるfごとに平均取る.
Representative Phrases Extraction
最後に,Aspectを代表するようなphraseを抽出する.
つまりはrが最も大きいphraseを出す.
感想
トピックモデル全然読めないので半分程度しか理解してない.で表現できればいいのだからlivedoorグルメのデータ(livedoor Techブログ : livedoor グルメの DataSet を公開)を使って試したい.