Mining Contrastive Opinions on Political Texts using Cross-Perspective Topic Model(WSDM 2012) 読んだ & 実装して試した

Mining contrastive opinions on political texts using cross-perspective topic model

概要

複数の立場(perspective)から書かれた文章があった時，論点(topic)ごとに立場の主張をまとめ，それらの主張の違いを定量的に出力する．
例えば，自民党と民主党のマニフェストが与えられた時，「年金に対する自民/民主の主張」「安全保障に関する自民/民主の主張」をそれぞれまとめ，かつ，あるクエリに対する意見の違いを数値で出力する．

モデル

documentが名詞などのtopic word(LDAなどのword)と形容詞や動詞，副詞などのopinion wordで構成されるとする．生成モデルは次のような過程を辿るとする．

まずトピックを選ぶ
トピックに従って単語(topic word)を選ぶ
次に，意見(opinion)を表明するトピックを選ぶ => 意見を表明する単語のトピックを選ぶ
- この時はdocument中のtopicの頻度に従う

結果としてはまず，perspective共通であるdocumentにおけるtopicの分布 $\theta_{kd}$ ，topicにおけるtopic wordの分布 $\phi_{vk}$ が得られる．これは通常のLDAと同様．次にperspective固有のtopicにおけるopinion wordの分布 $\phi_{o, rs}^i$ が得られる．論文中では $\n_{o, rs}$ の説明が全く無かったが恐らく $\n{rs}\ \in C^i$ ．

定量的な差分

perspectiveごとにあるクエリにおける意見の違いの度合いは，Jensen-Shannon divergenceを使う．

実験結果

次の二設定で実験

共和党と民主党
ニューヨーク・タイムズ(アメリカ)，新華社(中国)，The Hindu(インド)

トピックごとの単語の違い

例えばトピック9，移民問題においては，民主党が「undocument」という言葉を使っているのに対し，共和党は「illegal alien」という差別的な用語を使っている事がわかる．民主党がlegalやfairといった人道的な立場に立っているのに対し，共和党はsecureといった安全保障の立場に立っている事がわかる．トピック39，中国との貿易問題において，上位に来る語は共和党はglobal，民主党はdomesticとなっており，立場が明確に異なっているのがわかる．トピック75，イラク戦争においても，上位に来る語は共和党がwin，民主党はfailed/endとなっており正反対．ここらへんの知識無かったのでかなりわかりやすい．

違いの定量化の話

共和党/民主党では，農業や検閲については違いは少ないが，イラク戦争や移民問題について大きく意見が異なっていることがわかる．
新聞社による意見の違いは，例えばiphoneやterrorismといった単語については違いは小さいが，核やカシミールといった単語において違いが大きくなっている．最も顕著なのはダライ・ラマをクエリとした場合である．ニューヨーク・タイムズと新華社は大きく異なっているのに対し，The Hinduとニューヨーク・タイムズはまだ異なりが小さい．

実装

GitHub - ybenjo/LDA: Practice of LDA

試した結果

手元のデータセットでいくつか試した．それっぽい結果は出ているが，実際試すにはopinion wordを適切に選ぶ必要があると考えられる．手元のデータセットについて何も考えずに動詞/形容詞/副詞をopinion word突っ込んだら上位がstop wordだらけになった．また，文書にバリエーションが無いと似た動詞が大量に出てきてつらい．よって，適切にstop wordを除去するかもしくは別の観点からopinion wordを選ぶ必要がある(論文ではもっとまともに抽出してる)．

糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com