Mining contrastive opinions on political texts using cross-perspective topic model
概要
複数の立場(perspective)から書かれた文章があった時,論点(topic)ごとに立場の主張をまとめ,それらの主張の違いを定量的に出力する.
例えば,自民党と民主党のマニフェストが与えられた時,「年金に対する自民/民主の主張」「安全保障に関する自民/民主の主張」をそれぞれまとめ,かつ,あるクエリに対する意見の違いを数値で出力する.
モデル
documentが名詞などのtopic word(LDAなどのword)と形容詞や動詞,副詞などのopinion wordで構成されるとする.生成モデルは次のような過程を辿るとする.
- まずトピックを選ぶ
- トピックに従って単語(topic word)を選ぶ
- 次に,意見(opinion)を表明するトピックを選ぶ => 意見を表明する単語のトピックを選ぶ
- この時はdocument中のtopicの頻度に従う
結果としてはまず,perspective共通であるdocumentにおけるtopicの分布,topicにおけるtopic wordの分布が得られる.これは通常のLDAと同様.次にperspective固有のtopicにおけるopinion wordの分布が得られる.論文中ではの説明が全く無かったが恐らく.
定量的な差分
perspectiveごとにあるクエリにおける意見の違いの度合いは,Jensen-Shannon divergenceを使う.
実験結果
次の二設定で実験
- 共和党と民主党
- ニューヨーク・タイムズ(アメリカ),新華社(中国),The Hindu(インド)
トピックごとの単語の違い
例えばトピック9,移民問題においては,民主党が「undocument」という言葉を使っているのに対し,共和党は「illegal alien」という差別的な用語を使っている事がわかる.民主党がlegalやfairといった人道的な立場に立っているのに対し,共和党はsecureといった安全保障の立場に立っている事がわかる.トピック39,中国との貿易問題において,上位に来る語は共和党はglobal,民主党はdomesticとなっており,立場が明確に異なっているのがわかる.トピック75,イラク戦争においても,上位に来る語は共和党がwin,民主党はfailed/endとなっており正反対.ここらへんの知識無かったのでかなりわかりやすい.