Geographical Topic Discovery and Comparison(pdf)
概要
入力がみたいな感じで文書と位置情報の対の集合の時に空間的なトピックを抽出する.もっと言うと単語分布及び場所におけるトピックの分布が欲しい.
東日本大震災ビッグデータワークショップで位置情報付きのtweetリスト作成プロジェクトに関わってデータを集めまくっていたので,何か良い感じにこのデータをモデリングできないかと探していて見つけた.
本当は@syou6162に先に教わったA Latent Variable Model for Geographic Lexical Variation(EMNLP 2010)を読むべきなんだが.
手法
3つ提案している.が,そのうち2つについては「Sec 6の結果見てもらえればわかるけどこれ〜〜〜の理由で上手く行かないから」っていちいち先取りして書いてて面白い.
location-driven model
位置情報ベースで考える.
文書を位置情報でクラスタリングする(このクラスタがzに相当する).その後で出す.
ついでにをクラスタあたり1つの正規分布を用意してGMMで出す.
しかしこれだと位置的に離れたトピックが抽出できない.
text-driven model
今度は文書ベースで考える.
NetPLSAと呼ばれるPLSAのモデルを流用する.このモデルでは,最大化すべき目的関数の二項目に文書の近さが加わっている.
これだと文書を考慮できるが,しかし,
- 位置情報を制約式でしか使ってない事
- 文書間の近さを決めるのが難しい事
などが問題点になってくる.後半に出てくるデータではあるトピックは狭い範囲に固まり,あるトピックは広い位置に散っている.これをうまい事捉える距離尺度を見つけるのは困難.
location-text joint model
これが提案手法.
地域(region)と呼ばれる概念を導入する.生成の過程は
- 重要度を用いて離散分布に従いregion rを得る
- 位置をregion rにおける正規分布に従って得る
- 文書dを次のように得る
- トピックzを多項分布から得る
- 単語wを多項分布から得る
これだとregionに対し複数のトピックを考えることができる.
更新はEMでやる.