Tracking dynamics of topic trends using a finite mixture model
概要
タイムスタンプ付きの文書がジャンジャン来る時に文書集合のトレンドを把握する.
課題
リアルタイムなデータに対してトレンドなどを把握したい.その際,次の三つを1つのフレームワークで満たしたい.
- どのようなトピックがあってどれぐらい重要なのかを知りたい
- 新しいトピックが現れ,成長する様子を知りたい
- トピックの特徴を知りたい
というわけで正規分布の有限混合モデルで対応するが,提案手法では
- 過去のデータをガンガン捨てて最近のデータを重視する
- 時間間隔を考慮する
- 次元数(=単語数)は時間が経つにつれ増えるので正規化する
提案手法
- t におけるパラメータを t - 1 のパラメータを使って更新する
- t - 1 のみしかパラメータ更新に用いない
- 時間間隔が更新式に入っている
- 次元数の変化については陽に対応しているようには思えない.次元数の異なるベクトルを足し合わせる時に少ない次元の方を0で埋めている?
- パラメータ推定後, t ごとに t - 1 のデータを使って尤度のようなものを推定し,表現するのに最適なtopicの数及びtopic(重ね合わせる正規分布)を決定する
- これでどのトピックが増えたり減ったりしたかが確認できる
- トピックの特徴的な単語についてはなんかinformation gain使うとか書いてある
実装
- 正規分布を当てはめるところ,手前にある分数の分母を計算するとループ2周目で必ず0になって確率計算がその後破滅するので手前の分数は計算する必要なし
- 生まれて初めてlogsumexp使った