KDD2012軽くメモ - 糞糞糞ネット弁慶

A Probabilistic Model for Multimodal Hash Function Learning

A probabilistic model for multimodal hash function learning

目的

近傍探索を行う際に用いられる Hashing について，Hash Function Learning について複数ジャンルのデータを扱えるようにする枠組みを提案．
生成モデルで hash function をアレするので良い．

モデル

例として X と Y の bimodal (例:文書と画像)を考える．観測変数はX内の変数間における類似度が入った行列 $S^{X}(i,i')$ ，Y内の変数間における類似度が入った行列 $S^{Y}(i,j')$ ，及びX-Y間の要素が関連しているかどうかの0/1が入った行列 $S^{X,Y}(i,j)$ の三種類． $S^{X,Y}(i,j)$ はアノテーションとかで付与されるものとイメージする．
グラフィカルモデルにおいて， U/V がそれぞれ X/Y の hash に相当する．ついでに U/V の同 modal 内での hash のそれぞれの次元間における重み付け行列を隠れ変数として設定する．
式はサンプリングではなく MAP 推定するとか．

実験

人口データ，wikipedia，flickr

TM-LDA: Efﬁcient Online Modeling of Latent Topic Transitions in Social Media

TM-LDA

目的

テキストのストリームデータに対応した LDA である Temporal LDA を提案．系列に対して次のトピックの分布を予測する．

モデル

読んでいるとグラフィカルモデルが出てこなくて途中まで全く意味がわからなかった．
この論文はストリームデータにおいて，t期の topic distribuion とt-1期の topic distribuion の間で transition が起こると考えて行列をかけあわせて予測するといった事をやっている．
なのでトピックがどう変わっていくかをモデリングしている論文．

実験

こっちを先に読めばよかった．
twitterのデータを用いる．ユーザ別に7日間のデータでLDAをかける．その後，8日目のtopicを7日目までの分布で予測する．ついでに9日目の topic distribution を8日目の topic distribution を使って予測する．

PatentMiner: topic-driven patent analysis and mining

PatentMiner

目的

単に特許のトピックを検索するのではなく，会社，発明者，技術的文脈といった様々なオブジェクトで構成され，時間発展する特許ネットワークをマイニングする．

概要

5つの要素から構成される．

特許ネットワーク抽出
- 特許データから，会社，発明者，特許など様々なオブジェクトで構成される異種ネットワークを抽出する
特許ネットワークストレージ
- 特許ネットワークを保存する． MySQL を使ってインデックスと転置インデックスを張る
確率的特許モデリング
- 確率モデルでアレして全オブジェクトとトピックを紐付ける
【ここ重要】分析とマイニング
- heterogeneous co-ranking (どう訳すか?)，競合進化マイニング，特許要約の3つの機能を提供
分散プラットフォーム
- バックエンドはHadoop

確率的特許モデリング

まず Inventor-Company-Topic(ICT) Model を提案．まずは会社を考えなければAuthor-Topic Model(UAI2004)．会社cにおける特許の全トピックの集合が多項分布に従って事前分布にディリクレが追加されている． Gibbs で解く．
しかしこれだけじゃダイナミクスが足りないので Dynamic ICT Model を提案．時間が近いオブジェクトのトピックの分布は類似しているという仮定に基づき， timestamp ごとにモデルを作って次の timestamp における事前分布として使うとか．

分析とマイニング

あとで読む

実験

やってみた

Latent association analysis of document pairs

目的

sourceとtarget，2ドメインにおける文書の関連性を考える Latent Association Analysis (LAA) を提案．

モデル

2文書それぞれにLDAを立ててどのトピックが関連するかのパラメータYで二つのモデルをつなぐ．