A Probabilistic Model for Multimodal Hash Function Learning
A probabilistic model for multimodal hash function learning
目的
近傍探索を行う際に用いられる Hashing について,Hash Function Learning について複数ジャンルのデータを扱えるようにする枠組みを提案.
生成モデルで hash function をアレするので良い.
モデル
例として X と Y の bimodal (例:文書と画像)を考える.観測変数はX内の変数間における類似度が入った行列,Y内の変数間における類似度が入った行列,及びX-Y間の要素が関連しているかどうかの0/1が入った行列の三種類.はアノテーションとかで付与されるものとイメージする.
グラフィカルモデルにおいて, U/V がそれぞれ X/Y の hash に相当する.ついでに U/V の同 modal 内での hash のそれぞれの次元間における重み付け行列を隠れ変数として設定する.
式はサンプリングではなく MAP 推定するとか.
TM-LDA: Efficient Online Modeling of Latent Topic Transitions in Social Media
目的
テキストのストリームデータに対応した LDA である Temporal LDA を提案.系列に対して次のトピックの分布を予測する.
モデル
読んでいるとグラフィカルモデルが出てこなくて途中まで全く意味がわからなかった.
この論文はストリームデータにおいて,t期の topic distribuion とt-1期の topic distribuion の間で transition が起こると考えて行列をかけあわせて予測するといった事をやっている.
なのでトピックがどう変わっていくかをモデリングしている論文.
実験
こっちを先に読めばよかった.
twitterのデータを用いる.ユーザ別に7日間のデータでLDAをかける.その後,8日目のtopicを7日目までの分布で予測する.ついでに9日目の topic distribution を8日目の topic distribution を使って予測する.
PatentMiner: topic-driven patent analysis and mining
目的
単に特許のトピックを検索するのではなく,会社,発明者,技術的文脈といった様々なオブジェクトで構成され,時間発展する特許ネットワークをマイニングする.
概要
5つの要素から構成される.
確率的特許モデリング
まず Inventor-Company-Topic(ICT) Model を提案.まずは会社を考えなければAuthor-Topic Model(UAI2004).会社cにおける特許の全トピックの集合が多項分布に従って事前分布にディリクレが追加されている. Gibbs で解く.
しかしこれだけじゃダイナミクスが足りないので Dynamic ICT Model を提案.時間が近いオブジェクトのトピックの分布は類似しているという仮定に基づき, timestamp ごとにモデルを作って次の timestamp における事前分布として使うとか.
分析とマイニング
あとで読む
実験
やってみた
Latent association analysis of document pairs
Latent association analysis of document pairs
目的
sourceとtarget,2ドメインにおける文書の関連性を考える Latent Association Analysis (LAA) を提案.
モデル
2文書それぞれにLDAを立ててどのトピックが関連するかのパラメータYで二つのモデルをつなぐ.