糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com

Efficiently Matching Sets of Features with Random Histograms(MM 2008) 読んだ

論文

Efficiently matching sets of features with random histograms

概要

id:tsubosakaさんから教わった．特徴ベクトルの集合(sets of features)間の類似度を計る．

手法

集合をヒストグラムで表現する．Fig.4が非常にわかりやすい．
具体的には

集合の要素をLSHでhash化
得られたM個のhashを足しあわせてヒストグラムにするとこれが集合の特徴ベクトル
- 元データがどんなに高次元でもおｋ
これをN個のhash functionで試す
あとはこれをつなげてsuper histogramにすれば比較可能に

あとはnormとかsimilarity functionとの関係性を述べている．

そもそも

2つのデータ集合間の類似度をどう測ればいいかというのが分からずにtwitterで聞いたら教わった．