Efficiently matching sets of features with random histograms
概要
id:tsubosakaさんから教わった.特徴ベクトルの集合(sets of features)間の類似度を計る.
手法
集合をヒストグラムで表現する.Fig.4が非常にわかりやすい.
具体的には
- 集合の要素をLSHでhash化
- 得られたM個のhashを足しあわせてヒストグラムにするとこれが集合の特徴ベクトル
- 元データがどんなに高次元でもおk
- これをN個のhash functionで試す
- あとはこれをつなげてsuper histogramにすれば比較可能に
あとはnormとかsimilarity functionとの関係性を述べている.
そもそも
2つのデータ集合間の類似度をどう測ればいいかというのが分からずにtwitterで聞いたら教わった.