糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Efficiently Matching Sets of Features with Random Histograms(MM 2008) 読んだ

Efficiently matching sets of features with random histograms

概要

id:tsubosakaさんから教わった.特徴ベクトルの集合(sets of features)間の類似度を計る.

手法

集合をヒストグラムで表現する.Fig.4が非常にわかりやすい.
具体的には

  • 集合の要素をLSHでhash化
  • 得られたM個のhashを足しあわせてヒストグラムにするとこれが集合の特徴ベクトル
    • 元データがどんなに高次元でもおk
  • これをN個のhash functionで試す
  • あとはこれをつなげてsuper histogramにすれば比較可能に

あとはnormとかsimilarity functionとの関係性を述べている.

そもそも

2つのデータ集合間の類似度をどう測ればいいかというのが分からずにtwitterで聞いたら教わった.