糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Dynamic Word Embeddings for Evolving Semantic Discovery (WSDM 2018) 読んだ

概要

[1703.00607] Dynamic Word Embeddings for Evolving Semantic Discovery
word embedding の時系列変化が見たい(これどこかの論文でも見た気がする).
例えば, apple という単語は昔は果物が連想されるだけだったが,今ではテクノロジー企業も連想されるだろう.
例えば, trump という人名だって「不動産」 -> 「テレビ」 -> 「共和党」と連想するものが時間と共に変化するだろう.
そういうのが見たい.

問題は,従来の embedding の方法は学習時に回転を考慮しないため,異なる時点での embedding を対応付けることができない.そこで,従来手法では,

  • 各時点での embedding を学習する
  • 時点ごとの embedding を対応付ける alignment を解く

という二段階のアプローチを行っていた.
この論文の手法は,全時点での embedding を解きながら embedding の時間変化に伴う滑らかさを正則化項として追加することで alignment を分割して説かなくて済む.

手法

ある時点での embedding については skip-gram や CBoW ではなく, PPMI (positive pointwise mutual information) 行列を行列分解することで獲得する.
結論から先に書くと,時点 における PPMI matrix を とし,分解後行列を とすると,最小化すべき目的関数は

となる.一項目は embedding そのものの誤差の最小化,二項目は embedding の正則化,三項目が時点間での滑らかさのコスト関数.で時点間の embedding がどれだけ近いかをコントロールする.
これにより,全ての embedding が全時点を考慮した状態で推定が可能となる,と著者らは主張している.
非常にシンプルな話.
勾配まで論文中に示してあるので実装も簡単にできそう.

結果

embedding を t-sne で可視化しつつある単語の変化の跡 (trajectory) を見る.27年分のデータで実験

  • apple が「果物」から「技術」に移動している.94年にスパイクが発生しているのは IBM との騒動があったため.
  • amazon は「森林」から「e-コマース」に移動し,「タブレット」など経て最終的には Netflix などのコンテンツ配信領域に落ち着いている.
  • obama は「学生」「市民」という領域から「議員」に移動し,最後には「大統領」に
  • trump は「オーナー」「不動産」から「大統領」に