Dynamic Word Embeddings for Evolving Semantic Discovery (WSDM 2018) 読んだ

概要

[1703.00607] Dynamic Word Embeddings for Evolving Semantic Discovery
word embedding の時系列変化が見たい(これどこかの論文でも見た気がする)．
例えば， apple という単語は昔は果物が連想されるだけだったが，今ではテクノロジー企業も連想されるだろう．
例えば， trump という人名だって「不動産」 -> 「テレビ」 -> 「共和党」と連想するものが時間と共に変化するだろう．
そういうのが見たい．

問題は，従来の embedding の方法は学習時に回転を考慮しないため，異なる時点での embedding を対応付けることができない．そこで，従来手法では，

各時点での embedding を学習する
時点ごとの embedding を対応付ける alignment を解く

という二段階のアプローチを行っていた．
この論文の手法は，全時点での embedding を解きながら embedding の時間変化に伴う滑らかさを正則化項として追加することで alignment を分割して説かなくて済む．

手法

ある時点での embedding については skip-gram や CBoW ではなく， PPMI (positive pointwise mutual information) 行列を行列分解することで獲得する．
結論から先に書くと，時点 $t$ における PPMI matrix を $Y(t)$ とし，分解後行列を $U(t)$ とすると，最小化すべき目的関数は
$\frac{1}{2} \sum_{t=1}^T || Y(t) - U(t)U(t)^T ||^2 + \frac{\lambda}{2} \sum_{t=1}^T ||U(t)||^2 + \frac{\tau}{2} \sum_{t=2}^T || U(t-1) - U(t)||^2$
となる．一項目は embedding そのものの誤差の最小化，二項目は embedding の正則化，三項目が時点間での滑らかさのコスト関数． $\tau$ で時点間の embedding がどれだけ近いかをコントロールする．
これにより，全ての embedding が全時点を考慮した状態で推定が可能となる，と著者らは主張している．
非常にシンプルな話．
勾配まで論文中に示してあるので実装も簡単にできそう．