Synthesizing Tabular Data using Generative Adversarial Networks (preprint) 読んだ

[1811.11264] Synthesizing Tabular Data using Generative Adversarial Networks]

GAN を使って表形式のデータを生成する論文は既に読んだわけですが，その発展形．著者らによる実装も公開されており(DAI-Lab/TGAN: Generative adversarial training for synthesizing tabular data)，実装を試した人もいる(テーブルデータ向けのGAN（TGAN）で、titanicのデータを増やす - u++の備忘録)．

前述した tableGAN との違いは CNN を用いずに LSTM を用いていること，交差エントロピーを用いるのではなく KL divergence を使って周辺分布を学習していることの二点．

データ変換

データが $n_{c}$ 個の連続値の変数 $c_{i}$ と $n_{d}$ 個の離散値の変数 $d_{i}$ で構成されているとし，各行の各列についてそれぞれが連続値の変数なのか，離散値の変数なのかを区別して話を進める．

連続値の変数について

多くの場合連続値の変数は多峰 (multimodal) である．なのでそのまま表現せず，次のような手続きを踏む．

$(-1, 1)$ に変換する
それぞれの変数について混合数 $m$ のGMM (Gaussian Mixture Model) を学習し，平均 $\tau_{i}^{(1)},\tau_{i}^{(2)},\cdots,\tau_{i}^{(m)}$ および標準偏差 $\sigma_{i}^{(1)},\sigma_{i}^{(2)},\cdots,\sigma_{i}^{(m)}$ を得る
$i$ 番目の変数の $j$ 列目の値 $c_{i, j}$ が GMM の各要素から得られる確率 $u_{i, j}^{(1)},\cdots,u_{i, j}^{(m)}$ を得る
$c_{i, j}$ を $v_{i, j} = (c_{i, j} - \tau_{i}^{k}) / 2\sigma_{i}^(k)$ とする．この時 $k=\textrm{argmax}_{k} u_{i, j}^{k}$ である．その後 $v_{i, j}$ を $[-0.99, 0.99$ ] に clip する

一言で言えば連続値の変数を $m$ 個の正規分布でクラスタリングし，一番当てはまりが良い分布に関する情報を持つ．論文では $m=5$ とし，もし単峰の変数だったとしても $m-1$ 個の正規分布に対する重みがゼロになるから構わないとしている．この手続きの結果，連続値の変数 $c_{i, j}$ を $u_{i, j}^{(1)},\cdots,u_{i, j}^{(m)}$ と $v_{i, j}$ の $m+1$ 次元で表現する．

離散値の変数について

$i$ 列目の離散値の全要素を $D_{i}$ として離散値 $d_{i, j}$ を one-hot encoding して $\mathbf{b}_{i, j}$ とする
$\mathbf{b}_{i, j}$ の各次元 $\mathbf{b}_{i, j}^{(k)}$ に $\textrm{Uniform}(0, 0.2)$ なノイズを加える
$\mathbf{b}_{i, j}$ を確率に正規化する

これら二種類の処理により， $n_{c} + n_{d}$ 次元のデータは $n_{c}(m + 1) + \sum_{i=1}^{n_{d}} |D_{i}|$ 次元に変換される．

また，これから説明する GAN は上記の $v_{1:n_{c},j},\, u_{1:n_{c},j}^{1:m},\, \mathbf{d}_{1:n_{d},j}$ を生成するわけですが，本来の値に戻すには次のように変換すればいい．

連続値 $c_{i, j} = 2v_{i, j}\sigma_{i}^{(k)} + \tau_{i}^{(k)},\ k = \textrm{argmax}_{k} u_{i, j}^(k)$
離散値 $d_{i, j} = \textrm{argmax}_{k} \mathbf{d}_{i, j}^{(k)}$

生成

Generator には LSTM を使う．LSTM を使う理由は we use LSTM with attention in order to generate data column by column. としか書かれていないが，気持ちを汲み取ると各変数間の相関などを陽に考慮したいからだと思う． LSTM の出力を $h_{t}$ として hidden vector $f_{t}=\textrm{tanh}(W_{h}h_{t})$ を求め，更に $\textrm{tanh}(W_{t}f_{t})$ として各変数を出力する．その後， $t+1$ ステップの LSTM に $f_{t}$ を渡す．連続値の場合は $v_{i}$ を得，次に $u_{i}$ を得る．また，離散値の場合は $t+1$ ステップにはそのまま渡さずに $f_{t}' = E_{i}[\textrm{argmax}_{k} \textrm{d}_i$ ] として渡す( $E_{i}$ は $|D_{i}| \times n_f$ 次元の embedding)．

Discriminator には mini-batch discrimination vector 入りの MLP を用いる(Generator が LSTM なのだから Discriminator も LSTM で良かったのではないか)．

通常の GAN の損失関数に加え， Generator 側の損失関数について連続値変数 $u$ に関する KL divergence $\sum_{i=1}^{n_c} \textrm{KL}(u_i', u_i)$ と離散値の変数そのものの KL divergence $\sum_{i=1}^{n_d}\textrm{KL}(\mathbf{d}_i', \mathbf{d}_i)$ を追加することで学習が安定するらしい．

実験

評価は三種類．

学習を生成したデータ，予測対象を元データとした時にどの程度精度を保つことができるかの Machine learning efficacy
- 前回の論文で model compatibility と呼んでいたもの
「変数間の相関が保存されているか」の検証として，連続変数を離散化して変数間の normalized mutual information を計算し描画
「真のデータにどれほど近いか」の検証として，学習データとテストデータまたは生成データ全対の距離のヒストグラムを描画

糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com

Synthesizing Tabular Data using Generative Adversarial Networks (preprint) 読んだ

データ変換

連続値の変数について

離散値の変数について

生成

実験