Data Synthesis based on Generative Adversarial Networks (VLDB 2018) 読んだ

[1806.03384] Data Synthesis based on Generative Adversarial Networks

匿名化については micro aggregation (各行を集約することで架空の行を生成すること) や post-randomization (ノイズを載せる) などがあるわけですが， GAN でデータを生成すれば完全な匿名化 (Generator があまりに賢くなりすぎて元データと全く同じものを生成しない限り) が実現できる，というアイデアにもとづく論文．

匿名化および GAN による生成の対象は Kaggler では「テーブルデータ」と呼ばれる 1 行 1 データ．つまりネットワークは表形式のデータの各行を生成する．同様の GAN には後発の TGAN ([1811.11264] Synthesizing Tabular Data using Generative Adversarial Networks) が存在し，実装も公開されている．後者では LSTM を用いたより複雑なネットワークを提案しているが，特に匿名化については言及していない．

実験結果について理解できない記述が多い．査読者はちゃんと読んだのか疑問に思う．もしくは匿名化に関して知見や興味のある査読者がいなかったのではないかと思う．

以下の問題意識が念頭にある
- 生成したデータにおいて平均や分散といった統計量を保存したい
- 変数間の整合性を保ちたい．たとえば身長 170cm なのに体重 30kg のデータが生成されると困る (十分に Generator が賢ければ避けられるのではないか)
- membership attack に備えたい (とはいえモデル中で陽に備えるわけではない)
生成対象の各行は 0 埋めした状態で正方形に形を変え，画像として扱う．いってしまえば MNIST の学習のような問題に落とす
提案手法である table-GAN を次の 3 モジュールで構築する
- Discriminator D : データの真偽を判定する
- Generator G : 偽のデータを生成する
- Classifier C : データの一部を label として (たとえば年収が平均値以上か否かの二値変数)，真のデータで学習して偽のデータを判定させる．これによって変数間の整合性が保たれる (と著者らは主張しているが， classifier は x と y の整合性を考慮するのであって x_i と x_j の整合性が保たれるわけではないのでは?)
損失関数を次の 3 項で構成する
- original loss : 本来の GAN の損失関数である D と G の間で発生する損失
- information loss : Discriminator D に真偽それぞれのデータを通して得られる最終層の dense vector の平均および分散の L2 norm．ここが一致していると平均および分散が保存されている (らしい．特定の minibatch における平均と分散を保存するのは難しいように思える)．ここで hinge loss を導入して生成されるデータの品質 (どの程度真のデータに近づけるか，あるいはプライバシーを保護するか) をコントロールする
- classification loss : Classifier C の損失
GAN に対する membership attack について考える．攻撃者が Generator G にのみアクセスできる状況において，当該 GAN を学習したデータに特定のデータが含まれているか否かの推定を以下の手続きで行う
- G から大量のデータを生成する
- その一部を使って複数の GAN を学習する
- それぞれの GAN の Discriminator D に対して
  - 学習に使った生成データ x を通して D(x), in というデータを得る
  - 学習に使ってない生成データ x を通して D(x), out というデータを得る
    - 論文ではこの負例側を元の GAN の学習に使っていないデータを用いており (In our case, we use the test set prepared for the model compatibility test.) ，実際の検証としては不適切である (攻撃者が元の GAN の学習データを知っているという状況がおかしい)．
- 上記データを全て結合して in/out を学習することで membership attack を実現する
  - GAN の GAN の精度はどのようなものでしょうか
いくつかの方法で検証を行う
- 実データと生成データの累積分布を見る
- 実データと生成データそれぞれで構築した学習器での回帰および分類の精度を検証する (model compatibility の検証)．これは「もし生成したデータが十分リアルならば，生成データで学習したモデルで元データの予測もうまくいくはず」という過程にもとづいている
  - 上記 2 項目については散布図を示すのみであり，「見ればわかるだろう」と言わんばかりに定量的にどの程度優れているか全く言及していない．確かに見ればわかりますがこんな雰囲気だけの結果でいいのか．
- 元のデータに対してある匿名化されたレコード r とのユークリッド距離が最も近いレコードを検索し，その時のユークリッド距離を DCR (distance to the closest record) と呼ぶ．DCR = 0.0 の場合元レコードと完全に一致しているので leak である，としている (この leak の定義がまず受け入れがたい．Quasi Identifier がわからなければそれ以外の値がどうなろうとどうでもいい話ではないか)．各種匿名化手法について複数のレコードについて DCR を計算し，その平均と標準偏差を確認する
  - 反対に言えば， DCR が小さければ小さいほど真のデータに近いことを意味している?
  - と思ったが It is preferred that the average distance is large and the standard devision is small と書かれており，標準偏差が小さい方が嬉しいことはわかる (むらなく一定の品質で匿名化できていることを意味する) が平均距離が大きいほうが良い理由がわからない．DCR はデータの確からしさとプライバシー保護とのトレードオフなので一概に preferred とは言えないのではないか?
  - Table 5 を見る限り low-privacy な table-GAN が high-privay な table-GAN より DCR の平均値が小さい．それはそう
- そもそもベースラインに設定している匿名化ツール ARX に関する記述が理解できないし，ベースラインとしてアンフェアな使い方をしているのではないか
  - 「ARX は micro aggregation するが sensitive attribute を変化させない．よって sensitive attribute に絞って最近傍探索を行うと DCR の平均と分散が 0 になる」と言及されている (そもそもの話として各データは職業や年齢，郵便番号といったそれらの列の値の組合せによって個人を特定しうる Quasi Identifier と，給料や疾病の状態 (十分 Quasi Identifier ではないか?) といったそれ以外の情報の列である sensitive attribute のふたつから構成されている)．
  - しかし，ツールの理念として Quasi Identifier のみを匿名化するのならば sensitive attribute がいくら leak しても困らないはずであるし (そもそもそれを leak と呼ぶのか?)，その時に DCR が完全に一致することは統計量が保存されているわけであり非常に望ましい性質ではないか
  - もし sensitive attribute が真に sensitive であり， leak して困るのならば sensitive attribute も含めた全ての列を Quasi Identifier とみなして k-anonymity を満たすように aggregate すべきではないか

糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com

Data Synthesis based on Generative Adversarial Networks (VLDB 2018) 読んだ