糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

異種混合学習に関する簡単なまとめ

デジタルトランスフォーメーションを加速する最先端AI技術群「NEC the WISE」: 最先端AI技術群 ~NEC the WISE~ | NEC
2012年頃から話題になっている,NECが提唱する異種混合学習とは一体何なのか,ということが気になって簡単に調べた.
以下の記述は,自分の理解に基づいていること,学習理論については詳しくないことを断っておく.

概要

異種混合学習技術は多種多様なデータに混在するデータ同士の関連性から、特定の規則性を自動で発見するとともに、分析するデータに応じて参照する規則を切り替えます。これにより、“単一の規則性のみを発見して、それを参照するような従来の機械学習”では分析が困難であった「規則性が変化するデータ」でも高精度な予測や異常検出が可能になります。

デジタルトランスフォーメーションを加速する最先端AI技術群「NEC the WISE」: 最先端AI技術群 ~NEC the WISE~ | NEC

キーワードとしては

  • 複数のモデルを自動的に導出
  • モデルが自動的に切り替わる

の2点が異種混合学習の特徴であると思われる.

その成果として
NEC、ビッグデータに混在する多数の規則性を自動で発見する技術を開発(2012年6月22日): プレスリリース | NEC
NECなど、ビルのエネルギー需要予測に成功--独自の機械学習でデータを分析 - ZDNet Japan
などが報道されている.
特に,2012年の報道発表では

  • ビルの電力需要予測において成功した
  • ICML2012 にて当該技術が発表された

ということがわかる.

異種混合学習を実現する技術

そもそも,論文中では一度も「異種混合学習」という単語は使われていない.
ではどのような技術でそれを実現しているか,という話になる.

昨日ちょうど見つけた,フジサンケイグループの先端技術大賞の論文に日本語で書かれた詳細な,恐らく最もわかりやすい資料があったのでそれを貼ることにする.
独創性を拓く 先端技術大賞
上記資料を見れば済む話だけど,自分のためにまとめる.

Factorized Information Criterion (FIC)

「複数のモデルが存在する時,どのモデルを選べば良いか」というのは機械学習で定番の問い.そこで用いるのが情報量基準.
恐らくもっとも有名なものは AIC (赤池情報量基準).あとはBICなどがある.AICはモデルの対数尤度とパラメータの数で構成されているので,精度と複雑さのトレードオフがいい感じに記述できている.
しかし,問題はこれらの指標は潜在変数などが入った特異モデルには適用できない.
それに対応した情報量基準としてWAIC(L‚­Žg‚¦‚éî•ñ—Ê‹K€(WAIC))があるけど計算が重い.
そこで,いい感じに計算できて性質も良い情報量基準としてFICが提案された.

Factorized Asymptotic Bayesian inference (FAB)

AIC/BICにもとづいてモデルを選択する場合,複数のモデルを一度推定し,列挙した上でAICを計算し,最良のモデルを選ぶという手続きを取っていた.
しかし,潜在変数込みのモデルではモデルの組み合わせが膨大な数になるため,そもそも列挙が難しい.
そこで,そもそも学習の時点でFICを最大化するようにパラメータを学習するというのがFAB.

ここまで来たところで,「FICを最大化するようにモデルを学習するのがFAB」ぐらいの理解で論文を読む.

論文との対応

異種混合学習にまつわる論文,自分の中では次の4本に着目する.

Factorized Asymptotic Bayesian Inference for Mixture Modeling (AISTATS 2012)

Proceedings of Machine Learning Research
この論文においてはじめてFICとFABが提案される.
論文の実験では多項式曲線のフィッティングが行われている.人工データに対しての式を10本作り,FABで学習する事により,真の曲線4本を正確に予測(再現)できたことが示されている.
FABの性質として,モデルの枝刈りが行われているので10本が4本に shrinkage されていることがわかる.
もう一つの実験では iris や yeast などのUCIデータセットに対する予測対数尤度を計算している.
AISTATS2012論文を読むと,複数のモデルを自動的に導出していることはわかるが,それが自動的に切り替わっているかどうかはよくわからない.というのも,多項式曲線フィッティングは予測モデルの切り替えであるとは考えにくい.

Factorized Asymptotic Bayesian Hidden Markov Models (ICML 2012)

[1206.4679] Factorized Asymptotic Bayesian Hidden Markov Models
FIC/FABの枠組みで隠れマルコフモデル (HMM) の潜在変数 Z の数,transition probability,emission probability を推定している.
実験では人工データに対する予測をiHMM,VBHMMと比較している.
また,文章を入力にし,どの文字が出現するかの系列予測の実験も行われている.
読むとわかるけど,報道発表にあるような,電力需要予測の実験は論文中では行われていない.
また,モデルの自動的な切り替えができているかどうかについても,HMMのパラメータが推定できたという実験結果であり,途中でZの数が変化するわけでもない.ちょっとまだよくわからない.

Factorized Asymptotic Bayesian Inference for Latent Feature Models (NIPS 2013)

Factorized Asymptotic Bayesian Inference for Latent Feature Models (NIPS 2013, pdf)
FIC/FABで Latent Feature Model を学習する.まだモデル切り替えの話は出てこない.

ここまでの論文では N 個の観測値 x に対して,同じく N 個の潜在変数 z をどう対応付けるか,その時の z にまつわるパラメータは何か,という問題がメインに取り組まれていたように思う.

Fully-Automatic Bayesian Piecewise Sparse Linear Models (AISTATS 2014)

Fully-Automatic Bayesian Piecewise Sparse Linear Models
FIC/FABの枠組みで決定木と回帰が組み合わさったモデルを学習する,という論文.
どう組み合わさっているかというと,決定木の葉の部分に回帰のモデルが入っている.なので,あるデータがどの回帰式から得られたのか,決定木に従って切り替わる.
手法としては,FABを使って決定木の深さ,各分岐の条件,葉にある回帰式のパラメータを学習する.この枠組は x と z を対応づけるもの,すなわち,「各観測点はどの回帰式から生成されたか」を解くものであって,これまでと大枠は変わってないように思う.しかし,z への対応付けが決定木という形で得られるので,未知の x を流し込むと x に応じて回帰式,すなわちモデルが切り替わる,という動作が実現できる.

論文の実験では,SVRに匹敵,むしろ勝る精度を実現している.
また,1時間先の電力消費予測のタスクにも取り組んでおり,結果を見ると

  • 土曜日の19時から23時の間は expert3 で予測
  • 月曜日でなく,9時から18時の間は expert5 で予測

といったように,モデルが自動的に切り替わっていることがわかる.
決定木の深さも3程度であり,各回帰式の重みもゼロ要素が多いスパースなものになっており,可解釈性が高い.これはFICの利点が活かされた結果のよう.

ここまでくると,冒頭にあげた異種混合学習における2つのキーワードである

  • 複数のモデルを自動的に導出
  • モデルが自動的に切り替わる

に論文が対応付く.

疑問

ひとつだけ疑問がある(そもそもFABの詳細は何か,という疑問を持てるほど統計力はない).
論文上では,AISTATS 2014 においてはじめて,複数のモデルを同時に学習し,自動的に切り替えながら予測を行う枠組み.及び実験結果が示された.
しかし,報道発表では ICML 2012 の時点において消費予測の結果が出ている.このラグがよくわかっていない.
自分の理解が不足しており,AISTATS 2012 の論文の時点で既に電力消費予測が可能になっていた,ということなのかもしれないが,しかし,それにしては飛躍が大きいように思う.
このあたりがわからないままだった.