糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

「施策デザインのための機械学習入門 データ分析技術のビジネス活用における正しい考え方」 読んだ

著者よりご恵贈いただきました.いくつか読むべき本があったのですが,社内で読書会をするために優先して読みました.感想を書きます.

著者は当時学部生とは思えないスピードでトップカンファレンスに論文を通している齋藤優太氏サイバーエージェントにて機械学習と経済学 (特に因果推論) の研究を行っている,「効果検証入門」の著者でも知られる安井翔太氏.監修はホクソエム社

第一線で活躍する若手研究者が日本語で本を書くことがどんなに貴重か (一部の研究者が「日本語の原稿や国内学会は業績ではないので意味がない.運営負荷も高いために縮小・廃止すべきだ」「日本語の専門書は不要であり,原著を読める人間だけが読めばいい.」と主張している背景があります) という話をしても一部の人にしか伝わらないと思うので本の話を順にします.

本書の教えがどこまで再現できるかに関わらず,機械学習モデルを用いて何らかの意思決定を行う人は一度読むと非常に勉強になると思います.また,この領域の研究者がどのような問題意識を持っているのか,どのような単語や記号で定式化しているのかがわかるため,論文を読むための足がかりとしても有効だろうと思います.

1章「機械学習実践のためのフレームワーク

1章「機械学習実践のためのフレームワーク」では,本書の根底にある「フレームワーク」の導入が行われます.これは目次にそのまま書かれているのですが,本書において特に強調されているのは「データの観測構造をモデル化する」「観測データを用いて解くべき問題を近似する」の2点ではないでしょうか.

データの観測構造への理解・認識が曖昧なままだと,誤った仮定や思い込みを解消することができず,その結果得られるモデルにバイアスが生じます.これを説明しているのが前者です.そしてバイアスを観測データからいかに除去するか,また,いかにして軽減できるよう (本来解くべきであるが様々な理由によって解けない真のモデルを) 近似したモデルを構築できるかが後者です.

表1.3 の例はその最たるものです (「効果検証入門」の読者には見覚えがあるでしょう).この表から「クーポン配布は性別に関わらずランダムに配信されている」という思い込みに従ってナイーブにクーポンの効果を計算してしまうと,本来の効果 (そもそもこれが観測できないから困っているわけであり,永遠の課題ですが) とは異なる値が得られてしまいます (ここまで読んだところで「効果検証入門」で述べた回帰による効果の推定が本書では行われていないことに気付きました).

この1章のフレームワークにもとづいて,続く章では具体的な問題とバイアスについて触れています.

2章「機械学習実践のための基礎技術」

ここからは具体的な問題に取り組みます.まずは属性推定です (これは属性推定だけでなく, look-alike などにも適用可能でしょう).この時,学習は属性情報が付与された会員データが対象であり,予測 (推論) 時には属性情報が付与されていない非会員データが対象であるため,「会員になるかならないか」がランダムではなく,何らかの要因によって偏っている場合,モデルにはバイアスが含まれてしまいます.言葉にすると何となく分かることを数式を用い「ここにバイアスが生まれる余地がある」「よっての項を追加すると良い」と説明されるのでとても気分が良いです.

次に取り組むのは,既に何らかの意思決定モデルが動作しており,その結果として得られるログを対象により良い意思決定を推定する問題です.過去動作していた意思決定モデルによるバイアスを軽減するために IPS (Inverse Propensity Score) 推定量や Doubly-Robust (DR) 推定量の説明が行われます.ここの説明も一見 IPS だけでいいように見せかけてよく考えるとこれデータがもったいないのでは? という気持ちから DR の説明に入るので理解が進みます.しかし DR 推定量は特に数式の説明がなく唐突に現れるため,この道理を知るためには元論文を読む必要がありそうです.

著者らの研究成果である Open Bandit Pipeline についての説明も1節を割いて行われています.これは社内読書会で検証する際にちゃんと読みます.

3章「Explicit Feedback を用いた推薦システム構築の実践」

続いては商品推薦タスクです. Explicit Feedback と呼ばれるシチュエーションでは,ユーザは商品の評価を uniform に行うわけではなく,そもそもユーザは興味がある程度ある商品しか評価を行わないため,結果として観測されるデータにはバイアスが含まれてしまいます.ではこのデータからより良いモデルを学習するにはどうすればいいのか? という話と,研究用データセットを用いた検証が行われています.

4章「Implicit Feedback を用いたランキングシステム構築の実践」

こちらも商品推薦タスク (タイトルは「ランキングシステム」ですがここでは簡単のため商品推薦タスクと呼びます) です. Implicit Feedback という状況において,3章とは異なるバイアスを考慮しています.それは

  • ポジションバイアス : 商品がユーザに表示される順序が上位であればあるほどクリックされやすい.反対に順序が下位のアイテムがクリックされなかった場合,興味がないのか,そもそもユーザの目に入っていないのかの区別がつかない
  • 選択バイアス : そもそも商品がユーザに表示されていない
  • クリックノイズ : ユーザが誤って興味が無い商品をクリックしているかもしれない

の3つです.これらをどう組み込むかを段階的に説明しています.

5章「因果効果を考慮したランキングシステムの構築」

最後に,「クリック後の購買行動」などを KPI にした時の「推薦機能由来での KPI を最大化する施策」と「プラットフォーム全体での KPI を最大化する施策」の推定について触れています.特に後者は推薦枠が有限である場合,推薦しなかった場合の売上と推薦した場合の売上それぞれを考慮し,最も良いものを探す,という話で uplift modeling の雰囲気を感じます.

本書の良いところと限界

本書の良いところは「バイアスから目をそらすな」という話を繰り返し述べている点です.本書を読み終わり,思想をある程度理解した読者においては,つい手癖で手元のデータに対して何も考えずにモデルを作ってしまう前に「お前の手元にあるデータにはこのような偏りが入っているはずだが?」という内なる著者らからの指摘がきっと入るでしょう.

とはいえ本書の内容がそのまますぐに日々の業務に反映できるかと言われると,そのまま適用できる人は少ないのではないかと思います.

たとえば3章の IPS 推定量に必要な傾向スコアの計算には,完全にバイアスが存在しないデータが必要であり,後段の Yahoo! R3 データでの実験でも (ランダムに収集されバイアスが存在しない) テストデータの一部を用いて傾向スコアを計算しています.3.6 にて補足が入るものの,「このデータにはバイアスがかかっています.それをどう補正したらいいでしょう?」 -> 「ここにバイアスのかかっていないデータがあるので補正に使います」の流れには困惑しました.

また,2章では「過去,どのような値にもとづいて施策を行ったか」を示す (「古い意思決定モデルの行動選択確率」と呼ばれています) \pi_{b} の値が必要です (とはいえ p79 において既存のデータから推定する方法にも触れられています).4章においても,説明している手法の学習には「これまでどのユーザにどの順序で商品を表示していたか」のデータが必要です.これらのデータが現行のシステムにて保存されていない場合には本書の手法をそのままでは適用できません.

とはいえ「では本書は全く役に立たないのか」というわけではなく,

  • これからはなるべく今後のために施策にまつわるデータを収集しよう
  • 「現状のデータにはバイアスが含まれている」と意識することにまず意味がある
  • バイアスを軽減するためのさまざまな手法が研究・開発されているのだから,困ったら本書や本書が言及している論文を読もう

という話ではないかと思います.繰り返しになりますが,本書の教えがどこまで再現できるかに関わらず,機械学習モデルを用いて何らかの意思決定を行う人は一度読むと非常に勉強になると思います.

細かい話

  • 2章で「データサイエンティストはこうやってナイーブな統計量を出してしまうがそれでは駄目」と散々な書き方をしており,そこまで言わなくてもいいのではないかと思いました
  • 表1.2 と表2.2 の話,気持ちはわかるのですが表現が適切でないように思います.ここでは「推定した値と真の値との誤差」でどちらのモデルが良いかを議論し,誤差が小さいモデルで意思決定をすると失敗する (モデルの推定誤差と,そのモデルに従って振る舞った時との結果が食い違う) という話なのですが,そもそも真の値を知っているのならばモデルを推定する必要がない (真の値にもとづいて意思決定すればいい) でしょうし,「モデル評価では真の値を確認できるが意思決定時には参照できない」というのも不自然に思います.より正確には「既知のデータでモデルを推定する」「未知のデータに当てはめる」「既知と未知のデータは同様であるという強い仮定がある」「よって既知のデータに対する誤差が優れたモデルを採用し未知のデータの意思決定に用いる」だと思うのですが,お気付きのようにこの説明はとても面倒です
  • p170 の式は先頭の項に閉じ括弧が一つ足りないと思います.恐らくは  (C(u_{j}, i_{1}, y_{j}(i_{1})), C(u_{j}, i_{2}, y_{j}(i_{2})),\cdots, C(u_{j}, i_{m}, y_{j}(i_{m})))

A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys 2020) 読んだ

論文

Gunosy理研AIPの論文.

企業が持つ implicit feedback のデータを公開するためには

  • アクティブユーザ数や収益や平均クリック数といった business metric を隠したい
  • 公平性を担保したい
  • Population Bias を減らしたい

という三つの気持ちがある.

今回はログ中のユーザをサンプリングして公開用データを構築するわけですが,ユーザごとにサンプリング時の重み w を推定する問題として定式化する.

この時

  • business metric を隠すために,サンプリング後のクリック数の分布と特定の分布 (zipf など) との Wasserstein distance を取る L_{\mathrm{click}}(w)
  • 公平性のためにサンプリング後のユーザの属性の分布と uniform distribution との KL divergence L_{\mathrm{attribute}}(w)
  • Population Bias 対策でサンプリング後の記事のカテゴリ分布と uniform distribution との KL divergence L_{\mathrm{category}}(w)
    • ここで uniform するのが fairness っぽい研究の匂いがする

の3つを重みのハイパーパラメタをかけた線形和を最小にするように w を推定する.以上.

よくわからなかったところ

  • 数学力が低すぎて 3.4 を読んだだけではどうやって w を推定していいか全く分からなかった.一番ナイーブな方法は w をただの user の重みとみなして適当にやることですがきっとそういうわけではないだろう.5.4 で Faking Fairness via Stealthily Biased Sampling (AAAI 2020)が言及されていますが査読で何か言われなかったのだろうか
  • サンプリングの方針としてユーザを選ぶ sampling user とユーザの行動ログをサンプリングする sampling behavior log の二つがあって本論文では前者が採用されている.後者を採用しない理由は時系列つきのログでよくやる「次に登場するアイテムは何か?」というタスクに対応できないからだと言われているが一部が欠けていても (よほど強烈なマルコフ性などが存在しない限り) できなくはないのではないかと思った
  • Table 1 の最下段は 2CCtypo だと思う
  • 4.2.4 にて Zipf(1) における Population Bias を考慮した結果が考慮していない結果とあまり差がない (これは本当に悲しい) 理由がよくわからなかった
  • 4.3 で述べられている timestamp の分布が近いみたいな話,いい話ではあるのだけど狙っていないのにどうしてこうなったのかがよくわかっていない
  • そもそも「企業が持つデータセットが有用である」とは一体どういう事なのかを考え始めるとよくわからなくなってきた
    • 思いついたひとつに「公開データセットで得られた知見は未公開のデータセットにおいても有用である (だからこそ公開データセットでの精度改善には意味がある)」というのがありそうだけど,これは一体どうやって検証したものだろうか
    • 十分に検討された疑似データと実データセットの差とは何か,実データセットだとどのような価値があるのだろうか.「実データセットを用いた検証の結果〜」とは論文の abstract に死ぬほど登場する言葉ではあるが,それは一体どういう価値があるのか考え直したい気持ちがある (IrisMushroom だって実データセットだ)

声優統計コーパスに存在する誤りの告知と JVS コーパスの利用推奨

声優統計コーパスの音素バランス文,および音声データについて告知します.

告知

今後,音声を新規収録される場合には声優統計コーパス付属のバランス文ではなく,句読点情報が付与された JSUT コーパスまたは JVS コーパスvoiceactress100 (以降, voiceactress100 と呼びます) の使用を推奨します.

  1. 声優統計コーパスのバランス文と voiceactress100 は一部の単語が異なっており,完全な互換性がありません
    1. voiceactress100 は声優統計コーパスバランス文を音声処理の研究者が洗練したものです
    2. 声優統計コーパスの一部の読みはバランス文と一致していません.また,アクセントや句読点位置も統一されていません
  2. 上記の理由により,今後,音声を新規収録される場合には声優統計コーパス付属のバランス文ではなく voiceactress100 の使用を推奨します
    1. その際のイントネーションはプロ話者によって発話された JVS コーパスに従うことを推奨します
  3. 感情表現を活用したい場合,またはプロ話者かつ高サンプリングレートのデータを使用したい場合のみ声優統計コーパスの音声データを用いるのが良いと私たち (日本声優統計学会) は考えます

声優統計コーパスと JSUT/JVS コーパスの関係

1.-i. に関して,声優統計コーパスと JSUT/JVS コーパスの関係について補足します. 両者とも,条件付で自由に利用 (コピー・共有・編集) できるコーパスです.それぞれの関係は

  • Wikipedia : CC BY-SA ライセンスにもとづいて本文データを公開
  • 声優統計 : Wikipedia のライセンスを継承してバランス文を構築 (翻案・利用)
  • JSUT : 声優統計のライセンスを継承して翻案・利用
  • JVS : JSUTのライセンスを継承して翻案・利用

です.

声優統計コーパスにおける既知の誤り

1.-ii. について,現在判明している誤りです (ご指摘してくださったつくよみちゃん様,本当にありがとうございました).これらは全て私たちの力不足・確認不足によるものです.

  • 「いしつみ」を「いしづみ」と読み上げている音声がある
  • 「鎮痛薬」を「鎮痛剤」と読み上げている音声がある
  • 「酸素供給」を「酸素配給」と読み上げている音声がある
  • プロ野球球団の大洋ホエールズ」を「プロ野球球団・大洋ホエールズ」と読み上げている音声がある
  • 「漁獲」を「りょかく」と読み上げている音声がある
  • バファローズ」を「バッファローズ」と読み上げている音声がある
  • ヴュルテンベルク」を「ヴェルテンベルク」と読み上げている音声がある
  • 「謙吉」を「けんいち」と読み上げている音声がある
  • 「プルヴァマ」を「パルヴァマ」と読み上げている音声がある

なぜこの文章を書いたか

声優統計コーパスは名称や内容のキャッチーさから (ある程度権利が自由な) バランス文および音声データとして音声研究に詳しくない人にも認知が広がっています.この現状は公開当時想定していなかったことであり,非常に嬉しく思います.

しかしその結果,より適切に品質が管理された JSUT/JVS コーパスに人々が到達しにくくなっていると考えます.特に,音声コーパスを自ら収録する人が増えている現状においては,適切なコーパスへの誘導が重要だと考えました.

最後に,本文章における声優統計コーパスと JSUT/JVS コーパスの関係,および JVS コーパスの利用推奨は JSUT/JVS コーパスの作者である高道慎之介 助教に事前に確認を取り,合意を得ています.

補足

声優統計コーパスを歌にした PJS: Phoneme-balanced Japanese Singing-voice corpus が公開されました

PJS: Phoneme-balanced Japanese Singing-voice corpus

[2006.02959] PJS: phoneme-balanced Japanese singing voice corpus

Junya Koguchi さんと東大高道慎之介助教によって作成された,音素バランスを考慮した日本語歌声コーパスが公開されました.

このコーパスには声優統計コーパスの音素バランス文を歌詞としてメロディが付与された歌が含まれています.arXiv 原稿の

A native Japanese male in his twenties composed all the songs. He is not a professional composer but has work experience using his singing, composing, and recording skills.

という記述が良い.

握手会が延期になったので「効果検証入門」を読んで Python で (ほぼ) 実装した

ゴールデンウィークの握手会が延期になり気力が完全に尽きてしまい(そもそも2020年のほとんどのイベントが延期または中止になっているわけですが),同じく握手会が延期になった友人と「アイドルとシロクマのことを考えないでください状態になっていてつらい」「何か没頭できる事は無いの」という話になった結果,「効果検証入門」を読んだ.

「どうせ読むのならば短期集中で」ということで,一日目午後に1章と2章,二日目午前に3章,午後に4章,三日目午前に5章のペースで Zoom で交互に節単位を音読しながら進めた.2020年,30歳を過ぎて音読.

感想

数学力が低い自分でわかった気分になれる,非常に参考になった.明日からでも試したい.随所に「実際のビジネスの現場ではこんな滅茶苦茶なことが行われている」という記述が出てくるので考えさせられてしまう.「正しい効果を知るインセンティブとは何か?」に最後の章で触れていたのも良かった.耳が痛い.

脱落変数バイアスの概念はとても面白かったし,Difference-in-Differences はシンプルながら (その分平行トレンド仮定が強力ですが) 試したいと思えた.反対に causalimpact についてはそこまでモチベーションが湧かなかった.十分に学習された予測器にもとづいて何かをする,というのがどうにも受け入れにくい.回帰不連続デザインは話としては面白そうに見えたものの,「単に回帰をする」という話になっていて肩透かしを感じた.

そもそもが本書で紹介されているテクニックはどれも比較的シンプルでありながら多くの仮定のもとに成り立っており, AUC や Prec/Recall のようになんらかの定量的な「確からしさ」が出るわけでなく,セレクションバイアスは正負どちらにも発生するため,非常に扱いが難しいように思う.「今回の施策による効果量は『〜〜〜』という仮定が成立すると考えて計算していますが,『〜〜〜』というバイアスが排除しきれていない事は念頭に置かねばなりません.ですが,何も考えずに推定するよりは確からしいと考えられます」といったように,多くの留保にもとづいて説明するのが因果推論を用いた分析において取るべき態度なのでしょう.

いくつかのトピック,たとえば Conditional Independence Assumption や Post treatment bias や Bayesian Structual Time Series Model や合成コントロールについてはより詳しく知りたくなりました.また,因果ダイヤグラムやバックドア基準という単語も本文には登場しなかったので次はそのあたりを知っていきたい.

次は星野崇宏「調査観察データの統計科学」Pearl「入門 統計的因果推論」岩波データサイエンス Vol.3宮川雅巳「統計的因果推論」を読むべきなのでしょうが全部会社に置いたままです.

Python による実装

ybenjo/cibook_by_python にアップロードしました.注意点を書きます.

  • タイトルに「ほぼ」と入れたのは以下の実装を行っていないため
    • 各種図表の描画
    • 4章の causalimpact を用いた実験
    • 5章の Nonparametric RDD の実験
  • セレクションバイアスを発生させたメールデータの値が本文と一致せず,かつ,乱数の seed によっては本来の値とは逆のセレクションバイアスが発生してしまう
  • RData の読み込みは ofajardo/pyreadr が良かった
  • 3.4.4 の傾向スコアの推定において本文では re74re75 の二乗を共変量に追加しているが,実験したところ傾向スコアが著しく悪化したために除外した
  • 傾向スコアマッチングは greedy にやってしまった
  • pandas の使い方が全く分からなくて途中で挫折した. groupby() して sum() した結果の加工が本当に分かっていない
  • R と違って欠損のある行を明示的に除外している

誤植・不明点

他の人も指摘しているかも知れないけれどネタバレが怖くて他人のエントリを読んでいない.自分の勘違いも多く含んでいると思う.

  • 著者の実装は R を用いているわけですが,目的変数または説明変数に NA を含んだ場合,その行を除外して推定を行うのがデフォルトの挙動だと思うが,欠損値のある行を消してしまうのは新たなバイアスを産むのではないか
  • p31 recencyが3より小さい場合6より小さい場合 の誤り
  • p55 \beta_1 - \alpha_1 = \gamma_1 \beta_1\alpha_1 - \beta_1 = \gamma_1 \beta_1 の誤り
    • 関連して p57 の \beta_1 - \alpha_1 はすべて \alpha_1 - \beta_1
  • p87 相関が強いと分子は0に近づき相関が強いと分母は0に近づき の誤り
  • p108 共変量のバランス における 平均の差をその標準偏差で割ったその がよくわからない.検索したところこの値は Cohen の d と呼ばれているらしい
    • 自分の実装では一部の共変量がバランスしないままだった.そういうこともあると思いたい
  • p141 よって,この分析の結果による効果量はそれらの差分をとって-1,554若しくは-43%ということになり は何に対して -43% なのか,分母は何なのかが明示されていないために分からない
  • p142 1853年の〜 という記述は全て 1854年
  • p151 Cigar データセットの導入が面倒だったので github の著者レポジトリで配布して欲しいと思いましたがライセンスが GPL2 だから無理なのでしょうか
    • なぜか自分が構築したさまざまな R の環境では Ecdat パッケージのインストールに失敗し続けた
    • 最終的に RStudio Cloud 上でデータを抽出
  • p156 著者実装 ch4_did.Rcausalimpactselectdplyr::名前空間を指定しないとエラーが出る
  • p176 nonparametric RDD の説明がされておらず,このモデルは一体何を行っているのかが全くわからない
  • p180 5.4.1
    • 二つの施策を行う状況はそもそも RDD と関係無いのでは
    • では施策以外で非連続になる状況は何か

声優統計コーパスのバランス文を修正しました & 引用されている論文を列挙しました

音素バランス文の読みの修正

対応が遅れてしまい申し訳ありません.

GitHub の Issue でも指摘されていた (#6および#7) バランス文の読みを修正しました.該当箇所は 020,043,057,076,079,087 の読みと対応する音素です.変更差分はこの commit を参考にしてください.

声優統計コーパスを引用している論文の列挙

また,声優統計コーパスを利用してる論文を検索して列挙しました.名の知れた会議の原稿に y_benjo and MagnesiumRibbon と書かれているのを読むのは気分が良いものです.

高道さん以外の研究室でも使われているのを見かけて驚きました.

引用先を arXiv にしたい

しかし今更になって思うのですが引用先をホームページにするのではなく arXiv などの原稿にしておけば引用件数が Google に拾ってもらえたのではないでしょうか(検索結果に 被引用数 が表示されて欲しい).今からでも間に合うのでしょうか.誰か arXiv への投稿を承認してくれる人を探さなければならない.この日記を読んでいる承認可能で「承認してもいい」という奇特な方はご連絡ください.

ここまで書いたところで「そもそも arXiv は実名で無い名前で原稿を投稿できるのだろうか」と思い調べたところ

It is a violation of our policies to misrepresent your identity or organizational affiliation. 
Claimed affiliation should be current in the conventional sense: e.g., physical presence, funding, e-mail address, etc. 
Misrepresentation of identity or affiliation, for any reason, is possible grounds for immediate and permanent suspension.

とあるので y_benjo and MagnesiumRibbon 名義で原稿を投稿するのは無理ということが分かりました.誰か回避策をください.

Google Dataset Search への対応

これは些細なことですが, GoogleDataset Search に反映されるように schema を書きました.早くクローラに検出されたい.

IBIS 2019 行った

第22回情報論的学習理論ワークショップ (IBIS 2019) | 第22回情報論的学習理論ワークショップ, 2019.11.20〜23, ウインクあいちに行った.

  • 昨年の札幌に比べると名古屋は近い
  • いつもの胃ではなく腸の具合が完全に悪くて半分ぐらいまともに発表を聞かずにトイレにいた
    • ウインクあいち2階上のトイレは人も少なくホールの音声も聞こえて快適
    • 抗生物質を処方された時は忘れずに整腸剤も貰わないと本当に駄目だと痛感しました
  • 有料のチュートリアルも聞きたかったのですが朝から握手会があったので断念

11/20

グラフ文法を用いたグラフ生成

  • 「化学構造式のためのハイパーグラフ文法」を発表した(JSAI2018) で予習していた
  • 分子グラフの生成をしたい
  • (ハードな)原子価の制約を必ず満たす分子ハイパーグラフ文法を提案
  • ソフトな制約は VAE で学習する
  • 全てを深層学習でやるのではなく,ハードな制約があるのならばそれはそれで抽出し,そうでない部分を学習する,という話の構造が大好きです
  • always generate valid molecules って響きがかっこいいですね

回帰による再帰ニューラルネットワークからの重み付きオートマトンの抽出

  • 前半をトイレで音だけ聞いていたら話に全くついていけなかった

隣接代数と双対平坦構造を用いた学習

  • はじめに Matrix Balancing という操作が登場する
  • Matrix Balancing できると何が嬉しいのかよくわからないまま話を聞いていたので本当に駄目

招待講演はホテルに戻って腹痛と格闘.

ポスター

  • 1-020: ニュース推薦システムにおける各種埋め込み手法の比較検討
    • 「色々埋め込みを試したけど人気順で推薦するのと対して精度が変わらない,時間と資源を使って深層学習をやる意味は本当にあるのか?」という話が良かった
  • 1-021: 広告種類を考慮した不均衡データからのCTR予測モデルの学習
    • 「とりあえず A/B テストで検証できる」みたいな環境は良い
  • 1-022: 制約付きオンライン凸最適化によるアドネットワークのクリック単価決定
    • 「良いシミュレータを作っておくと様々な戦略を実験できる」という話が良かったので公開して欲しい
  • 1-026: 半教師あり介入効果推定
    • 介入効果推定のブームに乗りたい
  • 1-037: なぜ血液検査値は対数正規分布になるのか
    • タイトルが「なぜなるのか」なのにポスターの冒頭が「対数正規分布になる」なのが良かった
  • 1-045: 購買履歴データに基づくポイントカードユーザのクレジット切り替え行動分析モデル
    • ポイントカードのクレジットカード機能付への切り替えが F-measure 0.9 で予測できたという話
    • 本当なら全員が幸せだけどさすがになにかおかしくないですか,みたいな話をする
  • 1-094: 未知のバイクシェアポート需要予測のためのノンパラメトリックベイズ生成モデル
    • 久しぶりにグラフィカルモデルを見て新鮮な気持ちになる
  • 1-113: 混合エキスパートモデルによる略語や表記揺れに頑健なテキスト名寄せ
    • Mixture of Experts の響きがかっこいいという話と,タスクの絶妙な面倒臭さ・泥臭さの対比が良かった

11/21

サンプリングによるデータ駆動科学

データ駆動科学の立場からみた物質科学と情報科学の接点

  • これまでの研究
    • MD の結果をひたすら見る
    • 分子の向きを少し変えた結果をひたすら見る
  • 計算化学から計算科学へ
  • 計測データを計算データでフィット
  • 第一原理電子状態計算を利用したポテンシャルのフィッティング
    • 原子間に働くポテンシャルのデザインがシミュレーションに重要
    • NN によるポテンシャルモデリングの試みは 95 年ごろから
      • 表面化学反応のシミュレーションは大事だけど面倒
      • 第一世代の問題 : 表面ごとに表現する必要があってだるい,三次元配置を入力にすると精度が出ない
    • アモルファス内のイオン安定配置の全探索も NN ベースでやる
  • スペクトル解析(ピーク位置推定)に EM を使ったり,データが多くてもよく考えると離散値なのでヒストグラムにまとめて sum を取って高速化したり
    • 情報系のテクニックによって成果になる

集団運動におけるデータ駆動科学

  • 集団行動
    • 動物行動,歩行者,子供の遊び,スポーツ
  • 物理学的な動的システムの理解
    • x_{t+1} = f(x_{t})
    • f が既知で解析的に解ける
    • f が既知でも解析的に解けない (歩行者モデル, helbing 2000)
  • 集団運動は階層性.非線形性のある実環境での理解が難しい -> データで推定したい
  • スポーツの戦術分析
  • モデル化と理解のトレードオフ
    • モデル駆動 (方程式ベース)
      • 原理は理解できるが複雑にならない
    • データ駆動 (方程式フリー)
      • 複雑になるが原理は理解できない
    • データ駆動的なモデル化でギャップが埋められるのではないか
  • 「音楽だけ与えると子供は回りだすんですよ」
  • データから特徴抽出したい
  • 集団行動分析は既存研究が少ないので可視化・理論・解釈を工夫
  • 動的モード分解 : クープマン作用素のスペクトル分析
  • 集団行動解析のためのグラフ DMD
    • 問題 1 : モードの可視化解釈が難しい
    • 問題 2 : 個体間に依存関係を持つはずが従来のDMDでは反映できない
    • そこで Graph DMD
    • 集団運動の動的情報抽出,大規模な運動の分類
    • データ駆動的な解釈
  • 良い話だと思うのですが動的モード分解が「行列・テンソル分解の複雑なもの」ぐらいの粒度でしか理解できなかった

ポスター

  • 2-002: Causal Outcome Prediction on Combinatorial Action Spaces
    • 施策 a の組み合わせが膨大な時に全パターンを網羅するのは大変
    • 特徴量 xa との対を受け取って変換し uniform な施策の変換結果となるべく近づけるように学習
    • 既存研究のタイトルを聞き忘れた
  • 2-013: 勾配ブースティング木における木成長時の勾配情報更新による学習加速
    • 本家 xgboost に merge される予定があるのか聞くのを忘れた
  • 2-018: グラフィカルモデルを用いた犯罪発生リスクエリアのスパース性を考慮した相関関係の可視化
    • グラフィカルモデルが bayesian なそれではなくて「グラフィカルな」の意味で使われていて勘違いしたので別の語を使ったほうがいいと思う
  • 2-037: 人間GAN:人間による知覚的識別に基づく敵対的生成ネットワーク
    • 誰しも一度は考えたことがある Discriminator に人間を使う GAN
    • どう backpropagation するのかと思ったら人間への聞き方を工夫すると微分の近似になるというのが良かった
  • 2-047: SGDの挙動解析に基づくデータクレンジング
    • 本当にいい話で良かった
  • 2-056: 早期終了タイミングを予測する:深層学習における確率勾配の分布の変化点検出
    • いい話だった
  • 2-084: 機械は乱数の夢を見るか
    • ポスターの結論が「機械は乱数の夢を見る」だったのが良かった
  • 2-110: 訓練事例が機械学習モデルの予測に与える影響の測り方
    • 人が多くて聞くことができなかった

11/22

「深層学習の理論」はホテルで作業.

機械学習工学」の休憩時間に後ろから大学関係者による「数式が出てこない発表は面白くないなあ!」という大きな声が聞こえて参加者の興味も幅広いものだと思う.無理に聞かずにホテルに戻ればよかったのではないか.

機械学習に対するソフトウェア工学の技術動向

  • ソフトウェア工学
    • 要求工学 : システムの要求を定義・合意・記述しその妥当性確認をする
    • 設計 : 品質を実現する
    • テスティング : 不具合に代表される様々な品質の問題に対応する
  • 従来 : シナリオで書ける
  • 機械学習 : 曖昧な入力と曖昧な実装,曖昧なデータに対する評価
  • どう難しくなってるか?
    • アンケートによると「顧客との意思決定」「テスト・品質の評価・保証」が特に難しい
    • 考え方を変えなければならない
  • 契約・仕様・受け入れの課題
    • 何ができるか具体的には事前に約束できない
      • 作らないとわからない
      • 準委任 (頑張ろう)
      • 後出しで文句言いやすい
    • PoC
      • お試しで終わることが多い
    • 不確かさが多くて納得しにくい
      • どうして?
  • 保守の課題
    • 技術的負債
    • (疑問 : 負債負債というけれど 3-5年後も同じアプリが必要になるのか?)
  • テスト技術の例
    • そもそもこのあたりで「何をテストしたいのか」という明確な定義が無いままに話が進む
      • コーディング?
      • ロジック?
      • パラメタ推定手続き?
      • 推定されたパラメータ? (恐らくこれっぽい)
    • テスト不可能
    • テストでバグを見つけるとは?
    • 単体テスト
      • でかいから無理
    • 要求カバレッジ? 同意クラス?
      • 広すぎる
    • コードカバレッジ?
  • メタモルフィックテスティング
    • 例 : sin(x) と sin(pi-x) が一致することを確認
    • これを繰り返す
    • いろいろな例を作る
  • サーチベースドテスティング
  • システムレベルの要求に基づくテストの例
    • VerifAI (Berkeley)
  • 形式検証技術の適用
  • デバッグ技術の例
    • 分類ミスした事例の特徴量を比較して再選択 -> 能動学習のような話
  • 質疑では「これは一体何をテストしているのか」「感度分析とかありますよね」という話になる

機械学習知財・契約

  • この領域で多くの記事を書いているSTORIA法律事務所による講演
  • 収集
  • 開発
    • 何が知財で守られるのか
  • 展開
  • データの種類 x 取得方法 x 規約
  • データ収集の問題点
    • 医療機関から医療データをもらう
      • 個人情報
      • 三者提供は同意が必要
      • 前向き研究はできるが後ろ向き研究は不可能
      • 委託スキームでやるとか
    • 店頭顔写真リアルタイム分析で情報提供
      • 個人データの第三者提供
      • いちいち同意を取るのか?
      • 複数から委託してデータをマージすると問題になる
    • 自然言語クロール
      • 情報解析のためであれば複製が可能
  • よくある質問
    • ベンダとして事業会社と共同プロジェクトをやりたい
    • ユーザ : 自社で独占したい
    • ベンダ : うちのノウハウが入ってるし横展開したい
    • 知財であるものないものを認識する
  • 展開の重要性
    • 成果物や派生物が思わぬ価値を生むことがある
    • 作って終わり・作業して終わりではない
    • 成果物をどう使うかを最初に定める必要がある
    • 様々なパターンにわけて解説が行われたわけですが,途中からどうにもわからなくなる.「開発ベンダが成果物を横展開したい場合」などはあまり現実的ではないように思う
  • 「存在しない顔を生成する」と謳うベンチャーが昨今多いが,実在の人物 A に似た顔があったとしても A はプライバシーや肖像権を主張できないのか,という質問がしたくて手を挙げるも司会者に無視された

継続的改善をし続けるための機械学習基盤の課題

  • typical steps for machine learning project
  • データが振る舞いを決めるため確率的にエラーを抑えることしかできない
    • AUC/loss が改善しても本当にコンバージョンが改善するのか
    • またそれは別の話ではないのか
  • 確率的な挙動をするため変更の影響範囲を事前に予見できない
  • Same code, CI passed, but prediction fails
    • 大人の声で学習したモデルが若者の間で流行るも精度が劣化
    • 工場の画像検査システムが光の条件が変化して破綻
    • 検索ランキングが新規要素出現で性能が劣化
    • (コンセプトドリフトではないと思う)
    • (そもそも未知の状態をどこまで想定するかでは?)
    • (「猫を電子レンジに入れるな」という但し書きをどこまで機械学習領域で行うのか?)
  • チームをまたいで頑張ろう
  • 後半はツールの紹介が多くてどうにも散漫に感じた

日本におけるデータサイエンスの現状と今後

  • データサイエンティストの必要性
  • ビッグデータとデータサイエンス
    • 進歩してるから頑張ろう
  • DS教育の滋賀大モデル
    • 統計,CS, 実データを用いた演習
  • ビッグデータとデータサイエンスの諸側面
    • 共同研究はうまくいったりいかなかったり
    • 課題駆動型アプローチとデータ駆動型アプローチ
  • 「なぜ日本に統計学部・学科がないのか,その歴史的経緯」「滋賀大学で開講するにあたってどのような苦労があったのか」「今後国策として統計学部・学科を本気で増やそうとしているのか,一過性のブームなのか」という話が聞きたくて手を挙げるも司会者に無視される.次回から質問する時には異常な音や光,悪臭を発する必要があると学びました