糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

IBIS 2019 行った

第22回情報論的学習理論ワークショップ (IBIS 2019) | 第22回情報論的学習理論ワークショップ, 2019.11.20〜23, ウインクあいちに行った.

  • 昨年の札幌に比べると名古屋は近い
  • いつもの胃ではなく腸の具合が完全に悪くて半分ぐらいまともに発表を聞かずにトイレにいた
    • ウインクあいち2階上のトイレは人も少なくホールの音声も聞こえて快適
    • 抗生物質を処方された時は忘れずに整腸剤も貰わないと本当に駄目だと痛感しました
  • 有料のチュートリアルも聞きたかったのですが朝から握手会があったので断念

11/20

グラフ文法を用いたグラフ生成

  • 「化学構造式のためのハイパーグラフ文法」を発表した(JSAI2018) で予習していた
  • 分子グラフの生成をしたい
  • (ハードな)原子価の制約を必ず満たす分子ハイパーグラフ文法を提案
  • ソフトな制約は VAE で学習する
  • 全てを深層学習でやるのではなく,ハードな制約があるのならばそれはそれで抽出し,そうでない部分を学習する,という話の構造が大好きです
  • always generate valid molecules って響きがかっこいいですね

回帰による再帰ニューラルネットワークからの重み付きオートマトンの抽出

  • 前半をトイレで音だけ聞いていたら話に全くついていけなかった

隣接代数と双対平坦構造を用いた学習

  • はじめに Matrix Balancing という操作が登場する
  • Matrix Balancing できると何が嬉しいのかよくわからないまま話を聞いていたので本当に駄目

招待講演はホテルに戻って腹痛と格闘.

ポスター

  • 1-020: ニュース推薦システムにおける各種埋め込み手法の比較検討
    • 「色々埋め込みを試したけど人気順で推薦するのと対して精度が変わらない,時間と資源を使って深層学習をやる意味は本当にあるのか?」という話が良かった
  • 1-021: 広告種類を考慮した不均衡データからのCTR予測モデルの学習
    • 「とりあえず A/B テストで検証できる」みたいな環境は良い
  • 1-022: 制約付きオンライン凸最適化によるアドネットワークのクリック単価決定
    • 「良いシミュレータを作っておくと様々な戦略を実験できる」という話が良かったので公開して欲しい
  • 1-026: 半教師あり介入効果推定
    • 介入効果推定のブームに乗りたい
  • 1-037: なぜ血液検査値は対数正規分布になるのか
    • タイトルが「なぜなるのか」なのにポスターの冒頭が「対数正規分布になる」なのが良かった
  • 1-045: 購買履歴データに基づくポイントカードユーザのクレジット切り替え行動分析モデル
    • ポイントカードのクレジットカード機能付への切り替えが F-measure 0.9 で予測できたという話
    • 本当なら全員が幸せだけどさすがになにかおかしくないですか,みたいな話をする
  • 1-094: 未知のバイクシェアポート需要予測のためのノンパラメトリックベイズ生成モデル
    • 久しぶりにグラフィカルモデルを見て新鮮な気持ちになる
  • 1-113: 混合エキスパートモデルによる略語や表記揺れに頑健なテキスト名寄せ
    • Mixture of Experts の響きがかっこいいという話と,タスクの絶妙な面倒臭さ・泥臭さの対比が良かった

11/21

サンプリングによるデータ駆動科学

データ駆動科学の立場からみた物質科学と情報科学の接点

  • これまでの研究
    • MD の結果をひたすら見る
    • 分子の向きを少し変えた結果をひたすら見る
  • 計算化学から計算科学へ
  • 計測データを計算データでフィット
  • 第一原理電子状態計算を利用したポテンシャルのフィッティング
    • 原子間に働くポテンシャルのデザインがシミュレーションに重要
    • NN によるポテンシャルモデリングの試みは 95 年ごろから
      • 表面化学反応のシミュレーションは大事だけど面倒
      • 第一世代の問題 : 表面ごとに表現する必要があってだるい,三次元配置を入力にすると精度が出ない
    • アモルファス内のイオン安定配置の全探索も NN ベースでやる
  • スペクトル解析(ピーク位置推定)に EM を使ったり,データが多くてもよく考えると離散値なのでヒストグラムにまとめて sum を取って高速化したり
    • 情報系のテクニックによって成果になる

集団運動におけるデータ駆動科学

  • 集団行動
    • 動物行動,歩行者,子供の遊び,スポーツ
  • 物理学的な動的システムの理解
    • x_{t+1} = f(x_{t})
    • f が既知で解析的に解ける
    • f が既知でも解析的に解けない (歩行者モデル, helbing 2000)
  • 集団運動は階層性.非線形性のある実環境での理解が難しい -> データで推定したい
  • スポーツの戦術分析
  • モデル化と理解のトレードオフ
    • モデル駆動 (方程式ベース)
      • 原理は理解できるが複雑にならない
    • データ駆動 (方程式フリー)
      • 複雑になるが原理は理解できない
    • データ駆動的なモデル化でギャップが埋められるのではないか
  • 「音楽だけ与えると子供は回りだすんですよ」
  • データから特徴抽出したい
  • 集団行動分析は既存研究が少ないので可視化・理論・解釈を工夫
  • 動的モード分解 : クープマン作用素のスペクトル分析
  • 集団行動解析のためのグラフ DMD
    • 問題 1 : モードの可視化解釈が難しい
    • 問題 2 : 個体間に依存関係を持つはずが従来のDMDでは反映できない
    • そこで Graph DMD
    • 集団運動の動的情報抽出,大規模な運動の分類
    • データ駆動的な解釈
  • 良い話だと思うのですが動的モード分解が「行列・テンソル分解の複雑なもの」ぐらいの粒度でしか理解できなかった

ポスター

  • 2-002: Causal Outcome Prediction on Combinatorial Action Spaces
    • 施策 a の組み合わせが膨大な時に全パターンを網羅するのは大変
    • 特徴量 xa との対を受け取って変換し uniform な施策の変換結果となるべく近づけるように学習
    • 既存研究のタイトルを聞き忘れた
  • 2-013: 勾配ブースティング木における木成長時の勾配情報更新による学習加速
    • 本家 xgboost に merge される予定があるのか聞くのを忘れた
  • 2-018: グラフィカルモデルを用いた犯罪発生リスクエリアのスパース性を考慮した相関関係の可視化
    • グラフィカルモデルが bayesian なそれではなくて「グラフィカルな」の意味で使われていて勘違いしたので別の語を使ったほうがいいと思う
  • 2-037: 人間GAN:人間による知覚的識別に基づく敵対的生成ネットワーク
    • 誰しも一度は考えたことがある Discriminator に人間を使う GAN
    • どう backpropagation するのかと思ったら人間への聞き方を工夫すると微分の近似になるというのが良かった
  • 2-047: SGDの挙動解析に基づくデータクレンジング
    • 本当にいい話で良かった
  • 2-056: 早期終了タイミングを予測する:深層学習における確率勾配の分布の変化点検出
    • いい話だった
  • 2-084: 機械は乱数の夢を見るか
    • ポスターの結論が「機械は乱数の夢を見る」だったのが良かった
  • 2-110: 訓練事例が機械学習モデルの予測に与える影響の測り方
    • 人が多くて聞くことができなかった

11/22

「深層学習の理論」はホテルで作業.

機械学習工学」の休憩時間に後ろから大学関係者による「数式が出てこない発表は面白くないなあ!」という大きな声が聞こえて参加者の興味も幅広いものだと思う.無理に聞かずにホテルに戻ればよかったのではないか.

機械学習に対するソフトウェア工学の技術動向

  • ソフトウェア工学
    • 要求工学 : システムの要求を定義・合意・記述しその妥当性確認をする
    • 設計 : 品質を実現する
    • テスティング : 不具合に代表される様々な品質の問題に対応する
  • 従来 : シナリオで書ける
  • 機械学習 : 曖昧な入力と曖昧な実装,曖昧なデータに対する評価
  • どう難しくなってるか?
    • アンケートによると「顧客との意思決定」「テスト・品質の評価・保証」が特に難しい
    • 考え方を変えなければならない
  • 契約・仕様・受け入れの課題
    • 何ができるか具体的には事前に約束できない
      • 作らないとわからない
      • 準委任 (頑張ろう)
      • 後出しで文句言いやすい
    • PoC
      • お試しで終わることが多い
    • 不確かさが多くて納得しにくい
      • どうして?
  • 保守の課題
    • 技術的負債
    • (疑問 : 負債負債というけれど 3-5年後も同じアプリが必要になるのか?)
  • テスト技術の例
    • そもそもこのあたりで「何をテストしたいのか」という明確な定義が無いままに話が進む
      • コーディング?
      • ロジック?
      • パラメタ推定手続き?
      • 推定されたパラメータ? (恐らくこれっぽい)
    • テスト不可能
    • テストでバグを見つけるとは?
    • 単体テスト
      • でかいから無理
    • 要求カバレッジ? 同意クラス?
      • 広すぎる
    • コードカバレッジ?
  • メタモルフィックテスティング
    • 例 : sin(x) と sin(pi-x) が一致することを確認
    • これを繰り返す
    • いろいろな例を作る
  • サーチベースドテスティング
  • システムレベルの要求に基づくテストの例
    • VerifAI (Berkeley)
  • 形式検証技術の適用
  • デバッグ技術の例
    • 分類ミスした事例の特徴量を比較して再選択 -> 能動学習のような話
  • 質疑では「これは一体何をテストしているのか」「感度分析とかありますよね」という話になる

機械学習知財・契約

  • この領域で多くの記事を書いているSTORIA法律事務所による講演
  • 収集
  • 開発
    • 何が知財で守られるのか
  • 展開
  • データの種類 x 取得方法 x 規約
  • データ収集の問題点
    • 医療機関から医療データをもらう
      • 個人情報
      • 三者提供は同意が必要
      • 前向き研究はできるが後ろ向き研究は不可能
      • 委託スキームでやるとか
    • 店頭顔写真リアルタイム分析で情報提供
      • 個人データの第三者提供
      • いちいち同意を取るのか?
      • 複数から委託してデータをマージすると問題になる
    • 自然言語クロール
      • 情報解析のためであれば複製が可能
  • よくある質問
    • ベンダとして事業会社と共同プロジェクトをやりたい
    • ユーザ : 自社で独占したい
    • ベンダ : うちのノウハウが入ってるし横展開したい
    • 知財であるものないものを認識する
  • 展開の重要性
    • 成果物や派生物が思わぬ価値を生むことがある
    • 作って終わり・作業して終わりではない
    • 成果物をどう使うかを最初に定める必要がある
    • 様々なパターンにわけて解説が行われたわけですが,途中からどうにもわからなくなる.「開発ベンダが成果物を横展開したい場合」などはあまり現実的ではないように思う
  • 「存在しない顔を生成する」と謳うベンチャーが昨今多いが,実在の人物 A に似た顔があったとしても A はプライバシーや肖像権を主張できないのか,という質問がしたくて手を挙げるも司会者に無視された

継続的改善をし続けるための機械学習基盤の課題

  • typical steps for machine learning project
  • データが振る舞いを決めるため確率的にエラーを抑えることしかできない
    • AUC/loss が改善しても本当にコンバージョンが改善するのか
    • またそれは別の話ではないのか
  • 確率的な挙動をするため変更の影響範囲を事前に予見できない
  • Same code, CI passed, but prediction fails
    • 大人の声で学習したモデルが若者の間で流行るも精度が劣化
    • 工場の画像検査システムが光の条件が変化して破綻
    • 検索ランキングが新規要素出現で性能が劣化
    • (コンセプトドリフトではないと思う)
    • (そもそも未知の状態をどこまで想定するかでは?)
    • (「猫を電子レンジに入れるな」という但し書きをどこまで機械学習領域で行うのか?)
  • チームをまたいで頑張ろう
  • 後半はツールの紹介が多くてどうにも散漫に感じた

日本におけるデータサイエンスの現状と今後

  • データサイエンティストの必要性
  • ビッグデータとデータサイエンス
    • 進歩してるから頑張ろう
  • DS教育の滋賀大モデル
    • 統計,CS, 実データを用いた演習
  • ビッグデータとデータサイエンスの諸側面
    • 共同研究はうまくいったりいかなかったり
    • 課題駆動型アプローチとデータ駆動型アプローチ
  • 「なぜ日本に統計学部・学科がないのか,その歴史的経緯」「滋賀大学で開講するにあたってどのような苦労があったのか」「今後国策として統計学部・学科を本気で増やそうとしているのか,一過性のブームなのか」という話が聞きたくて手を挙げるも司会者に無視される.次回から質問する時には異常な音や光,悪臭を発する必要があると学びました