糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

IBIS 2017 行った

IBIS2017 | 第20回情報論的学習理論ワークショップ, 2017.11.8〜11, 東京大学 本郷キャンパス
聞いたポスターについてメモ.人があまりに多くて,予定していた半分も聞くことができなかった.

  • D1-22 : 機械学習モデルの列挙
    • 著者らによるスライド 機械学習モデルの列挙
    • 同じ精度を持ちつつ,異なるモデルを複数列挙することでユーザが納得のいくモデルを見つけることができる,という話
    • Enumerate Lasso の論文は読んでいたけれど,特殊な形の決定木であっても列挙は可能である,という話をもう少し詳しく聞きたかった
  • D1-25 : HTTP通信を用いた半教師あり学習によるマルウェア感染端末の分類器について
    • 教師あり学習で判別したいが特徴量が非常にスパース.そこで半教師ありでデータを追加すると精度が改善する
    • とはいえ追加せずとも AUC が 0.8 近かった
  • D1-38 : 自己回帰テンソル分解による時空間予測
    • 例えば,離散時刻ごとに各メッシュ(空間を等間隔で区切ったものとするが,本質的にはユニークな位置でも構わない)に人が何人いるか,というデータが存在しているとする.もっとも難しいのは,未来の時刻に未知のメッシュの人数を予測するという,時空間的な外挿問題である.
    • テンソル分解で予測を行うが,時間方向には AR モデルを想定し,空間方向には「予測対象である位置と,その近傍位置との角度に対するトレンド」という構造を持ち込む.
      • どういうことかというと,予測対象点と周囲の点にどういう流れが存在しているかという関係.例えば角度を4等分すれば90度ごとのトレンドがある.言葉では説明しづらいけれど図を書けばすぐに伝わるはず.
      • 角度という単位に落とすのでそこまでスパースではない
      • とはいえ空間の絶対位置で方向トレンドが変化しないのでそれは future work らしい
    • Temporal Regularized Matrix Factorization for High-dimensional Time Series Predictionの発展系.
  • D1-41 : IILasso:相関情報を罰則項に導入したスパースモデリング
    • Lasso は相関係数が高い変数が目的変数に関係なく採用されてしまうという特性がある.ので,変数間の相関関係を罰則項に導入する
    • D1-22 の Enumerate Lasso における仮定 (相関がある変数が採用されないので,一方を除外してもう一方を採用することで納得度の高いモデルを列挙する) と逆の事を言っているなと感じたのでそのまま質問したところ,「それもそうなんですが相関が高い変数も採用されてしまう」とのことだった.
    • 論文は [1711.01796] Independently Interpretable Lasso: A New Regularizer for Sparse Regression with Uncorrelated Variables
  • D1-48 : 関係データに向けた混合エキスパートモデル
    • それぞれのユーザについて,購買データ(何を買ったか)と属性データ(年齢や性別など)の両方が存在している時に,属性データの一部が欠損しているので予測したい
    • 購買データを特徴量にして属性を予測するには特徴量の加工などが必要
    • そこで,「購買データを元にユーザをクラスタリングする」「クラスタごとに属性を予測するモデルを構築する」の二つを同時(交互)に最適化することで,精度良く予測できるクラスタ構造を推定する
    • クラスタリングは IRM で予測は Structured SVM でやると目的関数が 2 モデルを結合した生成モデル的に書けて便利
    • クラスタリング結果の解釈は難しかったらしい
    • Relational Mixture of Experts: Explainable Demographics Prediction with Behavioral Data (ICDM 2017) で論文になっているらしい
  • D1-50 : 学習可能なマスクを用いた柔軟な類似度計算手法
    • DNNで特徴抽出する属性別の類似画像検索を実現したいが,属性別にモデルを作るのはコストが高い
    • 既存研究 (論文忘れた) では最終層一つ前に Mask と呼ばれる層を属性別にベクトルとして導入して,「今はどの属性で類似検索を行っているのか」を学習させることで,特徴量抽出部分を使いまわせたり,恐らく学習済みモデルをそのまま適用することが可能
    • それを複数属性での検索に拡張しようという話
    • 単一マスクでの検索と複数マスクでの検索の関係がわかりにくかった
  • D1-54 : Web小説を学習に用いた二段階LSTMによる台本形式小説生成
    • 「キャラクター名『台詞』」の連続で構成される Web 小説 (題材はアイマス SS) を学習する LSTM
    • ネットワーク名が TULIP なのに「キャラクターには詳しくないのですが」と言っていた
    • 出力は一見それらしかったが,評価がうまくいってないかもしれないらしい
    • キャラクターの埋め込み結果とか見たかった
  • D2-4 : Delayed Feedback を考慮した予測モデルの提案
  • D2-23 : ブランドコンセプトを反映したファッションアイテム類似検索
    • ファッションアイテム類似検索にブランドコンセプトを反映する
    • IQON のデータではユーザがアイテムに like をつけた時系列情報があるのでそれを元にブランドごとの embedding を学習する,があまり効かなかったらしい
  • D2-36 : 観測が制限されたオンラインスパース線形回帰問題に対する効率的アルゴリズム
    • オンライン学習で,かつ,説明変数の一部を選んで予測および学習ができるという状況でどう効率的に特徴量を選べばいいかという問題
    • 「例えば,未知の病気に対してすべての検査を実施するのではなく,そのうち一部だけを実施するという状況です」という説明がとてもわかりやすかった
    • Efficient Sublinear-Regret Algorithms for Online Sparse Linear Regression with Limited Observation (NIPS 2017) らしい
  • D2-46 : カーネル法に基づく共起尺度
    • PMI を一般化して二つの系列に対する共起の度合いを計算する手法が提案されている
    • 二つの系列の類似度を計算するカーネルの形に変形できるので,あとはカーネルの設計をうまくやれば良い感じに共起や類似度計算ができるようになる
    • 説明がわかりやすかったせいか思い返すと理解があやふやなので論文が読みたい
    • 論文多分これだと思う Learning Co-Substructures by Kernel Dependence Maximization | IJCAI

渡辺澄夫先生の「学習理論よ何処へ」も聞いた.「人間力・構想力・コミュニケーション力ばかりが求められて」云々,という話から始まり,会場は大盛り上がりなのだけれど,どのような人間力・構想力・コミュニケーション力ばかりが重視されているのか,一体何を・誰を・どのような現象を敵と見据えての話なのかがわからないままで,居心地が悪かった.幸いなことに中盤以降は学習理論の話になって良かった.
話が飲み込めなかった理由は,自分が職業研究者ではなく,また,会場に集まった皆さんのように研究能力や知能が高くないからなのだと思う.みんなみたいに優れた知性を持った研究者になりたかった.