糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

「ビジネス課題を解決する技術〜数理モデルの力を引き出す3ステップフレームワーク」読んだ

ご恵贈いただきました.遅くなってしまい申し訳ありません.

「ビジネス課題を解決する」とはタイトルにありますが,本書では

  • なんらかの問題をどのように数理モデルとして表現すべきか
  • その際「とりあえず回帰で」「とりあえず対数変換で」ではなく,「今取り組んでいる問題はどのような構造や仕組みを持っているのか」「それらをどのように数式を用いて表現するか」

を考えるための書籍であると理解しました (その結果,取り組んでいる領域が (たまたま著者の専門だった) 広告に関するタスクだった,ということだと思います).

その思想がもっとも現れているのが2章でしょう.ここでは,CM の接触回数のモデル化について

  • とりあえず (深く考えずに) ポアソン分布を当てはめてみる
  • これでは駄目な雰囲気が出てくる
  • もうちょっと深く考えてみて「ポアソン分布を合成するのはどうか」を試す
  • 良さそうなので更に発展させてガンマ分布へ……
  • 更に発展すると負の二項分布に……

と step-by-step で進んでいくのが好みでした (Dr.HOUSE が好きなので).

このあたりの「訓練」を本書で積むことで,広告以外のドメインにおいても同様の数理モデルが構築できるようになるのが筆者の狙いではないでしょうか.

とはいえここからは,すごく細かい二つの点に言及します.

一つ目は, 3.3.4 におけるグロスリーチの対数を取った線形回帰モデルでの推定について「しかし,この対数変換という選択には,現象の背後にあるメカニズムに基づいた明確な根拠があるわけではなく」は必ずしもそうは言えないと思います (教科書的な説明の流れとして「何も考えずに対数変換してはいけない」という話であることは重々承知しています).

(2.3.4 のリーチカーブ推定における対数のあてはめも,「限界効用逓減」や「劣モジュラ」などの性質を本タスクが持つことを考えると「対数になりそう」は必ずしも理由を欠いているわけではないように思いますが,このあたりの数理は詳しくないので自信はありません).

二つ目は, 4.3.3 以降からしばしば行う予測モデルの当てはまりの良さの評価において, (Random Forest などの非線形モデルに対しても) 決定係数 R2 が用いられている点です. これについては,本書の同シリーズの「評価指標入門」でも「非線形モデルの評価に用いるべきではない」との記載があります.

決定係数R2の誤解:必ずしも相関の2乗という意味でなく,負にもなるし,非線形回帰には使えない

Why Is There No R-Squared for Nonlinear Regression?