Robust Logistic Regression using Shift Parameters (ACL 2014) 読んだ
概要
[1305.4987] Robust Logistic Regression using Shift Parameters (Long Version)
一部のデータに対して誤ったラベルが付与されているような状況において頑健なロジスティック回帰を提案する.
著者は The Elements of Statistical Learning の著者 Julie Tibshirani と NLP界の巨匠(NLP殆ど知らない自分でも名前を知っている) Manning.
自分が読んだのは ACL short のもの.リンクを貼ったのは long version なので読んでない部分がいくつかあると思う.
モデル
事例に対する通常のロジスティック回帰が(推定すべき重みパラメータをとして)
であるとすると, shift parameters を追加して
とする.
の気持ちとしては,でまずは理想的なラベルを学習する.その上で,事例のラベルが間違っている場合にを作って補正を行うという状態.なのでを見ればどの事例のラベルが間違っていたかを判別することができる(実験ではL1の正則化を与えた結果残ったをチェックしている).
推定
は各事例ごとに推定する必要がある.
実装としては,通常の特徴量に対してその事例であることを示す 1-of-K 表現の特徴量を追加するだけで済む.よって元の特徴量の次元mに対して全事例数だけ次元が増えるだけで済む.
あとは通常のモデル推定をすればいい.特徴量を加工するだけでいいのでscikit-learnでもなんでも利用可能.お手軽で便利.