糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

CrowdSolvingの「コンテンツ販売サービスの会員離脱予測」に参加して6/43位だった

問題

あるサービスにユーザが登録してから1週間の間に取ったアクション(タイムスタンプ付きの離散値)を入力として,一ヶ月後にサイトから離脱しているかどうかを学習する.

アプローチ

特徴量を作って予測.
More Is Always Better: The Power Of Simple Ensembles « Overkill Analytics
Rを使ってGLM,Lasso,NN,RandomForest,Gradient boostingとか色々試した挙句,GLMとRandomForestの線形和に落ち着いた.
途中からいくら特徴量を足しても手元の 5-fold CV ではAUCが改善するのにleaderboardでは悪化するというループに陥って,public leaderboard(テストデータの半分で計算されるスコア)が0.654を超えなくなって駄目だった.