概要
コンテンツ販売サービスの会員離脱予測 | CrowdSolving
CrowdSolving第1回コンペに参加しました 5/43位 - 唯物是真 @Scaled_Wurm
日本版Kaggle: Your Home for Data ScienceのようなCrowdSolving | クラソル | データ分析・予測モデル作成のコンペサイトに参加して微妙な結果で終わった.
問題
あるサービスにユーザが登録してから1週間の間に取ったアクション(タイムスタンプ付きの離散値)を入力として,一ヶ月後にサイトから離脱しているかどうかを学習する.
アプローチ
特徴量を作って予測.
More Is Always Better: The Power Of Simple Ensembles « Overkill Analytics
Rを使ってGLM,Lasso,NN,RandomForest,Gradient boostingとか色々試した挙句,GLMとRandomForestの線形和に落ち着いた.
途中からいくら特徴量を足しても手元の 5-fold CV ではAUCが改善するのにleaderboardでは悪化するというループに陥って,public leaderboard(テストデータの半分で計算されるスコア)が0.654を超えなくなって駄目だった.