糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Kaggle で Titanic: Machine Learning from Disaster やった

Titanic: Machine Learning from Disaster | Kaggle
タイタニック号の乗客の名前,年齢,性別,チケット代,客室などの情報が与えられた上で,乗客の生死を予測するモデルを学習するコンペティション
タイタニック号の全乗客の生死リストなどはネットに数多く転がっているため,今回のコンペティションは賞金などはなく,純粋にモデル学習の知見を得るためだけに行われている.
@dichikaさんが行なっていたので参加してみた.
とりあえずleaderboard(Titanic: Machine Learning from Disaster | Kaggle)のスコアが当初の目標である0.8を超えた(3/2現在23位)のでここらへんでやめる事にする.
特徴量の構築だったりデータのアンバランスさに想像以上に苦労した.当初はベースラインを超える事ができなかった.
手法はrandomforest.特徴量やデータの分割などをちまちま工夫するなかで勉強になることが多かったので今後に活かしたい.
次は手元のマシンでデータが処理できるのであればブルドーザー給料に取り掛かりたい.