AJACS37 - MotDBでプレゼンする事になったので22日昼から作業した内容についてまとめる.
目的
イベントにおけるキャンセル者数を予測する.
イベント主催者に取って最も問題になるのはキャンセルの発生である.
飲食が絡むイベントでは予約人数,料金に不整合が発生する.また,イベントが定員に達した時点で諦め,キャンセル待ちのエントリを行わないユーザが発生することもある.
データ
イベント開催支援ツール アテンド : ATND
ルクルートが運営するATNDのデータを利用する.
2013年3月21日までに作られたイベント32223件のうち,イベントが終了したものから外れ値を取り除いた17343イベントを対象にする.
手法
時間が無かったので凝ったことはしていない.
イベントのタイトル,サブタイトル,本文に含まれる名詞を特徴量にしてキャンセル者を回帰で予測.
ツールはLIBLINEAR -- A Library for Large Linear Classification
結果
全イベントにおけるキャンセル者数を予測結果としたものをベースライン,タイトルのみを使ったもの,タイトルと本文を用いたものを5-fold cross vaidationで比較.
タイトルと本文を用いてMSEが11.43ぐらいでやはりモデルが適当すぎて良くない.
もっとやるには
- 予測値がマイナスになる結果が出ていて良くない
- 単語だけというモデルが単純すぎるので他の特徴量を入れる
- 仮説: イベントの定員数はキャンセル者数と比例する
- 入れてみたが精度が低下したのでよくわからない
- 仮説: 定期的に開催しているイベントは常連だらけなのでキャンセルが少ない
- 仮説: キャンセルしやすい人を惹きつける魔法のキーワードがある
- 仮説: イベントの定員数はキャンセル者数と比例する
- アプローチを変えてユーザごとに予測する
- 「このユーザはn%の確率でこのイベントをキャンセルする」を求める
- これができるとATND全体でキャンセルユーザのブラックリストが作成できる
スライド
ATND,開催場所の住所がちゃんと入力されているイベントも多いし,ATND内ならIDが統一されているしもっとマイニングできると思う.