糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Is it time for a career switch? (WWW 2013) 読んだ

Is it time for a career switch? (WWW 2013)(pdf)

概要

通常の推薦問題であるような「どの職業を推薦するべきか」ではなく,「どのタイミングで次の職業を推薦するべきか」に取り組んだ論文.
著者のJian WangLinkedIn: Log In or Sign Upの当時インターン,現 Applied Research Engineer.この論文のあとには同じく「どのタイミングで商品を推薦すべきか」という問題に取り組んだOpportunity model for e-commerce recommendation: right product; right time(SIGIR 2013) - 糞ネット弁慶なんかも書いている.最近ずっと追いかけている研究者.

目的

ソフトウェアエンジニアがシニアソフトウェアエンジニアのポストに移るのに平均2年,realtorがbrokersに移るのに平均3年のスパンがある.
このスパンをモデル化してやれば,よりユーザに満足のいく求人推薦が可能になる.
「勤務して2ヶ月や5年以上経過したソフトウェアエンジニアにシニアの求人を出さない」と例示されているが,後者がどうしてユーザの効用が低下するのかという説明が無いのでどういうシチュエーションかうまく想像できなかった.

方向性

基本的には比例ハザード + 階層ベイズ
まず転職の時間感覚をモデル化するために markov renewal process (大雑把に言えばマルコフ連鎖的に時間間隔が決まる) を前提にしたい.でもそれだけじゃ転職のタイミングは決まらない.なぜなら,例えば人気のある企業からの求人であればユーザは平均より短いスパンでも転職しようとするからだ.
なので共変量(特徴量)としてユーザのプロファイルや行動の特徴,今の職種の情報,経済状況,時間,場所なんかを盛り込む(と書いているけど実際には入ってない).
データは当然スパースなので階層化してそこも解消する.
この手法を tenure-based decision probability と著者らは呼んでいる.ここで注意したいのは tenure という語を著者らは転職間隔の事を指している.

数式

基本的にはイベント(転職)が起こる確率密度関数をお約束の Weibull 分布を使って

と推定する.この時は特徴量では重み.
階層化するので正規分布の事前分布,その正規分布にも正規分布と逆ウィシャート分布の事前分布を置く.
特徴量は次のものを使っている.

  • ユーザに関するもの: 年齢,性別,これまでに何回転職したか,平均転職間隔,linkedin上でのつながりの数
  • 職に関するもの: 会社の規模,会社の年齢(創業年数)
  • 二つの職の関係: 会社の規模比,年齢比,同じ肩書か否か,同じ業界か否か
  • ユーザuのカテゴリbへの憧れ: uがbに過去(ここは区切りをいくつか変えている)何度応募したか