糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Early Identification of Violent Criminal Gang Members (KDD 2015) 読んだ

[1508.03965] Early Identification of Violent Criminal Gang Members
アリゾナ州立大とシカゴ市警察との共著論文.逮捕データから共逮捕ネットワークを作り,ある人物が将来逮捕されるかどうかを予測する.
実データによる実験の結果,精度0.89,再現率0.78で予測が実現できた.

入力

真面目に再現するには 3.1 の notation を読むとして,大雑把には次のようなデータを用いる.

  • 誰と誰が一緒に逮捕されたかという共逮捕グラフ
  • 時間 t に 人物 v が逮捕されたかどうか
    • 逮捕されていた場合はどのような罪状であるか
    • それは violent か non violent か
    • 罪状は violent (殺人,性的暴行?,強盗,加重脅迫,加重傷害) と non violent がある
    • 人物 v が時刻 t においてどの行政区,巡回区域(beat),ギャングに属していたか
    • crimeとかoffenceとかlabelとか単語がバラバラなので用語を統一して定義して欲しい.初見だと各事件単位で区別するのかとかがわかりにくい.
  • 罪状 c で逮捕された人物の集合

特徴量

四種類の特徴量を構築する.

Nieghborhood-Based Features

共逮捕ネットワークの近隣ノードを参考にする.
例えば,1/2-hop先のノードである罪状集合Cで逮捕された数やその比など.
面白いのは

  • 1/2-hop先のノードのうち,半数以上が罪状集合Cで逮捕されているかの boolean
  • 1-hop先はそうではないが,2-hop先のノードの半数以上が罪状集合Cで逮捕されているかの boolean

という多数決な情報が入っているところ.

Network-Based Features

もっとグラフ全体の構造を考える.この特徴量を構築する際には,共逮捕ネットワークからコミュニティ検出を行う.アルゴリズムはお馴染みの Louvain によるモジュラリティ最大化.
特徴量としては,

  • v が所属する連結成分から v を取り除いたグラフの中のでの最大連結成分の要素数
    • v が共逮捕ネットワークにおいてどれほど重要であるか,を示している?
  • v のギャングネットワークにおいて v が所属するクラスタ(以降クラスタ)の要素数
    • ギャングネットワークそのものではなく,ギャング内でのクラスタ構造が重要なのではないか

といったものを抽出する

それらに加え,Betweenness や Closeness といった,Path にまつわる馴染み深い特徴量も計算されている.

Geographic Features

行政区や巡回区域における逮捕者数など.

Temporal Features

逮捕の時間間隔の平均など.

アルゴリズム

試したのはナイーブベイズ,ロジスティック回帰,決定木,ランダムフォレスト,ニューラルネットSVM
偏っているので SMOTE も使う.

目的関数

までのデータを入力として,集合,すなわち学習期間よりあとに逮捕される人物集合を推定する.

よくわからないところ

  • violent crime とあるけど S は non-violent のはずである.その後段についても同様.
  • 実験設定のところがいくつか腑に落ちない
    • 原文 In other words, to compute the features for each vertex v, we assume that the set V_v is unknown while the rest of the network is observable.
    • 各人物 v がどのような犯罪を犯したのかは知らないが,誰と逮捕されたのかは知っているという状態なのだろうか
    • 予測についてもわかっていない.この手法はデータが存在する期間より後の任意の t についてある人物が逮捕されるかどうかを予測している.その t はどのように設定したのかという記述が全くないように見える.どういう実験なのか想像できない.