東日本大震災ビッグデータワークショップ Project 311に「野良分析チーム」として参加した

概要

当時をデータで振り返った時に、本当に必要なサービスは何だったのか、次の災害に備えるために、今我々はどんな準備をすればよいのでしょうか？
「東日本大震災ビッグデータワークショップ - Project 311 -」では震災発生から１週間の間に実際に発生したデータを参加者に提供いたします。参加者はそのデータを改めて分析することによって、今後起こりうる災害に備えて、どのようなことができるかを議論し、サービスを開発することができます。
東日本大震災ビッグデータワークショップ - Project 311 -

Googleが主催し，様々な会社から提供されたデータを用いて分析/サービス開発を行うワークショップに@haraponさんと「野良分析チーム」を組んで参加した．ちなみに@haraponさんとはTwitterやはてなブックマークでやり取りする程度の間柄であり，これまで一度も会ったことはなく，最終報告会の今日はじめて顔合わせした．

分析内容: 首都圏における帰宅困難者のモデリング

首都圏における帰宅困難者のモデリング最終報告 from ybenjo

首都圏における帰宅困難者のモデリングに取り組んだ．最終報告では

人々はどのように帰宅することを決めたか
大量に拡散されていた首都圏の避難所情報は本当に有用だったのか?

の二点に絞った発表を行った．
結論としては

「人々はどのように帰宅することを決めたか」のモデリングにより
- 避難所を用意だけで帰宅せず宿泊する人が2割増する
- 家族間で連絡が取れるだけで帰宅せず宿泊する人が4%増加する
「首都圏の避難所情報は本当に有用だったのか?」から
- 拡散された避難所情報で避難所の人口が増えたとは言いがたい
- RTによる拡散は時間帯が早すぎ，かつ一時的すぎるため他のユーザのためになっていない
- そもそも，避難所情報に従って行動した人は非常に少ない
  - 誤った避難所情報が大量に拡散されたのにそれを実際確かめた人が非常に少ないため

とまとめる事ができる．

きっかけ

@haraponさんからidコールが飛んできた．折角取り組むなら他分野の人と取り組む方が面白いと考えたため参加することに．

分析の流れ

大まかな進め方

〜9/25
- 位置情報付きtweet収集プロジェクトに参加し，昔得たwhite listを使ってtweetを収集しまくる．全30万件のうち，半分以上を収集．
10/5ぐらい
- 震災前の人口との差を使って帰宅困難者発生地域の大体の特定
- それらの路線情報を使ったRandom Forestによる予測
- ある250m平方における人口を近傍8マスによる回帰で予測
10/10ぐらい
- 位置情報付きtweetを使ってLDAやToTなどのトピックモデルを使ってみるもぱっとしないので断念
- 位置情報付きtweetでユーザごとの移動量とか出してみるもどうしたもんか扱いが浮かばず
10/13 中間報告会
- 腹痛が酷すぎて参加できず．作ったスライドを当日朝haraponさんに送信．発表中「腹痛で参加できない本当に酷い人間」「質問したら『この論文を読め』と言ってくる本当に酷い人間」と言われる．
10/15
- haraponさんに「『RT情報が避難所需要に与えた影響』みたいなのもあるかも」と言われ取り組む事に
10/28
- 最終報告

当日の発表で気になったもの

大震災の解釈に際する地域差異と時系列変化−Twitterデータの社会心理学的分析
- 資料(pdf)
Twitterからの人口推定
- Twitterからの人口推定
- 人口を位置情報つきtweetから推定
Project hayano最終報告
- Project hayano最終報告
- リスク評価と議員立法における予算の概算

没ネタ

首都圏における駅の混雑度予測

簡単なまとめ: 帰宅困難者発生予測 - Google ドキュメント
混雑統計データから駅ごとに震災前の同時刻との人口差を考え，(人口データを使わず)路線情報などから混雑するかどうかの二値問題を解く
F値0.7ぐらいでの予測を実現
予測が当たる理由は，山手線右半分の地域が混雑し過ぎているため，その付近の駅で正解数を稼いでいるからと思われる
しかし(近くにそれほど駅がない)南浦和が混雑する事や，京葉線沿線の混雑などを当てるなど，結果は面白いと思う
変数/モデルの解釈ができず，なんらかの建設的な議論に繋げられなかったため，没

位置を考慮したトピックモデルによる地域 - 時間の特徴語抽出

簡単なまとめ: 位置情報付きtweetからの情報抽出 - Google ドキュメント
位置情報付きTweetを用いて位置情報をある程度の単位で区切り1文書としてLDA/ToT
位置に依存しすぎるトピックが形成されてしまう
- 渋谷/新宿/原宿といったトピックなど
- foursquareの影響が強い?
位置情報の近/遠を考慮するWWW2011/EMNLP2010の手法を使うべきだったが，これ以上取り組む必要を感じず，没

混雑統計データからの人の流れの推定

混雑統計データが1時間ごとの集計であるため，これから人の流れを復元しようという試み
大規模に人が傾向を持って動くならオプティカルフローとか使えるのでは?
よくよく考えるとゼンリン社はユーザごとのデータを持っているため，それを変換したものに対しリバースエンジニアリングを行う意味が無いと考え，没

やりながらの感想

手法について

今回の分析は，途中色々な手法を試したとはいえ，最終的には相互相関係数，grep，目視確認といった非常にシンプルな手法しか使っていない．
正直なところ，最新の論文の手法を使ってバーンとかっこいい数式などをスライドに載せたかった．そりゃ入出力が整っていれば適用可能な手法は山ほどある．しかし，「それで何を知ることができるのか？」というのを考えると，私が思いつく手法はどれも適切では無いように思えてしまい，最終的に，避難所の人口増減とtweet数の増減の関係が知りたいならば，相関さえ見てその傾向を確認してしまえば良いという結論に落ち着いた．
これは，仮説ドリブンで取り組むならば，簡単な手法でも良いからその仮説に対するデータの傾向を確認しさえすれば良いと考えたからである．もし，ある仮説に対して，データが何らかの傾向を示しているならば，そこまできて初めて洗練された手法を使えば良いし，反対に，大雑把にでも傾向が掴めないならば，洗練された手法を用いて関係性をモデリングする必要も意味も無いと思う．

デマについて

以下，震災時における避難所情報について考える．
「『善意の人々』が良かれと思って真偽不明な情報を拡散することはデマと呼べるのか．リテラシーを持つ人間の傲慢ではないか．後出しジャンケンではないか」という論点はあると思う．
しかし，これは

避難所情報を必要としているのは誰なのか
避難所情報を拡散している『善意の人々』とはどういう状況なのか

というのを考えると，後者の方が情報リソースに対するアクセスの容易さが非常に高いと推測できる．自宅でPCに向かいTwitterを行なっている善意の人々だからこそ，自分の拡散する情報に責任を持つ必要がある．ただRTする前に少しでもいいから検索すれば良い話だ．それができないのならば，真偽不明な情報を流布する事は悪であると私は考える．

糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com