大規模データ処理勉強会 〜「大きな」データと対峙する(仮称)〜に参加してきた
【ユーザ】「ライフサイエンス分野の大規模データ・現場での課題とこれから」 (ライフサイエンス統合データベースセンター/DBCLS @iNut)
大規模塩基配列データ
- 量が多い: 7kb→1Tbに
- パーソナルゲノム
- NGSデータ
- 画像データ: 50TB
- シグナル強度: 2〜10TB
- 中間ファイル: 1.5TB
- 中間ファイル: 45TB
- 結果: 5TB
- 宅急便で送るほうが早い
- 色々アルゴリズムの紹介
- メモリ足りない
- disk I/Oがネック
現状と課題
まとめ
- データ: でかい,色々
- 保存,転送のコスト高い
- CPUだけでなくRAMの要求スペックが高い
【理論】「Jubatusにおける大規模分散オンライン機械学習」 (PFI @unnonounoさん)
- 遺伝子のあいまい検索デモ
内容としてはJubatusにおける大規模分散オンライン機械学習
jubatusの位置づけから特徴抽出,オンライン学習まで.
【ソフトウェア】「Hadoopの将来とClouderaの方向性」 (Cloudera 田澤さん,川崎さん)
結構営業っぽい話だった.
質疑
【ソフトウェア】「Hadoop World 2011報告(予定)」 (NTTデータ 鰺坂さん)
- 入社してばっかですがAsakusaとかHiveやってる
- Hadoopのユーザは二種類
- 通信
- 金融,メディア,公共
Hadoop World 2011 概要
JPMorgan
- 25000人以上のITスタッフ,150PBのストレージ,年40億ドルの投資
- 何故使うか
- 分析によって競争優位を目指す
- サービスとして社外にも展開
- ETL + データk分析
- プライベートバンキング用の分析用の前処理に使う
- バッチ処理の実行時間が75%削減
- 共通データ基盤
- 複数の事業部で利用するため
- 検索頻度の低いデータにタウする低コストのストレージに
- 5/7事業部で利用
- 3年以上利用して1億ドル節約
- データマイニング
- データサイエンティストがデータのエンジニアリングプロセスをバイパスできる→全部Hadoop上でできるようにする
- 詐欺防止
- 取引品質分析