糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

大規模データ処理勉強会 〜「大きな」データと対峙する(仮称)〜に参加してきた

クレジットカード現金化詐欺【業界人が教える口コミ情報】

【ユーザ】「ライフサイエンス分野の大規模データ・現場での課題とこれから」 (ライフサイエンス統合データベースセンター/DBCLS @iNut)

スライド(pdf)

データベースとは
  • 研究成果が公開される場としてのDB
  • 公共の汎用研究リソースとしてのDB
  • ex. PubMed(論文)
  • ex. 集団疫学(数千の時系列データ)
  • ex. 大規模塩基配列データ
生命科学系のデータの特徴
  • メタデータの重要性
    • 維持管理必要
  • 実装者と実行者の関係
    • dryとwet
大規模塩基配列データ
  • 量が多い: 7kb→1Tbに
  • パーソナルゲノム
  • NGSデータ
    • 画像データ: 50TB
    • シグナル強度: 2〜10TB
    • 中間ファイル: 1.5TB
    • 中間ファイル: 45TB
    • 結果: 5TB
    • 宅急便で送るほうが早い
  • 色々アルゴリズムの紹介
    • メモリ足りない
    • disk I/Oがネック
現状と課題
  • 現状の処理
    • ローカルPC
    • 分散処理: Sun Grid Engine
    • クラウド(AWS)
    • スパコン: ノード当たりの割り当てメモリが減ると計算できない
  • 問題
    • マシンメンテで研究どころじゃない
    • クラウド: usegalaxy.org
  • クラウドの問題点
    • アップロードに時間がかかる
    • 医療データのプライバシー
    • コストパフォーマンス
  • それHadoop
    • 日立
    • インテック
まとめ
  • データ: でかい,色々
  • 保存,転送のコスト高い
  • CPUだけでなくRAMの要求スペックが高い

【理論】「Jubatusにおける大規模分散オンライン機械学習」 (PFI @unnonounoさん)

  • 遺伝子のあいまい検索デモ

内容としてはJubatusにおける大規模分散オンライン機械学習
jubatusの位置づけから特徴抽出,オンライン学習まで.

【ソフトウェア】「Hadoopの将来とClouderaの方向性」 (Cloudera 田澤さん,川崎さん)

結構営業っぽい話だった.
質疑

  • 日本で導入が進んでいる会社・業界は?これから広がるところ,広げたいところは?
    • Web系.ミドルウェアなのでどこにでも広めることができると考えている.Oracleに追いつけ追い越せ

【ソフトウェア】「Hadoop World 2011報告(予定)」 (NTTデータ 鰺坂さん)

  • 入社してばっかですがAsakusaとかHiveやってる
  • Hadoopのユーザは二種類
    • 通信
    • 金融,メディア,公共
Hadoop World 2011 概要
JPMorgan
  • 25000人以上のITスタッフ,150PBのストレージ,年40億ドルの投資
  • 何故使うか
    • 分析によって競争優位を目指す
    • サービスとして社外にも展開
  • ETL + データk分析
  • 共通データ基盤
    • 複数の事業部で利用するため
    • 検索頻度の低いデータにタウする低コストのストレージに
    • 5/7事業部で利用
    • 3年以上利用して1億ドル節約
  • データマイニング
    • データサイエンティストがデータのエンジニアリングプロセスをバイパスできる→全部Hadoop上でできるようにする
    • 詐欺防止
    • 取引品質分析
eBay
ディズニー
  • 120億ページビュー
  • 420億の広告クリック
    • マネタイズしたい
  • インフラは61%が既に仮想化済
  • Hadoopの用途
    • 広告集計
    • レコメンデーション
    • 顧客分析
    • テーマパークの交通流解析(ex. ファストパス利用の影響)
    • iPhoneへのPush通知
  • Hadoop技術者足りてない!!!!!!!!!!!!!!!!!!!

LT: Hadoop World 2011でデータの人が発表したスライド

だいたいこんな感じ.

  • 最初の雰囲気が怖い感じでしたが進むに連れ質疑やらビアバストやらで話が弾んでる感じだった
  • Jubatus Tシャツ欲しい
  • しかしよく考えると大規模データの話とHadoopの話が混ざっていた感じが
    • そういう意味では「scpより宅急便最強」みたいな話は実際触ってる人からのエピソードらしさ出てた
  • JPMorganなどは目をつけるのが早過ぎる
    • 日本は何故遅れたのか感
  • 「設定はあなたの責任,バグはコミュニティの責任」(Cloudera社の人)

次回も是非参加したい.