糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com

大規模データ処理勉強会　〜「大きな」データと対峙する（仮称）〜に参加してきた

メモ

クレジットカード現金化詐欺【業界人が教える口コミ情報】

【ユーザ】「ライフサイエンス分野の大規模データ・現場での課題とこれから」 (ライフサイエンス統合データベースセンター/DBCLS @iNut)

スライド(pdf)

SQL, NoSQL, アルゴリズムの話無し
DBCLSの説明

データベースとは

研究成果が公開される場としてのDB
公共の汎用研究リソースとしてのDB
ex. PubMed(論文)
ex. 集団疫学(数千の時系列データ)
ex. 大規模塩基配列データ

生命科学系のデータの特徴

メタデータの重要性
- 維持管理必要
実装者と実行者の関係
- dryとwet

大規模塩基配列データ

量が多い: 7kb→1Tbに
パーソナルゲノム
NGSデータ
- 画像データ: 50TB
- シグナル強度: 2〜10TB
- 中間ファイル: 1.5TB
- 中間ファイル: 45TB
- 結果: 5TB
- 宅急便で送るほうが早い
色々アルゴリズムの紹介
- メモリ足りない
- disk I/Oがネック

現状と課題

現状の処理
- ローカルPC
- 分散処理: Sun Grid Engine
- クラウド(AWS)
- スパコン: ノード当たりの割り当てメモリが減ると計算できない
問題
- マシンメンテで研究どころじゃない
- クラウド: usegalaxy.org
クラウドの問題点
- アップロードに時間がかかる
- 医療データのプライバシー
- コストパフォーマンス
それHadoopで
- 日立
- インテック

まとめ

データ: でかい，色々
保存，転送のコスト高い
CPUだけでなくRAMの要求スペックが高い

【理論】「Jubatusにおける大規模分散オンライン機械学習」 (PFI　@unnonounoさん)

遺伝子のあいまい検索デモ

内容としてはJubatusにおける大規模分散オンライン機械学習
jubatusの位置づけから特徴抽出，オンライン学習まで．

【ソフトウェア】「Hadoopの将来とClouderaの方向性」 (Cloudera　田澤さん，川崎さん)

結構営業っぽい話だった．
質疑

日本で導入が進んでいる会社・業界は？これから広がるところ，広げたいところは？
- Web系．ミドルウェアなのでどこにでも広めることができると考えている．Oracleに追いつけ追い越せ

【ソフトウェア】「Hadoop World 2011報告（予定）」 (NTTデータ　鰺坂さん)

入社してばっかですがAsakusaとかHiveやってる
Hadoopのユーザは二種類
- 通信
- 金融，メディア，公共

Hadoop World 2011 概要

- 参加者1400人(日本人は40人ぐらいでツアー組んだ)，60以上の講演セッション + 展示スペース
- NTTデータはゴールドスポンサー
- 580企業
扱っているデータ規模
- 平均120ノード
- 12.8%が1PB以上，20PB以上のクラスタも
ユースケース
- 自作フレームワークとの組み合わせ
- ユースケース紹介

JPMorgan

25000人以上のITスタッフ，150PBのストレージ，年40億ドルの投資
何故使うか
- 分析によって競争優位を目指す
- サービスとして社外にも展開
ETL + データk分析
- プライベートバンキング用の分析用の前処理に使う
- バッチ処理の実行時間が75%削減
共通データ基盤
- 複数の事業部で利用するため
- 検索頻度の低いデータにタウする低コストのストレージに
- 5/7事業部で利用
- 3年以上利用して1億ドル節約
データマイニング
- データサイエンティストがデータのエンジニアリングプロセスをバイパスできる→全部Hadoop上でできるようにする
- 詐欺防止
- 取引品質分析

eBay

Cassini: 検索エンジン作りたい．特にランキング機能
Hadoop でインデックス作成
皆が学習中．商用クラスタの設定が困難

ディズニー

120億ページビュー
420億の広告クリック
- マネタイズしたい
インフラは61%が既に仮想化済
Hadoopの用途
- 広告集計
- レコメンデーション
- 顧客分析
- テーマパークの交通流解析(ex. ファストパス利用の影響)
- iPhoneへのPush通知
Hadoop技術者足りてない!!!!!!!!!!!!!!!!!!!

LT: Hadoop World 2011でデータの人が発表したスライド

だいたいこんな感じ．

最初の雰囲気が怖い感じでしたが進むに連れ質疑やらビアバストやらで話が弾んでる感じだった
Jubatus Tシャツ欲しい
しかしよく考えると大規模データの話とHadoopの話が混ざっていた感じが
- そういう意味では「scpより宅急便最強」みたいな話は実際触ってる人からのエピソードらしさ出てた
JPMorganなどは目をつけるのが早過ぎる
- 日本は何故遅れたのか感
「設定はあなたの責任，バグはコミュニティの責任」(Cloudera社の人)

次回も是非参加したい．