リアルタイム型大規模分散データ分析基盤技...
TRANSCRIPT
Copyright © 2012NTT
ホットな 研究開発成果
NTT研究開発この一年(2012年報)
情報流通プラットフォーム技術
H-PF-3
リアルタイム型大規模分散データ分析基盤技術:Jubatus
Big Data 分散処理 機械学習
NTT情報流通プラットフォーム研究所
概 要
特 徴
利用シーン
Hadoop*1をはじめとするビッグデータ処理への注目が高まっていますが、従来技術はバッチ
処理のためリアルタイム分析への対応が困難でした。Jubatus*2は、「大量データ」を「常に
素早く」 「深く分析」することを狙った分析基盤技術です。大量のデータを複数のサーバに振り
分け並列かつ逐次的に処理させ、複数のサーバ間で緩やかに途中処理結果を共有すること
により、サーバ間の通信オーバーヘッドの削減や安定性の向上を実現し、高いリアルタイム性
と解析精度を確保しています。現在オープンソースとして一般公開しています。
■ リアルタイム:データをためることなく瞬時に処理
■ 大規模(高スケーラビリティ):サーバの追加台数に比例した性能向上
■ 深い分析:機械学習など高度な解析アルゴリズムに対応
■ プラガブル構成:解析エンジン、データストレージ方式を柔軟に組み換え可能
■ ソーシャルネットワーク、ブログより評判分析を行うマーケティングツール
■ センサ情報、ネットワークデータからの異常検知、需要予測
■ ユーザの利用動向からのリアルタイムな情報推薦
■ 金融情報からの市場・経済・株価予測
*1 Hadoop: オープンソースの大規模データ処理基盤(http://hadoop.apache.org/) *2 Jubatus: 公開サイト(http://jubat.us/)
深い分析
大規模化
SVM light
Big Data
○ 速い
× 単純な分析 (集計)
同期 なし
CEP/Streaming
○ 深い分析 (機械学習)
○ 速い
Jubatus
疎な同期 (MIX処理方式
を考案)
○ 深い分析 (科学計算)
× スケールしない (高価な専用HW)
HPC/Supercomputer
CEP*2、Streaming
ソースが異なるBig Dataの流れ
HPC*1、Supercomputer
密な 同期
*1 HPC: High-Performance Computing, *2 CEP: Complex Event Processing