リアルタイム型大規模分散データ分析基盤技...

1
Copyright © 2012NTT ホットな 研究開発成果 NTT研究開発この一年(2012年報) 情報流通プラットフォーム技術 H-PF-3 リアルタイム型大規模分散データ分析基盤技術:Jubatus Big Data 分散処理 機械学習 NTT情報流通プラットフォーム研究所 利用シーン Hadoop *1 をはじめとするビッグデータ処理への注目が高まっていますが、従来技術はバッチ 処理のためリアルタイム分析への対応が困難でした。Jubatus *2 は、「大量データ」を「常に 素早く」 「深く分析」することを狙った分析基盤技術です。大量のデータを複数のサーバに振り 分け並列かつ逐次的に処理させ、複数のサーバ間で緩やかに途中処理結果を共有すること により、サーバ間の通信オーバーヘッドの削減や安定性の向上を実現し、高いリアルタイム性 と解析精度を確保しています。現在オープンソースとして一般公開しています。 リアルタイム:データをためることなく瞬時に処理 大規模(高スケーラビリティ):サーバの追加台数に比例した性能向上 深い分析:機械学習など高度な解析アルゴリズムに対応 プラガブル構成:解析エンジン、データストレージ方式を柔軟に組み換え可能 ソーシャルネットワーク、ブログより評判分析を行うマーケティングツール センサ情報、ネットワークデータからの異常検知、需要予測 ユーザの利用動向からのリアルタイムな情報推薦 金融情報からの市場・経済・株価予測 *1 Hadoop: オープンソースの大規模データ処理基盤(http://hadoop.apache.org/) *2 Jubatus: 公開サイト(http://jubat.us/) 深い分析 大規模化 SVM light Big Data ○ 速い × 単純な分析 (集計) 同期 なし CEP/Streaming ○ 深い分析 (機械学習) ○ 速い Jubatus 疎な同期 (MIX処理方式 を考案) ○ 深い分析 (科学計算) × スケールしない (高価な専用HW) HPC/Supercomputer CEP *2 Streaming ソースが異なるBig Dataの流れ HPC *1 Supercomputer 密な 同期 *1 HPC: H igh-P erformance C omputing, *2 CEP: C omplex E vent P rocessing

Upload: others

Post on 15-Jul-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Copyright © 2012NTT

ホットな 研究開発成果

NTT研究開発この一年(2012年報)

情報流通プラットフォーム技術

H-PF-3

リアルタイム型大規模分散データ分析基盤技術:Jubatus

Big Data 分散処理 機械学習

NTT情報流通プラットフォーム研究所

概 要

特 徴

利用シーン

Hadoop*1をはじめとするビッグデータ処理への注目が高まっていますが、従来技術はバッチ

処理のためリアルタイム分析への対応が困難でした。Jubatus*2は、「大量データ」を「常に

素早く」 「深く分析」することを狙った分析基盤技術です。大量のデータを複数のサーバに振り

分け並列かつ逐次的に処理させ、複数のサーバ間で緩やかに途中処理結果を共有すること

により、サーバ間の通信オーバーヘッドの削減や安定性の向上を実現し、高いリアルタイム性

と解析精度を確保しています。現在オープンソースとして一般公開しています。

■ リアルタイム:データをためることなく瞬時に処理

■ 大規模(高スケーラビリティ):サーバの追加台数に比例した性能向上

■ 深い分析:機械学習など高度な解析アルゴリズムに対応

■ プラガブル構成:解析エンジン、データストレージ方式を柔軟に組み換え可能

■ ソーシャルネットワーク、ブログより評判分析を行うマーケティングツール

■ センサ情報、ネットワークデータからの異常検知、需要予測

■ ユーザの利用動向からのリアルタイムな情報推薦

■ 金融情報からの市場・経済・株価予測

*1 Hadoop: オープンソースの大規模データ処理基盤(http://hadoop.apache.org/) *2 Jubatus: 公開サイト(http://jubat.us/)

深い分析

大規模化

SVM light

Big Data

○ 速い

× 単純な分析 (集計)

同期 なし

CEP/Streaming

○ 深い分析 (機械学習)

○ 速い

Jubatus

疎な同期 (MIX処理方式

を考案)

○ 深い分析 (科学計算)

× スケールしない (高価な専用HW)

HPC/Supercomputer

CEP*2、Streaming

ソースが異なるBig Dataの流れ

HPC*1、Supercomputer

密な 同期

*1 HPC: High-Performance Computing, *2 CEP: Complex Event Processing