遺伝研 rina aizawa ユーザミーティング

大量NGSデータの並列処理と共用スパコンにおける環境構築の今後について

情報・システム研究機構ライフサイエンス統合データベースセンター

大田達郎 <[email protected]> !

prepared for 遺伝研DDBJスパコンユーザ会 July 22, 2014

Summary

‣ 遺伝研スパコンを利用し公開NGSデータ全てに対してバッチ処理を行い，DBの構築を行っています

!

‣ データ解析パイプラインの共有・再実行を行うためのVM/コンテナを利用した環境構築の調査・開発を行っています

sra.dbcls.jp

‣ 公開NGSデータに対してFastQCを実行し結果を回収・集計 ‣ DL可能なデータ全てが対象 ‣ ～2013年登録分まで完了 ‣ 総データ数 ‣ 452,144 Sequence Run (single or paired)

‣ 総データサイズ ‣ 745,802,769,612,172 (745T) 塩基対

公開NGSデータのリードクオリティDB

‣ データ転送速度

‣ lftp mgetによる16GBのデータ転送 13:00.20 => 1:35.58 (x8.16)

‣ 同時並列実行数

‣ 64CPU => 3184CPU (x49.75)

既存計算機環境との差

‣ ソフトウェアのバージョン管理の問題

‣ 共用環境ではインストールが難しい場合もある

‣ 現状は東大笠原さんのLPMを使わせて頂くなどで回避

‣ http://www.kasahara.ws/lpm/

‣ 大量のデータに対してひとつひとつ手作業？

課題: 論文に書かれたパイプラインを再現することが困難

‣ VirtualMachine(VM)やコンテナで環境ごと解析パイプラインを共有

‣ イメージを展開してすぐに解析を始めることができる

‣ 環境構築とイメージ共有の技術調査/開発を行っています

‣ Amazon Web ServiceにおけるAMIの共有

‣ Docker Hubにおけるコンテナイメージの共有

‣ 遺伝研スパコンでもこれらと互換性を持たせたい

データ解析の再現性を担保するための解決策

コードやソフトウェアと同じように解析環境を公開/共有

コードやソフトウェアと同じように解析環境を公開/共有

$ docker run -d -p 8080:80 -t inutano/galaxy

‣ イメージ共有で環境への依存がなくなると選択肢が増える

‣ 自分で購入した計算機

‣ 遺伝研スパコンなどの共用計算機リソース

‣ Amazon Web Service(AWS)などのInfrastructure as a Service(IaaS)

‣ 決め手は導入のコストとマシン構成，コスト

‣ AWSのコストがかなり下がったため選択肢として現実的に

‣ ルーチンな計算は遺伝研スパコンで(ただなので)

計算機プラットフォームの選択

初期導入コスト維持コスト構成の柔軟性信頼性/永続性秘匿性特徴

個別導入 ✕ ✕ ◯ △ ◯ 資金あれば制約なし

共用計算機資源 (NIGスパコン) ◯ ◯ △ △ ✕ DDBJのDBと直結

IaaS (クラウド) ◯ △ ◯ △ △ 必要な時に必要なだけコストも年々下がる

ユーザ視点での各計算機環境のメリット比較

Summary

‣ 遺伝研スパコンを利用し公開NGSデータ全てに対してバッチ処理を行うことでDBの構築を行っています

!

‣ データ処理/解析パイプラインの保存/永続化/再実行を行うためのVM/コンテナを利用した環境構築と公開DBの調査・開発を行っています

遺伝研 rina aizawa ユーザミーティング

Science