遺伝研 rina aizawa ユーザミーティング
DESCRIPTION
遺伝研DDBJスパコンユーザ会TRANSCRIPT
大量NGSデータの並列処理と共用スパコンにおける環境構築の今後について
情報・システム研究機構 ライフサイエンス統合データベースセンター
大田 達郎 <[email protected]> !
prepared for 遺伝研DDBJスパコンユーザ会 July 22, 2014
Summary
‣ 遺伝研スパコンを利用し公開NGSデータ全てに対してバッチ処理を行い,DBの構築を行っています
!
‣ データ解析パイプラインの共有・再実行を行うためのVM/コンテナを利用した環境構築の調査・開発を行っています
sra.dbcls.jp
‣ 公開NGSデータに対してFastQCを実行し結果を回収・集計 ‣ DL可能なデータ全てが対象 ‣ ~2013年登録分まで完了 ‣ 総データ数 ‣ 452,144 Sequence Run (single or paired)
‣ 総データサイズ ‣ 745,802,769,612,172 (745T) 塩基対
公開NGSデータのリードクオリティDB
‣ データ転送速度
‣ lftp mgetによる16GBのデータ転送 13:00.20 => 1:35.58 (x8.16)
‣ 同時並列実行数
‣ 64CPU => 3184CPU (x49.75)
既存計算機環境との差
‣ ソフトウェアのバージョン管理の問題
‣ 共用環境ではインストールが難しい場合もある
‣ 現状は東大笠原さんのLPMを使わせて頂くなどで回避
‣ http://www.kasahara.ws/lpm/
‣ 大量のデータに対してひとつひとつ手作業?
課題: 論文に書かれたパイプラインを再現することが困難
‣ VirtualMachine(VM)やコンテナで環境ごと解析パイプラインを共有
‣ イメージを展開してすぐに解析を始めることができる
‣ 環境構築とイメージ共有の技術調査/開発を行っています
‣ Amazon Web ServiceにおけるAMIの共有
‣ Docker Hubにおけるコンテナイメージの共有
‣ 遺伝研スパコンでもこれらと互換性を持たせたい
データ解析の再現性を担保するための解決策
コードやソフトウェアと同じように解析環境を公開/共有
コードやソフトウェアと同じように解析環境を公開/共有
$ docker run -d -p 8080:80 -t inutano/galaxy
‣ イメージ共有で環境への依存がなくなると選択肢が増える
‣ 自分で購入した計算機
‣ 遺伝研スパコンなどの共用計算機リソース
‣ Amazon Web Service(AWS)などのInfrastructure as a Service(IaaS)
‣ 決め手は導入のコストとマシン構成,コスト
‣ AWSのコストがかなり下がったため選択肢として現実的に
‣ ルーチンな計算は遺伝研スパコンで(ただなので)
計算機プラットフォームの選択
初期導入コスト 維持コスト 構成の柔軟性 信頼性/永続性 秘匿性 特徴
個別導入 ✕ ✕ ◯ △ ◯ 資金あれば制約なし
共用計算機資源 (NIGスパコン) ◯ ◯ △ △ ✕ DDBJのDBと直結
IaaS (クラウド) ◯ △ ◯ △ △ 必要な時に必要なだけ コストも年々下がる
ユーザ視点での各計算機環境のメリット比較
Summary
‣ 遺伝研スパコンを利用し公開NGSデータ全てに対してバッチ処理を行うことでDBの構築を行っています
!
‣ データ処理/解析パイプラインの保存/永続化/再実行を行うためのVM/コンテナを利用した環境構築と公開DBの調査・開発を行っています