galaxy developer conference 2010 レポート

47
Galaxy Developer Conference 2010 レポート 中尾光輝 [email protected] DBCLS, ROIS, Japan 1 10913日月曜日

Upload: mitsuteru-nakao

Post on 14-Jul-2015

1.073 views

Category:

Education


2 download

TRANSCRIPT

Galaxy Developer Conference 2010 レポート

中尾光輝 [email protected]

DBCLS, ROIS, Japan

110年9月13日月曜日

第一回Galaxy開発者会議

• 開催日:2010/05/15-17

• 会場:コールドスプリングハーバー研究所

• Biology of Genome のサテライトイベント

• 参加者数: 65名

• 13 talks

• 9 lightning talks

• 6 breakout sesstions

• http://bitbucket.org/galaxy/galaxy-central/wiki/DevConf2010

210年9月13日月曜日

参加者65名• Galaxy 開発チーム PSU, Emory

• Galaxy ツール開発者

• 大学もしくは病院 Harvard Dana-Faver .., CHOP, MGH

• Biology of Genome 2010 の参加者

• NGSユーザー JGI, modENCODE

• NGSデータ解析ツール開発者

310年9月13日月曜日

トークとワークショップ

• Galaxy 開発者からの機能紹介

• ユーザー事例紹介

• ライトニングトーク

• ワークショップ

410年9月13日月曜日

Galaxyとは• ゲノム情報処理のウェブアプリ

• 解析ツールの汎用インターフェイス

• 解析ワークフロー管理(再現性)

• 解析データ・フロー共有(共同研究)

• 解析結果の公開プラットフォーム

510年9月13日月曜日

ツール ヒストリー

610年9月13日月曜日

• UCSCからゲノムデータを取得• BioMartからデータを取得• ゲノム座標演算• 任意のツールの入出力• EMBOSSツールの実行• 主要なデータ型の変換• 基礎統計とグラフ描画

ツールの例

710年9月13日月曜日

歴史的には…

• ゲノム座標系演算スクリプトのGUI

• Ensembl、Biomart、UCSCからの第三者的データ統合的

• データ共有プラットフォーム

810年9月13日月曜日

新機能の紹介• Data Library

• Trackstar

• Pages

• Galaxy Cloud Console

• ツールレポジトリ

• ソーシャル化しつつある。

910年9月13日月曜日

Data Library

• データ公開機能• 管理者がデータセットを登録• インポートとダウンロードが可能• 細かいアクセス制御• データ公開プラットフォームになれる

1010年9月13日月曜日

ユーザーがヒストリーを公開する機能

• ユーザーがヒストリを公開する機能

http://main.g2.bx.psu.edu/u/jgoecks/h/pileup-analysis-for-mouse-brain-data-on-sample-e18

1210年9月13日月曜日

Trackstar• UCSCライクなゲノム情報ビューア

• 容易にトラックを追加可能

• クライアントサイドレンダリング:HTML5 canvas, jQuery, Ajax

• マウスでぐりぐり動く

1310年9月13日月曜日

1410年9月13日月曜日

1510年9月13日月曜日

1510年9月13日月曜日

Pages• 論文のサプリメントデータページを作れるような機能

• 「生きた」サプリメントデータ

• 解析結果+データ+詳細な説明の公開プラットフォーム

1610年9月13日月曜日

データセットの公開機能から派生

• ユーザーがヒストリを公開する機能

1810年9月13日月曜日

Galaxy Cloud Console• Amazon EC2用イメージ(Eastにある)

• Worker インスタンスの管理機能

• クラウドの利用について

• o コストメリット、スケール性

• x データ転送、24/7運用では高額に

1910年9月13日月曜日

ツールレポジトリhttp://community.g2.bx.psu.edu/

2010年9月13日月曜日

機能の紹介

• スケーラブル設定のあれこれ

• ワークフロー

• データセット、ライブラリ

2110年9月13日月曜日

スケーラブル設定• バックエンドDBの選択:sqlite3 mysql

postgresql

• ファイルアップロード/ダウンロードの時のIOブロックを回避するためのプロキシ設定

• コア数にあわせたスレッドモデル

2210年9月13日月曜日

ツール

• 通常/データソース/データ転送

• ツールの追加はXMLファイルを書くだけ

2310年9月13日月曜日

データ• データライブラリは、データセットのコンテナ• データセットは、一ファイルのもの• 柔軟なアクセス制限• 配置は、ヒストリから、ファイルアップロード、ファイルコピー(サーバ内)

2410年9月13日月曜日

ユーザー事例• NGSリクエスト管理

• NGS解析ツールのプラットホーム

• FMI

• JGI

• Cistrome

• CHOP

• SOAP/REST Web service

• Composite datatype

• Bowtieのパラメーター

• 山口さん• なかお i18n

• EVA

• PerM, Clippers, ComB

http://bitbucket.org/galaxy/galaxy-central/wiki/DevConf2010

2510年9月13日月曜日

ユースケース

• 研究所イントラデータ/解析共有• データ/ツール公開

2610年9月13日月曜日

NGSリクエスト管理@MGH

• 50名規模の臨床+研究者と数名のアドミン• Solexaのフローセルレイアウトのリクエスト支援GUIとして• LIMSの更新をトリガーにして、データを自動配置• Galaxy導入の利点:一貫したUI、よいバックエンド、メンテナンス性

2710年9月13日月曜日

Friedrich Miescher Institute for Biomedical Research (FMI)

• 67ユーザー

• 所内データ解析プラットフォームとして利用

• 内部データパイプラインとの融合

• ニーズにあわせてツールを作成

2810年9月13日月曜日

JGIでの導入からの経験談

• 最初は限定的(ユーザ数と機能)に• ワークフロー化の支援が他のユーザからの利用の支援につながる• システムの安定性は重要• あるグループが一般化したツールは他のグループでは問題を生みがち• ユーザーは開発での役割を理解していないことがある• ユーザーコミュニティは重要

2910年9月13日月曜日

http://cistrome.pbworks.com/HMS-DFCI

• 100名規模の研究ネットワーク

• ChIP-chip/seq データの統合的解析パイプライン(のハブ)として利用

• 600 ChIP-*データと500 modENCODE

データ

3010年9月13日月曜日

Children's Hospital of Philadelphia (CHOP) • クラスタマシンで運用• CNV解析、リシーケンシング、ChIP-seq、

RNA-seqに利用• すべての解析をGalaxyを通しておこなっている• 院内専用のワークフローを提供している

3110年9月13日月曜日

Friedrich Miescher Laboratory of the Max Planck Society• 機械学習をつかったトランスクリプトーム解析ツールの公開プラットフォームとして利用• http://galaxy.fml.mpg.de/ • 提案:• コマンドラインサポート/よい構造化/ツールパッケージ管理/リソースQuota/よりよいデータライブラリ管理/Galaxyサーバのフェデレーション

3210年9月13日月曜日

SOAP/REST Web services 拡張• Biocatalogueに1500以上のWSがある。

• WADL から REST クライアントをツールに追加する拡張

• WSDL から SOAP クライアントをツールに追加する拡張

3310年9月13日月曜日

Composite datatypes

• 病院での利用:150名くらい

• セキュリティが重要

• ユーザが考えている程度の粒度でデータやファイルを扱う仕組みを拡張

3410年9月13日月曜日

Bowtieのパラメーターを例にしてユーザーの使いやすいツール作り

• コマンドラインパラメーターの中にはグループ(排他的に利用されるセット)がある• すべてのパラメーターを同じ画面で設定可能にするGUIは無意味で、ユーザーを混乱させる• ユースケースを考えてGUIを設計するべき

3510年9月13日月曜日

DBCLS Galaxy• 山口さんの発表• TogoDB、TogoWSとの連携• ブータブルイメージの公開• 日本語ドキュメントの作成• ある月:125ユーザ/350訪問/9000

ページ/47MB転送

3610年9月13日月曜日

国際化 i18n• 中尾の発表

• メニューの日本語化(国際化)

• 英語、日本語、つぎは?

• ASCII文字以外を利用可能に

• ツールの画面も国際化(現在進行中)

3710年9月13日月曜日

Breakout sessions

• Documentation

• API

• Workflow

• NGS

3810年9月13日月曜日

まとめ

• ユーザーと開発者コミュニティに勢いがある

• 具体的な研究事例、利用事例

• あたらしいデータ共有機能、Pages が強力

3910年9月13日月曜日

accessibility of computational tools

reproducibility

http://genomebiology.com/2010/11/8/R86

4010年9月13日月曜日

• メインサーバー:5,000 jobs / day

• CSHLやDOI-JGIで採用済み

• 最近の研究論文:エピジェネティクス、クロマチンプロファイリング、転写エンハンサー、ゲノム-環境相互作用

4110年9月13日月曜日

4210年9月13日月曜日

日本国内での展望• NGSデータやUCSCのユーザは導入するべき

• 多様なデータ共有機能が優れた点

• インストールや導入の手間とのバランス

4310年9月13日月曜日

DBCLS Galaxyの今後• ユーザがadmin権限をもてる SaaS 型クラウド

• 普及活動(講習会、セミナー、など)

• 受け入れデータのData Libraryへの登録

• 開発したツールをレポジトリに登録

4410年9月13日月曜日

4510年9月13日月曜日

4610年9月13日月曜日