now and then: next-generation sequencing database to encourage the big data science

36
データベースから見た 次世代シーケンスによる研究の “これまでとこれから” 研究者を助けるために データベースは何をすべきか Database Center for Life Science 大田達郎 Tazro Ohta Now and then: next-generation sequencing database to encourage the big data science

Upload: tazro-ohta

Post on 26-Jun-2015

2.636 views

Category:

Technology


3 download

DESCRIPTION

ビッグデータに踊らされる

TRANSCRIPT

Page 1: Now and then: next-generation sequencing database to encourage the big data science

データベースから見た 次世代シーケンスによる研究の “これまでとこれから” 研究者を助けるために データベースは何をすべきか

Database Center for Life Science 大田達郎 Tazro Ohta

Now and then: next-generation sequencing database to encourage the big data science

Page 2: Now and then: next-generation sequencing database to encourage the big data science

まとめ

• データ解析が大変な時代はもう終わった

• データを奉納する人々にご利益を

Summary: stop annoying about NGS data processing, giving rewards to open-data scientists

Page 3: Now and then: next-generation sequencing database to encourage the big data science

データ解析が大変な時代はもう終わった

“data processing is not the most annoying part anymore”

Page 4: Now and then: next-generation sequencing database to encourage the big data science

今、大規模シーケンスは何が大変なのか

• 自身でシーケンスするのと同じくらい公開データを使うケースが多い!

• それぞれのフローで共通する部分,異なる部分

• それぞれどこが大変なのか?

• 「データの解析が大変なんでしょ」と思われて『いた』!

• 自前シーケンスは実験デザインの方が大事

• 公開データは「実験デザインの情報をいかに手に入れるか」が大事

the hardest part is designing whole sequencing experiment, for both self-sequencing and using public sequencing data

Page 5: Now and then: next-generation sequencing database to encourage the big data science

通常のシーケンスプロジェクトにおける研究ワークフロー

サンプリング ライブラリプレップ シーケンシング QC マッピング/アセンブル 解析

• 「次世代はデータ解析が大変」から「良いシーケンスがあればどうにかなる」へ!

• ツールや手法、論文も多く出回っており、解析が大変な時代はもう終わる

• 計算機資源の問題も公共リソースなどによって解決できる

• 重要なのはよくデザインされた実験と質の高いライブラリ

後になってからはどうしようもない 技術的な問題なのでどうにかなる

over the data processing, just a technical part, now researcher must care about designing experiment

Page 6: Now and then: next-generation sequencing database to encourage the big data science

公共のシーケンスデータを利用するためのフロー

検索 メタデータの収集 ダウンロード QC マッピング/アセンブル 解析

• 「データの質は解析ではどうにもならない」のは同じ!

• データの質の判断には実験条件などのメタ情報の充実が必要

• 大量のデータから効率よく必要なデータを探さなくてはならない

• サイズの大きなデータはDL・展開に時間がかかるので「ハズレ」を引きたくない

解凍

on-line local

using public data requires retrieving detailed metadata to control the quality of sequencing

Page 7: Now and then: next-generation sequencing database to encourage the big data science

公開データの利用コストを下げるためのDB的アプローチ

• 必要なデータを素早く検索できる!

• 「目的とするデータがどのくらい登録されているか」を可視化

• 解析に必要なメタデータが確認できる!

• PubMed, PMCから文献情報を抽出

• リード情報の追加 (リード数,リード長,エラー率,etc.)

• 「ハズレ」を避けることでDL/解凍のコストを削減

• 予めクオリティを確認することでQC処理を省略

an approach from the database: improving data search system with method description from papers as metadata

Page 8: Now and then: next-generation sequencing database to encourage the big data science

検索システムの開発 DBCLS SRA (http://sra.dbcls.jp)

Page 9: Now and then: next-generation sequencing database to encourage the big data science

FastQCによるSequence Qualityの提供 (http://sra.dbcls.jp)

Page 10: Now and then: next-generation sequencing database to encourage the big data science

オッこのデータよさそう→ダウンロードする(一晩)→解凍する(一晩)→見てみる→全部Nでした→\(^o^)/

Page 11: Now and then: next-generation sequencing database to encourage the big data science

DBCLS SRAによって実現するコストの削減

検索 メタデータの収集 DLQC マッピング/アセンブル 解析

• 目的は“研究目的に合致する質の高いデータを最小コストで手に入れる”こと!

• 「ないものを探し続ける」ことを防ぐ

• 「同じものが複数あるなら良い方を使いたい」をサポートする

• 検索の自動化もサポート

解凍 QC

on-line local

“retrieving data that works for one’s study from the public database with minimum effort”

Page 12: Now and then: next-generation sequencing database to encourage the big data science

どうにかなったのか

“And it goes..”

Page 13: Now and then: next-generation sequencing database to encourage the big data science

どうにもならなかった

• データの量やバリエーションに依存する問題!

• データが分散する問題!

• メタ情報の問題!

• 文献情報など補足情報の問題

not so good: amount and variation of data, data distribution to various public DB, insufficient quality of metadata, difficulty with linking data to publication

Page 14: Now and then: next-generation sequencing database to encourage the big data science

データ量は延々増え続けている

http://www.ncbi.nlm.nih.gov/Traces/sra/

2PB >

Page 15: Now and then: next-generation sequencing database to encourage the big data science

データ量は延々増え続けている

http://trace.ddbj.nig.ac.jp/DRASearch/

Page 16: Now and then: next-generation sequencing database to encourage the big data science

データのバリエーションも増えている

http://liorpachter.wordpress.com/seq/

[*-Seq].size > 80

Page 17: Now and then: next-generation sequencing database to encourage the big data science

データのバリエーションも増えている

Page 18: Now and then: next-generation sequencing database to encourage the big data science

DB側はざっくりしたStudy Type

by study (http://sra.dbcls.jp/trends.html)

Page 19: Now and then: next-generation sequencing database to encourage the big data science

データが分散する

by study (http://sra.dbcls.jp/trends.html)

Page 20: Now and then: next-generation sequencing database to encourage the big data science

TCGA data moved to CGHub http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=history

Page 21: Now and then: next-generation sequencing database to encourage the big data science

メタ情報の問題

Total = 338,765!(words.size == 0).size = 92,089!(words.size > 200).size = 2,184Sanger Center

(template?)

Volumes of free word field “design description”

Page 22: Now and then: next-generation sequencing database to encourage the big data science

大切なことは全てPubMedが教えてくれた http://sra.dbcls.jp/cgi-bin/publication.cgi

Page 23: Now and then: next-generation sequencing database to encourage the big data science

「論文が出たからデータを公開する」はむしろ少数派? (もしくは出ても報告しない)

0

37500

75000

112500

150000

total publication#submission

0

50000

100000

150000

200000

total publication#sample

0

100000

200000

300000

400000

total publication#run

115440

3059

194338

31787

376904

51202

26.5%16.4% 13.6%

not all the published data has paper publication (or never update after the first data submission)

Page 24: Now and then: next-generation sequencing database to encourage the big data science

どげんかせな

• データの量やバリエーションに依存する問題!• 単純に計算量が増える

• 情報の粒度はどこまで対応するべきか

• データが分散する問題!• 管理上のコストと利用上のコストの兼ね合い

• メタ情報の問題!• 登録者によって記述量に差がある

• 文献情報など補足情報の問題!• そもそも文献がない

• Materials&Methods にどこまで詳しく書かれているか

“summary of those problems”

Page 25: Now and then: next-generation sequencing database to encourage the big data science

どうにかなるのか

Is there any hope?

Page 26: Now and then: next-generation sequencing database to encourage the big data science

どうにかなってくれ

• 未来予測

• Compression strategy の問題!

• Sequencing technology の進化は予測が難しい

The other problems; problems of data compression strategy, estimation of sequencing technology advance

Page 27: Now and then: next-generation sequencing database to encourage the big data science

Compression Strategy の問題 Cochrane, Guy, Charles E. Cook, and Ewan Birney. "The future of DNA sequence archiving." GigaScience 1.1 (2012): 2.

Page 28: Now and then: next-generation sequencing database to encourage the big data science

Compression Strategy の問題 Cochrane, Guy, Charles E. Cook, and Ewan Birney. "The future of DNA sequence archiving." GigaScience 1.1 (2012): 2.

Page 29: Now and then: next-generation sequencing database to encourage the big data science

Sequencing Technology の進化は予測が云々 (1) https://www.nanoporetech.com

Page 30: Now and then: next-generation sequencing database to encourage the big data science

Sequencing Technology の進化は予測が云々 (2) http://gnubio.com

Page 31: Now and then: next-generation sequencing database to encourage the big data science

Sequencing Technology の進化は予測が云々 (3) http://www.picoseq.com/

Page 32: Now and then: next-generation sequencing database to encourage the big data science

データを奉納する人々にご利益を

“giving rewards to open-data scientists”

Page 33: Now and then: next-generation sequencing database to encourage the big data science

http://www.flickr.com/photos/ogachin/5420953786/

Page 34: Now and then: next-generation sequencing database to encourage the big data science

データベース神社システムの実現に向けて

• 「質の高いメタ情報と共にデータを登録してもらう」ことが必須!

• データ登録時の負担を減らすことが大事

• 変化するデータの性質にフレキシブルに対応する

• データを登録する研究者の協力も欠かせない

• 質の高いデータ登録をしてくれる研究者に「ご利益」を!

• 今はメタ情報の質も「善意ベース」

• 論文がciteされる,グラントが取れるなどの評価に繋げる必要がある

Improving the DB ecosystem to make submission with high-quality metadata easy, giving rewards to researchers who made highly cited submission, etc.

Page 35: Now and then: next-generation sequencing database to encourage the big data science

まとめ

• データ解析が大変な時代はもう終わった!

• これからは「質の高いシーケンスをするのが大変」な時代

• 解析できる人が実験デザインの段階から関わる必要がある

• 公開データは「質の高いメタ情報を書いてもらう」ためにDBの改善が必須

• データを奉納する人々にご利益を!

• 善意ベースでは限界があるので質の高いデータを公開するインセンティブが必要

Summary: well-designed sequencing project for highly reusable data, make an incentive to submit high-quality metadata

Page 36: Now and then: next-generation sequencing database to encourage the big data science

Acknowledgement

• いつも綺麗なデータを公開してくれるみなさま

• データベースプロジェクトで日々暗躍するDBCLS, DDBJ, NBDCの同志のみなさま

• 有り難いアドバイスやご意見をくださるNGS現場の会のみなさま

• ちょっと協力してみようかな?と思ってくださった会場のみなさま

• オーガナイザのこだまさん、なかざとさん

Thank you!