公共ngsデータの検索と登録 - biosciencedbc.jp...2017/08/29 ·...
TRANSCRIPT
公共NGSデータの検索と登録
仲里 猛留
情報・システム研究機構 データサイエンス共同利用基盤施設ライフサイエンス統合データベースセンター
Joint Support-Center for Data Science Research, Research Organization of Information and Systems (ROIS)Database Center for Life Science (DBCLS),
NAKAZATO, Takeru
2017/8/29
@chalkless
@東京大学農学部撮影可
平成29年度 NGSハンズオン講習会
NGSのデータベース
PubMed
BLAST
ライフ系データベース:BLASTとPubMed
NGS データ
SRA
GenBankEMBLDDBJ
BLAST
MEDLINE
SRA Search(Sequence Read Archive)
研究データと公共データベース
データベース 検索システム
塩基配列
文献
登録
登録
SRA:
Sequence Read Archive
ちなみに、昔は Short Read Archive
INSDC
ROIS
データ収集
データ普及・活用
NGSデータの収集と提供
登録されたNGSデータの伸び
https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=announcement
JGA (Japanese Genotype-Phenotype Archive)Controlled-access データのアーカイブ
登録などはJST NBDCに
SRAの検索
mappingde novo assemble
Quality check
DB search
Downloadown exp
exp analysis SNP detectiongenome assemble
NGSデータ解析の流れ
NCBIのインターフェース
EBIのインターフェース
DDBJのインターフェース
DBCLS SRA 公共NGSデータの検索サイト
http://sra.dbcls.jp/
DBCLS SRA – リスト表示
DBCLS SRA – 詳細表示
http://trace.ddbj.nig.ac.jp/dra/submission_e.html
データ構造(概略版)
BioProject
SRA GEO
Project Summary
Run data
Umbrella Project
Study
Sample
Platform
Sample
Run data
Primary Project
Exp
Run
BioSample
Sample
http://trace.ddbj.nig.ac.jp/dra/submission.html を改
データ構造(詳細版)
目的が多種多様
ゲノム、発現解析、エピゲ、メタゲ、...
対象生物種も多種多様
データベースの構造
ヒト、マウス、メタゲノム、微生物、...
study:プロジェクト情報experiment:個々の実験情報
SRAの検索は意外とツラい
Subm
ission
Study
Expe
rimen
t
Run
Sample
Analys
is
✓✓✓
✓ ✓
✓
✓✓ ✓✓ ✓
✓✓
✓✓✓✓ ✓✓
✓
✓
✓
✓ ✓✓ ✓
✓
✓✓
✓
✓✓✓
✓
✓
✓
✓
✓ ✓✓
55452
22025
11228
6066
2915
2608
2430
927
116
107
95
85
40
Total (submissions) 104256
...
✓
✓
✓✓ ✓ 58✓
✓
48
https://dx.doi.org/10.1371/journal.pone.0077910.g001
Study
SRR036299
SRX016867
SRA010353Submission
Experiment
Sample
Run
SRP001599Study
SRA012004Submission
SRX016866Experiment
SRS010549Sample
SRR36297Run
SRR036393
SRX016903
SRA012014Submission
SRX016902Experiment
SRS010533Sample
SRR36397Run
Study
すべてのメタデータが1つの登録に入っているわけでない
ワインが飲みたい
どれにする?
どうしようかなぁ...
Soleil Hikumo Rouge名前タイプ
ワイナリー
ブドウ品種
製造年
生産地
赤で重くないやつ
→ 中身のクオリティによる足切り
赤
旭洋酒山梨ピノノワール+ベイリーA
2012年
→ メタデータによる選択
Zoom 6m YTD 1y All1m 3m From Nov 15, 2010 To Dec 15, 2015
Whole Genome Seq
Transcriptome Analysis
Metagenomics
Epigenetics
Reseq
Other
RNASeq
Population Genomics
Gene Reg Study
Cancer Genomics
Exome Seq
Synthetic Genomics
Forensic or Paleo-genomics
Pooled Clone Seq
TOTAL
11-0
1
11-0
7
12-0
1
12-0
7
13-0
1
13-0
7
14-0
1
14-0
7
15-0
1
15-0
7
0k
10k
20k
30k
40k
50k
60kTOTAL
データ数の推移 – 目的別
◎ 登録状況(機器別)
11-0111-0712-0112-0713-0113-0714-0114-0715-0115-0716-0116-07
0k
25k
50k
75k
100k
125k
600k
IlluminaGA II
IlluminaHiSeq 2000
IlluminaMiSeq
Total 1317530
Illumina HiSeq 2000 680492
Illumina MiSeq 126689
454 GS FLX Titanium 101720
Illumina
Genome Analyzer II
90869
Illumina
HiSeq 2500
90521
Ion Torrent PGM 11892
PacBio RS II 5861
PacBio RS 4343
Helicos HeliScope 3830
Complete Genomics
3389NextSeq 500
2972
Ion Torrent Proton
MinION 122
......
......
...
1113
データ数の推移 – 機器別
Publication info data info (SRA)
論文からの検索
NGSデータを使って論文を出したら
QC result
疾患からの検索
生物種からの検索
SRAへの登録
http://trace.ddbj.nig.ac.jp/dra/submission.html
DRAへの登録
BioProject
SRA GEO
Project Summary
Run data
Umbrella Project
Study
Sample
Platform
Sample
Run data
Primary Project
Exp
Run
BioSample
Sample
http://trace.ddbj.nig.ac.jp/dra/submission.html を改
データ構造(再掲)
DRAへの登録フローシーケンスデータ
(FASTQ or BAM)に加え
メタデータ(実験情報)を
書いてDDBJに登録
DRAへの登録(Sample)
DRAへの登録(Experiment)