데이터를 위한 어셈블리 기반의 분석 기법에 관한...

39
차세대 시퀀싱 데이터를 위한 어셈블리 기반의 유전체 분석 기법에 관한 연구 원정임

Upload: others

Post on 03-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

차세대 시퀀싱 데이터를 위한 어셈블리 기반의 유전체 분석 기법에 관한 연구

원정임

Page 2: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

2 40

정밀 의학 시대 도래

Database Laboratory

정밀의학(Precision Medicine)

질병에 대한 개인별 차이에 맞게 맞춤 의료를 진행하기 위한 연구.

유전체 시퀀스 및 바이오 데이터 분석을 통해 얻은 정보를 기반으로 질병의 원인을 이해하고, 질병의 진단, 치료, 예방에 사용하려고

하는 연구.

오바마 대통령 2015년 국정 연설에서 의료비 지출을 줄이기 위한

예방 의학의 실현을 목적으로 “정밀 의학” 추진 계획 발표

서론

During a visit to the NIH campus last

week, President Barack Obama

announced that NIH will spend $275

million over the next 2 years to

catalogue the genetic changes driving

more than 20 types of cancer

Page 4: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

4 40

Precision medicine – “Why now?”

정밀 의학 시대의 도래

Page 5: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

5 40

바이오 빅 데이터

데이터 수집 및 종류

의사와의 상담을 통해 수집

정형화 데이터: 환자 정보, 진료 정보, 처방 정보 등

의료 장비를 통해 수집

정형화 데이터 및 비정형화 데이터: 혈액, 혈압, 체온, 심전도,

MRI/CT/X-RAY 등의 각종 검사 정보

모바일 의료 장비를 통해서도 수집 가능함

Page 6: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

6 40

바이오 빅 데이터

염기 서열 해독을 통해 수집

최근 시퀀싱 비용의 하락으로 초고속/저비용으로 개인 유전체 해독이

가능해짐

2016년 한국인 세부 Genome 지도 발표.

서울대 의대 팀에서 30대 남성 유전체를 어셈블리함

울산과학기술원에서 한국인 41명 어셈블리함

Page 7: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

7 40

바이오 빅 데이터

데이터의 특징

각종 의료 장비를 통해 얻어지는 데이터로 데이터 형태가 다양함

텍스트 데이터, 이미지 데이터, 시계열 데이터, 유전체 데이터 등

서로 다른 포맷을 가지는 이질 데이터를 통합 분석하기 위한 기술 필요

오랜 시간 동안 축적되는 데이터로 대용량 데이터임

대용량 데이터를 분산 저장/관리하기 위한 기술 필요

질병의 예측/진단을 위해서는 데이터 간의 연관성을 파악해야 함

분산 데이터를 통합/연계/분석하기 위한 기술 필요

기존에 보고된 결과와의 검증 과정이 필요함

정확한 질병의 진단 및 예측을 위해서는 기존에 보고된 결과와의 비교

분석을 통한 검증 과정이 필요

GENBANK, PROSITE, OMIM 등의 다양한 공개용 데이터베이스 이용하여 검증할 수 있음

데이터 마이닝 기술을 활용한 빅 데이터 분석 수요 급증

Page 8: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

8 40

관련 프로젝트

Page 9: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

9 40

<바이오 데이터 수집 과정 및 종류>

시스템 구축을 위한 설계도

<바이오 데이터 통합 시스템>

분석을 위한 공개 DB데이터

설문 수집 자료

PROSITE GENBANK

`

` ` 가계 정보

환경 조사

취합 데이터 포맷

` 영양조사

임상 자료

신체 계측

혈액 분석

유전 정보

촬영 자료

OMIM

신체 계측

연령별, 성별 정상 수치 자료

혈액 분석

유전정보

질병별 유전정보

MRI,CT,X-RAY

전문의와 환자의 상담 자료

혈액검사,고밀도,체지방 검사

개인별 취합 데이터

` 통계 자료

각종 통계 자료

` 통계자료

정형화 데이터

` Text File

Excel File

비정형화 데이터

`

HTML File

XML File

바이오 파일

EMBL File

FASTA File

공개 DB 데이터 포맷

BSML File

PIR File

Graphic File Photo File

바이오 데이터 분석 모듈

텍스트 기반 설문 데이터, 생체 신호 계측 데이터, 유전체 데이터 등의 상호 연관성을 분석

질의 처리 모듈

사용자의 키워드 검색 질의를 데이터베이스시스템의 질의어로 변환하고 처리

파일 포맷 변환 모듈

이질의 포맷을 갖는 각종 의료 데이터의 포맷을 서로 호환할 수 있도록 변환

사용자

질의 결과

통합 데이터베이스

유전자 온톨로지

인덱스 데이터

시스템 카타로그

유-헬스 데이터

시각화 모듈

각종 검색 및 분석 결과를 시각화하여 제시

인덱스

질의

on/offline 바이오 데이터 분석 시스템

• DBMS 관련 기술: 상용 데이터베이스, SQL언어, 스키마 등을 습득 • 인터페이스 개발 기술: JDBC/ODBC, JAVA/C++ 언어 등을 습득 모바일 환경 이해 및 관련 기술 습득 • 빅데이터 분석 기술: 클라우드 환경 이해 및 기술 습득, 빅 데이터 저장을 위한 자료 구조 이해 및 개발 데이터간 연관성 분석 위한 알고리즘 이해 및 개발

DBMS

Page 10: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

10 40

유전체 분석 시스템

유전체 분석 및 시각화 시스템 개발

유전자 데이터 통해 질병 특이적 유전적 변이(SNP, CNV 등) 검출

검출된 유전 변이와 질병간의 상관 관계 분석

Page 11: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

11 40

생물학적 배경

Page 12: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

12 40

인간 유전체

염색체

인간의 경우, 약 ~4 X1013 의 세포(cell)로 구성되어 있고, 각 세포는 23개의 염색체(chromosome)로 구성됨.

Page 13: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

13 40

인간 유전체

유전자(Gene)

염색체는 유전 정보를 가지는 DNA로 구성됨

DNA는 30억 개의 염기 서열 A(adenine),C(cytosine), G(guanine),

T(thymine)로 이루어짐

DNA가 전사 과정을 거쳐 RNA가 되고, RNA의 암호화 영역(protein coding RNA)이 번역되어 단백질이 생성됨

Page 14: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

14 40

유전체 분석 기술

- 어셈블리 - 유전변이

Page 15: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

15 40

차세대 시퀀싱 기술

Next-Generation Sequencing, NGS

하나의 유전체를 무수히 많은 조각으로 분해하여 각 조각을 동시에 읽은 뒤, 전산기술을 이용하여 조합함으로써 유전체 정보를 해독하는 방법

리드(read)

시퀀싱을 통해 산출되는 데이터는 염색체를 구성하는 전체 시퀀스(whole sequence)가 아니라 부분 시퀀스로 이루어진 조각들임

Page 16: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

16 40

유전체 어셈블리(genome assembly)

어셈블리

큰 퍼즐(puzzle)조각을 맞추는 것과 같은 개념

Page 17: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

17 40

유전체 어셈블리(genome assembly)

어셈블리

리드들의 겹침(overlap)정보를 이용하여 컨티그와 스캐폴드를 생성

계산학적

방법으로

해결

추가적인

생물학적

접근 방법이 필요함

Page 18: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

18 40

De Bruijn 그래프 기반의 어셈블리

(1), (5), (6)의 에지를 선택하여 얻어진 노드들로부터 k-mer 시퀀스의 마지막 염기를 취하면 해당 경로로부터 contig(='AGATGGA')를 생성할 수 있다.

Page 19: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

19 40

유전 변이

유전성 질병

유전자나 염색체에 유전 변이(genetic variation)가 발생하여 생기는 질병

개인 유전체 해독이 가능해짐에 따라 해독된 유전체에서 유전 변이 추출하여, 질병의 원인을 밝히고자 하는 연구 수요 급증

유전 변이

SNP(single nucleotide polymorphism)

전체 염기 서열 중에서 단 하나의 염기 변이로 인하여 단백질 구조와

기능이 바뀌고 질병을 유발함

단순히 피부색, 머리색, 식습관 등

개개인의 다양성을 표현주는 변이임

Page 20: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

20 40

유전 변이

CNV(copy number variation)

세포 분열 과정에서 DNA가 복제될 때 일부가 만들어지지 않거나

혹은 많이 만들어져 그 양(복제 수)이 차이가 나게 되는 것

자폐증(autism), 조현병(schizophrenia) 등의 질병과의 연관성이 보고되어 중요성이 강조되고 있음

다른 유전 변이에 비해 추출이 어려움

Page 21: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

21 40

유전 변이

SNP 추출

정렬 툴:

Bowtie(http://bowtie-bio.sourceforge.net/)

BWA(http://bio-bwa.sourceforge.net/)

Page 22: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

22 40

유전 변이

CNV추출

정렬된 리드의 커버리지 정보를 분석하여 CNV 영역을 추출

Page 23: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

23 40

실험결과

- 어셈블리 파이프라인 설계

Page 24: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

24 40

드노버 어셈블리

어셈블리(assembly)

레퍼런스 어셈블리(reference assembly)

이미 서열이 알려진 레퍼런스 시퀀스에 리드를 정렬하여 길게 재조합하는 방식

레퍼런스 시퀀스에 대한 사전 지식을 재조합 시에 활용

레퍼런스 시퀀스의 변화를 알아보는 유전 변이 분석에 주로 사용

디노버 어셈블리(de novo assembly)

레퍼런스가 없는 새로운 종을 시퀀싱하는 경우 리드들의 염기 서열 정보를 정렬하고 재조합하여 원래의 전체 시퀀스로 재구성하는 방식

전장 시퀀싱(whole genome sequencing)에 사용

Page 25: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

25 40

드노버 어셈블리

어셈블리 파이프라인 설계

- 리드 생성 및 어셈블리 단계

리드 생성 및 획득 단계

리드 정제 단계

디노버 어셈블리 단계

- 유전자 구조 및 기능 예측 단계

유전자 예측 단계

유전자 기능 예측 단계

Page 26: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

26 40

파이프라인 작업 흐름도

Page 27: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

27 40

어셈블리 상세 과정

시퀀싱 단계

어셈블리를 위해 해당 종의 리드 시퀀스를 NGS 머신 등을 이용하여 생성하는 과정

어셈블리 단계

리드의 겹침 정보를 이용해서 원래 시퀀스를 재구성하는 과정

(a) NGS 머신에서 생성된 리드

(b) 리드들의 겹침 정보를 이용하여 생성된 contig

(c) contig로부터 생성된 Scaffold

Page 28: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

29 40

어셈블리 상세 과정

Database Laboratory 29

Repeat regions

Structural Annotation

Functional Annotation

2.드노버 기반의 유전체 구조 변이 분석

Page 29: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

30 40

리드 생성 및 획득

개 회충 게놈

개로부터 사람으로 전이되기 쉽고, 전이된 경우 소장 내에서 부호한 유충이 장벽을 뚫고 간, 폐, 뇌 등의 체내 여러 곳으로 이동하는데 눈으로 들어가면 실명에 까지 이르는 것으로 알려져 있음(내장이행증)

유전체에 의한 진단 방법이 개발되어 있지 않아 백신과 약제 개발이 어려움

NGS 머신(Illumina)을 이용하여 개회충의 리드 데이터 생성

어셈블리 실험 결과

데이터 종류 개회충(Toxocara canis)

데이터 크기 350Mbp

리드 생성 방법 paired-end read

리드 길이 101bp

insert size

400bp(15.9Gbp: 78,735,384*2)

1900bp(10.3Gbp: 50,795,399*2)

2900bp(10.4Gbp: 51,755,588*2)

커버리지 104x

Page 30: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

31 40

어셈블리 실험 결과

스캐폴드 생성 결과

어셈블리 툴: SOAPdenovo(Ver. 1. 05)

step

#contigs or

scaffolds

total

length(bp)

avg

length(bp)

max

length(bp)

N50

(bp)

initial contig 167,521 208,952,737 1,247 53,828 2,114

scaffold 10,853 341,776,187 31,490 1,730,221 108,950

Page 31: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

32 40

인 분류

기존에 보고되어 있는 게놈 시퀀스를 레퍼런스 시퀀스로 활용하여 어셈블리된 게놈(scaffold)으로 부터 유전자(protein-coding gene)을 추출

유전자 예측 툴-Augustus

유전자 구조 예측

• 유전자 예측

genome total

length(bp) #scaffold N50(bp) #proteins

Trichinella 63,525,422 6,863 76,808 16,380

Brugia 95,825,818 27,214 37,841 11,472

C.Elegans 100,286,070 - - 23,906

genome #proteins

Trichinella 30,583

Brugia 59,970

C.Elegans 56,233

Page 32: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

33 40

유전자 구조 예측

Database Laboratory 33

구조적 어노테이션 결과

Items Size or number

Total number of scaffolds 10,853

Total size of scaffolds (bp) 341,776,187

N50 length (bp) 108,950

GC content of the entire genome (%) 39.3

Total number of genes 20,178

Average gene length (bp) 6,055

Average exon number per gene 7.09

Average exon length (bp) 172

Average intron length (bp) 793

Average coding sequence length (bp) 1,077

2.드노버 기반의 유전체 구조 변이 분석

Page 33: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

34 40

유전자 구조 예측

Database Laboratory 34

유전자와 유전자를 구성하는 엑손, 인트론, UTR등의 정보를 추출

예측된 유전자 영역에 대한 상세 정보

최종 예측된 유전자 영역

각 유전자예측 툴로 예측된 유전자 영역

2.드노버 기반의 유전체 구조 변이 분석

Page 34: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

35 40

인 분류

어셈블리된 게놈과 다른 충체와의 상동성(homology)분석하여 유전자 기능 예측

유전자 기능 예측 툴

Blastp(netblast)

어셈블리된 시퀀스로부터 추출된 단백질의 아미노산 서열 정보와 유사한 다른 충체의 단백질 생성 유전자(protein coding gene)를 검색하는 프로그램

GeneBlastA

유전자를 임의의 특정 집단으로 gene-like structure를 기반으로 그룹핑하여 후보 유전자가 목표 유전자를 잘 반영하는지의 여부를 판별할 수 있도록 하는 프로그램

목표 유전자로 C.Elegans 사용할 수 있으며, 이외 다른 충체를 목표로 하고 있다면 이를

목표 유전자로 지정하여 비교하면 됨

유전자 기능 예측

• 유전자 기능 예측

Page 35: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

36 40

유전자 기능 예측

• 실험 데이터:

− 유전자 예측 단계에서 선모충 게놈 시퀀스를 이용하여 추출된 30,583개의 개 회충 아미노산 서열 정보

• 유전자 기능 예측 툴: Blastp

• 실험 결과: 검색된 돼지 회충과 가장 유사한 것으로 나타남

실험 결과

Page 36: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

37 40

유전자 기능 예측

Database Laboratory 37

온톨로지 검색 사용 툴 : Blast2Go

NCBI에서 제공하는 NR 데이터베이스와 연결된 protein 정보만을 추려서, 유전자 온톨리지(Gene Ontology)에서 정의된 GO term과 매핑 수행.

Page 37: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

38 40

유전자 기능 예측

Database Laboratory 38

KEGG 패스 웨이

유전자 간의 상호 작용(interaction)을 예측하기 위하여 KEGG

pathway 데이터베이스를 사용. pathway 종류 시퀀스 개수 enzyme 개수

pathway에 관여하는 enzyme표시

시퀀스 개수를 모두 합하여 186개

enzyme 개수를 모두 합하면 13개

Page 39: 데이터를 위한 어셈블리 기반의 분석 기법에 관한 연구ysmoon/courses/2017_1/grad/04.pdf · 2017-03-28 · 온톨로지 인덱스 데이터 시스템 카타로그

40 40

최근 연구

유전자발현

모든 생명체는 다양한 발달 단계 및 호르몬, 방사선, 기후 등의 생화학적 환경에 적응 또는 반응하기 위하여 유전체 내의 다양한 유전자의 발현을 조절

인간 유전체의 경우 약 30,000개 정도의 유전자가 있음