genetik hastalıkların karakterizasyonunda yüksek Ölçekli dizileme ve biyoenformatik

30
Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik Can Alkan Bilgisayar Mühendisliği Bölümü, Bilkent Üniversitesi, Ankara

Upload: can-alkan

Post on 25-Jun-2015

252 views

Category:

Science


3 download

DESCRIPTION

Crash course on NGS data analyses (in Turkish)

TRANSCRIPT

Page 1: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Can Alkan

Bilgisayar Mühendisliği Bölümü,

Bilkent Üniversitesi, Ankara

Page 2: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Genom nedir?

Bir canlının tüm DNA’sındaki kalıtımsal şifrelerin tamamı İnsan genomu 6 milyar baz çiftinden oluşur, anne

ve babadan 3’er milyar baz çifti gelir 4 çeşit baz: adenin (A), sitozin (C), guanin (G),

timin (T)

Page 3: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Referans genomu Uluslararası İnsan Genomu Projesi (ABD, İngiltere, Çin, Japonya,

Almanya, Fransa) 8 bireyden oluşturulan 3 milyar baz çiftlik “referans genomu”

Page 4: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

İnsan genom çeşitliliği

1 bp 1 kromozom

Sık

lık

Tek Nükleotid Polimorfizm (TNP [SNP])

Kromozomal(trizomi/monozomi)

Kopya Sayısı Varyasyonu (KSV [CNV])ve Yapısal Varyasyon (YV [SV])

Değişken büyüklüğü

1 kbp 1 Mbp

Genetik farklılık türleri

Array-CGHKaryotipleme

Yeni nesil dizileme

SNP genotipleme/Sanger dizileme

1 bpV

erim

lilik

1 kbp 1 Mbp

Değişken büyüklüğü

Nasıl bulunur?

1 kromozom

Page 5: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Tek nükleotidlik ve kısa değişimlerTNP: İnsanlar arasında tek nükleotidin değişimi ile oluşan farklarKısa indel: 1-50 baz uzunluğunda silinme ve eklenmeler

referans: C A C A G T G C G C - Tbirey: C A C C G T G - G C A T

substitüsyon silinme eklenme(TNP / SNP) (indel)

Kişi başına 3-4.5 milyon arası TNP, yaklaşık 500 bin kısa indel Birçoğu etkisizdir, bazıları genlerin ifade ettiği proteinleri etkiler

Nonsense mutasyon: Genin ifadesini durdurur (örn: Akdeniz anemisi) Missense mutasyon: İfade edilen proteini değiştirir (örn: ALS) Frameshift (indel): DNA kodunda kaymaya neden olup proteini değiştirir (örn:

hiperkolesterol)

Page 6: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Kısa tekrar (mikrosatelit) polimorfizmi

Adli tıpta ve babalık testlerinde kullanılır Bazı hastalıklara yol açabilir:

Kırılgan X Sendromu (Fragile X Syndrome) Huntington hastalığı

Tekrar eden ardışık tekrarlardaki değişim

referans: C A G C A G C A G C A Gbirey: C A G C A G C A G C A G C A G

Page 7: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME

(deletion) (novel sequence ins.) (transposon insertion)

Alu/L1/SVA

ARDARDA KOPYA AYRIŞIK KOPYA(tandem duplication) (interspersed duplication)

İNVERSİYON TAŞINMA (inversion) (translocation)

Kopya SayısıVaryasyonu - KSV(copy number variation)

Dengeli Varyasyon(balanced rearrangement)

Page 8: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Yapısal ve Kopya Sayısı Çeşitlilikleri

SilinmeÇevrilme (inversion)

Eklenme

‘Bireysel olarak ender, toplu olarak yaygın’

Kişi başına yaklaşık 15-20 milyon baz çiftini etkiler

Çoğunun etkisi yok ya da azdır, genlerin silinmesi ya da kesintiye uğraması durumunda hastalığa yol açabilir: Silinme: otizm, zeka geriliği,

Crohn hastalığı Kopyalanma: şizofreni, sedef

hastalığı Taşınma: CLL (lösemi) Transpozon: hemofili

Kidd et al., Nature, 2008

Page 9: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Genomik farklılık keşif projeleri Uluslararası HapMap Projesi

4 toplumdan 270 birey İnsan Genomu Çeşitlilik Projesi (HGDP)

52 toplumdan 1050 birey Dizileme projeleri:

1000 Genom Projesi 26 toplumdan 2500 birey (planlanan)

İngiltere: UK100K (kontrol + nadir hastalık +yaygın hastalık)

Diğer bağımsız projeler: Güney Afrika, Kore, Hindistan, Japonya, İrlanda, Hollanda,

vb.

Page 10: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Genom dizilemeÖrneklenengenom Rastgele parçalama

Eşli dizileme (paired-end seq.)

Dizi okuma (read) yerleştirmeReferansGenomu(İGP) Biyoenformatik analiz

Bulunan farklılıklar

Sonuçlar

Deneysel doğrulama

Baz başına10-100molekül

Page 11: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Ekzom ya da tüm genom

Ekzom dizileme sadece protein kodlayan kısımları inceler Genomun %1.5’u Tek gen hastalıkları ve Mendel kalıtımına uyan hastalıklar için

genelde iyi sonuç verir > 80X kapsama gerekir (~40 milyon “read”)

Tüm genom dizileme ile intronlar, UTR’lar, promotörlerdeki hastalık nedeni mutasyonlar da bulunabilir Crohn hastalığı: McCarroll 2008, Bekpen 2009 ALS-FTD: Renton, 2011 > 30X kapsama gerekir (~1 milyar “read”)

Page 12: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Biyoenformatik analizler

Tekrar dizileme (resequencing): elde bir referans genomu varsa karşılaştırılma yapılır (örn. insan, fare, şempanze, vs.) Parçacık yerleştirme (read mapping): Her parçacığın

referans genomuna mümkün olan en az değişiklik ile eşleştirilmesi

Yeni dizileme (de novo sequencing): referans genomu olmayan türlerin referans genomunun oluşturulmasında (örn: inci kefali, gibbon, pirinç, vb.)

Page 13: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Tekrar dizileme analizi

Dizileme

parçacıklar

BWA, Bowtie, mrFAST, vb.

parçacık yerleştirme(read mapping)

TNP/indel keşfi Yapısal farklılık keşfi

GATK, samtools, vb.

VariationHunter, GenomeSTRiP, Delly, vb.

Yorumlama, veritabanı karşılaştırma, gen önceliklendirme

Annovar, snpEff, SIFT, vb. Ingenuity, DADA, vb.

Protein etkileşimi ve yolak analizi

Page 14: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

TNP VE KISA INDELLER

Page 15: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Amaç

Referans genomuna hizalanmış kısa parçacıklar incelendiğinde görülen farklılıklardan gerçek TNP ve dizileme hatalarının ayırılması

TCTCCTCTTCCAGTGGCGACGGAAC CTCCTCTTCCAGTGGCGACAGAACG CTCTTCCAGTGGCGACGGAACGACC CTTCCAGTGGCGACGGAACGACCC CCAGTGGCGACTGAACGACCCTGGA CAGTGGCGACAGAACGACCCTGGAG

TNP?

Dizileme hatası

TCTCCTCTTCCAGTGGCGACGGAACGACCCTGGAGCCAAGTReferans

Page 16: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Zorluklar

Dizileme hataları Tekrar ve duplikasyonlardaki paralog dizi

varyanları Hizalama hataları

TNP ve indellerin yanlış hizalanması Kısa ardışık tekrarlar Düzeltmek için Çoklu Dizi Hizalaması (ÇDH)

gerekir

Page 17: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Başlıca TNP/indel tahmin programları Genome Analysis Tool Kit (GATK; Broad

Inst.) Samtools (Sanger Centre) PolyBayes (Boston College) SOAPsnp (BGI) VARiD (U. Toronto)

Page 18: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

TNP tahmin hataları ve filtreleme TNP tahminlerinde çok sayıda hata bulunur

Sistematik okuma hataları, parçacık yerleştirme ve hizalama hataları

Ham TNP tahminlerinde %5‐%20 arası yanlış bulgu olabilir “Sert” filtreler:

Okuma derinliği (çok az ve çok fazla derinlik) Alel dengesi Baz okuma kalitesi İplik meyli (strand bias) Kısa bölgelerde TNP sayısının fazlalığı

İstatistiksel filtreler: dbSNP, HapMap, mikrodizin verileri ile istatiksel skorlama VQSR: Variant Quality Score Recalibration (GATK programında)

Page 19: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

YAPISAL VE KOPYA SAYISI VARYASYONU

Page 20: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME

(deletion) (novel sequence ins.) (transposon insertion)

Alu/L1/SVA

ARDARDA KOPYA AYRIŞIK KOPYA(tandem duplication) (interspersed duplication)

İNVERSİYON TAŞINMA (inversion) (translocation)

Kopya sayısıVaryasyonu(copy number variation)

Dengeli Varyasyon(balanced rearrangement)

Otizm, Crohn’s

Hemofili

Şizofreni, sedef

Lösemi (CLL)

Page 21: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Keşifteki zorluklar

790

283

128

5

634

278

84132

25

76130

5

Fosmid klonu eşli dizilemeEnd-sequence pair(N = 1,206)

42 milyon oligolu arrayCGH

Conrad et al., 2010(N = 1,128)

Affymetrix 6.0 TNP microdizinMcCarroll et al., 2008 (N = 236)

Silinme ve duplikasyonlar > 5 Kbp; aynı 5 kişinin genonumda

Page 22: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

YV için dizi sinyalleri Eşli dizi analizi (read pair – RP)

Tüm YV türleri Bulunan YV’lerin büyüklüğü ve yerlerinin kesinliği

eşler arasındaki mesafeye bağlı Dizileme derinliği analizi (read depth – RD)

Sadece silinme ve duplikasyonlar (KSV) Bulunan KSV’lerin başlangıç/bitiş yerleri yaklaşık

bulunur Ayrık dizi analizi (split read – SR)

Tekrarsız genomik bölgelerdeki tüm YV türleri Bulunan YV’lerin yerleri kesindir

Yerel ve genel de novo birleştirme Tekrarsız genomik bölgelerdeki tüm YV türleri Bulunan YV’lerin yerleri kesindir

Page 23: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Bazı YV algoritmaları  Silinme Eklenme İnversiyon Transpozon Duplikasyon MikrosatelitRPVariationHunter X Kısa X X XBreakDancer X KısaHYDRA X Kısa X XTangram       X    RDWSSD X XCNVnator X XRDXplorer X       X  SRPindel X KısaSPLITREAD X Kısa X X X XlobSTR           XRP+SRDelly X KısaInvy XGenomeSTRiP X Kısa     X  ASCortex X XNovelSeq   X        

Page 24: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

1000 Genomes Projesinde YV

Approach Algorithm name Platform GenomesSV types discovered (size-range of

validated SVs in basepairs)SV

callsvalidated

FDR (PCR)

FDR (array)

FDR (hierar

ch.)Event-wise testing I llumina 6 DEL (200 - 221,800); DUP (200 - 415,700) 5,762 1,952 0 0.230 0.230

CNVnator I llumina 6 DEL (100 - 412,475) 17,036 2,361 - 0.142 0.142AB large indel tool SOLiD 1 DEL (67 - 83,391) 1,138 480 0.188 0.084 0.143AB large indel tool SOLiD 1 INS (448 - 2,213) 632 42 0.176 - 0.176

Spanner I llumina 6 TEINS (51 - 6,012) 2,013 179 0.022 - 0.022Spanner I llumina 6 DEL (50- 192,167) 4,718 3,619 0.100 0.033 0.087PEMer 454 1 DEL (941 - 960,004) 1,062 483 0.095 0.363 0.363

VariationHunter I llumina 6 DEL (52 - 498,738) 11,028 4,231 0.103 0.419 0.190BreakDancer I llumina 6 DEL (51 - 1,035,808) 5,973 3,587 0.115 0.145 0.121

N/ A I llumina 6 DEL (276 - 959,518) 3,419 2,584 0.136 0.085 0.121Mosaik 454 2 TEINS (300 - 6,000) 1,463 172 0.055 - 0.055Pindel I llumina 6 DEL (51 - 46,384) 3,879 2,960 0.201 0.127 0.189N/ A 454 1 DEL (51 - 703,404); INS (52 - 295) 32,187 3,845 0.545 0.519 0.543

SOAPdenovo I llumina 6 DEL (64 - 3,907) 160 55 0.531 0.531 0.497SOAPdenovo I llumina 6 INS (55 – 4,116) 3,894 22 0.810 - 0.810

Cortex I llumina 1 DEL(52- 39,512);DUP(83- 2,090) 2,787 896 0.415 0.415 0.410Cortex I llumina 1 INS(50- 828) 389 84 0.398 - 0.398

NovelSeq I llumina 6 INS (200 - 8,224) 657 30 0.791 - 0.791

IN Spanner I llumina 6 TANDUP (55- 64,230) 256 88 0.049 - 0.049

RD

PE

SR

AS

1000 Genomes Consortium, Nature, 2010

Page 25: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Kapsamlı bir metot yok

486

43250

303

6855 (63%)

3223 (80%)

1772 (33%)

RPN=6

RDN=4

SRN=4

Kidd et al., Cell, 2010

1000 Genomes Projesi’ndekidoğrulanmış silinmeler

Page 26: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Varyasyon keşfi – özet

Parçaçık hizalama: BWA, mrFAST, Bowtie TNP ve indel: GATK, samtools, SOAPsnp Yapısal:

Silinme, eklenme: VariationHunter, Delly, BreakDancer, GenomeSTRiP, Pindel, HYDRA...

İnversiyon: VariationHunter, Invy Transpozon: VariationHunter, Tangram Mikrosatelit: lobSTR, SPLITREAD, Pindel

http://seqanswers.com/wiki/SEQanswers

Page 27: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Analiz yükü

Tüm genom: 100 GB ham (sıkışmış), 150 GB işlenmiş veri BWA hizalama: 30 CPU günü GATK ile SNP/indel (çok aşamalı): 10 CPU günü Yapısal varyasyon: 1 – 20 CPU günü

Ekzom: 50 GB ham (sıkışmış), 15 GB işlenmiş veri BWA hizalama: 1 CPU günü GATK ile SNP/indel (çok aşamalı): 15 CPU saati Yapısal varyasyon: 1-2 CPU günü

Page 28: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Keşif sonrası

Yorumlama ve etkiler snpEff VAAST & pVAAST PolyPhen2 Annovar SIFT SNAP MutationTaster

Evrimsel korunum GERP phastCons

Protein etkileşimi ve yolaklar DADA, VAVIEN, vb.

Protein yolakları Ingeniuty, vb.

Cooper & Shendure, Nature Reviews Genetics, 12(9):628-40, 2011

Page 29: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

“İsviçre çakısı”: GEMINI

Page 30: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik

Özet

DNA dizileme ucuzlamakta: tüm genom ($1,500-$5,000), tüm ekzom ($800-$900).

Analiz için güçlü ve pahalı bilgisayar sistemleri gerekli Örn: 32 çekirdekli sistem ~$25,000; 90 TB depolama sistemi ~$25,000

Hemen her tür genetik varyasyon bulunabilir: Translokasyon ve inversiyon en zorları KSV tüm genom ile nispeten kolay, ekzom ile sınırlı

Varyant etkisi, haplotipleme (fazlama), akraba evliliklerinde homozigosite haritalama gibi ek analizler yapılabilir

Hastalık için nedensel varyantların bulunması “bilimden çok sanat”