ku 05 08 2009

Post on 30-Jun-2015

438 Views

Category:

Travel

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Open problems in association mapping

Thomas Mailund

!"!!"#$%&$'()*"%(+,&&&&&&&&&&&&&&&&&&&&&&&

&

Bioinformatics Research Centre

Open problems in association mapping

Thomas Mailund

!"!!"#$%&$'()*"%(+,&&&&&&&&&&&&&&&&&&&&&&&

&

Bioinformatics Research Centre

Stuff about

Overview

• Tutorial

• Multi-marker methods - rare(er) variants

• Multi-loci methods - epistasis

Tutorial

“Genetic” diseases

Gunshot w

oundsC

ar accidents

Smoking induced

lung cancer

Cardiovascular

diseaseO

besityD

iabetes 2

Alzheim

erSchizophrenia

BRC

A1

breast cancer

Cystic fibrosis

Haem

ophilia

Disease mapping...

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Locate disease-affecting polymorphisms

Cases (affected)

Controls (unaffected)

Disease mapping...

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Locate phenotype-affecting polymorphisms

Disease mapping...

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

Markers are locally correlated

Marker RelatednessLinkage disequilibrium (LD)

Recombination rate

LD (

r2 )

Empirical Results Theoretical Results

Clark et al. 2003, AJHG 73:285-300. Hein et al. 2005

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

Search for indirect signals

Disease mapping...

Indirect Association

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

“Tag” markers Unobserved marker

Indirect Association

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

Indirect Association

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

Indirect Association

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

Indirect Association

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

GWA

Type 500k - 1m and get 3b

GWA

Type 500k - 1m and get 3bThe common

variants

Multiple test issues

5% significance threshold means 5% false positives...

Null distributionAlternative distribution

Null distributionAlternative distribution

Null distributionAlternative distribution

Null distribution"Real" null distributionAlternative distribution

WTCCC results

GWA a successful approach

~500 validated findings for ~100 different traits

GWA a successful approach

~500 validated findings for ~100 different traits...but much genetic risk remains unexplained!

Why?

Why?

• Rare variants?

• We only tag common variants...

• Gene-gene interaction?

• Marginal effects vs interactions...

Multi-marker methods

Indirect Association

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

Indirect Association

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

Indirect Association

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

Indirect Association

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

IndirectMulti-Marker

Association

--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----

--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----

Cases (affected)

Controls (unaffected)

Local trees along the genome

Local trees along the genome

Local trees along the genome

Local trees along the genome

Trees and LD

Recombination rate

Tree

sim

ilari

ty

Recombination rate

LD r

2

Clustering on a tree

Disease affecting mutation

Clustering on a tree

Complete penetrance

Incomplete penetrance

Spurious disease

Clustering on a tree

60%

40%

25%

75%

Case/control clusteringis not random on the tree...

Scoring the clustering

Red=casesGreen=controls

Are the case chromosomes significantly over-represented in some clusters?

Besenbacher et al. 2009

Multi-loci methods

AAAGG

AAAGG

A 3 2

G 3 2

0

1.5

3

A G

T 2 3

A 2 3

0

1.5

3

T A

TTAAA

AAATT

AAAGG

AAAGG

TTAAA

AAATT

AT 2 0

AA 1 1

GA 2 0

GT 0 2

0

1

2

AT AA GA GT

Explosion in complexity

500k markers gives us ~125 billion pairs!

Explosion in complexity

500k markers gives us ~2·1016 triplets

• Using protein interaction networks we

• Reduced ~125 billion tests to ~3-4 million

• Reduced corrected significance threshold from ~4·10-13 to ~9·10-8

Perspectives...

• Complete genome sequencing

• No need for tagging

• Rare variants

• Structural variation

• Pathway analysis

• Analysis of pathways as a whole

• Constructing tests from known pathways

top related