séance 4 : reconstruction phylogénétique par analyse

42
http://162.38.181.1/Pise/ Séance 4 : Reconstruction Phylogénétique par Analyse Bayésienne http://frederic.delsuc.neuf.fr/fd_formation

Upload: others

Post on 09-Nov-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

http://162.38.181.1/Pise/

Séance 4 : Reconstruction Phylogénétique par Analyse Bayésienne

http://frederic.delsuc.neuf.fr/fd_formation

Les méthodes probabilistes et la fonction de vraisemblance

La fonction de vraisemblance est la probabilité conditionnelle d’observer les données sous une hypothèse phylogénétique donnée

(i. e., un arbre avec des longueurs de branches)

LD = P (Données | Arbre)

Arbre = topologie + longueurs de branches + paramètres du modèle

2. Inférence Bayésienne (Bay)

- Méthode de densité : Intègre sur l’espace des paramètres

- Echantillonne les arbres selon leur Probabilité Postérieure (PP)

1. Maximum de Vraisemblance (ML)

- Méthode d’optimisation :estime les paramètres

Postérieure (PP)En utilisant le théorème de Bayes qui combine

la fonction de vraisemblance avec une probabilité a priori sur les arbres :

P (Arbre | Données)=

P (Données | Arbre) . P (Arbre) / P (Données)

- et sélectionne l’arbre qui maximise la fonction de vraisemblance :

P (Données | Arbre)

Les méthodes probabilistes sont basées surdes modèles explicites d’évolution des séquences

Fréquences en basesππππ

Fre

qu

ency

Sites invariablesI

Fre

qu

ency

A C G T

I

varPro

po

rtio

n

invar

Modèles d’évolution des séquences

Ex: Le modèle le plus riche en paramètres

GTR + ΓΓΓΓ + I

Taux de substitutionr

A G

C T

rGTrAC

rAG

rCT

rATrCG

Transition

Transition

Transversions

Hétérogénéité des tauxΓΓΓΓ

Taux

# si

tes

Différence entre Maximum de Vraisemblance et Approche Bayésienne

ML : A > B

Bay : A < B

Vra

isem

bla

nce

ou

PP

Holder & Lewis (Nat Rev Genet 2003)

Vra

isem

bla

nce

ou

PP

Les distributions de probabilité a posteriori

Avec 2 paramètres la distribution a posteriori devient une surface :

Avec plus de 2 paramètres on obtient une distribution a posteriori

multidimensionnelle non représentable graphiquement

Une approche probabiliste avec des a priori.

P (Données | Arbre) x P (Arbre) / P (Données)

P (Arbre | Données) =Théorème de Bayes :

L'inférence bayésienne utilise des chaînes de Markovavec technique de Monte Carlo (MCMC) pour approximer

les probabilités postérieures des arbres.

Probabilité a posteriori Vraisemblance Probabilité a priori

Le théorème de Bayes en phylogénie

La probabilité a posteriori du ième arbre ττττi sachant les données X est :

Problème :Le calcul du dénominateur nécessite d’intégrer la fonction de vraisemblance sur

toutes les combinaisons [B(s)] possibles de topologies (ττττ),longueurs de branches (υυυυ) et paramètres du modèle de substitution (θθθθ et αααα)

Ce qui est analytiquement impossible !!

CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ

100 pas

Chaque pas :

Une marche aléatoire… en terrain plat !

Chaque pas :- longueur variable ;- direction aléatoire.

CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ

1000 pas

Une marche aléatoire… en terrain plat !

CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ

10000 pas

Une marche aléatoire… en terrain plat !

CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ

100 pas

Une marche aléatoire… en montagne !

CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ

- Un pas en montant

100 pas

- Un pas en montantest toujours possible ;

Une marche aléatoire… en montagne !

- Un pas en descendantest évalué.

Mont Blanc (4 808 m) Chamonix (1 042 m)

R1 = 0,2

R2=

0,9

Choix d'un nombre aléatoire x ∈ [0, 1]

Si x < R1, la descente est acceptée.

Refuge Vallot (4 362 m) Grandes Jorasses (4 208 m)

CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ

La trajectoire visite

1000 pas

les points du paysage

de manière proportionnelle

Une marche aléatoire… en montagne !

de manière proportionnelleà leur altitude.

[Delsuc & Douzery 2004]

CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ

Les points du paysageLes points du paysage

10000 pas

les plus élevés sont les plus élévés

Une marche aléatoire… en montagne !

les plus fréquemment visités

[Delsuc & Douzery 2004]

sont les plus fréquemmentvisités

COUPLAGE DE METROPOLIS (MCMCMC)

Permutation des états entre deux Chaînes de Markov afin d’explorer au mieuxl’espace des paramètres et d’éviter les optimums locaux.

OPTIMUM

Optimum local

MC 1froide

MC 2chauffée

Effet du chauffage des chaines sur l’exploration du paysage

Chaîne froide

Chaîne chauffée 1

Chaîne chauffée 2

Chaîne chauffée 3Chaîne chauffée 3

4 chaînes1 froide

et3 chauffées

allumage-7000

-6500

-6000

-5500

-50000 20000 40000 60000 80000 100000

L'ANALYSEBAYÉSIENNE.

Les chaînes

lnLallumage

-8000

-7500Les chaînesde Markov

avec techniquede Monte Carlo

explorentl'espace

-5350

-5340

-5330

phase stationnaire

l'espacedes paramètres.

-5400

-5390

-5380

-5370

-5360

Générations

-4600

-4400

-4200

-4000

-5600

-5400

-5200

-5000

-4800

lnL

10chaînescouplées

-6000

-5800

-5600

Générations (MCMCMC)[atpB, g-protéobactéries]

couplées

-4050

-4040

-4030

-4080

-4070

-4060

lnL

-4100

-4090

1000 1100 1200 1300 1400 1500 1600 1700 1800 1900 2000

Générations (MCMCMC)

LE PROBLÈME DE LA CONVERGENCE DES CHAÎNES

Chaîne N°1Chaîne N°1

Chaîne N°2Chaîne N°2

LE PROBLÈME DE LA CONVERGENCE DES CHAÎNES

Chaîne N°1

Chaîne N°2

LE PROBLÈME DE LA CONVERGENCE DES CHAÎNES

Chaîne N°1

Chaîne N°2

W

X

Y

Z

W

X

Y

Z

Y

Z

X X

Z

Y

Z

W

X

Y

W

X

Y W

X

Y

-54389

-54387

-54385

lnL Topologie 1 Topologie 2

Topologie 4 Topologie 5Topologie 3

79,4%

-54399

-54397

-54395

-54393

-54391

19,8%

0,1%

0,4%

-54405

-54403

-54401

-54399

0 50000 100000 150000 200000 250000 300000

Générations MCMCMC

0,4%

0,3%

UN EXEMPLE D'INFÉRENCE BAYÉSIENNE

Bradypus

Choloepus

Arbre à la plus forteProbabilité Postérieure (PP)

Taxons : 10 xénarthres ; Molécule : ARNr 12S ; Modèle : HKY85 + G8

1.00Choloepus

Cyclopes

Myrmecophaga

D. kappleri

D. novemcinctus

Probabilité Postérieure (PP)

1.00

0.87

lnL = -3 753

D. novemcinctus

Chaetophractus

Euphractus

Cabassous

Priodontes

1.001.00

0.87

0.61

PP des clades

LE PROBLÈME DE LA CONVERGENCE DES CHAÎNES

http://king2.scs.fsu.edu/CEBProjects/awty/awty_start.php

Are We There Yet ? (AWTY)

LE PROBLÈME DE LA CONVERGENCE DES CHAÎNES

http://king2.scs.fsu.edu/CEBProjects/awty/awty_start.php

Are We There Yet ? (AWTY)

11

12

13

14

k

6

7

8

9

10

1 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000

k

Générations MCMCMC

UN EXEMPLE D'INFÉRENCE BAYÉSIENNE

300

Taxons : 10 xénarthres ; Molécule : ARNr 12S ; Modèle : HKY85 + G8

k moyen = 9.46

150

200

25095% CredI = 7.43-12.21

0

50

100

6 8 10 12 14 16 18 Ti / Tv

1000

1200

a moyen = 0.18

UN EXEMPLE D'INFÉRENCE BAYÉSIENNE

Taxons : 10 xénarthres ; Molécule : ARNr 12S ; Modèle : HKY85 + G8

400

600

800

1000

95% CredI = 0.15-0.23

0

200

400

0,1 0,15 0,2 0,25 alpha

Quelle est la relation entre BPML et PP ?

90

100

y = 0.3979x + 61.497

R² = 0.4078

30

40

50

60

70

80

PP

0

10

20

0 10 20 30 40 50 60 70 80 90 100

BPMLDonnées originales : Karol et al. (2001); Murphy et al. (2001); Buckley et al. (2002); Leaché & Reeder (2002); Whittingham et al. (2002); Wilcox et al. (2002).

Conflits topologiques (I)

Diemeniana frenchi

Diemeniana tillyardi

Amphipsalta cingulata

AUS

NZ

Phylogénie des Cigales du Pacifique [Buckley et al. (2002) Syst. Biol.]

Notopsalta sericea

Cicadetta celis

Cicadetta puer

Pauropsalta johanae

Myersalna depicta

Kikihia scutellaris

Kikihia cauta

NC

NZ

AUS

Kikihia cauta

Maoricicada cassiope

Maoricicada hamiltoni

Rhodopsalta cruentata

Rhodopsalta leptomera

NZ

Diemeniana frenchi

Diemeniana tillyardi

Amphipsalta cingulata

Notopsalta sericea

Mitochondrial Nucléaire

Conflits topologiques (I)

Notopsalta sericea

Cicadetta celis

Cicadetta puer

Pauropsalta johanae

Myersalna depicta

Kikihia scutellaris

Kikihia cauta

Maoricicada cassiope

Maoricicada hamiltoni

0.01

PP = 0.94PP = 0.93

Kikihia cauta

Maoricicada cassiope

Maoricicada hamiltoni

Rhodopsalta cruentata

Rhodopsalta leptomera

Maoricicada hamiltoni

Kikihia scutellaris

Kikihia cauta

BPML = 69 BPML = 65

Conflits topologiques (II)

Phylogénie des Elasmobranches [Douady et al. (2003) Mol. Phylogenet. Evol.]

Petromyzon Siren

Polymixia

Rajiformes

Chimaeriformes

12S-16S rRNA (23 taxa) 12S-16S rRNA (21 taxa)

RajiformesMyliobatiformes

Hexanchiformes

Squatiniformes

Orectolobiformes

Heterodontiformes Pristiophoriformes

Squaliformes

Hexanchiformes

Orectolobiformes

Heterodontiformes

Lamniformes

Carcharhiniformes

Orectolobiformes

PP = 0.99 PP = 0.98BPML = 53 BPML = 61

BPML versus PP : Des Oranges et des Pommes ?

Jeu dedonnées

Recherche

MLArbre ML

Inférence

Bayésienne

ConsensusBayésien

PP

Bayes Bayes Bayes

Bootstrap resampling

BootstrapRéplication 1

BootstrapRéplication 2

BootstrapRéplication n

ML ML ML

PP

?

Bayes1

Bayes2

Bayesn

MCMCArbres 1

MCMCArbres 2

MCMCArbres n

BPBay

ML1

ML2

MLn

MLArbre 1

MLArbre 2

MLArbre n

BPML

Corrélation entre BPML et PP ou BPBay

6 jeux de données empiriques indépendants(

Données R2 Pente B R2 Pente B

1. Orchidées. ITS. 682 nt 0,85 0,59 44,09 0,99 1,22 21,47

2. Xénarthres. vWF. 1161 nt 0,93 0,74 27,29 0,99 1,07 8,13

3. Cigales. EF1a. 2033 nt 0,75 0,36 64,33 0,99 1,07 6,97

3' Cigales. Mitochondrial. 2249 nt 0,75 0,59 43,89 0,99 1,10 9,95

4. Trois Domaines. HMGR. 258 aa 0,73 0,59 43,89 0,98 0,98 1,77

1 2 3 4 5 6

4. Trois Domaines. HMGR. 258 aa 0,73 0,59 43,89 0,98 0,98 1,77

5. Requins. 12S-16S (23 taxa) 0,52 0,18 83,48 0,96 0,95 2,81

5'. Requins. 12S-16S (21 taxa) 0,49 0,38 64,70 0,99 0,98 1,19

6. Boas. 12S-16S.1545 nt 0,27 0,25 73,37 0,95 0,93 4,85

Concaténation des 6 jeux de données 0,54 0,47 55,64 0,96 1,01 1,85

Concaténation des 8 jeux de données 0,54 0,45 57,40 0,97 1,01 1,38

6 jeux de donnéesempiriques

indépendants(15-20 taxons)

90

100

Corrélation entre BPML et PP ou BPBay

30

40

50

60

70

80

90

y = 1.01x - 1.85R² = 0.96

BPBay

y = 0.47x + 55.64R² = 0.54

PP

BPML

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

Douady et al. (2003) Mol. Biol. Evol.

Disparition des conflits topologiques (I)

Diemeniana frenchi

Diemeniana tillyardi

Amphipsalta cingulata

Notopsalta sericea

Mitochondrial Nucléaire

Notopsalta sericea

Cicadetta celis

Cicadetta puer

Pauropsalta johanae

Myersalna depicta

Kikihia scutellaris

Kikihia cauta

Maoricicada cassiope

Maoricicada hamiltoni

PP = 0.94PP = 0.93

0.01

Kikihia cauta

Maoricicada cassiope

Maoricicada hamiltoni

Rhodopsalta cruentata

Rhodopsalta leptomera

Maoricicada hamiltoni

Kikihia scutellaris

Kikihia cauta

BPML = 69 BPML = 65BPBay = 59 BPBay = 65

Disparition des conflits topologiques (II)

Phylogénie des Elasmobranches [Douady et al. (2003) Mol. Phylogenet. Evol.]

Petromyzon Siren

Polymixia

Rajiformes

Chimaeriformes

12S-16S rRNA (23 taxa) 12S-16S rRNA (21 taxa)

RajiformesMyliobatiformes

Hexanchiformes

Squatiniformes

Orectolobiformes

Heterodontiformes Pristiophoriformes

Squaliformes

Hexanchiformes

Orectolobiformes

Heterodontiformes

Lamniformes

Carcharhiniformes

Orectolobiformes

PP = 0.99 PP = 0.98BPML = 53 BPML = 61BPBay = 47 BPBay = 57

Effets de l’inadéquation du modèle d’évolution sur les PP

Sur-paramétrage

Sous-paramétrage

Lemmon et Moriarty (2004) Syst. Biol.

L’utilisation de modèles sous-paramétrés est particulièrement problématique pour l’estimation des PP

http://frederic.delsuc.neuf.fr/fd_pubs.html