1
Plan
Concepts de base• Principes
Distances• Similitude et distances• Distances évaluées et observées• Modèles• Tests
Procédures• UPGMA• NJ
2
L’évolution est-elle parcimonieuse?
210212214216218220222224226228230
123 124 125 126 127 128 129 130 131 132 133
Lg
moy
enne
ave
c le
s au
tres
do
nnée
s
Lg des arbres avec la -globine
3
Arbres obtenus pour et globines
Souris
Lapin
Chien
Singe
Homme
Chimpanzée
Kangourou
Mouton Vache Cheval
Cochon
Arbre obtenu à partir des globines
Singe
Homme
Chimpanzée
Souris
Chien
Lapin
Kangourou
Cheval
Cochon
Mouton
Vache
Arbre obtenu à partir des globines
Différences symétriques entre les arbres
4
Taxonomie numérique
• Relations de distance et non généalogiques
• Des hypothèses supplémentaires permettent des inférences phylogénétiques
•La distance reflète le sens et la vitesse de l’évolution
•Le phénogramme résume les relations taxinomiques
•Différence mesurée entre paires de taxa, c’est une mesure globale
•Tous les caractères ont le même poids
•Information maximum
5
Distance et similitude
K
nnS bbaa
ij
Indice de concordance simple
de Sokal et Michener (1958)
aa
bbij nK
nS
Indice de similitude de Jaccard (1908);cas des
RFLP par ex.
ijij Sd 1Plus deux séquences se ressemblent plus elles
sont proches.
6
Distances métriques et ultramétriques
0ij si i<>j (positivité)
0ij si i=j (la distance de l’UE à elle même est nulle)
jiij (commutativité)
Distances métriques 1(Propriété de l’inégalité triangulaire )
jkikij
Distances ultramétriques (donc les 2 plus grandes distances sont égales 2)
Distances additives
jkikij
ji
k
2
j
i
k
1
),max( jkikij avec jk=ik
7
Correction de distances: le problème(0)On observe le même état de caractère sur deux taxons actuels.Cela peut résulter de différents événements.
ou
État ancestral B
État actuelTaxon 1
A
État actuelTaxon 2
A
changement
État ancestral A
État actuelTaxon 1
A
État actuelTaxon 2
A
A
A Aou
A
A Aou
etc.… etc.…
B
A A
B
A A
8
Correction de distances (1)
K
nnD baab
obs
Avec K= nb de sites observés
2 éléments influent sur l’état actuel observé•État A ou B de l’ancêtre commun : A Pb=f, B pb=1-f•Probabilité de changement visible entre l’ancêtre et l’actuel
(1-)* (1-f)*(1-)* f*(1-)* A et B
(1-)* f*(1-)* (1-f)*(1-)* B et A
(1-f)*(1-)2+(f)* 2(1-f)*(1-)2(f)* 2B et B
f*(1-)2+(1-f)* 2(1-f)* 2f*(1-)2A et A
Probabilité de l’observation
État de l’ancêtre k : B, Pb 1-f
État de l’ancêtre k : A, Pb f
États de i et j
i j
Ancêtre k
)1(2 obsD pour chaque position
9
Correction de distance (2):Hypothèses
•Les changements sont rares et leur moyenne aussi•La moyenne des changement est constante
!r
enP
nr
r
La distribution des changements suit une loi de Poisson:
avec r=nb de changements sur une branche n=moyenne de changements par branche
•La moyenne des changements le long d’une branche est fonction du temps écoulé le long de cette branche. Si t=temps écoulé le long d’une branche m=nb de changements par u de temps
n=mt
et
!r
emtP
mtr
r
10
Correction de distance (3)
Quand verra-t-on une différence entre l’ancêtre et le taxon actuel (évaluation de Si le nombre réel de changements est impair: r = 1,3,5,7,…
...531 PPP
22
20 mtmtmt
mt eeeee
!r 1,,impairr
r
mt mte
2!5!3!1:
531 xx eexxxquesaitonor
7531 PPPP
mte 212
1
11
Correction de distance (4)Quand verra-t-on une différence entre les deux taxa actuels
mt
mt
mt
obs ee
eD 4
2
2 12
1
2
11
-
mtmt
obs
eeD
22
2
11
2
12)1(2
-
Comment exprimer la distance réelle (ou une estimation)?
mtDrel
2Comment à partir de la distance observée déduire la distance réelle estimée?
obsDLogmt 214
obs
mt De 214
mt
obs eD 12
1 4
obsest DLogDmt 21
2
12
12
Séquences nucléotidiques
Il y a 12 possibilités de changements :
transition
transversion4 transitions possibles et 8 transversions possibles.
AGC T
A et G Purines
C et T Pyrimidines
13
Correction de distance (5)
Dans le calcul précédent on n’a tenu compte que de deux états de caractère.
Pour l’ADN il y en a 4 ce qui complique le calcul.
Avec A=C=G=T et tous les changements équiprobables (JC), la correction devient
Avec A=C=G=T et les transitions équiprobables, les transversions également, mais la fréquence transition différente de transversion
(K2p), la correction devient
)1(
3
41ln
4
3ijij Sd
QQPdij 21)21(ln2
1
14
Correction de distance: les modèles
Modèle A/G/C/T Pb SI Pb Ve
Jukes et Cantor A=G=C=T=25%
Kimura 2p A=G=C=T=25%
Tamura 3p A+T=1-, G+C=
Tajima et Nei 1p AGCT
Hasegawa HKY85 2p
AGCT
Tamura et Nei 3p
AGCT 1(Pyr) et 2(Pur)
Modèle à 8 p AGCT 1, 2, 3 et 4
1, 2, 3 et 4
15
Tests statistiques des modèles (1)Test de l’invariant unique
Sous le modèle de JC les paires AG et TC (transitions=P) sont 2 fois moins observables que les autres (transversions=Q). On attend donc : 2P-Q=0. On va donc estimer l’écart de JC à sa valeur théorique 0 avec
)2( ij
n
jiij QPJC
)
1
2
)(
Ni
i NiV
xxqui a pour variance
2)(z
JCV
JC
représente le degré de signification souhaité et z la valeur seuil au-delà de laquelle la courbe de la probabilité a la surface /2.
Et on compare
16
Tests statistiques des modèles (2) Test de stationnarité
Dans les modèles •Tamura, •Tajima, •HKY85 •à 8 paramètres,
à l’équilibre la probabilité g du nucléotide x dans la séquence 1,2, … ou m est la même :. C’est ce que l’on va tester.
xmxx ggg ...21
17
Tests statistiques des modèles (3) Test des invariants multiples
Si la condition de stationnarité est satisfaite, quel est le modèle le plus simple qui rende compte des données? Il y a 10 couples de changements possibles (les changements réciproques étant de même probabilité) : AA, AT, AC, AG, TT, TC, TG, CC, CG, GG avec
,..., 21 XATXAA Pour chaque modèle il est possible pour Xi d’écrire une équation de la forme
s
ss bXa 0)(ou s indique le sème nucléotide, a et b les paramètres de chaque modèle Le modèle de Kimura revient alors à
172 aa 193 aaet tous les autres a et b sont nuls soit
0 GCGTACAT XXXX
18
UPGMA 1
Tetrahymena
Ginkgo
Epinard Sureau Poireau
Mouche Bonite Lapin Rat Cheval
Tetrahymena 0
Ginkgo 68 0
Epinard 72 19 0
Sureau 66 15 17 0
Poireau 61 15 12 9 0
Mouche 69 44 46 50 42 0
Bonite 68 45 48 51 42 23 0
Lapin 68 40 45 48 40 21 17 0
Rat 69 39 44 47 39 20 16 2 0
Cheval 68 43 48 50 42 22 18 6 6 0
Rat
Lapin
1
1
19
UPGMA 2
6
016,520,539,547,544,539,568,5L+R
L+R
018224250484368Cheval
0234251484568Bonite
04250464469Mouche
09121561Poireau
0171566Sureau
01972Epinard
068Ginkgo
0Tetrahymena
ChevalBoniteMouchePoireauSureau EpinardGinkgoTetrahymena
Rat
Lapin
1
1Cheval
2
3
Lapin 68 40 45 48 40 21 17
Rat 69 39 44 47 39 20 16
20
UPGMA 3Tetrahymena Ginkgo Epinard Sureau Poireau Mouche Bonite L+R+C
Tetrahymena 0
Ginkgo 68 0
Epinard 72 19 0
Sureau 66 15 17 0
Poireau 61 15 12 9 0
Mouche 69 44 46 50 42 0
Bonite 68 45 48 51 42 23 0
L+R+C 68,33 40,67 45,67 48,33 40,33 21 17 0
Rat
Lapin
1
1Cheval
2
3
Sureau
Poireau
4,5
4,5
21
UPGMA 4Tetrahymena Ginkgo Epinard S+P Mouche Bonite L+R+C
Tetrahymena 0
Ginkgo 68 0
Epinard 72 19 0
S+P 68 15 14,5 0
Mouche 69 44 46 50 42 0
Bonite 68 45 48 51 42 23
L+R+C 68,33 40,67 45,67 44,33 21 17 0
Rat
Lapin
1
1Cheval
2
3
4,5 Sureau
Poireau4,5Epinard
2,75
7,25
22
UPGMA 5
Tetrahymena Ginkgo S+P+E Mouche Bonite L+R+C
Tetrahymena 0
Ginkgo 68 0
S+P+E 69,33 16,33 0
Mouche 69 44 46 42 0
Bonite 68 45 47 42 23
L+R+C 68,33 40,67 44,78 21 17 0
4,5 Sureau
Poireau4,5Epinard
2,75
7,25
Ginkgo
0,915
8,165
Rat
Lapin
1
1Cheval
2
3
23
UPGMA 6
Tetrahymena S+P+E+G Mouche Bonite L+R+C
Tetrahymena 0
S+P+E+G 69 0
Mouche 69 45,5 0
Bonite 68 46,5 42 0
L+R+C 68,33 43,75 21 17 0
Rat
Lapin
1
1Cheval
2
3
Bonite
5,5
8,5
4,5 Sureau
Poireau4,5Epinard
2,75
7,25
Ginkgo
0,915
8,165
24
UPGMA 7
Tetrahymena S+P+E+G Mouche R+L+C+B
Tetrahymena 0
S+P+E+G 69 0
Mouche 61 45,5 0
R+L+C+B 68,5 44,43 21,5 0
4,5 Sureau
Poireau4,5Epinard
2,75
7,25
Ginkgo
0,915
8,165
Rat
Lapin
1
1Cheval
2
3
Bonite
5,5
8,5
Mouche
2,25
10,75
25
UPGMA 8Tetrahymena S+P+E+G R+L+C+B+M
Tetrahymena 0
S+P+E+G 69 0
R+L+C+B+M 67 44,64 0
4,5 Sureau
Poireau4,5Epinard
2,75
7,25
Ginkgo
0,915
8,165
Rat
Lapin
1
1Cheval
2
3
Bonite
5,5
8,5
Mouche
2,25
10,75
14,155
11,57
26
UPGMA 9
Tetrahymena S+P+E+G+R+L+C+B+M
Tetrahymena 0
S+P+E+G+R+L+C+B+M 67,89 0
4,5 Sureau
Poireau4,5Epinard
2,75
7,25
Ginkgo
0,915
8,165
Rat
Lapin
1
1Cheval
2
3
Bonite
5,5
8,5
Mouche
2,25
10,75
14,155
11,57
Tetrahymena
12,02
33,94
27
Unweighted Pair-Group Method of Arithmetic average
-
D
839D
-
C
4
-
B
7
5
-
A
C
B
A
Matrice de distances Dbd = 3On répartit cette distance
également sur les 2 branches
B
D
1,5
1,5
28
Neibor-joining (1)
i
j
n
m
l
k
x yD représente une
distance observéeB représente une
distance estimée
jik
ykxyjxixij BBBBSLa longueur de l’arbre correspondant s’exprime :
(1)
29
NJ (2)
ykxyixik BBBD
De la même manière pour les distances de j à tous les autres différents de i
et il y a n-2 distances de ce type donc
ylykkl BBD soit pour toutes les distances entre les n-2 otus de l’étoile :
jxixij BBD (2)
jik
ykxyixjik
ik BBBnD ))(2( (3)
jik
ykxyjxjik
jk BBBnD ))(2( (4)
ykjilk
kl BnD )3(,,
(5)
30
NJ (3)
jxixij BBD (2)
jik
ykxyixjik
ik BBBnD ))(2( (3)
jik
ykxyjxjik
jk BBBnD ))(2( (4)
ykxyjxix BnBnnBBQ )32()2(2)21)((
ykjilk
kl BnD )3(,,
(5)
ykxyij BnBnDnQ )1()2(2)1( (6)
31
NJ (4)
On tire de (6)
)2(2
)1()1(
n
BnDnQ
B
n
jikykij
xy
(9)
ykxyij BnBnDnQ )1()2(2)1( (6)
ykykij
ijij Bn
BnDnQDS
)2(2
)1()1(
)2(2
)1()2(2)1()2(2
n
BnnQDnnS ykij
ij
)2(2
)3()142(
n
BnQDnnS ykij
ij
En substituant dans 1 les valeurs données par 2 et 7
BykBBBS xyjxixij (1)
32
)2(2
)3(
)2(2
)3(
n
DRRQQDn
n
DQDnS ijjiijklij
ij
)2(2
2)2(
n
DRRQDnS ijjiij
ij
Puis en utilisant la valeur de Byk exprimée dans 7 et en remplaçant ensuite Dkl par sa valeur donnée en 8
NJ (5)D’après l’équation (5)
n
ijiji DRdistances de l’OTU i
à toutes les autres
n
jiijj DRdistances de l’OTU j
à toutes les autres
)3(,,
n
D
B jilkkl
jikyk
(7)
ijjijilk
kl DRRQD ,,
(8)
33
Neighbor-Joining (6)
i
j
ancêtre
D ianc2
Dij
horloge
)2(2
2
N
RRQ ji
Correction de l’horloge
)2(2
2
2
n
RRQDS jiij
ij
34
Méthodes agglomératives
•Distances métriques et additives
•Voir la formule
•Arbre non raciné
•Distances ultramétriques
•Vitesse constante sur toutes les branches
•Arbre raciné
NJUPGMA
35
Arbres à 7 taxons obtenus avec NJ ou UPGMA
Cyathea le
Gnetum gne
Metasequoi
Magnolia s
Encephalar
Cedrus deo
Ginkgo bil
1
1
1
26
NJ
UPGMA
Cyathea le
Gnetum gne
Magnolia s
Metasequoi
Cedrus deo
Encephalar
Ginkgo bil
1
5
2
4
13
19/11/02 J2_2002_ DESS
Monocotylédones
Pla
ntes
terr
estr
es
Chlorophycées
Bryophytes
Ptéridophytes
Gymnospermes
Dicotylédones 1
Dicotylédones 2
Spe
rmat
ophy
tes
Plantes terrestres
37
FIN (distances)
38
Comparaison des deux méthodes de calcul d’arbre
Méthodes de distance Méthodes de parcimonie
*Calcul d’une distance globale *Un seul arbre retourné par le programme *Pas de test de robustesse de l’arbre unique (excepté le bootstrap) *Pas de retour aux caractères pour pouvoir les reconsidérer
*Rapide, même avec un grand nombre de taxa
*Examen des caractères les uns après les autres*La méthode peut retourner plusieurs arbres également parcimonieux*Il y a un test de robustesse des noeuds (mesure de l’homoplasie dans l’arbre par le calcul du rapport de la longueur minimale de l’arbre à sa longueur réelle.*Retour aux caractères pour éventuellement réévaluer ceux qui donnent des aberrations
*Vitesse moyenne. Sur de grosses machines on peut en plusieurs jours traiter des données jusqu'à 500 taxa