méthode de recherche de gènes orthologues jean-philippe doyon Étudiant au doctorat en...
TRANSCRIPT
![Page 1: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/1.jpg)
Méthode de recherche de gènes orthologues
Jean-Philippe DoyonÉtudiant au doctorat
en informatique
Juin 2005Orford, Québec
![Page 2: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/2.jpg)
Orthologie et Paralogie
DuplicationSpéciation
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
Lignée 1
Lignée 2
![Page 3: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/3.jpg)
Orthologie et Paralogie
DuplicationSpéciation
Gènes paraloguesPaire de gènes nés de la duplication de leur ancêtre commun
Gènes orthologuesPaire de gènes nés de la divergence de leur ancêtre commun (spéciation)
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
Lignée 1
Lignée 2
![Page 4: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/4.jpg)
Orthologie et Paralogie
Gènes out-paraloguesLa duplication est suivie d’au moins une spéciation
Gènes in-paraloguesLa duplication n’est suivie d’aucune spéciation
DuplicationSpéciation
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
Lignée 1
Lignée 2
Terminologie pour les gènes paralogues (Remm et al. (2001))
![Page 5: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/5.jpg)
L’arbre des gènes n’est pas l’arbre des espèces
Importance de la recherche de gènes orthologues
La VRAIE histoire du gène
V
H
C
humain
vache
chimpanzé
V1
H1
C1
V2
H2
C2
![Page 6: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/6.jpg)
• Regroupement des gènes de plusieurs espèces en groupes de gènes orthologues (COG).
b a
dc
b a
dc
b a
dcb b
bB
a a
aA c c
cC
d d
dD
Espèces Groupes de gènes orthologues
Problématique
![Page 7: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/7.jpg)
Intérêt de la recherche de gènes orthologues
• Problème important pour l’évolution moléculaire:– Annotation des gènes;
– Inférer la phylogénie des espèces selon une grande quantité de gènes présents chez la plupart des génomes;
– Comparaison génomique selon le contenu en gènes des espèces.
![Page 8: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/8.jpg)
Méthodes existantesDonnées Basée sur Aperçu
Yuan et al., 1998 1 séquence requête
• les “hits” de blast
• arbre des séquences
• arbre des espèces
Comparaison des deux arbres
Inparanoid
(Remm et al., 2001)
2 génomes • blast Règles de chevauchement
Storm et al., 2002 2 génomes • arbre des séquences • Parcours postfixe
• Valeurs de “bootstrap”
OrthoMCL
(Li et al., 2003)
n génomes
• blast
• graphe de similarités
“Markov Clustering Algorithm”
Chen et al., 2004 2 génomes • blast
• l’ordre des gènes
“Signed
Reverseal Distance”
![Page 9: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/9.jpg)
Méthode pour la recherche de gènes orthologues
OrthoMCL
Groupes de gènes homologues: paralogues ou orthologues?
Comparaison de l’arbre des gènes avec l’arbre des espèces
• Appliquer à toutes les familles
• Pour différencier les orthologues des paralogues
![Page 10: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/10.jpg)
Méthode pour la recherche de gènes orthologues
OrthoMCL
Groupes de gènes homologues: paralogues ou orthologues?
Comparaison de l’arbre des gènes avec l’arbre des espèces
• Appliquer à toutes les familles
• Pour différencier les orthologues des paralogues
Tests statistiques du regroupement• Pour chaque famille
• La bonne topologie est-elle bien supportée?• Et les autres?
![Page 11: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/11.jpg)
Séquences protéiques des organismes
Tous contre tousBLASTP
Entre espèces:“Best Reciprocal Hit”Orthologues putatifs
Intra espèces:“Best Reciprocal Hit”Paralogues récents
Matrice de similarités(normalisée par espèce)
Markov ClusteringGroupes d’orthologues
avec des paralogues (récents)
OrthoMCL (Li et al., 2003)
Identification de in-paralogues pour chaque orthologues
Tous Tous
“Best Reciprocal Hit”
![Page 12: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/12.jpg)
Inflation: paramètre de granularitéInflation Petite Moyenne Grande
Regroupement grossier grossier / fin fin
Vrais Négatifs peu moyennement beaucoup
Faux Positifs beaucoup moyennement peu
VN
FP VP
FN
Graphe de similarités des gènes
![Page 13: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/13.jpg)
OrthoMCL – Mesures de valuation
Mesures définies selon les similarités de séquences observées (blast)et celles induites par MCL.
• Efficacité:– Ratio du nombre de VN et de FP– Plus la valeur est haute, plus le regroupement est bon.
• “Mass fraction”:– Ratio du nombre de VP
• “Area fraction”:– Plus la valeur est basse, plus le regroupement est fin.
1)1(
##10
nn
FPVN
1||
#0
E
VP
)1(
11
nn
PPN
iii
![Page 14: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/14.jpg)
OrthoMCL: données
4 espèces C. glabrata K. lactis D. hansenii Y. lipolytica Total
Nbre. de protéines 5272 5331 6896 6666 24 165
• 4 levures où l’ordre des gènes est bien conservé• Duplication du génome chez C. glabrata• Duplication en tandem chez Y. lipolytica
Beaucoup de in-paralogues ?
C. glabrata
K. lactis
D. hansenii
Y. lipolytica
![Page 15: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/15.jpg)
Valuation des regroupementsInflation Nbre. de
ClustersEfficiency Mass
fractionArea Fraction
Cluster link Weight
Graph link Weight
1.2 5064 0.64549 0.99976 0.00023 0.92575 0.92418
1.5 5140 0.65434 0.99629 0.00020 0.93250 0.92418
2.0 5227 0.65936 0.99179 0.00019 0.93954 0.92418
2.4 5267 0.66100 0.98782 0.00019 0.94479 0.92418
2.8 5307 0.66199 0.98185 0.00018 0.95018 0.92418
3.2 5354 0.66210 0.97645 0.00018 0.95359 0.92418
• Les valeurs d’efficacités sont similaires.• Dans le pire des cas, le nombre de Faux Positifs est de 2.5%.• Le découpage est très affecté par l’inflation.• Le choix dépend du nombre de vrais négatifs attendus par
l’utilisateur.
Trop grossier
Trop fin
Lequel choisir ?
![Page 16: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/16.jpg)
OrthoMCL: résultats• Famille universelle et unique: un et un seul gène par espèce.• Famille universelle et non-unique: au moins une espèce a deux gènes.
Inflation Universelle
Unique
Universelle
Non-Unique
Non-Universelle Total
1.2 2892, 57% 458, 9% 1714, 34% 5064
1.5 2902, 56% 432, 8% 1806, 35% 5140
2.0 2882, 55% 402, 8% 1943, 37% 5227
2.4 2875, 55% 379, 7% 2013 , 38% 5267
2.8 2864, 54% 357, 7% 2086, 39% 5307
3.2 2855, 53% 335, 6% 2164, 40% 5354
Grossier + -Fin - +
![Page 17: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/17.jpg)
Méthode pour la recherche de gènes orthologues
OrthoMCL
Groupes de gènes homologues: paralogues ou orthologues?
Comparaison de l’arbre des gènes avec l’arbre des espèces
• Appliquer à toutes les familles
• Pour différencier les orthologues des paralogues
Tests statistiques du regroupement• Pour chaque famille
• La bonne topologie est-elle bien supportée?• Et les autres?
![Page 18: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/18.jpg)
Tests pour les familles uniques
D Y
KC
K Y
DC
Y K
DC
1. Pour 4 espèces, il y a 3 topologies possibles
2. Pour chaque famille unique:• Alignement multiple (ClustalW).• Calcul de la vraisemblance et du support pour les trois
topologies (Tree-Puzzle).
Famille 1 Famille 2 Famille 2902……..C>AYANEY>ANNAND>AYASDK>APAPP
+ / -
+ / -
+ / -
+ / -
+ / -
+ / -
+ / -
+ / -
+ / -
C. glabrataY. lipolyticaD. hanseniiK. lactis
C>AYANEY>ANNAND>AYASDK>APAPP
C>AYANEY>ANNAND>AYASDK>APAPP
![Page 19: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/19.jpg)
2. Signal négatif:• la vraie topologie est rejetée• les 2 autres ne sont pas rejetées
Vrai signal positif:• vrais orthologues
Causé par:• petits gènes• peu de positions informatives
Tests pour les familles uniques
1. Signal positif:• la vraie topologie n’est pas
rejetée• les 2 autres sont rejetées
3. Signal nul:• Aucune topologies n’est rejetée
Faux signal positif :• artéfact de reconstruction(ex. attraction des longues branches)
Vrai signal négatif:• gènes paralogues
Faux signal négatif:• artéfact de reconstruction
![Page 20: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/20.jpg)
Tests pour les familles uniquesInflation Signal + Signal - Signal nul Autres Total
1.2 2176, 75% 8, 0.2% 550, 19%
(439, 15%)
158 2892
1.5 2174, 75% 7, 0.2% 555, 19%
(443, 15%)
166 2902
2.0 2155, 75% 9, 0.2% 533, 18%
(420, 15%)
185 2882
2.4 2153, 75% 7, 0.2% 542, 19%
(433, 15%)
173 2875
2.8 2146, 75% 8, 0.2% 547, 19%
(437, 15%)
163 2864
3.2 2144, 75% 8, 0.2% 541, 19%
(432, 15%)
162 2855
Tous les signaux sont stables selon la valeur d’inflation
(): la bonne topologie est l’arbre le plus vraisemblable
![Page 21: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/21.jpg)
In-paralogues et Out-Paralogues
C1
C2
C3
K Y2
D
A) Groupe de in-paralogues
C2 est le représentant du groupe
B) Plusieurs out-paralogues
Y1 C4
K Y2
D
Y1 C4
C2
C. glabrata : C2, C4Y. lipolytica : Y1, Y2D. hansenii : DK. lactis : K
• C2, Y1, D, K• C2, Y2, D, K• C4, Y1, D, K• C4, Y2, D, K
C) 4 familles uniques possibles
![Page 22: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/22.jpg)
Tests pour les familles non-uniquesI. Pour 4 espèces, il y a 3 topologies possibles.
II. Pour chaque famille:1. Appliquer Phyml pour chercher
• Les groupes de in-paralogues;• Et leurs représentants.
2. Pour chaque quadruplet de gènes (famille unique)• Alignement multiple;• Calcul de la vraisemblance et du support.
Famille 1 Famille 2 Famille 2902……..
+ / -
+ / -
+ / -
C>AYANEY>ANNAND>AYASDK>APAPP
C>AYANEY>ANNAND>AYASDK>APAPP
C>AYANEY>ANNAND>AYASDK>APAPP
x n x n x n
x n
+ / -
+ / -
+ / -
x n
+ / -
+ / -
+ / -
x n
![Page 23: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/23.jpg)
Tests pour les familles non-uniques
Les vrais orthologues
Les faux orthologues
Lesquels sont les vrais orthologues?
Tous des faux orthologues
1. Signal positif clair:i. Un seul quadruplet a un signal + :
• la vraie topologie n’est pas rejetée• les 2 autres sont rejetées
ii. Tous les autres ont un signal – :• la vraie topologie est rejetée• les 2 autres ne sont pas rejetées
2. Signal positif non-clair:• Au moins 2 quadruplets ont un signal +• Tous les autres ont un signal –
3. Signal négatif clair:• Tous les quadruples ont un signal –
4. Signal nul clair• Tous les quadruples ont un signal nul
![Page 24: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/24.jpg)
Tests pour les familles non-uniques
Inflation Signal + clair
Signal + non-clair
Signal –
clair
Signal nul
clair
Autres Total
1.2 4, 0.8% 129, 28% 3, 0.6% 53, 12% 269 458
1.5 3, 0.7% 130, 30% 2, 0.5% 50, 12% 247 432
2.0 2, 0.5% 122, 30% 1, 0.2% 51, 13% 226 402
2.4 2, 0.5% 119, 31% 2, 0.5% 44, 12% 212 379
2.8 0 112, 31% 2, 0.6% 38, 11% 205 357
3.2 0 105, 31% 2, 0.6% 38, 11% 190 335
Tous les signaux sont stables selon la valeur d’inflation
![Page 25: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/25.jpg)
432 Familles Non-Uniques (I=1.5)
Espèces Nombre de familles avec plus d’un out-paralogues
Nombre total de
out-paralogues
Moyenne
C. glabrata 129 272 2.11
D. hansenii 149 324 2.17
K. lactis 78 164 2.10
Y. lipolytica 97 223 2.30
Espèces Nombre de groupes de in-paralogues
Taille totale
Taille moyenne
C. glabrata 90 193 2.14
D. hansenii 60 165 2.75
K. lactis 15 32 2.13
Y. lipolytica 41 156 3.80
Seulement des in-paralogues Seulement des out-paralogues Avec les deux
110 253 69
Beaucoup plus de in-paralogues chez C. glabrata que chez K. lactis
Duplication du génome
Duplication en tandem
![Page 26: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/26.jpg)
Méthode pour la recherche de gènes orthologues
OrthoMCL
Groupes de gènes homologues: paralogues ou orthologues?
Comparaison de l’arbre des gènes avec l’arbre des espèces
• Appliquer à toutes les familles
• Pour différencier les orthologues des paralogues
Tests statistiques du regroupement• Pour chaque famille
• La bonne topologie est-elle bien supportée?• Et les autres?
![Page 27: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/27.jpg)
Les deux arbres peuvent être différents par cause de
• Duplications;
• Perte du vrai orthologue mais pas du faux orthologue;
• Transfert Horizontal de Gène (HGT).
Arbre des gènes vs. Arbre des espèces
Que s’est-il passé ?
Arbre des gènes Arbre des espèces
≠humain chevalchimpanzéhumain cheval chimpanzé
![Page 28: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/28.jpg)
• Raconte l’évolution du gène s’il n’y avait eu aucune perte
• Indique où il y a eu des événements de duplications
• Les HGTs ne sont pas considérés
• Un seul gène par espèce
Arbre de réconciliation
-humain -cheval-chimpanzé β-humain -cheval-chimpanzé
Lignée α Lignée β
Duplication
![Page 29: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/29.jpg)
• Raconte l’évolution du gène s’il n’y avait eu aucune perte
• Indique où il y a eu des événements de duplications
• Les HGTs ne sont pas considérés
• Un seul gène par espèce
Arbre de réconciliation
-humain -cheval -chimpanzé
Lignée α Lignée β
Duplication
![Page 30: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/30.jpg)
Algorithme de réconciliation
• Pour chaque nœud, calculer le LCA.
• Une duplication au nœud g est inférée si
• LCA (g) = LCA (g1) ou LCA (g) = LCA (g2)
• Pour chaque nœud g où il y a eu une duplication:
• créér deux copies du sous-arbre S(g)
• O (n^2) en temps et O(n) en espace
“Last Common Ancestor”
Arbre des gènes Arbre des espèces
humain chevalchimpanzéhumain cheval chimpanzé
![Page 31: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/31.jpg)
PERSPECTIVES
![Page 32: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/32.jpg)
I- Autres tests statistiques
• Refaire les mêmes tests mais sur un espace phylogénétique plus large (11 levures).– 34 459 425 topologies possibles;– Ne considérer que
• la topologie des gènes (PHYML)• celles des espèces.
• Étudier les différentes raisons qui pourraient expliquer les signaux nuls:– le nombre moyen de positions par gène;– la longueur de l’arbre;– le nombre de positions informatives.
![Page 33: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/33.jpg)
II- Peu de signal phylogénétique
• Le manque de signal phylogénétique est un problème fréquent (19% des familles sans signal).
• Algorithme de type “Branch and Bound”;– Pour une faible valeur de support:
• Ne considérer que les “clades” qui sont supportés par une valeur > seuil.
• Calculer une borne minimale sur le coût de réconciliation avec ce clade.
– Considérer trois seuils: 50%, 70% et 95%.
![Page 34: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/34.jpg)
III- Algorithme probabiliste
• Une duplication est plus probable sur une longue branche que sur une courte branche.
• Toutes les méthodes de réconciliation prennent pour acquis que les duplications sont équiprobables pour toutes les branches
• Algorithme probabiliste– Selon les données, évaluer les probabilités de duplications pour
chaque branche.– Appliquer un algorithme de type “Expectation Maximisation” ou
Bayésien.
![Page 35: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/35.jpg)
• Validation de type “bootstrap” d’une famille de n gènes– Répéter pour chaque n gènes
• Créér une Pseudo Famille en retirant le gène• Appliquer la réconciliation• Calculer la distance entre la Pseudo et la Vraie réconciliation
• Validation externe:– Étudier la conservation du voisinage chez les gènes
orthologues– La synténie est bien conservée chez les levures
IV- Validation d’une réconciliation
![Page 36: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d81497959293b8baf87/html5/thumbnails/36.jpg)
• Génome Québec
• Hervé Philippe
• Cedric Chauve
• Sylvie Hamel
• Olivier Jeffroy
REMERCIEMENTS