la phylogénomique sans alignement de séquences
DESCRIPTION
La phylogénomique sans alignement de séquences. Jean-Loup Risler Statistique & Génome [email protected]. Carry-le-Rouet, Décembre 2006. Reconstructions phylogénétiques Distances Maximum de parcimonie Maximum de vraisemblance. Recherche de synténies. - PowerPoint PPT PresentationTRANSCRIPT
La phylogénomique sansalignement de séquences
Jean-Loup RislerStatistique & Génome
[email protected] Carry-le-Rouet, Décembre 2006
Reconstructions phylogénétiques
Distances Maximum de parcimonie Maximum de vraisemblance
Recherche de synténies
Identification des orthologues Blast Alignements multiples
Une alternative: la recherche de « mots » communsdans les séquences (k-words, k-tups, k-grams...)
Exemple classique : le « Dotplot »
Les alignements de chromosomes entiers sontimpossibles à cause des réarrangements.
La recherche de « mots communs » ne se souciepas de leurs positions.
On peut donc penser à déterminer une « distance »entre chromosomes à partir de leur contenu enmots communs.
B. E. Blaisdell, PNAS 83 (1986), 5155-5159
Composition en di- et tri-nucléotides (chaînes deMarkov d’ordre 1 et 2) de séquences codantes etnon codantes test du chi2:
1
2
3
4
5
A
B
Revue: Vinga, S. & Almeida, J.Alignment-free sequence comparisonBioinformatics 19 (2003), 513-523.
Gary W. Stuart
Une séquence peut être représentée par un vecteur
S = AATATTAAATTTATA
AA = 3AT = 4TT = 3TA = 4 AA
TT
AT
{s343
s = (3, 4, 3, 4)
AA
TT
AT
{s1 2
22
{s2 4
44
AA
TT
AT
{s1 u1 = 3
v1 = 4t1 = 4
{s2 u2 = 4
v2 = 4t2 = 4
s1 . s2 = u1*u2 + v1*v2 + t1*t2
= |s1|*|s2|*cos()
|s1| = (u12 + v1
2 + t12)1/2
d(i,j) = -Log[(1 + cos )/2]
Il y a 160.000 tetrapeptides possibles.Donc, si l’on décompose un jeu de protéines en motsde longueur 4, chaque protéine sera représentée parun vecteur dans un espace à 160.000 dimensions...
De très nombreux « axes » portent peu d’information(tetrapeptides peu ou pas présents). On réduit la taillede l’espace en prenant pour repères les axes d’inertieles plus significatifs du nuage de points (changementde repère) et en supprimant les axes de faible inertie.
xy
z
A
A’
B
B’
A A’
B
B’
Toutes les protéines d’une même espèce sont regroupéesen un seul vecteur --> chaque espèce est représentée parun vecteur.