Download - Statistiques et séquences
![Page 1: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/1.jpg)
Statistiques et séquences
Phase 0 Phase 1 Phase 2
p
-
Document écrit chap. 5
![Page 2: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/2.jpg)
IntroductionUtilisation prédictive des biais statistiquesModélisation des séquences par des chaines de MarkovModèles de Markov cachés, ou “HMM”
![Page 3: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/3.jpg)
![Page 4: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/4.jpg)
Séquence de dinosaure
● La séquence de Jurassic Park estelle crédible? ● Comment pouvezvous, bioinformaticiens, détecter une supercherie ou une erreur?
● Comment faire pour fabriquer de toutes pièces une séquence crédible?
● Quelles sont les applications de ce type d'analyse?
![Page 5: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/5.jpg)
Les séquences biologiques sontelles aléatoires?
● Il existe des biais dans la distribution des nucléotides ● Ces biais reflètent une histoire évolutive, mélange de pressions sélectives systématiques et de hasard
● Ils peuvent être utilisés à des fins prédictives
![Page 6: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/6.jpg)
Les nucléotides ne sont pas équidistribués
TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA
Plasmodium falciparum
CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC
Streptomyces Griseus
![Page 7: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/7.jpg)
Les nucléotides ne sont pas équidistribués
TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA
Plasmodium falciparum
CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC
Streptomyces griseus
![Page 8: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/8.jpg)
Fréquence des nucléotides
Sur un génome complet, on peut calculer la fréquence dechaque nucléotide sur l'ensemble des deux brins d'ADN.
Les règles d'appariement WatsonCrick imposent :
fA = fT et fG = fC
Il y a donc une seule fréquence indépendante, par exemple fG+C = fG + fCOn parle de taux de G+C d'un génome.
Il y a équidistribution ssi fG + fC = 50%
![Page 9: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/9.jpg)
Contenu en G+C des génomes
StreptomycesB pertussis
M lepraeE coli
H sapiensL lactis
A thalianaM genitaliumC botuliniumP falciparum
10 20 30 40 50 60 70 80
% (G+C)
![Page 10: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/10.jpg)
Distribution des acides aminés dans les protéines
alanine 8.3 leucine 9.0asparagine 4.4 lysine 5.7aspartate 5.3 méthionine 2.4arginine 5.7 phénylalanine 3.9cystéine 1.7 proline 5.1glutamine 4.0 serine 6.9glutamate 6.2 tryptophane 1.3glycine 7.2 tyrosine 3.2histidine 2.2 thréonine 5.8isoleucine 5.2 valine 6.6
En %
Les fréquences sont à peu près les mêmes dans les différents organismes.
![Page 11: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/11.jpg)
Biais d'ordres plus élevés
Analyse de la fréquence des nuplets
Soit un nuplet de nucléotides (consécutifs) X1X2...Xn
Si fX1X2...Xn > fX1 fX2 ... fXn nuplet surreprésenté
Si fX1X2...Xn < fX1 fX2 ... fXn nuplet sousreprésenté
Si fX1X2...Xn = fX1 fX2 ... fXn neutre
![Page 12: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/12.jpg)
Fréquence des dinucléotides
Distribution de la fréquencedes di-nucléotides XpY dans dessegments génomiques de 50 kb.
Fréquences normalisées: fXY/fX fY
Gentles & Karlin (2001) Genome Res 11:540
![Page 13: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/13.jpg)
Fréquence des dinucléotides
CpG est sous-représentéchez les vertébrés
Distribution de la fréquencedes di-nucléotides XpY dans dessegments génomiques de 50 kb.
Fréquences normalisées: fXY/fX fY
Gentles & Karlin (2001) Genome Res. 11:540
![Page 14: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/14.jpg)
Un mécanisme d'élimination desséquences CpG chez les vertébrés
N
NH2
O
N
N
O
O
NH
Dans l'ADN, les cytosines sont sensibles à l'oxidation.Les désoxi-uridines résultantes sont réparées par une machinerie spécialisée.
cytosine uridine
C
G
U
G
G
C
Goxidation excision réparation
oxidation
![Page 15: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/15.jpg)
N
NH2
O
N
N
O
O
NH
Dans les séquences CpG vertébrés, le C est souvent méthylé (70% du génome).La réparation peut alors causer une mutation; d'où une disparition progessive.
5-méthyl-cytosine thymidine
CG
GC
oxidation excision réparation
TG
GC TG
C
G
GC
TG
AC
CG
GC
Un mécanisme d'élimination desséquences CpG chez les vertébrés
![Page 16: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/16.jpg)
Les biais les plus importantssont ceux d'ordre 3
Ils se manifestent dans les régions codantes.
Ils résultent de la structure du code génétique,qui utilise des triplets de nucléotides.
![Page 17: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/17.jpg)
Les contraintes sur la composition des protéinesse répercutent sur les parties codantes de l'ADN
Codons STOP systématiquement évités quand ilssont dans la phase de lecture, sur le brin codant.
Fréquences particulières des différents acides aminés.
Par exemple: 1.3% de Trp 1.3% de codons TGG 2.4% de Met 2.4% de codons ATG
![Page 18: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/18.jpg)
Le code génétique est dégénéré61 codons “sens” pour 20 acides aminés
![Page 19: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/19.jpg)
La cellule exprime des préférencesentre les différents codons synonymes
Ces préférences sont spécifiques de chaque espèce
![Page 20: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/20.jpg)
Fréquence des codons (0/00)
E coli
H sapiens
TTT : Phe 19 TCT : Ser 10 TAT : Tyr 15 TGT : Cys 6TTC : Phe 18 TCC : Ser 10 TAC : Tyr 14 TGC : Cys 5TTA : Leu 10 TCA : Ser 6 TAA : Stop TGA : StopTTG : Leu 11 TCG : Ser 8 TAG : Stop TGG : Trp 13CTT : Leu 10 CCT : Pro 6 CAT : His 11 CGT : Arg 25CTC : Leu 10 CCC : Pro 4 CAC : His 11 CGC : Arg 22CTA : Leu 3 CCA : Pro 8 CAA : Gln 13 CGA : Arg 3CTG : Leu 55 CCG : Pro 24 CAG : Gln 30 CGT : Arg 4ATT : Ile 27 ACT : Thr 11 AAT : Asn 16 AGT : Ser 7ATC : Ile 28 ACC : Thr 24 AAC : Asn 25 AGC : Ser 15ATA : Ile 4 ACA : Thr 6 AAA : Lys 37 AGA : Arg 2ATG : Met 27 ACG : Thr 12 AAG : Lys 12 AGG : Arg 1GTT : Val 21 GCT : Ala 18 GAT : Asp 32 GGT : Gly 29GTC : Val 14 GCC : Ala 23 GAC : Asp 23 GGC : Gly 31GTA : Val 12 GCA : Ala 20 GAA : Glu 44 GGA : Gly 7GTG : Val 25 GCG : Ala 33 GAG : Glu 20 GGG : Gly 9
TTT : Phe 16 TCT : Ser 13 TAT : Tyr 13 TGT : Cys 10TTC : Phe 23 TCC : Ser 18 TAC : Tyr 19 TGC : Cys 15TTA : Leu 5 TCA : Ser 9 TAA : Stop TGA : StopTTG : Leu 11 TCG : Ser 4 TAG : Stop TGG : Trp 14CTT : Leu 11 CCT : Pro 16 CAT : His 9 CGT : Arg 5CTC : Leu 20 CCC : Pro 20 CAC : His 14 CGC : Arg 11CTA : Leu 6 CCA : Pro 14 CAA : Gln 11 CGA : Arg 5CTG : Leu 43 CCG : Pro 6 CAG : Gln 34 CGT : Arg 4ATT : Ile 15 ACT : Thr 13 AAT : Asn 17 AGT : Ser 10ATC : Ile 24 ACC : Thr 23 AAC : Asn 23 AGC : Ser 19ATA : Ile 6 ACA : Thr 14 AAA : Lys 22 AGA : Arg 10ATG : Met 23 ACG : Thr 7 AAG : Lys 35 AGG : Arg 11GTT : Val 10 GCT : Ala 20 GAT : Asp 22 GGT : Gly 11GTC : Val 16 GCC : Ala 29 GAC : Asp 29 GGC : Gly 25GTA : Val 6 GCA : Ala 14 GAA : Glu 27 GGA : Gly 17GTG : Val 31 GCG : Ala 7 GAG : Glu 41 GGG : Gly 17
![Page 21: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/21.jpg)
L'usage du code génétique suitapproximativement l'évolution
Xénope
Hom
o sa
pie n
sRang des codons chez H sapiensvs leur rang chez le xénope
![Page 22: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/22.jpg)
L'usage du code génétique suitapproximativement l'évolution
Drosophile
Hom
o sa
pie n
s
![Page 23: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/23.jpg)
L'usage du code génétique suitapproximativement l'évolution
Escherichia coli
Hom
o sa
pie n
s
![Page 24: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/24.jpg)
L'évitement du dinucléotide CpGaffecte l'usage des codons chez l'homme
NCG
NCA
NCC
NCT
0 6 12 18 24 30
Proline (CCN) Thréonine (ACN) Alanine (GCN) Sérine (TCN)
Fréquence chez H sapiens (0/00)
![Page 25: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/25.jpg)
L'usage des codons est corrélé àl'abondance des ARNt isoaccepteurs
E coli dataJ. Mol. Biol. (1996) 260:649
croissancelente
croissancerapide
![Page 26: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/26.jpg)
Le ribosome trouve le bon ARNt par un processus d'essai et erreur
![Page 27: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/27.jpg)
Le ribosome trouve le bon ARNt par un processus d'essai et erreur
En cas de mauvais appariement, l'ARNt est rejeté.
![Page 28: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/28.jpg)
Le ribosome trouve le bon ARNt par un processus d'essai et erreur
![Page 29: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/29.jpg)
Le ribosome trouve le bon ARNt par un processus d'essai et erreur
Le processus se répète jusqu'à l'arrivée d'un ARNt correct.
![Page 30: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/30.jpg)
Le ribosome trouve le bon ARNt par un processus d'essai et erreur
![Page 31: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/31.jpg)
Le nombre moyen d'essais par codon dépendde l'abondance relative de l'ARNt recherché
<nessais> = [ARNt total][ARNt recherché]
En utilisant préférentiellement les codons correspondant auxARNt les plus abondants, la cellule augmente la vitesse de traduction
![Page 32: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/32.jpg)
Les gènes les plus exprimés sont les “mieux adaptés”(i.e., ils utilisent les ARNt les plus abondants)
Fréquence d'utilisation du codon optimal
Nom
bre
de m
oléc
ules
de p
roté
ine
par c
ellu
le quelques gènesde E coli
Le biais d'usage des codons est d'autant plus marquéque le gène est fortement traduit.
(Moyenne=635)
![Page 33: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/33.jpg)
Utilisation prédictive des biais statistiques
![Page 34: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/34.jpg)
Exemples de prédictions statistiques
● Classification des séquences en fonction des propriétésde la distribution des nucléotides
Régions codantes / noncodantes Introns / exons Prédictions des cadres de lecture Prédictions du taux d'expression
● Détection d'erreurs Erreurs de séquençage Insertions / délétions Contaminations par de l'ADN exogène
● Etudes phylogénétiques Transfert de gènes
![Page 35: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/35.jpg)
Une méthode de détection des régions codantes
Détection des biais de période 3
D = S S | fN,phase i fN |
N=A,C,G,T3 phases
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT
fA, phase 0 = 11/20 = 0.55
fA = 24/60 = 0.40
![Page 36: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/36.jpg)
Une méthode de détection des régions codantes
On calcule le score D sur une fenêtre de N triplets de base (N=10 à 100)
On translate progressivement la fenêtre en traçant la valeurdu score en fonction de la position du centre de la fenêtre.
![Page 37: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/37.jpg)
D = S S | fN,phase i fN |N=A,C,G,T 3 phases
fréq
uenc
e
La distribution de probabilité de D est différentedans les régions codantes et noncodantes.
Une méthode de détection des régions codantes
Méthode indépendante de la table d'usage des codons
![Page 38: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/38.jpg)
Niveau d'expression d'un gène
Indice d'adaptation des codons (“CAI”) pour un gène donné:
Le CAI 1 lorsque l'usage des codons est optimal
Pour un gène donné, on considère tous ses codons, i = 1, … L, et on définitwi = fcodon i / fcodon majoritaire 1f = fréquences mesurées pour des protéines de référence fortement
exprimées
Indice = ( P wi )1/L = moyenne géométrique sur les L codons du gèneL
i
NAR '87
![Page 39: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/39.jpg)
Exemples de CAI chez E coli
Répresseur Metbgalactosidase
phosphofructokinaseARN polymérase
ribosomelipoprotéine
Application: prédiction du niveau d'expressiond'un gène de fonction inconnue
![Page 40: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/40.jpg)
Exemples de CAI chez la levure
Mesures précises et exhaustives de l'expression des protéines de la levure.Nature, 2003, 425:737
![Page 41: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/41.jpg)
Modélisation des séquences d'ADNpar des chaînes de Markov
![Page 42: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/42.jpg)
Une séquence de dinosaure?
Taux de G+C? 60.4%Fréquence de CpG? fCG/fC fG = 1.14
Pas très crédible...
![Page 43: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/43.jpg)
Comment fabriquer une séquencede dinosaure crédible?
Fréquences des mono et dinucléotides chez les vertébrés:
fA = 0.30 fC = 0.21fT = 0.29 fG = 0.21
A C G TA 0.102 0.055 0.071 0.074C 0.077 0.057 0.010 0.069G 0.059 0.046 0.054 0.048T 0.062 0.057 0.072 0.087
3'
5'
Ajouter itérativement des nucléotides en respectant ces fréquences
![Page 44: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/44.jpg)
Générateur de séquences aléatoires
A partir de la table de fréquences, on a les probabilités conditionnelles:
p(A | C) = = fCA fC
fCA fCA + fCC + fCG + fCT
A C G TA 34% 18% 24% 25% 100%C 36% 27% 5% 32% 100%G 28% 22% 26% 23% 100%T 22% 21% 26% 31% 100%
Y 3'
X 5'
Munis d'un générateur de nombres aléatoires, nous pouvons fabriquerune pseudoséquence respectant la distribution souhaitée.
Yp(Y|X)=1
p(Y|X)
![Page 45: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/45.jpg)
Générateur de séquences aléatoires
A C G T
A
C
G
T
ATGAGTAAGCTGAAAGAGTACAGAGT
![Page 46: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/46.jpg)
Générateur de séquences aléatoires
A C G T
A
C
G
T
ATGAGTAAGCTGAAAGAGTACAGAGT
Nombre tiréaléatoirement:
34
![Page 47: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/47.jpg)
Générateur de séquences aléatoires
A C G T
A
C
G
T
ATGAGTAAGCTGAAAGAGTACAGAGTC
Nombre tiréaléatoirement:
34
![Page 48: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/48.jpg)
Générateur de séquences aléatoires
A C G T
A
C
G
T
ATGAGTAAGCTGAAAGAGTACAGAGTC
![Page 49: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/49.jpg)
Générateur de séquences aléatoires
A C G T
A
C
G
T
ATGAGTAAGCTGAAAGAGTACAGAGTC
Nombre tiréaléatoirement:
92
![Page 50: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/50.jpg)
Générateur de séquences aléatoires
A C G T
A
C
G
T
ATGAGTAAGCTGAAAGAGTACAGAGTCT
Nombre tiréaléatoirement:
92
Processus ou chaîne de Markov
![Page 51: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/51.jpg)
Chaîne de Markov
Processus aléatoire discret:le système passe d'un état ei à un état ei+1 suivant une loi de probabilité p(ei+1| ei)
L'évolution future du système à partir de l'instant i ne dépend pas de l'histoire antérieure, mais seulement de i.
Généralisation aux biais d'ordres plus élevés:le système passe de ei à ei+1 suivant uneloi de probabilité p(ei+1| ei, ei1, ..., eik+1)
Pas demémoire
Mémoiredes k instants
antérieurs
![Page 52: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/52.jpg)
Pour une séquence donnée, quelle est la probabilité Pqu'elle soit produite par la chaîne de Markov donnée?
P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2) ... p(en|en1)
A C G TA 34% 18% 24% 25%C 36% 27% 5% 32%G 28% 22% 26% 23%T 22% 21% 26% 31%
3'
5'
P(AATG) = 0.30 × 0.34 × 0.25 × 0.26 1/151
P(CGCG) = 0.21 × 0.05 × 0.22 × 0.05 1/8658
fA = 0.30 fC = 0.21fT = 0.28 fG = 0.21
Tests d'hypothèses a posteriori
![Page 53: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/53.jpg)
Les cellules de mammifère en culture peuvent être contaminéespar des mycoplasmes, parasites bactériens intracellulaires.
Si on extrait l'ADN decultures contaminées,on obtient un mélange.
Après séquençage, comment reconnaître l'ADNmammifère de l'ADN mycoplasmique ?
Discrimination entre deux hypothèses: exemple 1
![Page 54: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/54.jpg)
A C G TA 34% 18% 24% 25%C 36% 27% 5% 32%G 28% 22% 26% 23%T 22% 21% 26% 31%
3'
5'
A C G TA 42% 15% 17% 26%C 40% 18% 6.5% 36%G 31% 19% 18% 32%T 26% 14% 19% 42%
3'
5'
humain mycoplasme
S = TTCAAATAATCGTGAAATATCTT
P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2) ... p(en|en1)
Phumain(S)= 4.3 1015 Pmycoplasme(S) = 18.7 1015
Discrimination entre deux hypothèses: exemple 1
![Page 55: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/55.jpg)
TTT : Phe 19 TCT : Ser 10 TAT : Tyr 15 TGT : Cys 6TTC : Phe 18 TCC : Ser 10 TAC : Tyr 14 TGC : Cys 5TTA : Leu 10 TCA : Ser 6 TAA : Stop TGA : StopTTG : Leu 11 TCG : Ser 8 TAG : Stop TGG : Trp 13CTT : Leu 10 CCT : Pro 6 CAT : His 11 CGT : Arg 25CTC : Leu 10 CCC : Pro 4 CAC : His 11 CGC : Arg 22CTA : Leu 3 CCA : Pro 8 CAA : Gln 13 CGA : Arg 3CTG : Leu 55 CCG : Pro 24 CAG : Gln 30 CGT : Arg 4ATT : Ile 27 ACT : Thr 11 AAT : Asn 16 AGT : Ser 7ATC : Ile 28 ACC : Thr 24 AAC : Asn 25 AGC : Ser 15ATA : Ile 4 ACA : Thr 6 AAA : Lys 37 AGA : Arg 2ATG : Met 27 ACG : Thr 12 AAG : Lys 12 AGG : Arg 1GTT : Val 21 GCT : Ala 18 GAT : Asp 32 GGT : Gly 29GTC : Val 14 GCC : Ala 23 GAC : Asp 23 GGC : Gly 31GTA : Val 12 GCA : Ala 20 GAA : Glu 44 GGA : Gly 7GTG : Val 25 GCG : Ala 33 GAG : Glu 20 GGG : Gly 9
La table d'usage descodons n'est calculéeque pour les tripletsen phase 0 (les codons):
P0(NN'N'')
C'est insuffisant pour construire le modèle de Markov.
Exemple 2: recherche de la phase codante
Modèle de Markov d'ordre deux: pi(ek|ek1 ek2), i=phase
ATGAGTAAGCTGAAAGAGTACAGAp0p1
p2
Phase 0
Phase 2Phase 1
![Page 56: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/56.jpg)
Fréquences des triplets
A partir des probabilités P0(NN'N'') des codons, on peut estimerles probabilités de tous les triplets dans les deux autres phases.
Exemple: TTT en phase 1: NTTTNN
probabilité = P1(TTT) = P0(NTT) x P0(TNN)= [P0(ATT)+P0(CTT)+P0(GTT)+P0(TTT)] x P0(TNN)
P1(ABC) = P0(NAB) P0(CNN)P2(ABC) = P1(NAB) P1(CNN)
ATGAGTAAGCTGAAAGAGTACAGAP0P1
P2
Phase 0
Phase 2Phase 1
![Page 57: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/57.jpg)
Construction d'un modèle de Markovcomplexe simulant les séquences codantes
p(ek|ek1 ek2) = pi(k)(ek|ek1 ek2)
ATGAGTAAGCTGAAAGAGTACAGAP0P1
P2
Phase 0
Phase 2Phase 1
On peut maintenant construire un modèle de Markov avec une probabilité de transition ek2 ek1 e→ k
qui dépend de la phase courante i(k):
![Page 58: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/58.jpg)
Construction d'un modèle de Markovcomplexe simulant les séquences codantes
Phase 0 Phase 1 Phase 2
p(ek|ek1 ek2) = pi(k)(ek|ek1 ek2)
ATGAGTAAGCTGAAAGAGTACAGAP0P1
P2
Phase 0
Phase 2Phase 1
On peut maintenant construire un modèle de Markov avec une probabilité de transition ek2 ek1 e→ k
qui dépend de la phase courante i(k):
Flèches = transitions entre états
![Page 59: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/59.jpg)
P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2,e1) p(e4|e3,e2) ... p(en|en1,en2)
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTTP0P1P2
On peut calculer la probabilité d'une séquence sous chaque hypothèse
Exemple 2: recherche a posteriori de la phase codante
1ère hypothèse:
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTTP2P0P1
2ème hypothèse:
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTTP1P2P0
3ème hypothèse:
![Page 60: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/60.jpg)
Exemple: un gène d'E coli
ATGAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGGCGAAATTCGCGCCCCAGGAAGTTCG
25 premiers codons
prob(phase 0) = 1097 prob(phase 1) = 10105 prob(phase 2) = 10104
La phase correcte obtient une probabilité 107
fois supérieure à celle des deux autres.
Prédiction indépendante de la présence de codonsde démarrage ou de codons stop
Probabilités que la séquence soit produite par le modèle en phase 0, 1, 2
![Page 61: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/61.jpg)
S'il y a des erreurs de séquençage,le problème change de nature!
![Page 62: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/62.jpg)
Modèles de Markov cachées, ou “HMM”
Hidden Markov Models
![Page 63: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/63.jpg)
S'il y a des erreurs de séquençage,le problème change de nature
Les erreurs de séquençage et en particulier les insertions/délétionspeuvent fausser la détection des cadres ouverts de lecture
Décalages de phase
Evénements rares : fréquence p 1/1000
Comment repérer et corriger les erreurs de séquençage ?
Modèle de Markov de séquence codante avec erreurs:notion de modèle de Markov “caché”
![Page 64: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/64.jpg)
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT
L'objet: une séquence supposée codante, pouvantcontenir une petite fraction d'erreurs, sous formed'insertions ou délétions survenues lors du séquençage
Position des erreurs: inconnue
Phase de lecture: inconnue et changeante (rarement)
L'objectif: décoder la séquence, donc identifier lecadre de lecture à chaque position dans la séquence
Le modèle de Markov: doit génèrer des séquences “codantes” plus une petite fraction de décalages de phase
![Page 65: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/65.jpg)
Modèle de séquences codantes avec erreurs de phase
Phase 0 Phase 1 Phase 2Modèle deséquencessans erreurs
![Page 66: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/66.jpg)
Phase 0 Phase 1 Phase 2
On autorise des transitions correspondant aux erreurs de phase:insertions/délétions (en pointillés rouges):
Phase 0 Phase 1 Phase 2Modèle deséquencessans erreurs
Modèle deséquencesavec erreurs
p
p
Modèle de séquences codantes avec erreurs de phase
![Page 67: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/67.jpg)
Modèle de séquences avec erreurs de phase
On autorise des transitions correspondant aux erreurs de phase (pointillés):
Ce modèle permet de générer des séquences, mais pas decalculer des probabilités a posteriori.
En effet, pour un nucléotide donné dans une séquence analysée, il y a 3 états possiblesde la chaîne de Markov (phases 0, 1, 2).
En pratique, on ne “voit” pas l'état détaillé de la chaîne de Markov,seulement le nucléotide produit...
Modèle de Markov caché ou “HMM”
Phase 0 Phase 1 Phase 2
p
p
![Page 68: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/68.jpg)
Modèle de Markov caché
Connaitre la phase codante à chaque position
Phase 0 Phase 1 Phase 2
p
p
Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:
![Page 69: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/69.jpg)
Modèle de Markov caché
Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:
A chaque étape du processus de Markov, on va1) changer de phase ou non2) produire un nucléotide
Vocabulaire: on dit que le nucléotide est “émis”;à chaque état du modèle correspond une distributionde probabilité pour la production (l'émission) des nucléotides
Phase 0 Phase 1 Phase 2
p
p
![Page 70: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/70.jpg)
Modèle de Markov caché
Connaitre la phase codante à chaque position
Pour une séquence de longueur n, il y a 3n parcours possibles!
Heureusement, il y a....
Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:
Phase 0 Phase 1 Phase 2
p
p
![Page 71: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/71.jpg)
La programmation dynamique!
On cherchera le parcours le plus probable,avec une méthode récursive (simple).
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT
Phase 0 Phase 1 Phase 2
p
p
![Page 72: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/72.jpg)
Exemples de parcours
Séquence nucléotidique: ATGAGTAAG
phase 0
phase 1
phase 2
Un chemin qui démarre en phase 0 etavec une insertion et une délétion
ATGAGTAAG
ATGAGTAAG
Un chemin qui démarre en phase 0et sans aucune erreur de phase
Phase 0 Phase 1 Phase 2 Phase 0 etc
![Page 73: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/73.jpg)
Exemples de parcours
Séquence nucléotidique: ATGAGTAAG
phase 0
phase 1
phase 2
Un chemin qui démarre en phase 0 etavec une insertion et une délétion
ATGAGTAAG
Un chemin qui démarre en phase 0et sans aucune erreur de phase
Lequel des deux chemins est le plus probable? Facile.Parmi les 39 = 19683 chemins possibles, quel est le plus probable?
Nettement plus difficile.
ATGAGTAAG
![Page 74: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/74.jpg)
Recherche du chemin le plus probablepar programmation dynamique:
algorithme de Viterbi
Pour k= 1,...,n:
On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant dans la phase i, avec le bon nucléotide n
k émis en k:
remplissage récursif d'une table 3 x n
phase 0
phase 1
phase 2P(1,k)
![Page 75: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/75.jpg)
Recherche du chemin le plus probablepar programmation dynamique:
algorithme de Viterbi
Pour k= 1,...,n:On calcule la probabilité P(i,k) du meilleur chemin de 1 à k,se terminant dans la phase i (i=0, 1, ou 2):
P(i,k) = max [ P(j,k1) pj,i(ek|ek1,ek2) ]j=0,1,2
On a la relation récursive:
probabilité de transition+émission en supposant une phase j en k1 et une phase i en k:
pj,i(ek|ek1,ek2) = p(j i) → x pi(ek|ek1,ek2) transition émission ( ou 12) (dépend de i)
![Page 76: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/76.jpg)
Recherche du chemin le plus probablepar programmation dynamique:
algorithme de Viterbi
probabilité en supposantune phase j en k1et une phase i en k
On a la relation récursive:
i=0
i=1
i=2
k1 k
Si i = j+1 [3], transition standard;sinon, p
j,i =
P(i,k) = max [ P(j,k1) pj,i(ek|ek1,ek2) ]j=0,1,2
![Page 77: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/77.jpg)
Algorithme de Viterbi
Pour k = 1,...,n:On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant dans la phase i:
Remplissage d'une table P de dimensions 3 × n :
phase 0 p0(n
0)
phase 1 p1(n
0)
phase 2 p2(n
0)
initialisation
P(i,k) = max [ P(j,k1) pj,i(ek|ek1,ek2) ]j=0,1,2
0 1 2 ...
![Page 78: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/78.jpg)
ATTAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGG CGAAATTCGCGCCCCAGGAAGTTCGCTTAACAGGTCTGGAAGGCGAGCAG CTTGGTATTGTGAGTCTGAGAGAAGCTCTGGAGAAAGCAGAAGAAGCCGG AGTAGACTTAGTCGAGATCAGCCTAACGCCGAGCCGCCGGTTTGTCGTAT
phase 0
phase 1
phase 2
nProbabilitémaximale
sauts de phase
Algorithme de Viterbi
Pour simplifierle dessin, onne montre la
phase que pourune base sur 3.
Exemple: une portion du gène infC de E. colien gris: résultat expérimental; souligné: prédiction de Viterbi
délétion délétion
![Page 79: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/79.jpg)
Ingrédients utilisés: la table d'utilisation des codons d'E. coli une valeur pour la probabilité p de saut de phase
Grandeurs intermédiaires: les tables de fréquence P
i des trinucléotides dans les 3 phases i possibles
les probabilités pj,i(ek|ek1,ek2)
Relation de récursion et initialisation: simples
Phase 0 Phase 1 Phase 2
p
p
![Page 80: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/80.jpg)
Les HMM ont de très nombreuses applications
Cf chap 5 du livre de cours
Martin et al, BMC Struct Biol, 2006
![Page 81: Statistiques et séquences](https://reader030.vdocuments.mx/reader030/viewer/2022012423/61786f0b9cfc1f36281cb986/html5/thumbnails/81.jpg)
Les HMM ont de très nombreuses applications
Pour en savoir (beaucoup) plus:Biological sequence analysis:
probabilistic models of proteins and nucleic acidsR Durbin, S Eddy, A Krogh, G Mitchison
● Alignements de séquences● Recherche de gènes● Classification de protéines● Phylogénie
Cf chap 5 du livre de cours
X
Y
M
p
q
1-p
1-2qq
1-p
p