prédiction markovienne in silico des régions constantes et variables des lentivirus aurélia...
TRANSCRIPT
![Page 1: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/1.jpg)
![Page 2: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/2.jpg)
Prédiction markovienne in silico des régions constantes et
variables des lentivirus
Aurélia Boissin-Quillon
Directeurs de thèse : Dr Caroline Leroux (DR,INRA)
Pr Didier Piau (PR, Université Grenoble 1)
UMR754 « Rétrovirus et pathologie comparée »UMR5208 « Institut Camille Jordan »
![Page 3: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/3.jpg)
Famille des Retroviridae Virus enveloppés à ARN Génome constitué de deux copies d’ARN simple brin
Les rétrovirus
gag
pol
env
SU TM
LTR
LTR
![Page 4: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/4.jpg)
Le genre lentivirus
Un genre de la famille des Retroviridae Composé de HIV, EIAV, SRLV, SIV, FIV, BIV Grande variabilité génétique générée lors de la synthèse du matériel génétique
![Page 5: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/5.jpg)
Répartition des mutations le long du génome des lentivirus
Mutations pas réparties de manière homogène Principalement gène env, notamment dans la partie codant la glycoprotéine de surface (SU). SU constituée d'une successionsuccession de régionsde régions constantes (constantes (pas ou peu de variabilité génétique) et de régionset de régions variablesariables (nombreuses mutations).
![Page 6: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/6.jpg)
Réference1234567891011121314
QEYQCKKVNLNSSDSSNPVR------VEDVMNTTEYWGFKWLEC..........T--------------------D......................T--------------------D......................T--------------------D.I....................TT-------------------.......................M--------------------.......................M--------------------.......................M--------------------.................................------......................................------......................................------....I..............................T..------....I.................................------............................TA.N..IS.S------GKGERD..................E...TLKS.NSSIPPIHVED...EG.IM.F........
ENEMVNIND........G........G........V......ND-...............................................................................SV........-
TDTWIPKGCNETWAN.............N.............N.............N............PN.............N........................................................N........................................NG............N...T.........
QPPFFLVQEKGIANTSRIGNCGPTIFL........G.E........................G.E.D......................GE.........................G...T...K..................G..........................G..............................................................................................................................................................................................E..S.......................RVN..A...........
175|
269 295 | |
248 |
V V V
NQTENFKTILVP.........V.......L..............................................................................................................................
............ .....L......
C C C C
![Page 7: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/7.jpg)
Identification de régions C et V chez tous les lentivirus
BIV
V1 V2 V3 V4 V5 V6
(550 aa)
C1 C2 C3 C4 C5 C6 C7
EIAV
V1 V2 V3 V4 V5 V6 V7 V8
(440 aa)C1 C2 C3 C4 C5 C6 C7 C8 C9
SIV
V1 V2 V3 V4 V5
(530 aa)
C1 C2 C3 C4 C5 C6
![Page 8: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/8.jpg)
Le contexte biologique
Grande variabilité de tous les génomes lentiviraux entraîne des modifications de la biologie des virus : Échappement à la réponse immunitaire, virulence, tropisme cellulaire…
L’accumulation de mutations dans les régions variables peut provenir de :
• Taux de mutations localement élevé• Mécanismes de sélection• Combinaison de ces deux phénomènes
![Page 9: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/9.jpg)
Déterminer s’il existe des signatures spécifiques des régions constantes et variables des lentivirus
Objectif
![Page 10: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/10.jpg)
Méthode :Utiliser des outils mathématiques capables de segmenter les séquences en régions constantes et variables afin d’en extraire des caractéristiques de chacun de ces deux types de régions.
![Page 11: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/11.jpg)
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
![Page 12: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/12.jpg)
Un peu de vocabulaire…
TAC
Séquence
Lettre Mot
ACTATATT
Alphabet à 4 lettres : A={A,C,G,T}
Nucléotides Acides aminés
WYI
Alphabet à 20 lettres : A={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
Lettre Mot
LASHMRDP
![Page 13: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/13.jpg)
Nombreuses méthodes de segmentation des séquences :
Modèles de rupture
Modèles de Markov cachés
Comment segmenter lesséquences (nt ou aa)?
![Page 14: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/14.jpg)
Les modèles de Markov cachés
Chaîne de Chaîne de Markov 1Markov 1
Chaîne de Chaîne de Markov 2Markov 2
Chaîne de Chaîne de Markov 2Markov 2
Chaîne de Chaîne de Markov 1Markov 1
La succession des états cachés est décrite par une chaîne de Markov inobservable : la chaîne cachée
Une séquence hétérogène est considérée comme une succession de régions statistiquement homogènes appelées états cachés.
V1 V2C1 C2
![Page 15: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/15.jpg)
Les différents modèles de Markov cachés
• Le modèle M1-M0 :Le modèle M1-M0 :
C
C C C V V C
A C T
Chaîne des états
Chaîne des observations
G
• Le modèle M1-M1 :Le modèle M1-M1 :• Le modèle M1-M5 :Le modèle M1-M5 :
C
T
![Page 16: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/16.jpg)
Les paramètres des modèles de Markov cachés
Un modèle de Markov caché M1-Mm est entièrement défini par :
Le nombre N d’états cachés qui correspond au nombre de types de régions
Le nombre M de lettres différentes dans la séquence Les lois initiales qui permettent de modéliser ce qui se passe au début de la séquence au niveau des états et au niveau des observations
La matrice de transition T de la chaîne des états
La matrice d’émission E de la chaîne des observations
![Page 17: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/17.jpg)
Les matrices de transition T et d’émission E
La matrice de transition TElle modélise la relation entre les états (passage d’un type de région à l’autre)
T(k,l)=P(Si+1=l | Si=k) pour k,l Є S avec ∑l ЄS T(k,l)=1
La matrice d’émission EElle modélise la relation entre les observations et les états.
Soit xi:j = (xi,xi+1,…,xj), alors, pour a1:m+1 Є A et k Є S :
E(k ,a1:m,am+1)=P(Xi+1=am+1 | Xi-m+1:i =a1:m, Si+1=k )
avec ∑am+1 Є A E(k ,a1:m, am+1) = 1
E =
MC
MV
![Page 18: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/18.jpg)
Estimation des paramètres
Soient X(1),..,X(p) p séquences nucléotidiques ou déduites en acides aminés.Soit θ= {T,E} l’ensemble des paramètres du modèle à estimer.
On cherche : θ = argmax P(X(1),…,X(p) | θ)
Deux situations : La séquence des états cachés est connue (alignement) Comptage direct La séquence des états cachés est inconnue Algorithme de Baum-Welch
^
![Page 19: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/19.jpg)
Algorithme de Baum-Welch
Algorithme de Baum-Welch = cas particulier de l’algorithme EM
Algorithme itératif consistant en l’alternance de deux phases:
• Phase E : Estimation de la séquence des états cachés • Phase M : Maximisation de la vraisemblance
A chaque itération, un nouvel ensemble de paramètres θ’ augmentant la vraisemblance est défini.
(expectation-maximisation)
Convergence vers un maximum local
![Page 20: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/20.jpg)
Reconstruction de la séquence des états cachés
Séquence des états cachés les plus probables
Pour tout 1 ≤ i ≤ n et tout k Є S, on calcule : P(Si=k | X)
A C G T G C C TAA A TC TTG
C C C C V V V CCV C VC VVV
A C G T G C C TAA A TC TTG
1 1 1 1 2 2 2 111 2 22 222
Séquence des observations
Séquence des états cachés
Régions C et V
![Page 21: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/21.jpg)
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
![Page 22: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/22.jpg)
Le matériel utilisé
EIAV
V1 V2 V3 V4 V5 V6 V7 V8
187 séquences (GenBank)1200 nt ou 400 aa
Échantillon d’apprentissage : 94
Échantillon de test : 93
![Page 23: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/23.jpg)
Quels modèles de Markov cachés?
Alphabet4 lettres (nt)
20 lettres (aa)
Nombre d’états cachés N
Deux types de régions : C et V N=2
Ordre du modèle mPas de procédure statistique bien définie augmentation progressive
![Page 24: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/24.jpg)
V5V1 V2 V6 V7 V8V3 V4
200 400 800 1000 12000 600
État 2
État 1
nucléotides
Modèle M1-M5 sur les séquences nucléotidiques
Oscillation de la séquence des états cachés
![Page 25: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/25.jpg)
Amélioration de l’estimation de la matrice d’émission Introduction d’une information supplémentaire
La matrice d’émission E va être estimée par comptage direct.
La matrice de transition T va être estimée par une variante de l’algorithme de Baum-Welch.
Algorithme de Baum-Welch avec matrice d’émission fixée
Définition d’un nouvel algorithme
![Page 26: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/26.jpg)
Estimation des matrices d’émission sur chaque type de régions par comptage direct après alignement des séquences d’entraînement
Estimation de la matrice de transition T avec l’algorithme de Baum-Welch dont la phase M a été modifiée pour garder la matrice d’émission E à sa valeur estimée
Assemblage des matrices d’émission de chaque type de régions pour former un estimateur de la matrice E
Description de l’algorithme de Baum-Welch avec matrice d’émission fixée
![Page 27: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/27.jpg)
Influence de l’ordre sur la qualité prédictive
Modèle M1-M0 sur les séquences nucléotidiques
V5V1 V2 V6 V7 V8V3 V4
200 400 800 1000 12000 600
État 2
État 1
nucléotides
V5V1 V2 V6 V7 V8V3 V4
![Page 28: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/28.jpg)
Influence de l’ordre sur la qualité prédictive
Modèle M1-M1 sur les séquences nucléotidiques
V5V1 V2 V6 V7 V8V3 V4
200 400 800 1000 12000 600
État 2
État 1
nucléotides
V5V1 V2 V6 V7 V8V3 V4
![Page 29: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/29.jpg)
Les régions C et V d’EIAV ont des compositions en mots de nucléotides différentes
200 400 800 1000 12000 600
État 2
État 1
nucléotides
V5V1 V2 V6 V7 V8V3 V4
Modèle M1-M5 sur les séquences nucléotidiques
![Page 30: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/30.jpg)
100 200 4000 300
État 2
État 1
acides aminés
V5V1 V2 V6 V7 V8V3 V4
Les régions C et V d’EIAV ont des compositions en mots d’acides aminés différentes
Modèle M1-M1 sur les séquences déduites en acides aminés
![Page 31: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/31.jpg)
Pour résumer :Il existe des modèles de Markov cachés d’ordre 5 sur les nucléotides ou d’ordre 1 sur les acides aminés capables de différencier avec une grande précision les régions C et V d’EIAV
Les régions C d’EIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état
Les régions V d’EIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état, tout en ayant chacune un profil statistique qui lui est propre
Il existe des différences statistiques entre les compositions en mots de nucléotides ou d’acides aminés des régions C et V
![Page 32: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/32.jpg)
V5V1 V2 V6 V7 V8V3 V4
État 5
État 8
État 9
État 6
État 7
État 3
État 4
État 2
État 1
200 400 800 1000 12006000
Modèle M1-M5 sur les séquences nucléotidiques
nucléotides
Les régions V d’EIAV ont des compositions en mots de nucléotides différentes
![Page 33: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/33.jpg)
Un biais possible : le surentraînement
Exemple de séquence d’apprentissage : séquence précoce
Exemple de séquence de test : séquence tardive
V1 V2 V3 V4
V1 V2 V3 V4
jours post- infection
37 -
38 -
39 -
40 -
41 -
42 -
- 50
- 100
- 150
- 200
- 250
- 0
- 10
0
- 20
0
- 30
0
- 60
0
- 50
0
- 40
0
- 70
0
- 80
0
- 90
0
- 10
00
Tem
per
atur
e °C
séquence tardiveséquence précoce
CKRVNLKKVNLTSSDSSIRVEDVGNTTEYWG
CKEVYWG
![Page 34: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/34.jpg)
Les modèles ne sont pas surentraînés
V5V1 V2 V6 V7 V8V3 V4
État 5
État 8
État 9
État 6
État 7
État 3
État 4
État 2
État 1
200 400 800 1000 12006000
Modèle M1-M5 sur les séquences nucléotidiques
nucléotides
![Page 35: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/35.jpg)
Un autre biais possible : influence de l’ordre et de la position des régions variables
Exemple de séquence d’apprentissage
Exemple de séquence de test
V1 V2 V3 V7 V8
V1 V2 V3 V7 V8V7’
![Page 36: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/36.jpg)
Les modèles ne sont pas influencés par l’ordre ou la position des régions variables
V5V1 V2 V6 V7 V8V3 V4
État 5
État 8
État 9
État 6
État 7
État 3
État 4
État 2
État 1
200 400 800 1000 12006000
nucléotides
V7’
![Page 37: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/37.jpg)
Il est possible de différencier les régions C et V d’EIAV à l’aide de modèles de Markov cachés.
Ces modèles ne sont basés ni sur un alignement de séquences, ni sur l’identification de grands motifs, ni sur l’ordre, la position ou la longueur des différentes régions.
Ces modèles s’appuient sur la composition en mots de nucléotides ou d’acides aminés de chaque type de région.
Il existe des différences statistiques entre les compositions en mots de nucléotides ou d’acides
aminés des régions C et V
Pour résumer :
![Page 38: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/38.jpg)
Quantification de la séparationdes régions C et V d’EIAV
Définition d’une « distance » entre matrices d’émission :
Soient P et Q les matrices de transition de deux chaînes de Markov et π la mesure stationnaire associée à P.
H(P|Q) = ∑(i,j) π(i) P(i,j) logP(i,j)
Q(i,j)
δ(P,Q)=H(P|Q)+H(Q|P)
Entropie relative :
Entropie relative symétrisée :
![Page 39: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/39.jpg)
Il existe une séparation entre le groupe des régions constantes et le groupe des régions variables.
Test statistique il existe une différence significative entre les régions constantes et variables chaque région possède une signature qui lui est propre.
Etude de la séparation des régions C et V d’EIAV
Etude de la distance entre les régions constantes et variables d’EIAV :
δ(Ci,C) < δ(Ci,Vj) pour tous i et j
δ(Vi,V) < δ(Vi,Cj) pour tous i et j
![Page 40: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/40.jpg)
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
![Page 41: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/41.jpg)
Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus
Exemple : HIV-1
Modèle M1-M5 sur les séquences nucléotidiques
nucléotides
![Page 42: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/42.jpg)
Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus
Exemple : HIV-1
Modèle M1-M1 sur les séquences déduites en acides aminés
acides aminés
![Page 43: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/43.jpg)
Performance des modèles
Lentivirus% d’acides aminés
bien étiquetés
EIAV 96
HIV-1 94
SIV 89
SRLV 96
![Page 44: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/44.jpg)
Un modèle capable de différencier les régions C et V d’HIV-2?
V1/V2 V3 V4 V5
0 100 200 300 400 500
Etat 1
Etat 2
acides aminés
Modèle M1-M1 sur les séquences déduites en acides aminés
![Page 45: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/45.jpg)
Définition des régions C et V d’HIV-2
V1/V2 V3 V4 V5
V1/V2 V3 V4 V5
V1/V2 V3 V4 V5
HIV-1
Homologie
Alignement
![Page 46: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/46.jpg)
Il existe des régions C et V d’HIV-2 qui possèdent des caractéristiques statistiques différentes
0 100 200 300 400 500
Etat 1
Etat 2
acides aminés
Modèle M1-M1 sur les séquences déduites en acides aminés
V1/V2 V3 V4 V5
![Page 47: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/47.jpg)
Il est possible de définir des modèles de Markov cachés capables de différencier
avec une bonne précision les régions constantes et variables des lentivirus
EIAV, HIV, SIV et SRLV.
![Page 48: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/48.jpg)
Les régions C et V possèdent des propriétés statistiques communes
acides aminés
Modèle M1-M1 sur les séquences déduites en acides aminés
![Page 49: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/49.jpg)
acides aminésacides aminésacides aminés
![Page 50: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/50.jpg)
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
![Page 51: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/51.jpg)
Analyse en Composantes Principales
![Page 52: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/52.jpg)
Extraction de mots caractéristiques des régions C et V des lentivirus
Mot caractéristique = mot qui apparaît fréquemment dans un type de région
Méthode d’extraction :
MC = {w / FreqC(w) ≥ sC} MV = {w / FreqV(w) ≥ sV}
On veut définir :
et
séquences constantes (SeqC) majorité de mots MCséquences variables (SeqV) majorité de mots MV
tels que
On maximise P = P(majorité MC | SeqC) + P(majorité MV | SeqV)
![Page 53: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/53.jpg)
Exemples de mots caractéristiques
Extraction de mots de 2 acides aminés caractéristiques des régions C et V de l’ensemble des lentivirus à partir du modèle combiné M1-M1 : (sc,sv)=(75,45)
MC
(216)
AE, AG, AV, AW, AY, CA, CC, CD, CG, CH, CL, CP, CQ, CR, CW, DA, DF, DG, DH, DM, HY, IE, IF, IH, IV, IW, IY, KA, KC, LE, LG, LH, RF, RH, RM, RR, RS, RV, SC, SE, SF, SL, SP, SV, SW, WM, WN, WP, YQ, YV, YY…
MV
(85)
AD, AL, AN, CE, GK, GN, GT, HH, HI, HV, IC, ID, IN, KG, KI, KK, KM, LD, LF, MD, MG, NS, NT, NY, PH, PK, PN, PR, QG, QN, RI, RK, SN, SR, SS, ST, TA, TD, TK, TL, TM, TN, WG, WI, WT, YA, YL, YN, YR, YW…
Extraction de mots de 6 nucléotides caractéristiques des régions C et V de l’ensemble des lentivirus à partir du modèle combiné M1-M5 : (sc,sv)=(75,45)
MC
(2080)
AAAACC, AAAAGC, AAAATT, AAACAG, AAACAT, AAACCC, AATCTA, AATCTC, AATCTG, AATGCC, AATGCG, CGGTTT, CGTATT, CGTCAG, CGTCAT, CGTCCA, CGTCTG, GCCTTT, GCGACA, GCGACC, GCGACG, GCGCAT, GCGCCC, GCGCCT, GCGCTC, GCGCTG, GCGGAA, GCGGCA, GCGGCT, GCGGGT, GCGGTA, TAATTT, TACACA, TTGTGA, TTGTGC, TTGTGG, TTGTTG, TTTAAA, TTTAAC, TTTAAG…
MV
(1007)
AACTAT, AACTCT, AACTGA, AACTGT, AACTTT, AAGACG, CCGTCA, CCTAAC, CCTAAG, CCTACA, CCTAGA, CTAGGT, CTAGTG, CTAGTT, CTGTCG, CTGTTC, CTGTTT, GATATA, GATCTT, GATGAC, GGGATT, GGGCGA, GGGCGC, GGGTAG, GTCGGC, TTAGTC, TTATAA, TTATTG, TTCAAC, TTCAGA...
![Page 54: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/54.jpg)
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
![Page 55: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/55.jpg)
Une reconstruction phylogénétique possible
Une distance entre virus :
Soit d(N|M) le pourcentage d’erreurs commises par le modèle M sur des séquences du virus N.
D(N,M)=d(N|M) + d(M|N)
HIV2
SIV
HIV1
SRLV
EIAV
5EIAV
SRLV
HIV-1
HIV-2
SIV
5
![Page 56: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/56.jpg)
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
![Page 57: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/57.jpg)
Conclusions
Mise au point d’une variante de l’algorithme de Baum-Welch permettant une segmentation fine des séquences
Différenciation des régions C et V de tous les lentivirus grâce à leur composition en mots de nucléotides ou d’acides aminés.
Existence une signature spécifique des régions V commune à l’ensemble des lentivirus.
Mise en évidence de mots caractéristiques des régions C et V des lentivirus.
![Page 58: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/58.jpg)
Perspectives
Analyser en détails les motifs caractéristiques des régions constantes et variables
Développer un logiciel permettant d’identifier les régions constantes et variables de nouvelles séquences de lentivirus sans avoir besoin d’aligner ces séquences avec des séquences connues.
Etendre les modèles à d’autres régions du génome ou à d’autres virus ou à la recherche d’autres hétérogénéités « fines »
![Page 59: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/59.jpg)
![Page 60: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/60.jpg)
![Page 61: Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)](https://reader035.vdocuments.mx/reader035/viewer/2022062621/551d9d82497959293b8bb88b/html5/thumbnails/61.jpg)