modélisation moléculaire : modélisation par...
TRANSCRIPT
Modélisation Moléculaire : Modélisation par homologie
GIRAUD Sandra
MERLET Benjamin
MERLET-BILLON Maryvonne
GB5 BIMB
11 Février 2013
Introduction
La modélisation moléculaire est un ensemble de techniques permettant la modélisation
prédictive notamment de protéines. Ces techniques sont courantes dans différents domaines et
en particulier en chimie et en biologie (pharmaceutique).
Ces techniques sont très utilisées dans plusieurs cas lorsque l’expérience est :
- Trop difficile
- Trop dangereuse
- Trop couteuse
- Trop longue (ou trop rapide)
- Impossible à réaliser
- Difficilement acceptable au niveau éthique (protection humaine par exemple)
Deux techniques sont très utilisées : la modélisation moléculaire dynamique et la modélisation
moléculaire par homologie. Au cours de ce TP c’est cette dernière que nous utiliserons via
différents outils et notamment le logiciel Modeller.
La modélisation par homologie a pour principe de partir d’une séquence protéique connue et
de rechercher des séquences homologues dont la structure tridimensionnelle a déjà été prédite.
De nombreux critères sont utilisés pour étudier cette séquence par rapport à celles dont la
structure est connue, ceci dans le but de rassemble des informations théoriques qui aideront à
modéliser sa structure tridimensionnelle.
L’objectif de ce TP est donc, à partir d’une séquence donnée, de modéliser la protéine via la
modélisation moléculaire par homologie.
Matériel et Méthodes
Au cours de ce TP nous avons utilisé les outils suivants :
- NCBI protein blast afin de trouver des séquences homologues à celle que nous étudions
- Base de donnée PDB afin de trouver les fichiers structures des séquences
- NCBI psiBlast et MUSCLE (phylogeny.fr) pour aligner les séquences
- NPSA afin de prédire des caractéristiques de structure secondaire
- ProtScale afin de déterminer et comparer les profils d’hydrophobicité
- CulstalW dans le but de faire un alignement multiple
- Modeller afin de modéliser, à partir des données précédemment établies, la protéine
« inconnue »
Informations sur la protéine
La première étape de la modélisation par homologie est de trouver des séquences homologues
à celle que l’on souhaite modéliser.
Notre séquence est la suivante et comporte 320 acides aminés :
MAFPKKKLQGLVAATITPMTENGEINFSVIGQYVDYLVKEQGVKNIFVNGTTGEGLS
LSVSERRQVAEEWVTKGKDKLDQVIIHVGALSLKESQELAQHAAEIGADGIAVIAPFF
LKPWTKDILINFLKEVAAAAPALPFYYYHIPALTGVKIRAEELLDGILDKIPTFQGLKF
SDTDLLDFGQCVDQNRQQQFAFLFGVDEQLLSALVMGATGAVGSTYNYLGKKTNQ
MLEAFEQKDFSLALNYQFCIQRFINFVVKLGFGVSQTKAIMTLVSGIPMGPPRLPLQK
ASREFTDSAEAKLKSLDFLSFTDLKDGNLEAGS
Recherche de séquence homologues
Nous avons rentré cette séquence dans l’outil BLAST de NCBI. Partant d’une séquence
protéique nous avons réalisé un protein Blast via la base de données PDB. De très nombreuses
protéines ont été trouvées comme homologues de notre séquence. Nous avons choisi deux
séquences homologues en sélectionnant le plus grand « Max score » et la plus petite e-value
(respectivement 127, 126 et 9e-34, 2e-33). Aucune séquence ne présentait un « query
coverage » de 100%, c’est pourquoi nous n’avons pas basé notre sélection sur ce critère.
1NAL : N-ACETYLNEURAMINATE 2 LYASE FROM ESCHERICHIA COLI
2WO5 : WILD TYPE E. COLI N-ACETYLNEURAMINIC ACID 2 LYASE IN SPACE
GROUP P21 CRYSTAL FORM I
Ces deux séquences proviennent du même organisme : Escherichia coli et correspondent à
deux enzymes très proches de la famille des N-acétylneuraminate lyase. Cette famille
d’enzyme catalyse une réaction aldol réversible qui mène à la formation d’acide sialique. Ces
enzymes font partie d’une famille plus grande : les dihydripicolinates synthases.
Alignement de séquences
Nous avons ensuite récupéré les fichiers PDB correspondant et aligné notre séquence
« inconnue » avec les deux séquences homologues sélectionnées via le psiBlast de NCBI et
MUSCLE de phyloegny.fr (Figure 1 à 3) en laissant les paramètres par défaut.
>seq query
MAFPKKKLQGLVAATITPMTENGEINFSVIGQYVDYLVKEQGVKNIFVNGTTGEGL
SLSVSERRQVAEEWVTKGKDKLDQVIIHVGALSLKESQELAQHAAEIGADGIAVIAP
FFLKPWTKDILINFLKEVAAAAPALPFYYYHIPALTGVKIRAEELLDGILDKIPTFQG
LKFSDTDLLDFGQCVDQNRQQQFAFLFGVDEQLLSALVMGATGAVGSTYNYLGK
KTNQMLEAFEQKDFSLALNYQFCIQRFINFVVKLGFGVSQTKAIMTLVSGIPMGPPR
LPLQKASREFTDSAEAKLKSLDFLSFTDLKDGNLEAGS
>gi|11513504|pdb|1F6P|A_Chain_A,_Crystal_Structure_Analysis_Of_N-Acetylneuramina
----MRDLKGIFSALLVSFNEDGTINEKGLRQIIRHNIDKMKVDGLYVGGSTGENFML
STEEKKEIFRIAKDEAKDQI-ALIAQVGSVNLKEAVELGKYATELGYDCLSAVTPFY
Y-KFSFPEIKHYYDTIIAET-GSNMIVYSIPFLTGVNMGIEQF—GELYKNPKVLGVKF
TAGDFYLLERL—KKAYPNHLIWAGFDEMMLPAASLGVDGAIGSTFNVNGVRARQI
FELTKAGKLKEALEIQHVTNDLIEGILANGLYLT-IKELLKL-EGVDAGYCREPMTSK
ATAE-QVAKAK----------DLKAKFLS---
>gi|1127100|pdb|1NAL|1_Chain_1,_The_Three-Dimensional_Structure_Of_N-Acetylneura
---MNSNLRGVMAALLTPFDQQQALDKASLRRLVQFNI-QQGIDGLYVGGSTGEAFV
QSLSEREQVLEIVAEEGKGKI-KLIAHVGCVTTAESQQLAASAKRYGFDAVSAVTPF
YY-PFSFEEHCDHYRAIIDSADGLPMVVYNIPALSGVKLTLDQI—NTLVTLPGVGAL
KQTSGDLYQMEQI—RREHPDLVLYNGYDEIFASGLLAGADGGIGSTYNIMGWRYQ
GIVKALKEGDIQTAQKLQTECNKVIDLLIKTGVFRG-LKTVLHYMDVVSVPLCRKPF
GPVDEKY-Q-PELK----------ALAQQLMQERG
Figure 1 : Alignement MUSCLE
Nous pouvons déjà observer que l’alignement via psiBlast est beaucoup plus lisible.
Figure 3 : Alignement psiBlast séquence inconnue/2WO5
En rouge certaines parties alignées entre les deux séquences. En vert les glycines conservées et en
bleu les prolines conservées On observe 30% d’identité et 4% de gap.
Figure 2 : Alignement psiBlast séquence inconnue/1NAL
En rouge certaines parties alignées entre les deux séquences. En vert les glycines conservées
et en bleu les prolines conservées. On observe 30% d’identité et 3% de gap
Après analyse les alignements sont légèrement différents : D’une part l’alignement via
psiBlast ne commence pas au premier acide aminé de notre séquence « inconnue », ce qui est
un facteur de différence important dans les résultats que nous obtenons. D’autre part nous
observons la présence de gap plus nombreux avec l’alignement MUSCLE.
Nous pouvons observer que sur les 22 glycines présentes dans notre séquence, 15 sont
conservées avec 1NAL et 2WO5. A Part une glycine, ce sont les mêmes qui sont conservées
dans les deux cas. Nous pouvons supposer que ces glycines (qui apportent de la souplesse à la
structure de la protéine) sont très importante dans la relation structure/fonction de la protéine.
Sur les 8 prolines présentes dans la séquence, 7 sont conservées avec 1NAL et 2WO5. Les
prolines sont connues pour favoriser la formation d’hélices α.
Prédiction de la structure secondaire
Afin d’obtenir des informations sur la structure secondaire nous avons dans un premier temps
établi les profils d’hydrophobicité à l’aide de PlotScale (Figure 4 à 6)
Figure 4 : Profil d’hydrophobicité de 1NAL
Figure 6 : Profil d’hydrophobicité de la séquence inconnue
Figure 5 : Profil d’hydrophobicité de 2WO5
Le profil d’hydrophobicité de la séquence permet d’observer les zones hydrophobes
/hydrophiles. Nous avons pour cela utilisé le logiciel ProtScale qui utilise l’échelle de Kyte et
Doolittle (hydrophobicité) : les valeurs positives indiquent une position hydrophobe et les
valeurs négatives une position hydrophile.
Notre protéine fait partie de la famille des N-acétylneuraminate lyase. Ces protéines sont
présentes au niveau du cytosol. Cette localisation explique la présence de zones hydrophobes
et hydrophiles au sein de cette protéine.
Nous avons utilisé l’outil HCA de Mobyle pour analyser la séquence primaire (Figure 7)
L’utilisation de l’outil NPSA nous a permis d’analyser la structure secondaire de notre
protéine (Figure 8)
Nous pouvons observer la prédiction de nombreuses hélices α par tous les prédicteurs utilisés.
Ces hélices voient leur longueur varier en fonction du prédicteur. En gras sont représentées
les prolines conservées lors des psiBlast. Nous pouvons observer qu’elles ne se situent pas à
l’intérieur d’hélices α prédites juste en amont ou en aval de ces dernières.
Figure 7 : Analyse de la séquence primaire de la séquence inconnue
Les zones vertes représentent de potentiels feuillets β et les zones rouges de potentielles hélices
α. Les étoiles représentent les prolines contraignant le plus la chaîne polypeptidique. Les
losanges représentent les glycines qui au contraire donnent le plus de liberté à la chaine. Les
carrés (vides et pleins) représentent respectivement les thréonines et sérines (deux petits acides
aminés polaires) qui peuvent masquer leur polarité via des liaisons H
Explication d’après Callebaut et al, 1997
10 20 30 40 50 60
| | | | | |
UNK_99930 MAFPKKKLQGLVAATITPMTENGEINFSVIGQYVDYLVKEQGVKNIFVNGTTGEGLSLSV DPM cchchcchhchehhcecccccccccceceecceecceehhccecceeecccctcccccce
DSC cccchhhhhhhhhhhccccccccccchhhhhhhhhhhhhccccceeeeccccccchhhhh
HNNC cccchhcccceeeeeeeccccccceeeeeehhhhhhhhhcccceeeeeecccccccceeh
MLRC ccccchccceeeeeeecccccccccchhhhhhhhhhhhhhccceeeeeeccccccceeeh
PHD cccccccccceeeeeccccccccccchhhhhhhhhhhhhhccceeeeeecccchhhccch
Predator cccchhhhhhhhhhhccccccccceeeeeeecceeeeeecccceeeeecccccccccccc
Sec.Cons. cccchhc??c?e??e?cccccccccc?h??hhhhhhhhh?ccceeeee?cccccccccch
70 80 90 100 110 120
| | | | | |
UNK_99930 SERRQVAEEWVTKGKDKLDQVIIHVGALSLKESQELAQHAAEIGADGIAVIAPFFLKPWT DPM chhhhhhhhhhcctccchcheeeeechhchhhhhhhhhhhhhhthcccheehcchccccc
DSC hhhhhhhhhhhhhcccccceeeeeccccchhhhhhhhhhhhhcccccccccccccccccc
HNNC chhhhhhhhhhhhcccccceeeeeeecechcchhhhhhhhhhhccccheeeeccccchhh
MLRC hhhhhhhhhhhhhcccccceeeeeecccchhhhhhhhhhhhhhccccheehhhhhccchh
PHD hhhhhhhhhhhhhhccccceeeeeccccchhhhhhhhhhhhhhcccceeeeccccccccc
Predator chhhhhhhhhhccccccccceeeecccchhhhhhhhhhhhhhhcccceeeeccccccccc
Sec.Cons. ?hhhhhhhhhhhhcccccceeeee?cccchhhhhhhhhhhhhhcccc?eeeccccccccc
130 140 150 160 170 180
| | | | | |
UNK_99930 KDILINFLKEVAAAAPALPFYYYHIPALTGVKIRAEELLDGILDKIPTFQGLKFSDTDLL DPM cceeechhhhhhhhhchcccccccccccccehhhhhhhhccccccccccccccccccccc
DSC chhhhhhhhhhhhcccccceeecccccccccccchhhhhhhhhcccccccccccccchhh
HNNC hhhhhhhhhhhhhhccccceeeeeccccccceehhhhhhhhhhhhcccccceeecccchc
MLRC hhhhhhhhhhhhhhccccceeeeecccccccchhhhhhhhhhhhhccccccceccccchh
PHD hhhhhhhhhhhhhhhcccceeeeeeccccccccchhhhhhhhhhcccccccccccchhhh
Predator hhhhhhhhhhhhhhhccccceeeecccccchhhhhhhhhhhhhhcccccccccccccccc
Sec.Cons. hhhhhhhhhhhhhh?cccceeeeecccccccchhhhhhhhhhhhcccccccccccccch?
190 200 210 220 230 240
| | | | | |
UNK_99930 DFGQCVDQNRQQQFAFLFGVDEQLLSALVMGATGAVGSTYNYLGKKTNQMLEAFEQKDFS
DPM ccccccccchhhhhhhhhcehhhhhhhhehchccccccccccccctcchhhhhhhhhhhc
DSC hhhhhhhhccccceeeecchhhhhhhhhhhcccccccccccccchhhhhhhhhhhhhhhh
HNNC ccccccccchhhhhhhhcchhhhhhhhhhhccccccccchcccccchhhhhhhhhhhchh
MLRC hhhhhhccccccceeeeecchhhhhhhhhhcccccccccccccchhhhhhhhhhhhcchh
PHD hhhhhhhhcccceeeeeecchhhhhhhhhccccceeechhhcchhhhhhhhhhhhccchh
Predator ccccccchhhhhhhhhhhccchhhhhhhhhhccccccccccccchhhhhhhhhhhhhhhh
Sec.Cons. ??????c?c???h?????cchhhhhhhhhhcccccccccccccchhhhhhhhhhhhh?hh
250 260 270 280 290 300
| | | | | |
UNK_99930 LALNYQFCIQRFINFVVKLGFGVSQTKAIMTLVSGIPMGPPRLPLQKASREFTDSAEAKL DPM hhhcchheehheeeeeeeeccceccchheeeeecccccccccccchhhhhhhcchhhhhh
DSC hhhhhhhhhhhhhhhhhhccccchhhhhhhhhcccccccccccccccccchhhhhhhhhh
HNNC hhhhhhhhhhhhhhhheecccccccccehheeeccccccccccccchchhhhhhhhhhhh
MLRC hhhhhhhhhhhhhhhhhhcccccchhhhhhhhhccccccccccccccchhhhhhhhhhhh
PHD hhhhhhhhhhhhhhhhhhccccchhhhhhhhhhcccccccccccccccchhhhhhhhhhh
Predator hhhhhhhhhhhhhhheeecccccchhhhhhhhccccccccccccchhhhhhhhhhhhhhh
Sec.Cons. hhhhhhhhhhhhhhhh??cccccchhhhhhhh?ccccccccccccc?chhhhhhhhhhhh
310 320
| |
UNK_99930 KSLDFLSFTDLKDGNLEAGS
DPM hhhchccccccttccccccc
DSC hhhhhhhhhhhccccccccc
HNNC hhcceeehcccccccccccc
MLRC hhccceeccccccccccccc
PHD hccceeeeeccccccccccc
Predator hhhccccccccccccccccc
Sec.Cons. hh?c?eeccccccccccccc
Figure 8 : Structure secondaire (NPSA)
H : hélice α, e : brin étendu, c : tour, t : tour beta, ?: état ambigu
Un alignement multiple avec Clustal Omega nous a permis de mieux observer les zones
conservées entre ces trois protéines. Les étoiles correspondent aux acides aminés conservés.
Les deux points correspondent à des substitutions conservées et les points simples à des
substitutions semi-conservées. Des gap sont observés surtout en début et en fin de séquence.
Figure 9 : Alignement des trois séquences avec Clustal Omega
Prédiction de la Structure 3D
Pour créer ce modèle de structure 3D, nous utilisons le logiciel Modeller. Le modèle
est créé à partir de structures protéiques connues dont la séquence est proche de la séquence
query : ce sont les Templates. Pour notre étude, nous utilisons les deux structures 1NAL et
2WO5 pour créer deux modèles que nous confronterons.
Visualisation de la Structures 3D Template 1NAL
Structure tridimensionnelle de la N-Acétylneuraminate Lyase de la bactérie
Escherichia Coli obtenu par X-Ray, avec une résolution de 2.20 angströms. Cette structure
présente 4 chaines : une visualisation de la structure globale de la protéine obtenu par le
logiciel PyMol est présentée en figure 10A
Comme nous l’avons vu sur les alignements de séquences, la séquence étudiée est alignée
avec la chaine A de cette protéine, la figure 10B montre sa structure.
On voit ici une structure particulière au centre de la protéine, un canal formé par huit feuillets
béta parallèles, une structure que l’on espère retrouver dans le modèle.
A B
Figure 10 : A- Structure 3D de 1NAL visualisée sous pymol. B- Structure 3D de la sous unité A de 1NAL.
Visualisation de la Structure 3D Template 2WO5
Structure tridimensionnelle de la N-Acétylneuraminate Lyase sauvage de la bactérie
Escherichia Coli obtenu par X-Ray, avec une résolution de 2.20 angströms. Cette structure
présente 4 chaines : une visualisation de la structure globale de la protéine obtenu par le
logiciel PyMol est présentée en figure 11-A.
Ici également, la séquence étudiée est aligné avec la chaine A de cette protéine, la
figure 11-B montre sa structure. Comme nous pouvons le voir, le nombre de feuillet béta ainsi
que leur taille, est inférieur à ceux de la structure présentée précédemment, en effet seul six
feuillet sont présent dans cette structure.
Création des Modèle Structuraux avec Modeller.
Dans un premier temps il est nécessaire de définir l'alignement entre la séquence
étudiée et la séquence de la structure template dans un fichier au format .pir. Il est également
nécessaire de créer un fichier .atm qui contient les coordonnées des atomes de la structure
template.
Lors de la modélisation, il est possible de modifier de nombreux paramètres tels que le
nombreux de modèles et le nombre de boucles. Dans cette étude, nous avons fixé le nombre
de modèle à 1 tandis que le nombre de boucle était de 5.
A B
Figure 11 : A- Structure 3D de 2WO5 visualisée sous pymol. B- Structure 3D de la sous unité A de 2WO5.
Modèle 1 : Template 1NAL
Ici on ne montre qu’un seul des modèles que Modeller a généré, car ils ne diffèrent
que très peu les uns des autres. Nous comparons ensuite cette structure (modèle vert, rouge et
jaune) à la structure de référence de la PDB 1NAL (rose, cyan et jaune) sur Pymol et obtenu
la figure 12.
On peut voir sur la figure 12-B que la structure 1NAL possède une hélice alpha de 10
acides aminés à son extrémité Nter, que ne possède pas la séquence étudiée. De plus, on
remarque que l’hélice alpha suivante en Nter de la protéine est beaucoup plus courte dans la
structure prédite. Cependant, on remarque que le canal formé par les huit feuillets béta est
retrouvé dans la structure prédite.
Figure 12 : A- Comparaison de la structure du
modèle généré par Modeller et la structure
cristallographiée 1NAL. B- Comparaison des
extrémités Nter des deux structures. C-
Comparaison des domaines centraux de la
protéine
B C
A
Modèle 2 : Template 2WO5
Ici encore les cinq modèles de boucle sont très proche, c’est pourquoi un seul sera
montré et analysé. Les mêmes conventions de couleur ont été adoptées : vert, rouge jaune
pour la structure prédite et rose, cyan et violet pour la structure cristallographiée.
Comme précédemment, on peut voir sur la figure 13-B qu’il y a une hélice alpha
supplémentaire dans la structure N-terminal de 2WO5. Cependant on remarque que l’hélice
suivante est parfaitement retrouvée entre le modèle et la structure cristallographiée.
Figure 13 : A- Comparaison de la structure du
modèle généré par Modeller et la structure
cristallographiée 2WO5. B- Comparaison des
extrémités Nter des deux structures. C-
Comparaison des domaines centraux de la
protéine
A
B C
Pour la structure en canal, bien que deux feuillets béta soient absents dans la structure
template, on retrouve les huit feuillets dans le modèle. Ce modèle est donc aussi valable que
le précédent pour prédire la structure en canal de la protéine. Cependant ce modèle prédit
certaine structure secondaire incohérente, tel que des structures en hélices alpha de 3 ou 4
acides aminés et donc trop courte pour former un tour d’hélice complet.
Conclusion
La modélisation par homologie nous a permis de prédire la structure tridimensionnelle
d’une protéine en ne se basant que sur sa séquence. Pour cela, de nombreux outils bio-
informatiques ont été utilisés.
Ainsi, Le Psy-Blast nous a permis de trouver des protéines ayant des séquences
proches de la séquence étudiée et en se basant sur la base de données de la PDB, nous étions
certains d’avoir la structure de ces protéines. Des outils comme Plotscale et NPSA nous ont
permis de vérifier si les structures secondaire prédite pour la séquence été similaire à celles
des protéines sélectionné par le psi-blast. Ces protéines ont ensuite été utilisées comme
template pour créer un modèle de structure 3D pour notre séquence.
Cependant, il est nécessaire de rappeler que ces structures 3D ne sont que des modèles
et ne peuvent être utilisé comme des structures tirées de cristallographies.