modélisation moléculaire : modélisation par...

Modélisation Moléculaire : Modélisation par homologie

GIRAUD Sandra

MERLET Benjamin

MERLET-BILLON Maryvonne

GB5 BIMB

11 Février 2013

Introduction

La modélisation moléculaire est un ensemble de techniques permettant la modélisation

prédictive notamment de protéines. Ces techniques sont courantes dans différents domaines et

en particulier en chimie et en biologie (pharmaceutique).

Ces techniques sont très utilisées dans plusieurs cas lorsque l’expérience est :

- Trop difficile

- Trop dangereuse

- Trop couteuse

- Trop longue (ou trop rapide)

- Impossible à réaliser

- Difficilement acceptable au niveau éthique (protection humaine par exemple)

Deux techniques sont très utilisées : la modélisation moléculaire dynamique et la modélisation

moléculaire par homologie. Au cours de ce TP c’est cette dernière que nous utiliserons via

différents outils et notamment le logiciel Modeller.

La modélisation par homologie a pour principe de partir d’une séquence protéique connue et

de rechercher des séquences homologues dont la structure tridimensionnelle a déjà été prédite.

De nombreux critères sont utilisés pour étudier cette séquence par rapport à celles dont la

structure est connue, ceci dans le but de rassemble des informations théoriques qui aideront à

modéliser sa structure tridimensionnelle.

L’objectif de ce TP est donc, à partir d’une séquence donnée, de modéliser la protéine via la

modélisation moléculaire par homologie.

Matériel et Méthodes

Au cours de ce TP nous avons utilisé les outils suivants :

- NCBI protein blast afin de trouver des séquences homologues à celle que nous étudions

- Base de donnée PDB afin de trouver les fichiers structures des séquences

- NCBI psiBlast et MUSCLE (phylogeny.fr) pour aligner les séquences

- NPSA afin de prédire des caractéristiques de structure secondaire

- ProtScale afin de déterminer et comparer les profils d’hydrophobicité

- CulstalW dans le but de faire un alignement multiple

- Modeller afin de modéliser, à partir des données précédemment établies, la protéine

« inconnue »

Informations sur la protéine

La première étape de la modélisation par homologie est de trouver des séquences homologues

à celle que l’on souhaite modéliser.

Notre séquence est la suivante et comporte 320 acides aminés :

MAFPKKKLQGLVAATITPMTENGEINFSVIGQYVDYLVKEQGVKNIFVNGTTGEGLS

LSVSERRQVAEEWVTKGKDKLDQVIIHVGALSLKESQELAQHAAEIGADGIAVIAPFF

LKPWTKDILINFLKEVAAAAPALPFYYYHIPALTGVKIRAEELLDGILDKIPTFQGLKF

SDTDLLDFGQCVDQNRQQQFAFLFGVDEQLLSALVMGATGAVGSTYNYLGKKTNQ

MLEAFEQKDFSLALNYQFCIQRFINFVVKLGFGVSQTKAIMTLVSGIPMGPPRLPLQK

ASREFTDSAEAKLKSLDFLSFTDLKDGNLEAGS

Recherche de séquence homologues

Nous avons rentré cette séquence dans l’outil BLAST de NCBI. Partant d’une séquence

protéique nous avons réalisé un protein Blast via la base de données PDB. De très nombreuses

protéines ont été trouvées comme homologues de notre séquence. Nous avons choisi deux

séquences homologues en sélectionnant le plus grand « Max score » et la plus petite e-value

(respectivement 127, 126 et 9e-34, 2e-33). Aucune séquence ne présentait un « query

coverage » de 100%, c’est pourquoi nous n’avons pas basé notre sélection sur ce critère.

1NAL : N-ACETYLNEURAMINATE 2 LYASE FROM ESCHERICHIA COLI

2WO5 : WILD TYPE E. COLI N-ACETYLNEURAMINIC ACID 2 LYASE IN SPACE

GROUP P21 CRYSTAL FORM I

Ces deux séquences proviennent du même organisme : Escherichia coli et correspondent à

deux enzymes très proches de la famille des N-acétylneuraminate lyase. Cette famille

d’enzyme catalyse une réaction aldol réversible qui mène à la formation d’acide sialique. Ces

enzymes font partie d’une famille plus grande : les dihydripicolinates synthases.

Alignement de séquences

Nous avons ensuite récupéré les fichiers PDB correspondant et aligné notre séquence

« inconnue » avec les deux séquences homologues sélectionnées via le psiBlast de NCBI et

MUSCLE de phyloegny.fr (Figure 1 à 3) en laissant les paramètres par défaut.

>seq query

MAFPKKKLQGLVAATITPMTENGEINFSVIGQYVDYLVKEQGVKNIFVNGTTGEGL

SLSVSERRQVAEEWVTKGKDKLDQVIIHVGALSLKESQELAQHAAEIGADGIAVIAP

FFLKPWTKDILINFLKEVAAAAPALPFYYYHIPALTGVKIRAEELLDGILDKIPTFQG

LKFSDTDLLDFGQCVDQNRQQQFAFLFGVDEQLLSALVMGATGAVGSTYNYLGK

KTNQMLEAFEQKDFSLALNYQFCIQRFINFVVKLGFGVSQTKAIMTLVSGIPMGPPR

LPLQKASREFTDSAEAKLKSLDFLSFTDLKDGNLEAGS

>gi|11513504|pdb|1F6P|A_Chain_A,_Crystal_Structure_Analysis_Of_N-Acetylneuramina

----MRDLKGIFSALLVSFNEDGTINEKGLRQIIRHNIDKMKVDGLYVGGSTGENFML

STEEKKEIFRIAKDEAKDQI-ALIAQVGSVNLKEAVELGKYATELGYDCLSAVTPFY

Y-KFSFPEIKHYYDTIIAET-GSNMIVYSIPFLTGVNMGIEQF—GELYKNPKVLGVKF

TAGDFYLLERL—KKAYPNHLIWAGFDEMMLPAASLGVDGAIGSTFNVNGVRARQI

FELTKAGKLKEALEIQHVTNDLIEGILANGLYLT-IKELLKL-EGVDAGYCREPMTSK

ATAE-QVAKAK----------DLKAKFLS---

>gi|1127100|pdb|1NAL|1_Chain_1,_The_Three-Dimensional_Structure_Of_N-Acetylneura

---MNSNLRGVMAALLTPFDQQQALDKASLRRLVQFNI-QQGIDGLYVGGSTGEAFV

QSLSEREQVLEIVAEEGKGKI-KLIAHVGCVTTAESQQLAASAKRYGFDAVSAVTPF

YY-PFSFEEHCDHYRAIIDSADGLPMVVYNIPALSGVKLTLDQI—NTLVTLPGVGAL

KQTSGDLYQMEQI—RREHPDLVLYNGYDEIFASGLLAGADGGIGSTYNIMGWRYQ

GIVKALKEGDIQTAQKLQTECNKVIDLLIKTGVFRG-LKTVLHYMDVVSVPLCRKPF

GPVDEKY-Q-PELK----------ALAQQLMQERG

Figure 1 : Alignement MUSCLE

Nous pouvons déjà observer que l’alignement via psiBlast est beaucoup plus lisible.

Figure 3 : Alignement psiBlast séquence inconnue/2WO5

En rouge certaines parties alignées entre les deux séquences. En vert les glycines conservées et en

bleu les prolines conservées On observe 30% d’identité et 4% de gap.

Figure 2 : Alignement psiBlast séquence inconnue/1NAL

En rouge certaines parties alignées entre les deux séquences. En vert les glycines conservées

et en bleu les prolines conservées. On observe 30% d’identité et 3% de gap

Après analyse les alignements sont légèrement différents : D’une part l’alignement via

psiBlast ne commence pas au premier acide aminé de notre séquence « inconnue », ce qui est

un facteur de différence important dans les résultats que nous obtenons. D’autre part nous

observons la présence de gap plus nombreux avec l’alignement MUSCLE.

Nous pouvons observer que sur les 22 glycines présentes dans notre séquence, 15 sont

conservées avec 1NAL et 2WO5. A Part une glycine, ce sont les mêmes qui sont conservées

dans les deux cas. Nous pouvons supposer que ces glycines (qui apportent de la souplesse à la

structure de la protéine) sont très importante dans la relation structure/fonction de la protéine.

Sur les 8 prolines présentes dans la séquence, 7 sont conservées avec 1NAL et 2WO5. Les

prolines sont connues pour favoriser la formation d’hélices α.

Prédiction de la structure secondaire

Afin d’obtenir des informations sur la structure secondaire nous avons dans un premier temps

établi les profils d’hydrophobicité à l’aide de PlotScale (Figure 4 à 6)

Figure 4 : Profil d’hydrophobicité de 1NAL

Figure 6 : Profil d’hydrophobicité de la séquence inconnue

Figure 5 : Profil d’hydrophobicité de 2WO5

Le profil d’hydrophobicité de la séquence permet d’observer les zones hydrophobes

/hydrophiles. Nous avons pour cela utilisé le logiciel ProtScale qui utilise l’échelle de Kyte et

Doolittle (hydrophobicité) : les valeurs positives indiquent une position hydrophobe et les

valeurs négatives une position hydrophile.

Notre protéine fait partie de la famille des N-acétylneuraminate lyase. Ces protéines sont

présentes au niveau du cytosol. Cette localisation explique la présence de zones hydrophobes

et hydrophiles au sein de cette protéine.

Nous avons utilisé l’outil HCA de Mobyle pour analyser la séquence primaire (Figure 7)

L’utilisation de l’outil NPSA nous a permis d’analyser la structure secondaire de notre

protéine (Figure 8)

Nous pouvons observer la prédiction de nombreuses hélices α par tous les prédicteurs utilisés.

Ces hélices voient leur longueur varier en fonction du prédicteur. En gras sont représentées

les prolines conservées lors des psiBlast. Nous pouvons observer qu’elles ne se situent pas à

l’intérieur d’hélices α prédites juste en amont ou en aval de ces dernières.

Figure 7 : Analyse de la séquence primaire de la séquence inconnue

Les zones vertes représentent de potentiels feuillets β et les zones rouges de potentielles hélices

α. Les étoiles représentent les prolines contraignant le plus la chaîne polypeptidique. Les

losanges représentent les glycines qui au contraire donnent le plus de liberté à la chaine. Les

carrés (vides et pleins) représentent respectivement les thréonines et sérines (deux petits acides

aminés polaires) qui peuvent masquer leur polarité via des liaisons H

Explication d’après Callebaut et al, 1997

10 20 30 40 50 60

| | | | | |

UNK_99930 MAFPKKKLQGLVAATITPMTENGEINFSVIGQYVDYLVKEQGVKNIFVNGTTGEGLSLSV DPM cchchcchhchehhcecccccccccceceecceecceehhccecceeecccctcccccce

DSC cccchhhhhhhhhhhccccccccccchhhhhhhhhhhhhccccceeeeccccccchhhhh

HNNC cccchhcccceeeeeeeccccccceeeeeehhhhhhhhhcccceeeeeecccccccceeh

MLRC ccccchccceeeeeeecccccccccchhhhhhhhhhhhhhccceeeeeeccccccceeeh

PHD cccccccccceeeeeccccccccccchhhhhhhhhhhhhhccceeeeeecccchhhccch

Predator cccchhhhhhhhhhhccccccccceeeeeeecceeeeeecccceeeeecccccccccccc

Sec.Cons. cccchhc??c?e??e?cccccccccc?h??hhhhhhhhh?ccceeeee?cccccccccch

70 80 90 100 110 120

| | | | | |

UNK_99930 SERRQVAEEWVTKGKDKLDQVIIHVGALSLKESQELAQHAAEIGADGIAVIAPFFLKPWT DPM chhhhhhhhhhcctccchcheeeeechhchhhhhhhhhhhhhhthcccheehcchccccc

DSC hhhhhhhhhhhhhcccccceeeeeccccchhhhhhhhhhhhhcccccccccccccccccc

HNNC chhhhhhhhhhhhcccccceeeeeeecechcchhhhhhhhhhhccccheeeeccccchhh

MLRC hhhhhhhhhhhhhcccccceeeeeecccchhhhhhhhhhhhhhccccheehhhhhccchh

PHD hhhhhhhhhhhhhhccccceeeeeccccchhhhhhhhhhhhhhcccceeeeccccccccc

Predator chhhhhhhhhhccccccccceeeecccchhhhhhhhhhhhhhhcccceeeeccccccccc

Sec.Cons. ?hhhhhhhhhhhhcccccceeeee?cccchhhhhhhhhhhhhhcccc?eeeccccccccc

130 140 150 160 170 180

| | | | | |

UNK_99930 KDILINFLKEVAAAAPALPFYYYHIPALTGVKIRAEELLDGILDKIPTFQGLKFSDTDLL DPM cceeechhhhhhhhhchcccccccccccccehhhhhhhhccccccccccccccccccccc

DSC chhhhhhhhhhhhcccccceeecccccccccccchhhhhhhhhcccccccccccccchhh

HNNC hhhhhhhhhhhhhhccccceeeeeccccccceehhhhhhhhhhhhcccccceeecccchc

MLRC hhhhhhhhhhhhhhccccceeeeecccccccchhhhhhhhhhhhhccccccceccccchh

PHD hhhhhhhhhhhhhhhcccceeeeeeccccccccchhhhhhhhhhcccccccccccchhhh

Predator hhhhhhhhhhhhhhhccccceeeecccccchhhhhhhhhhhhhhcccccccccccccccc

Sec.Cons. hhhhhhhhhhhhhh?cccceeeeecccccccchhhhhhhhhhhhcccccccccccccch?

190 200 210 220 230 240

| | | | | |

UNK_99930 DFGQCVDQNRQQQFAFLFGVDEQLLSALVMGATGAVGSTYNYLGKKTNQMLEAFEQKDFS

DPM ccccccccchhhhhhhhhcehhhhhhhhehchccccccccccccctcchhhhhhhhhhhc

DSC hhhhhhhhccccceeeecchhhhhhhhhhhcccccccccccccchhhhhhhhhhhhhhhh

HNNC ccccccccchhhhhhhhcchhhhhhhhhhhccccccccchcccccchhhhhhhhhhhchh

MLRC hhhhhhccccccceeeeecchhhhhhhhhhcccccccccccccchhhhhhhhhhhhcchh

PHD hhhhhhhhcccceeeeeecchhhhhhhhhccccceeechhhcchhhhhhhhhhhhccchh

Predator ccccccchhhhhhhhhhhccchhhhhhhhhhccccccccccccchhhhhhhhhhhhhhhh

Sec.Cons. ??????c?c???h?????cchhhhhhhhhhcccccccccccccchhhhhhhhhhhhh?hh

250 260 270 280 290 300

| | | | | |

UNK_99930 LALNYQFCIQRFINFVVKLGFGVSQTKAIMTLVSGIPMGPPRLPLQKASREFTDSAEAKL DPM hhhcchheehheeeeeeeeccceccchheeeeecccccccccccchhhhhhhcchhhhhh

DSC hhhhhhhhhhhhhhhhhhccccchhhhhhhhhcccccccccccccccccchhhhhhhhhh

HNNC hhhhhhhhhhhhhhhheecccccccccehheeeccccccccccccchchhhhhhhhhhhh

MLRC hhhhhhhhhhhhhhhhhhcccccchhhhhhhhhccccccccccccccchhhhhhhhhhhh

PHD hhhhhhhhhhhhhhhhhhccccchhhhhhhhhhcccccccccccccccchhhhhhhhhhh

Predator hhhhhhhhhhhhhhheeecccccchhhhhhhhccccccccccccchhhhhhhhhhhhhhh

Sec.Cons. hhhhhhhhhhhhhhhh??cccccchhhhhhhh?ccccccccccccc?chhhhhhhhhhhh

310 320

| |

UNK_99930 KSLDFLSFTDLKDGNLEAGS

DPM hhhchccccccttccccccc

DSC hhhhhhhhhhhccccccccc

HNNC hhcceeehcccccccccccc

MLRC hhccceeccccccccccccc

PHD hccceeeeeccccccccccc

Predator hhhccccccccccccccccc

Sec.Cons. hh?c?eeccccccccccccc

Figure 8 : Structure secondaire (NPSA)

H : hélice α, e : brin étendu, c : tour, t : tour beta, ?: état ambigu

Un alignement multiple avec Clustal Omega nous a permis de mieux observer les zones

conservées entre ces trois protéines. Les étoiles correspondent aux acides aminés conservés.

Les deux points correspondent à des substitutions conservées et les points simples à des

substitutions semi-conservées. Des gap sont observés surtout en début et en fin de séquence.

Figure 9 : Alignement des trois séquences avec Clustal Omega

Prédiction de la Structure 3D

Pour créer ce modèle de structure 3D, nous utilisons le logiciel Modeller. Le modèle

est créé à partir de structures protéiques connues dont la séquence est proche de la séquence

query : ce sont les Templates. Pour notre étude, nous utilisons les deux structures 1NAL et

2WO5 pour créer deux modèles que nous confronterons.

Visualisation de la Structures 3D Template 1NAL

Structure tridimensionnelle de la N-Acétylneuraminate Lyase de la bactérie

Escherichia Coli obtenu par X-Ray, avec une résolution de 2.20 angströms. Cette structure

présente 4 chaines : une visualisation de la structure globale de la protéine obtenu par le

logiciel PyMol est présentée en figure 10A

Comme nous l’avons vu sur les alignements de séquences, la séquence étudiée est alignée

avec la chaine A de cette protéine, la figure 10B montre sa structure.

On voit ici une structure particulière au centre de la protéine, un canal formé par huit feuillets

béta parallèles, une structure que l’on espère retrouver dans le modèle.

A B

Figure 10 : A- Structure 3D de 1NAL visualisée sous pymol. B- Structure 3D de la sous unité A de 1NAL.

Visualisation de la Structure 3D Template 2WO5

Structure tridimensionnelle de la N-Acétylneuraminate Lyase sauvage de la bactérie

Escherichia Coli obtenu par X-Ray, avec une résolution de 2.20 angströms. Cette structure

présente 4 chaines : une visualisation de la structure globale de la protéine obtenu par le

logiciel PyMol est présentée en figure 11-A.

Ici également, la séquence étudiée est aligné avec la chaine A de cette protéine, la

figure 11-B montre sa structure. Comme nous pouvons le voir, le nombre de feuillet béta ainsi

que leur taille, est inférieur à ceux de la structure présentée précédemment, en effet seul six

feuillet sont présent dans cette structure.

Création des Modèle Structuraux avec Modeller.

Dans un premier temps il est nécessaire de définir l'alignement entre la séquence

étudiée et la séquence de la structure template dans un fichier au format .pir. Il est également

nécessaire de créer un fichier .atm qui contient les coordonnées des atomes de la structure

template.

Lors de la modélisation, il est possible de modifier de nombreux paramètres tels que le

nombreux de modèles et le nombre de boucles. Dans cette étude, nous avons fixé le nombre

de modèle à 1 tandis que le nombre de boucle était de 5.

A B

Figure 11 : A- Structure 3D de 2WO5 visualisée sous pymol. B- Structure 3D de la sous unité A de 2WO5.

Modèle 1 : Template 1NAL

Ici on ne montre qu’un seul des modèles que Modeller a généré, car ils ne diffèrent

que très peu les uns des autres. Nous comparons ensuite cette structure (modèle vert, rouge et

jaune) à la structure de référence de la PDB 1NAL (rose, cyan et jaune) sur Pymol et obtenu

la figure 12.

On peut voir sur la figure 12-B que la structure 1NAL possède une hélice alpha de 10

acides aminés à son extrémité Nter, que ne possède pas la séquence étudiée. De plus, on

remarque que l’hélice alpha suivante en Nter de la protéine est beaucoup plus courte dans la

structure prédite. Cependant, on remarque que le canal formé par les huit feuillets béta est

retrouvé dans la structure prédite.

Figure 12 : A- Comparaison de la structure du

modèle généré par Modeller et la structure

cristallographiée 1NAL. B- Comparaison des

extrémités Nter des deux structures. C-

Comparaison des domaines centraux de la

protéine

B C

A

Modèle 2 : Template 2WO5

Ici encore les cinq modèles de boucle sont très proche, c’est pourquoi un seul sera

montré et analysé. Les mêmes conventions de couleur ont été adoptées : vert, rouge jaune

pour la structure prédite et rose, cyan et violet pour la structure cristallographiée.

Comme précédemment, on peut voir sur la figure 13-B qu’il y a une hélice alpha

supplémentaire dans la structure N-terminal de 2WO5. Cependant on remarque que l’hélice

suivante est parfaitement retrouvée entre le modèle et la structure cristallographiée.

Figure 13 : A- Comparaison de la structure du

modèle généré par Modeller et la structure

cristallographiée 2WO5. B- Comparaison des

extrémités Nter des deux structures. C-

Comparaison des domaines centraux de la

protéine

A

B C

Pour la structure en canal, bien que deux feuillets béta soient absents dans la structure

template, on retrouve les huit feuillets dans le modèle. Ce modèle est donc aussi valable que

le précédent pour prédire la structure en canal de la protéine. Cependant ce modèle prédit

certaine structure secondaire incohérente, tel que des structures en hélices alpha de 3 ou 4

acides aminés et donc trop courte pour former un tour d’hélice complet.

Conclusion

La modélisation par homologie nous a permis de prédire la structure tridimensionnelle

d’une protéine en ne se basant que sur sa séquence. Pour cela, de nombreux outils bio-

informatiques ont été utilisés.

Ainsi, Le Psy-Blast nous a permis de trouver des protéines ayant des séquences

proches de la séquence étudiée et en se basant sur la base de données de la PDB, nous étions

certains d’avoir la structure de ces protéines. Des outils comme Plotscale et NPSA nous ont

permis de vérifier si les structures secondaire prédite pour la séquence été similaire à celles

des protéines sélectionné par le psi-blast. Ces protéines ont ensuite été utilisées comme

template pour créer un modèle de structure 3D pour notre séquence.

Cependant, il est nécessaire de rappeler que ces structures 3D ne sont que des modèles

et ne peuvent être utilisé comme des structures tirées de cristallographies.

modélisation moléculaire : modélisation par...

Documents