prédiction de la structure 3-d des protéines. swissprot +/- 200.000 séquences protein data bank...
TRANSCRIPT
![Page 1: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/1.jpg)
Prédiction de la structure 3-D des protéines
![Page 2: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/2.jpg)
Swissprot+/- 200.000 séquences
Protein Data Bank+/- 30.000 structures
Analyse de séquence Recherche de fonction Analyse d’hydrophobicité (PO, TM, H amphip.) Prédiction de sites d’interactions Prédiction de sites antigéniques Prédiction de structures secondaires …
Analyse de structure 3D Etude des interactions (3D / 4D) Etude du site actif Docking Dynamique, modifications Etude des interactions avec une membrane Ingénierie des protéines Etude du folding …
Introduction
![Page 3: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/3.jpg)
Détermination expérimentale coûteuseet pas toujours possible…
Détermination expérimentale de la structure d’une protéine
![Page 4: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/4.jpg)
Prédiction de structures 3D
• Modélisation par homologie :
Identification d’une protéine de structure connue de séquence homologue
• Fold recognition ou threading :
Se base également sur la connaissance de structures 3D de protéines. On essaie de déterminer le fold de la protéine.
• Ab initio :
Construction de modèles 3D sur base de la séquence parsimulation des forces qui gouvernent le repliement pour trouver la structure de plus basse énergie.
![Page 5: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/5.jpg)
Principe de la modélisation par homologie
Structures mieux conservées que séquences !
Si homologie entre séquences=> homologie entre structures=> prédiction modèle 3D par homologie possible
templatetarget templatetarget
![Page 6: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/6.jpg)
Si identité > 30% => OKSi 20% < identité < 30 % => + difficile / risquéSi identité < 20% => +++ difficile / impossible
Estimation :
28% des séquences ont au moins 25% ID avec une protéine de structure connue (PDB)
Protéine homologue dans la PDB ???
Principe de la modélisation par homologie
![Page 7: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/7.jpg)
Etapes de la prédiction du modèle 3D
1. Identification d’une protéine de structure connue de séquence homologue (ou plusieurs !)
2. Alignement Target / Template(s)
3. Construction du modèle 3D
4. Optimisation du modèle 3D
5. Validation du modèle 3D
! Étapes 1 et 2 déterminantes !
![Page 8: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/8.jpg)
1. Recherche de séquence(s) homologue(s) dans la PDB
Cfr. cours sur les méthodes d’alignement.
Utilisation d’un algorithme pour chercher des protéines de structure connue qui ont une séquence homologue à notre séquence target et qui pourront ainsi être utilisées comme template.
![Page 9: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/9.jpg)
Alignements
4. Comparaison de séquences : les alignements
= une des premières étapes dans l’analyse des séquences
= comparaison de séquences dans le but de repérer les endroits où se trouvent des régions identiques ou très similaires entre des séquences et d’en déduire celles qui sont significatives et qui correspondent à un sens biologique de celles qui sont observées par hasard.
Séquence1 LRTMPDSYGWPLVGPLSDRLDYFFFQITRAEKNIPPTFGN
Séquence2 IKTMPERYGSEIISPGDEGWLYLYHNIEHFQKYLPIYLGN
Séquence1 LRTMPDSYGWPLVGPLSDRLDYFFFQITRAEKNIPPTFGN *** ** * * * * * **Séquence2 IKTMPERYGSEIISPGDEGWLYLYHNIEHFQKYLPIYLGN
Séquence1 LRTMPDSYGWPLVGPLSDRLDYFFFQITRAEKNIPPTFGN ..***. ** .. * . * . .* . .* .* **Séquence2 IKTMPERYGSEIISPGDEGWLYLYHNIEHFQKYLPIYLGN
% identité = 30% % similarité = 57%
similarité homologie homologie si ancêtre commun homologie mesurée par similarité
![Page 10: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/10.jpg)
Alignements
Objectif :
Révéler des informations importantes sur • la structure, • la fonction• l’évolution
de ma(mes) séquence(s) d’intérêt
Quelqu'un a t-il déjà rencontré ce type de séquences ?
Si oui, je vais pouvoir avoir rapidement accès à toutes ses connaissances !!
![Page 11: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/11.jpg)
Alignements : principes
Principe des alignements
Durant l’évolution,• substitutions de résidus
Subsitution homologue Substitution non homologue
• insertions / délétions de résidus
Séquence1 LRTMPDSYGWPLVGPSDRDLYLFHQITRAEKNIPPTFGNF ..***. ** .. * * * . Séquence2 IKTMPERYGSEIISPGDEKELYLYHNIEHFQKYLPIYLGN
Séquence1 LRTMPDSYGWPLVGPSD-RDLYLFHQITRAEKNIPPTFGNF ..***. ** .. * * ..***.*.* . .* .* **Séquence2 IKTMPERYGSEIISPGDEKELYLYHNIEHFQKYLPIYLGN-
Représente une insertion-délétion (indel ou gap)
=> Calcul d’un score pour évaluer la qualité de l’alignement
![Page 12: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/12.jpg)
Détermination d’un score
Utilisation de matrice de substitution
Calcul d’un scorescore global = la somme des scores élémentaires
Score = seIntroduction de gap (avec pénalité)
• Pénalité pour l’insertion d’un gap (x)
• Pénalité pour l’extension d’un gap (y) (svt x = 10 y)
P = coût global du gap de longueur L
P = x + yL
Score = se - P
Le score élémentaire (se) = la valeur donnée directement dans la matrice
Alignements : principes
![Page 13: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/13.jpg)
Identité
Homologie
*Similarités physico-chimiques
*Matrice d’évolution (probabilité qu’un A.A. soit
muté en un autre après un temps d’évolution
donné) (PAM, Blosum)
*Matrice basée sur la comparaison des
séquences (Gonnet)
Matrices de substitution
Alignements : principes
![Page 14: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/14.jpg)
A R N D C Q E G H I L K M F P S T W Y VA 2R -2 6N 0 0 2D 0 -1 2 4C -2 -4 -4 -5 4Q 0 1 1 2 -5 4E 0 -1 1 3 -5 2 4G 1 -3 0 1 -3 -1 0 5H -1 2 2 1 -3 3 1 -2 6I -1 -2 -2 -2 -2 -2 -2 -3 -2 5L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6K -1 3 1 0 -5 1 0 -2 0 -2 -3 5M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4
The PAM250 scoring matrix
Alignements : principes
![Page 15: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/15.jpg)
Matrices protéiques utilisées• Pam 120• Pam 250• blossum 50• blossum 62• blossum 80• Gonnet matrix
Le choix d'une matrice protéique
Pas de consensus, mais ce qui est généralement reconnu... • Matrices Blosum > matrices Pam• Matrice Blosum62 = la meilleure pour la détection de la majorité des similarités protéiques faibles.• Matrice Blosum45 = la meilleure pour la détection de la majorité des similarités protéiques faibles et longues.
Alignements : principes
![Page 16: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/16.jpg)
Alignements : principe
Alignement global alignement local
![Page 17: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/17.jpg)
!!! ce critère doit être relié
• à la longueur de la similitude
• au nombre d’insertion introduite
Généralement reconnu :
Des séquences protéiques de 100 aa ou plus possédant au moins 25% d’identité entre elle ont certainement un ancêtre commun.
On peut douter d’un alignement s’il nécessite plus d’une insertion en moyenne pour 20 acides aminés.
Alignements : évaluation
![Page 18: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/18.jpg)
Alignements : évaluation
E-value
E = Y Z K e-S
s = score authentiqueY = longueur de la séquenceZ = taille de la banqueK et = constante
E = Probabilité d'observer au hasard ce score à travers la banque de séquences considérée. Plus la E-value est faible, plus l'alignement est significatif.
E-value conclusion
> 0.01 séquences homologues
1-10 similarité plus lointaine
E-Value Conclusion
< e-100 match exact (même gène, même espèce)
gènes quasimment identiques
(allèles, mutations, espèces voisines)
e-50...0.1 relation plus lointaines
> 0.1 séquenes en général inintéressantes
e-100...e-50
Fasta Blast
Pour les programmes d’alignements suivants, on considère que :
![Page 19: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/19.jpg)
Alignements : type
Type d’alignement
• Alignement entre une séquence et une banque
• Fasta
• Blast
• Alignement entre deux séquences = alignement pairé
• SIM
• Alignement entre plusieurs séquences = alignement multiple
• ClustalW
• Match-box
• Dialign 2
![Page 20: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/20.jpg)
2. Alignement des séquences target / template
Si un ou plusieurs template ont été identifiés, il faut générer un alignement entre les séquences target et template.
Questions :
• Quel(s) algorithme(s) utiliser ?• Quels paramètres utiliser ?• Comment juger de la pertinence des résultats ?• Comment améliorer l’alignement ?
![Page 21: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/21.jpg)
• Quel(s) algorithme(s) utiliser ?
• Quels paramètres utiliser ?
• Comment juger de la pertinence des résultats ?
• Comment améliorer l’alignement ?
2. Alignement des séquences target / template
- Clustal, MatchBox,…- comparaisons et combinaisons possibles- alignement structural si plusieurs templates
- en fonction des cas…
- % ID, % homologie, gaps et positions- alignement de résidus particuliers- Homologie HCA- Structures secondaires,…
- cfr. ci-dessus
![Page 22: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/22.jpg)
Construction d’un modèle 3D- séquence Target- structure Template- alignement Target/Template
3. Construction du modèle 3-D
4. Optimisation du modèle 3-D
Optimisation de la géométrie par minimisation énergétique
5. Validation du modèle 3-D
Calcul de paramètres pour juger de la validité du modèle
Confrontation à des données expérimentales
![Page 23: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/23.jpg)
=> Contraintes spatiales
= fonction de densitéde probabilité (pdf)
Contraintes :- basées sur l’alignement- stéréochimiques- utilisateur éventuelles
Modeller
Comment ?
modèle 3D
- séquence Target- structure Template- alignement
![Page 24: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/24.jpg)
Principe de développement de Modeller
Utilisation d’une base de données de protéines de structure connue correspondant à des protéines homologues réparties en familles.
Cette base de donnée sert à déterminer :- les paramètres (caractéristiques) relevants à utiliser lors de la prédiction- comment utiliser ces paramètres
Les paramètres relevants sont déterminés par des méthodes statistiques (sans à priori).
Une fois les paramètres relevants déterminés, la base de données est utilisée pour déterminer les fonctions de densité de probabilité qui décrivent le lien entre les paramètres.
![Page 25: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/25.jpg)
Contraintes basées sur l’alignement
Notion de « caractéristique »
= paramètre= propriété associée à un élément simple ou relation entre plusieurs éléments
= relative à un résidu, à plusieurs résidus, à une protéine, ou à deux séquences
Exemples :
acide aminé, accessibilité au solvant dans la structure, distance entre deux C, résolution de la structure, identité entre séquences,…
Définition de 21 caractéristiques
![Page 26: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/26.jpg)
1 r Amino acid residue type
2 Main-chain dihedral angle
3 Main-chain dihedral angle
4 t Secondary structure class of a residue
5 M Main-chain conformation class of a residue
6 Fractional content of residues in the main-chain conformation class A
7 i Side-chain dihedral angle i, i = 1, 2, 3, 4
8 ci Side-chain dihedral angle i class, i = 1, 2, 3, 4
9 a Residue solvant accessibility
10 a Average accessibility of two residues in one protein
11 s Residue neighbourhood difference between two proteins
12 s Average residue neighbourhood difference between two proteins
13 i Fractional sequence identity between two proteins
14 d C-C distance
15 d Difference between two C-C distances in two proteins
16 h Main-chain N-O distance
17 h Difference between two main-chain N-O distances in two proteins
18 b Average residue Biso (atomic isotropic temperature factor)
19 R Resolution of X-ray analysis
20 g Distance of a residue from a gap in alignement
21 g Average distance of a residue from a gap
![Page 27: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/27.jpg)
Formulation des contraintes ?
Contrainte = fonction (pdf) qui établit une relation
entre différentes caractéristiques
Qu’est-ce qu’une contrainte ?
1. Quantification de l’association entre les caractéristiques
caractéristiques dépendantes ou indépendantes ?
2. Définition d’une fonction mathématique
expression de la contrainte = pdf
Contraintes basées sur l’alignement
![Page 28: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/28.jpg)
Banque de 17 familles de protéines de structure connue= 80 protéines alignées
Table multidimensionnelle des fréquences relativesobservées pour la caractéristique x en fonction des
caractéristiques a, b, c,…
Tests statistiques pour mesurer la dépendancede x par rapport à a, b, c,…
Formulation des contraintes ?
caractéristiques dépendantes ou indépendantes ?
![Page 29: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/29.jpg)
4 types de contraintes sont définies :
- sur les distances C-C- sur les distances O-N (main-chain)- sur la conformation de la chaîne principale- sur la conformation des chaînes latérales
Exemple :
Contrainte sur distance C- C dans Target exprimée sour forme de fonction de densité de probabilité (pdf)…
=> probabilité que dist(C- C) = x dépend de
- distance entre C équivalents dans Template- accessibilité des C équivalents dans Template- homologie de séquence Target/Template- distance moyenne aux gaps dans l’alignement
Contraintes basées sur l’alignement
Résultat :
![Page 30: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/30.jpg)
pdfs des caractéristiques => pdf moléculaire
« Variable Target Function Approach »
pondération des pdfs des caractéristiques au cours de la recherche de la structure de plus grande probabilité
Contraintes locales (en terme de séquence) => Contraintes globales
Comment combiner les contraintes des caractéristiques pour la molécule ?
![Page 31: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/31.jpg)
Evaluation de Modeller
- Choix de la structure Template !
- Qualité de la structure Template !
- Qualité de l’homologie !
- Qualité de l’alignement !
Résidus enfouis mieux prédits que résidus accessibles
Zones de faible homologie moins bien prédites
![Page 32: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/32.jpg)
Swiss Model & Swiss PDB Viewer
Serveur de modélisation par homologie automatisée accessible à l’adresse : http://swissmodel.expasy.org/
ou via Swiss PDB Viewer (Deep View)
![Page 33: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/33.jpg)
Modeller Swiss Model
Modeller :
L’entièreté de la structure de la protéine est modélisée en utilisant des contraintes dérivées des structures templates.
Swiss Model :
La prédiction de la structure de la protéine se base sur un découpage de la protéine en des régions conservées et des régions variables qui sont modélisées séparément.
=> assemblage de fragments basés sur les structures templates.
![Page 34: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/34.jpg)
Swiss Model : méthode
1. Identification de fragments de structure conservée
2. Construction du cœur du modèle :
- Position moyenne des atomes du backbone du cœur des templates avec pondération en fonction de la similarité séquence target / template
- Les régions non conservées (boucles) sont laissées pour plus tard…
![Page 35: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/35.jpg)
Swiss Model : méthode
2. Construction du cœur du modèle 3. Modélisation des boucles :
- recherche de fragments compatibles dans une banque de donnée de boucles (Loop-database)
- reconstruction ab initio pour les boucles manquantes
![Page 36: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/36.jpg)
4. Positionnement des chaînes latérales
On recherche la conformation la plus probable pour chaque chaîne latérale en utilisant :
- les structures homologues
- des banques de rotamères
- des critères énergétiques
Swiss Model : méthode
3. Modélisation des boucles
![Page 37: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/37.jpg)
Swiss Model : méthode
4. Positionnement des chaînes latérales 5. Minimisation énergétique
- régularisation de la géométrie (longueurs de liaisons et angles)
- suppression des conflits stériques
![Page 38: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/38.jpg)
Prédiction de structures 3D
• Modélisation par homologie :
Identification d’une protéine de structure connue de séquence homologue
• Fold recognition ou threading :
Se base également sur la connaissance de structures 3D de protéines. On essaie de déterminer le fold de la protéine.
• Ab initio :
Construction de modèles 3D sur base de la séquence parsimulation des forces qui gouvernent le repliement pour trouver la structure de plus basse énergie.
![Page 39: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/39.jpg)
FOLD=
Type de repliement
Certaines protéines (même non-homologues) adoptent le même
fold.
La PDB regroupe environ 30.000 structures, ce qui fait
environ 4.000 folds.
![Page 40: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/40.jpg)
Fold recognition
1. Identification du template (fold de la protéine)
2. Alignement Target / Template(s)
3. Construction du modèle 3D
4. Optimisation du modèle 3D
5. Validation du modèle 3D
Idem que pour modélisation par homologie
• On impose différents folds à la séquence
• On calcule un score pour mesurer l’adéquation structure séquence
• On optimise l’alignement pour la structure ayant le meilleur score
• On effectue une analyse statistique des résultats
On essaie de prédire le fold compatible avec la séquence de la protéine sans tenir compte de l’homologie de séquence
Méthode :
![Page 41: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/41.jpg)
Validation des structures 3D
Comparaison des modèles prédits
Comparaison au(x) Template(s)
Stéréochimie acceptable ? (Procheck)
- conflits stériques
- longueurs de liaison, angles de valence,…
- carte de Ramachandran
- …
Mesure de l’adéquation entre la structure et la séquence
Confrontation à des résultats expérimentaux
…
![Page 42: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/42.jpg)
Comparaison de structures
3 modèles prédits par Modeller
![Page 43: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/43.jpg)
Stéréochimie (Procheck)
![Page 44: Prédiction de la structure 3-D des protéines. Swissprot +/- 200.000 séquences Protein Data Bank +/- 30.000 structures Analyse de séquence Recherche de](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9da7497959293b8d83ce/html5/thumbnails/44.jpg)
Stéréochimie (Procheck)