perchè predire la struttura terziaria? in cifre: – 700,000+ sequenze proteiche – ~ 20,000...

49
Perchè predire la struttura terziaria? In cifre: 700,000+ sequenze proteiche ~ 20,000 strutture, ~ 5,000 uniche La distanza tra sequenze e strutture note si sta allargando. Metodi computazionali Veloci (minuti o ore), poco costosi (PC) Soluzioni corrette ca. nel 60% dei casi. Risoluzione più bassa, però spesso sufficiente per spiegare la funzione proteica Osservazione: La sequenza si evolve più rapidamente della struttura (Chothia & Lesk, 1986) Numero limitato di fold (< 1,000 ?) 0 100000 200000 300000 400000 500000 600000 Sequenze Comparative ModelsStrutture

Upload: giorgina-filippi

Post on 01-May-2015

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Perchè predire la struttura terziaria?• In cifre:

– 700,000+ sequenze proteiche– ~ 20,000 strutture, ~ 5,000 uniche– La distanza tra sequenze e strutture note si

sta allargando.

• Metodi computazionali– Veloci (minuti o ore), poco costosi (PC)– Soluzioni corrette ca. nel 60% dei casi.– Risoluzione più bassa, però spesso

sufficiente per spiegare la funzione proteica

• Osservazione: La sequenza si evolve più rapidamente della struttura (Chothia & Lesk, 1986)

– Numero limitato di fold (< 1,000 ?)0

100000

200000

300000

400000

500000

600000

Sequenze Comparative Models Strutture

Page 2: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Sequenza-struttura-funzione/ predizione di strutture di proteine

diverse combinazioni dei 20 aa

A

I

L

V

M

F

PY

S

TC

NQ

E

DR

K H

WG

Varietà di strutture e

funzioni

ASSOCIARE A CIASCUNA PROTEINA DI CUI CONOSCIAMO LA SEQUENZA UNA O PIU’ SPECIFICHE FUNZIONI A LIVELLO MOLECOLARE

Page 3: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Codice strutturale

ESPERIMENTO DI ANFINSEN

NELLA SEQUENZA PRIMARIA E’ SCRITTA LA STRUTTURA DI UNA PROTEINA

• PROTEINE CON SEQ. PRIMARIE SIMILI TENDONO AD AVERE STRUTTURE 3D SIMILI

• CONFRONTO TRA GENOMI → i geni essenziali (ciclo cell, sviluppo embrionale, signalling) soggetti a poca variabilità

Page 4: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

fisica24ore

Alcune Applicazioni

In primis: conoscere la struttura tridimensionale a risoluzione atomica della molecola per comprendere, spiegare, e a volte anche modificare ed utilizzare, la sua attività biologica.

Page 5: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

fisica24ore

Effettuare MUTAZIONI puntiformi e predire i loro effetti, che possono fornire indicazioni utili per il riconoscimento del sito attivo o di strutture indispensabili all'attività della molecola, dirette ad una certa funzione o nel matenimento della struttura della proteina.

Page 6: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

fisica24ore

Monitorare i cambiamenti strutturali indotti su peptidi o proteine da parte di MEMBRANE BIOLOGICHE, i quali sembrano essere fondamentali per il riconoscimento con il recettore o per oltrepassare la fase lipidica e raggiungere zone altrimenti inaccessibili.

Page 7: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

fisica24ore

Studiare le variazioni conformazionali provocate dall’interazione della proteina con uno o più LIGANDI, la quale fornisce l’attivazione (o inattivazione) necessaria per compiere la propria funzione biologica (o per impedirla).

Page 8: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Comprendere il processo di FOLDING delle proteine, ovvero il meccanismo di ripiegamento con cui raggiungono la confomazione biologicamente attiva.

Page 9: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Applicazioni FARMACOLOGICHE: viene fornita un’indicazione specifica, o quanto meno restrittiva, della struttura opportuna in funzione del bersaglio del farmaco. In questo campo, la costruzione di strutture calibrate permette di ridurre la ricerca ad un ristretto raggio d’azione.

Page 10: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Ipotesi termodinamica di Anfinsen (per proteine a singolo dominio)

L’informazione codificata nella sequenza amminoacidica di una proteina determina completamente la sua struttura nativa

Lo stato nativo è il minimo assoluto dell’energia libera della proteina

Page 11: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Sequenze casuali non sono in grado di ripiegarsi in maniera univoca

Esse popolano un limitato gruppo di fold selezionate dalla natura attraverso l’evoluzione. Ciascuna ha un minimo globale distinto, ben separato dagli altri stati metastabili.

Quali sono le proprietà uniche e comuni a tutti gli elementi di questo particolare insieme di strutture di tipo proteico?

Le proteine presenti in natura non sono sequenze casuali.

Page 12: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Metodi per la predizione Metodi per la predizione della struttura secondariadella struttura secondaria

e di domini/regioni disordinatee di domini/regioni disordinate

Page 13: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Propensione dei residui aminoacidici a formare elementi di struttura secondaria come riportato da Chou-Fasman (1978b) (C&F) e Levitt (1978) (L). La colonna “pr” classifica i residui come indifferenti (=) o stabilizzatori/destabilizzatori forti (++/--) e deboli (+/-) della struttura secondaria.

elica foglietto ripiegamento

aa C&F

L pr aa C&F

L pr aa C&F

L

Glu 1.51 1.44 ++ Val 1.70 1.49 ++ Asn 1.56 1.28

Met 1.45 1.47 ++ Ile 1.60 1.45 ++ Gly 1.56 1.64

Ala 1.42 1.29 ++ Tyr 1.47 1.25 ++ Pro 1.52 1.91

Leu 1.21 1.30 ++ Phe 1.38 1.32 + Asp 1.46 1.41

Lys 1.16 1.23 + Trp 1.37 1.14 + Ser 1.43 1.32

Phe 1.13 1.07 + Leu 1.30 1.02 + Cys 1.19 0.81

Gln 1.11 1.27 + Cys 1.19 0.74 + Tyr 1.14 1.05

Trp 1.08 0.99 + Thr 1.19 1.21 + Lys 1.01 0.96

Ile 1.08 0.97 + Gln 1.10 0.80 + Gln 0.98 0.98

Val 1.06 0.91 + Met 1.05 0.97 + Thr 0.96 1.04

Asp 1.01 1.04 = Arg 0.93 0.99 = Trp 0.96 0.76

His 1.00 1.22 = Asn 0.89 0.76 = Arg 0.95 0.88

Arg 0.98 0.96 = His 0.87 1.08 = His 0.95 0.68

Thr 0.83 0.82 = Ala 0.83 0.90 - Glu 0.74 0.99

Ser 0.77 0.82 = Ser 0.75 0.95 - Ala 0.66 0.77

Cys 0.70 1.11 = Gly 0.75 0.92 - Met 0.60 0.41

Tyr 0.69 0.72 - Lys 0.74 0.77 - Phe 0.60 0.59

Asn 0.67 0.90 - Pro 0.55 0.64 -- Leu 0.59 0.58

Pro 0.57 0.52 -- Asp 0.54 0.72 -- Val 0.50 0.47

Gly 0.57 0.56 -- Glu 0.37 0.75 -- Ile 0.47 0.51

Ad.es. PREDIZIONE 2D che si basa sull’analisi statistica della composizione in residui delle strutture secondarie presenti nella PDB o sulle propensioni di certi amminoacidi a trovarsi in determinati elementi 2D.

Page 14: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Metodi di predizione della struttura 2D e disordine delle proteine a partire dalla sequenza:

Diversi programmi per predizione 2D:

Ad es. PSIPRED

oppure JPRED che applica diversi metodi e fa un “consensus” dei vari metodi

Disopred o Disoclust programmi per la predizione di regioni intrinsecamente disordinate a partire dalla sequenza. Mentre GeneSilico e’ un metaserver per la predizione del disordine usando il consenso di diversi metodi.

Associata alla predizione della struttura 2D o del disordine intrinseco c’e’ sempre un livello di confidenza (da 0 a 9) che va osservato con cautela prima di trarre conclusioni.

disordine

Page 15: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Diagramma di flussodella modellizzazione

proteicaSequenza proteica

Proteinaomologanella banca datiPDB?

Predizione dellastruttura secondaria/ Predizione disordine intrinseco

Allineamento delleSequenza ai fold noti(fold recognition)

Predizione dellastruttura terziaria ab-inito

ModellizzazioneComparativa (Homology)

Dati sperimentali

Assegnazionedei domini

Allineamento multiplodi sequenza

Predizionedel fold

E’ statopredettoun fold?

Ricerca nelle banchedati

No

SìSì

No

Modello tridimensionaledella proteina

Page 16: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

che viene usata come STAMPO.

Permette di costruire la struttura tridimensionale di una proteina

sulla base della SIMILARITÀ DI SEQUENZA con un’altra proteina

di struttura NOTA

Page 17: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Utilizza strutture note (template) di uno o più membri di una

famiglia strutturale-funzionale per predire la struttura (target) di

un altro membro della famiglia la cui sequenza sia nota.

Si basa sulle seguenti osservazioni:

le proteine appartengono ad un numero limitato di famiglie strutturali

proteine della stessa famiglia (omologhe) hanno strutture tridimensionali molto simili e conservate

applicabile con successo se esiste almeno un omologa a struttura nota (id. > 30% con il templato)

Page 18: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

HOMOLOGY MODELLING

•OMOLOGO 3D (PDB)

•ALLINEAMENTO

RICERCA DEL TEMPLATO

Blast-FastA -CRITERI IDENTITA’/SIMILARITA’

-CONOSCENZA FUNZ.-STR.-BIOCHIM.

Page 19: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

ALLINEAMENTO

GUIDA LA COSTRUZIONE DEL MODELLO

CORRISPONDENZA aa target aa templato

ricerca ALLINEAMENTO OTTIMALE

CORRISPONDENZA DI aa FUNZ. IMPORTANTI

CORRISPONDENZA DELLA STRUTTURA SECONDARIA TRA TEMPLATO E QUERY

VALUTAZIONE DEI GAP loop

USO TEMPLATI MULTIPLI loc.similarità

Page 20: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

ALLINEAMENTO

1. Generazione di allineamenti a coppie diversi con diversi programmi (nel caso di un solo templato)

2. Allineamenti multipli di omologhi per avere informazioni maggiori

3. Ricerca di informazioni biologico-biochimiche sugli aa conservati

4. Predizione di struttura secondaria per il target

5. Correzione dell’allineamento sulla base delle informazioni ai punti 2. 3. e 4.

Page 21: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Dalla sequenza al modello

Raw model

Loop modeling

Side chain placement

Refinement

Page 22: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

CREAZIONE DEL MODELLO

identificazione SCR (structural conserved regions)

SCR scaffold del modello

______________

______________ x-ray

SCRs

No SCRs (loops ?)

Raw model

Loop modeling

Side chain placement

Refinement

Page 23: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Costruzione del pre-modello

• La struttura del templato viene utilizzata come “stampo“ per costruire il modello seguendo l‘allineamento.

• Le coordinate 3D dei residui strutturalmente conservati si possono copiare direttamente.

• Le regioni variabili della struttura (generalmente loop) non si possono copiare.

flexible

conserved

Page 24: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Catene laterali• Problema: Applicando le coordinate del templato sulla

sequenza del target cambiano tipo, dimensione e posizione delle catene laterali.

• L‘RMSD cambia relativamente poco, però possono cambiare le conformazioni di residui importanti (p.es. del sito attivo)

• Dove possibile è meglio mantenere le conformazioni delle catene laterali del templato.

• Esistono metodi standard per risolvere questo problema.

Raw model

Loop modeling

Side chain placement

Refinement

Page 25: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

PREDIZIONE DELLE CATENE LATERALI

AUSILIO DI LIBRERIE DI ROTAMERI

Contengono i possibili conformeri delle catene laterali a fronte di specifiche conformazioni del backbone

OTTIMIZZAZIONE ENERGETICA DELLE STRUTTURA rimozione di clash

Page 26: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Loop modeling• Al pre-modello possono mancare interi

frammenti di catena principale– non conservati nella famiglia proteica– Inserzioni– Delezioni

• Descrizione del problema:– Si cerca un fold che colleghi il frammento N-

terminale (pre-loop) con quello C-terminale (post-loop) tramite k residui

– (,) sono gli unici parametri liberi

loop

post-loop

pre-loop

Raw model

Loop modeling

Side chain placement

Refinement

Page 27: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

PREDIZIONE DEI LOOP

REGIONI VARIABILI – pressione selettiva

DUE STRATEGIE PREDITTIVE:

criterio geometrico testando diverse conformazioni

ricerca in PDB di frammenti simili nelle proteine a struttura nota INFLUENZA DELL’INTORNO

REFINEMENT CRITICO OTTIMIZZAZIONE MEC. E DIN. MOL.

CRITICITA’ nella predizione quando i LOOP rivestono ruolo funzionale o di interazione.

Page 28: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

5. Ottimizzazione del modello

Minimizzazione energetica

Regolarizzazione di legami, angoli e torsioni

Eliminazioni di clash strutturali

Page 29: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

6. Controllo della qualità del modello

• programmi che valutano la qualità dal punto di vista geometrico della struttura (grafico di ramachandran, planarità, clash…)

• programmi che fanno una predizione dell’rmsd del modello della proteina rispetto alla sua putativa struttura nativa

Page 30: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

FOLD RECOGNITION• Predizione di

sequenza con similarità con proteine a struttura nota.

• Osservazione: La natura utilizza solamente un numero limitato di fold diversi

• Idea della fold recognition: Cerca di rappresentare la struttura ignota con dei fold conosciuti, valuta quale potrebbe essere quello “corretto“.

Page 31: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

FOLD RECOGNITION

-per casi predittivi in cui non ci sono omologie chiare con proteine a struttura nota (TWILIGHT ZONE (id.seq tra target e templato 15<x<30%)

- metodi che rinunciano alla corretta formulazione del campo di forze agenti su una struttura proteica

- detti mean force potential che individuano un potenziale che cattura la natura risultante delle forze in gioco

- devo disporre di uno strumento quantitativo per misurare fitness di una sequenza con una struttura per poter assegnare alla sequenza in questione le strutture note e valutare la bontà dell’assegnazione

- queste funzioni di pseudo-potenziale sono costruite sulla base di un’analisi statistica di strutture note e sono la base che differenzia i diversi metodi di fold-recognition

Page 32: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

METODO DEGLI “Structural environment”- detto anche metodo dei profili

1D-3D o di Eisenberg- ASSUNZIONE: ambiente di un

residuo più conservato del residuo stesso (adatto a relazioni distanti)

- descrive intorno strutturale di ogni aa in ogni proteina a struttura nota e valuta la frequenza con cui ognuno dei 20 aa si trova in un certo intorno

- ambiente/intorno strutturale è descritto sulla base di 3 principi (aspetti + importanti di una struttura proteica):

1. Quanto un residuo in una posizione è schermato dal solvente?

2. Quanto è a contatto con gruppi polari o idrofobici?

3. La struttura secondaria in cui è collocato

- Combinazioni dei 3 parametri definiscono diverse CATEGORIE STRUTTURALI (in tutto 18 classi strutturali)

6 classi rappresentano l’intorno delle catene laterali che può essere non accessibile (B), parzialmente accessibile (P) o accessibile al solvente (E)

P e B sono suddivisi sulla base della frazione dell’intorno che è costituita da atomi polari 1– 3 categorie di frazioni di contatti polari (frazione dell’area della catena laterale coperta da atomi polari): 0-0.4, 0.4-0.8, > 0.8. E sempre a elevata frazione polare.

6 classi: E, P1, P2, B1, B2 e B3

Ciascuna di queste potrà trovarsi in una struttura α o β o “altro” e quindi le classi possibili sono 18.

Page 33: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

METODO DEGLI “Structural environment”

- A questo punto entra in gioco un eventuale sequenza x cui voglio valutare la fitness per una data struttura (sequenza target). Confronterò gli amminoacidi della mia sequenza con gli ambienti strutturali definiti sulla base delle strutture note (si parla in questo senso di ALLINEAMENTO SEQUENZA-STRUTTURA)

- Si cerca, in sostanza, di adattare ad un fold già noto la sequenza in esame e si cerca l’allineamento ottimale (operazione fatta tra la seq e tutte le strutture disponibili);

- All’allineamento è sempre assegnato un punteggio di cui valutare la significatività statistica (E-value o z-score) .

Page 34: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

METODO DEI CONTATTI TRA AMMINOACIDI

- Si basa, per descrivere i fold noti, su interazioni tra coppie di amminoacidi (sulla distanza tra amminoacidi nelle proteine a struttura nota);

- ASSUNZIONE ALLA BASE: le strutture native delle proteine sono stabilizzate da interazioni intramolecolari tra i vari atomi della proteina e intermolecolari tra essi e le molecole di solvente

- Dalla banca dati di strutture costruisce una funzione pseudopotenziale che descrive lo spazio conformazionale della proteina: per ogni possibile coppia di aa in una struttura valuto la distanza (di solito Cα-Cα) tra i residui in esame e calcolo una funzione che descrive questa interazione;

- Le funzioni pseudopotenziale sono una per ogni coppia di residui e le costruisco sulla base della frequenza con cui osservo una data coppia a una data distanza nel database PDB.

Page 35: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

METODO DEI CONTATTI TRA AMMINOACIDI- Ad esempio x la coppia ala-ala: misuro in ogni proteina la distanza tra i Cα e

costruisco una distribuzione in cui metto in relazione ogni distanza alla frequenza con cui è osservata

- Per passare dalle frequenze a energie si usa il principio di Boltzmann che correla probabilità di uno stato con la sua energia

- La distanza geometrica r è influenzata dalla distanza in sequenza: si prende in considerazione anche questa;

- Parametri da considerare: a,b (i 2 residui); c,d (atomi considerati per le distanze, es Cα-Cα); k è la distanza in sequenza.

-

Page 36: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Homology modelling

Threading/Fold-recognition

Identifica prima gli omologhi

Prova tutte le possibili strutture

Si determina l’allineamento ottimale

Prova tutti i possibili allineamenti strutturali

Ottimizza un modello

Valuta molti modelli poco accurati nei dettagli

per HOMOLOGY MODELLING: programma Modeller

per F.RECOGNITION/THREADING: Phyre, GenThreader, 3D-PSSM + metaserver che fanno consenso

HHPRED server: sia per homology modelling che threading in caso di templati con identita’ non troppo bassa (perche’ si appoggia per definire gli allineamenti su metodi accurati per definire omologie remote tipo HMM

Page 37: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Il metodo ab initio (predizione de novo)

•Il problema della predizione di struttura ab initio

“data una sequenza proteica, calcolarne la struttura”

•Il calcolo è basato sulla stima dell’energia relativa alla posizione di ciascun atomo nello spazio e la sua relazione chimico-fisica con gli altri atomi

•Il minimo globale della funzione energia definisce la struttura 3D

•È teoricamente possibile

•Essendo la biofisica complessa ed incompleta è nella pratica ancora molto difficile

ROSETTA, sviluppata dal gruppo di David Baker

Page 38: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Ab initio methods for modelling

NO allineamentoNO struttura nota

Costruire una funzione empirica che descriva le forze di interazione

Esplorare lo spazio conformazionale per massimizzare funzione di merito

Programmi per ab-initio es. Rosetta o I-Tasser (I-Tasser usa metodi misti di threading e ab-initio)

Page 39: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

“Modello di folding” su cui si basa Rosetta:

“ Local sequence fragments rapidly alternate between different possible local structures, and folding occurs when the conformations and relative orientations of these local segments combine to form low energy global structures”

E’ UN PROBLEMA DI CAMPIONAMENTO CONFORMAZIONALE

Page 40: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

PROBLEMA DI CAMPIONAMENTO CONFORMAZIONALE:Ricerca della geometria di minima energiaRichiede:1.Metodo di ricerca/generazione delle conformazioni2. Funzione “energetica” (funzione di scoring energetico) per valutarle

Nei metodi ab-initio:

Rappresentazioni ridotte delle proteine/ Potenziali detti knowledge-basedsemplificati/ ricerca di conformazionale coarse-grain

Page 41: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture
Page 42: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture
Page 43: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture
Page 44: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture
Page 45: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture
Page 46: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Building by homology (Homology modelling)

-

-

-

G

-

-

-

Y

-

-

-

M

A

A

A

A

K

S

T

A

A

G

G

G

Y

F

F

Y

L

E

D

A

V

V

V

V

L

V

I

L

S

E

D

S

Allineamento con proteine a struttura nota

Modello strutturale

Page 47: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Fold recognition (Threading)

Sequenza:

+Motivi strutturali noti

SLVAYGAAM

Modello strutturale

Page 48: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

Ab initio

Sequenza

SLVAYGAAM

Modello strutturale

Page 49: Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture

NOTE GENERALI PER IL MODELLING

• prima di cercare di ottenere un modello raccogliere quante piu’ informazioni possibili sulla proteina, e soprattutto definire i suoi domini strutturali (che potrebbero richiedere procedure di modelling diverse)

• raccogliere informazioni su propensione a determinate strutture secondarie e disordine intrinseco

• valutare con metodi di ricerca di similarita’ in banche dati (Blast, PSI-Blast) se esistono omologhe a struttura nota

• Fare allineamenti multipli con le omologhe a struttura nota e eventualmente altre a sola sequenza nota per identificare bene regioni conservate nella famiglia di proteine di studio

• Validare sempre gli allineamenti proposti dai programmi per il modelling (soprattutto per metodi di threading e ab-initio o per casi di templati con bassa identita’ di sequenza)