06-12-2006bordignon - gaglio1 the languages of rna: a formal grammar that includes pseudoknots elena...

27
06-12-2006 Bordignon - Gaglio 1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco Bordignon Claudio Gaglio Elia

Upload: terzo-mattioli

Post on 02-May-2015

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 1

The languages of RNA: a formal grammar that includes pseudoknots

Elena Rivas and Sean R. Eddy

Corso di Laboratorio di Linguaggi (2006/07)Prof. Nicoletta Cocco

Bordignon ClaudioGaglio Elia

Page 2: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 2

L’area di ricerca della Bioinformatica:

Si basa sul trattamento e l’analisi di dati biologici con metodi informatici

Grande sviluppo negli ultimi decenni, grazie allo sviluppo di Internet

Gli obiettivi della Bioinformatica:

- Gestione di dati (costruzione di banche dati di informazioni biologiche)

- Formulazione di modelli biologici (es. modelli statistici per individuare leggi

numeriche e tendenze)

- Analisi di sequenze di acidi nucleici (DNA, RNA)

Page 3: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 3

La composizione dell’RNA:

RNA: acido ribonucleico, molto simile al DNA.

Catena polinucleotidica a singolo filamento contenente 4 nucleotidi differenti:

Gruppo fosfato, legato da 2 molecole di ribosio

Ribosio, lo zucchero dell’RNA

Basi azotate,le molecole che trasmettono l’informazione genetica

Page 4: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 4

Le caratteristiche dell’RNA (2):

L’informazione genetica risiede nel DNA.

Il flusso dell’informazione genetica è rappresentata dal “dogma centrale”:

Duplicazione: formazione di copie di molecole di DNA e trasferimento di materiale genetico

Trascrizione: trasferimento dell’informazione dal DNA alla molecola di RNA

Traduzione: processo attraverso il quale di passa dall’RNA alla sintesi delle proteine

Page 5: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 5

L’RNA non è solo un intermediario tra il DNA e la sintesi proteica…

Vi sono molti RNA non codificanti che svolgono varie funzioni grazie all’acquisizione di strutture precise:

Le strutture secondarie dell’RNA:

Page 6: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 6

Tipologie di correlazioni tra coppie di basi:

Normalmente gli accoppiamenti di basi sono tra loro annidati (nested)

A G U G U C G G C U C A C U

Esistono anche accoppiamenti di basi non annidati (unnested o crossed) Sono definiti come “pseudonodi” e sono funzionalmente molto importanti

A G U G U C A C U U C A C U G G A U G U

Page 7: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 7

Linguaggi formali per la predizione di strutture:

Linguaggi formali per modellare stringhe di simboli correlati

Idea: L’RNA è dominato da coppie di correlazioni annidate

Sviluppo di grammatiche context free stocastiche

MFOLD (si basa sull’utilizzo di parametri termodinamici)

descrivibili da grammatiche context-free (tipo 2)

Predizione di strutture secondarie

Page 8: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 8

Rna’s prediction: MFOLD (1):

MFOLD = “multiple web server”

Predizione di strutture secondarie sfruttando il calcolo dell’energia libera

Page 9: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 9

Rna’s prediction: MFOLD (2):

La stabilità di una molecola ripiegata di RNA può essere misurato in termini di variazioni di energia libera (ΔG) tra la molecola a singolo filamento e quella ripiegata in una struttura secondaria

Struttura ottimale = struttura a minima energia

Possibilità di ottenere strutture alternative, attraverso l’ “Energy Plot”:

Page 10: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 10

Rna’s prediction: Rivas & Eddy Algorithm (1):

Soluzione: Algoritmo di Rivas & Eddy

Algoritmo di programmazione dinamica

Permette la predizione di strutture secondarie sfruttando parametri termodinamici, cercando strutture ad energia minima (folding ottimale)

Funziona correttamente anche per strutture pseudo-knotted

Complessità (caso peggiore):

tempo: O(n6)

spazio: O(n4)

Problema: la tecnica precedente non tratta gli pseudonodi…

Page 11: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 11

Rna’s prediction: Rivas & Eddy Algorithm (2):

wx e vx: matrici che riportano i punteggi del miglior folding tra le posizioni i e j

Per determinare i pesi corretti per le matrici wx e vx si sfruttano delle relazioni ricorsive (sintetizzate dalla rappresentazione grafica)

Page 12: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 12

Rna’s prediction: Rivas & Eddy Algorithm (3):

paired dangles

single stranded bifurcations

Page 13: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 13

Rna’s prediction: Rivas & Eddy Algorithm (4):

Necessità di troncare l’espansione interna per avere una grammatica trattabile in quanto la complessità rende intrattabile l’algoritmo

ad esempio, O(IS2)

hairpin internal loop multiloop

Page 14: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 14

Rna’s prediction: Rivas & Eddy Algorithm (5):

Per poter gestire gli pseudonodi è necessario estendere le matrici introdotte (adottando nuove matrici, dette matrici gap):

Page 15: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 15

Rna’s prediction: Rivas & Eddy Algorithm (6):

Le ricorsioni portano all’introduzione di una nuova rappresentazione:

Page 16: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 16

Grammatica “Crossed-interaction”:

Una grammatica G che include pseudonodi (crossed interaction) è la seguente:

G = { V, T, S, I, P, R } dove:

V= insieme (finito) dei simboli non terminali

T= insieme (finito) dei simboli terminali (alfabeto). T* è l’insieme di tutte le

stringhe costruite da T, inclusa ε e la stringa Λ

S= non terminale iniziale

I= insieme (finito) dei simboli extra non terminali

P= insieme (finito) delle produzioni

R= insieme (finito) delle regole di riarrangiamento

Page 17: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 17

Linguaggio “Crossed-interaction” (1):

Ad esempio, per ottenere pattern duplicati correlati (ab, aba, abaaba, ecc.):

T = { a, b }

L = { ε, W Λ W | W Є (a,b)* }

S = { W }

I = { (, ), x }

Le produzioni associate sono:

Un esempio di linguaggio che include le crossing interactions è il cosiddetto “linguaggio copia”.

Page 18: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 18

Linguaggio “Crossed-interaction” (2):

Ad esempio, la sequenza:

può essere analizzata con la seguente

grammatica:

Sfruttando le parentesi possiamo costruire annidamenti complessi:

Page 19: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 19

“Crossed-interaction” – definizioni formali:

Indichiamo con:

l’insieme di tutte le stringhe generabile dall’alfabeto:

L’insieme delle produzioni P ha la forma generale:

La struttura delle produzioni è simile a quelle delle grammatiche context-free (tipo 2), ad eccezione della presenza dei simboli extra I, che permettono dei riarrangiamenti la cui forma generale è:

La grammatica genera perciò il seguente linguaggio:

Page 20: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 20

“Crossed-interaction” – accorgimenti per il parsing:

Il parsing per tale grammatica può essere complesso (in alcuni casi NP-Completo). Un possibile accorgimento è troncare la seguente somma infinita (ad esempio per n=2):

Infatti, se n=0 abbiamo una grammatica context-free

se n>0 non abbiamo più una grammatica context-free, ma limitando nrendo il parsing un problema trattabile.

Page 21: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 21

RNA pseudoknot grammar (1):

La grammatica per definire le strutture di pseudonodi è una specializzazione della G definita precedentemente. I simboli non-terminali sono:

L’alfabeto T rispecchia la struttura dell’RNA:

I simboli extra sono:

non gapped gapped creano i loop

Page 22: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 22

Le regole di produzione per W sono le seguenti (si Є T è il nucleotide in posizione i-esima):

Vab è il non terminale iniziale trovato dopo l’appaiamento di una coppia a,b. Le regole di produzione sono le seguenti:

RNA pseudoknot grammar (2):

Page 23: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 23

RNA pseudoknot grammar (3):

WH è il non terminale che introduce uno pseudonodo e le regole di produzione sono le seguenti:

Page 24: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 24

RNA pseudoknot grammar (4):

VHabcd è il non terminale che si ha dopo la formazione di uno pseudonodo. Le

regole di produzione sono le seguenti:

Infine i non terminali che creano le “strutture loop” sono così composti:

Hairpin loops

Stems, bulge, internal loops

Page 25: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 25

RNA pseudoknot grammar (5):

Le regole di riarrangiamento sono applicabili dopo le diverse produzioni e permettono un riordinamento della stringa. Esse sono:

Page 26: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 26

a b c d e f

W Wh x Wh

(Wh Wb Λ ) x Wh

((Sa VhSaSeSbSd Se Sb Λ Sd) Wb Λ ) x (Sc Vh

ScSfSdSeSf Sd Λ Se)

((Sa Λ Se Sb Λ Sd) SbVSbScSc Λ ) x (Sc Λ Sf Sd Λ Se)

((Sa Λ Se Sb Λ Sd) SbSc Λ ) x (Sc Λ Sf Sd Λ Se)

R ((Sa Sb Λ Sd Se) SbSc Λ ) x (Sc Sd Λ Se Sf)

R ((Sa Sb Sb Sc Λ Sd Se)) x (Sc Sd Λ Se Sf)

R Sa Sb Sb Sc Sc Sd Λ Sd Se Se Sf

RNA pseudoknot grammar – esempio pratico:

Page 27: 06-12-2006Bordignon - Gaglio1 The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi

06-12-2006 Bordignon - Gaglio 27

Bibliografia:

[1] The languages of RNA: a formal grammar that includes pseudoknotes – Rivas & Eddy, Department of Genetics - Washington University August 1999.

[2] A dynamic programming algorithm for RNA structure prediction including pseudoknots – Rivas & Eddy, Department of Genetics - Washington University July 1998.

[3] Introduzione alla Bioinformatica – Valle, Citterich, Attimonelli, Pesole – Zanichelli.

[4] MFOLD web server for nucleic acid folding and hybridization prediction – Zuker, Department of Science Troy USA, April 2003.