informatica e biotecnologie - di.unito.itpatti/teaching/banchedatibio-0405.pdf · biomolecole utili...
TRANSCRIPT
1
Viviana Patti Informatica di base - 29 novembre
Informatica e biotecnologieI parte
Banche dati biologiche
Viviana Patti Informatica di base - 29 novembre
Bioinformatica
La Bioinformatica è una disciplina che affronta con metodiche proprie delle Scienze dell'Informazione problemi propri della Biologia. Settore in rapida espansione: c'è un enorme mole di dati che la moderna ricerca biologica produce grazie al progresso tecnologico recente; questo impone di affrontare problemi come:
archiviazione di enormi moli di dati dati: occorre creare, gestire e mantenere banche dati specializzate recupero di informazione in modo automatico dalle banche datianalisi automatica dei dati (deduzioni)
2
Viviana Patti Informatica di base - 29 novembre
Archiviare enormi moli di dati
Pensate a un progetto come quello del Genoma UmanoLe molecole di DNA sono molecole lineari che, astraendo dalla struttura chimica 3D possono essere rappresentate come sequenze di caratteri dell'alfabeto {a,t,c,g} che rappresentano le 4 basida un punto di vista informatico per memorizzare 1 carattere (ossia 1 base) abbiamo bisogno di 1 byte (codifica ASCII esteso) approssimativamente il genoma umano è lungo 3,2 * 109 caratteri (basi) ossia 3,2 G caratteri
per memorizzarlo occorrono 3,2 * 109 byte. Siamo nell'ordine dei giga per 1 sequenza!
le banche dati contengono migliaia sequenze
Viviana Patti Informatica di base - 29 novembre
Esercizio
Approssimativamente il genoma umano è lungo 3,2 * 109 caratteri (basi) ossia 3,2 GB
per memorizzarlo occorrono 3,2 * 109 byte. Siamo nell'ordine dei giga per 1 sequenza!
1. Quanti floppy disk servirebbero per memorizzare l'intero genoma umano (1,4MB)
2. Quanti CD? (700MB)3. Quanti DVD? (4,7GB)
1. circa duemila2. 53. 1
3
Viviana Patti Informatica di base - 29 novembre
Recupero dell'informazione
una banca dati priva di modalità di accesso efficienti è una "tomba di dati"
servono tecniche per garantire un accesso ottimale; solitamente nascoste agli utilizzatori, hanno molto a che fare con l'organizzazione logica dei dati interfacce per permettere agli utenti di leggere e estrarre informazioni
correlazione fra informazioni contenute in banche dati separate
servono tecniche per ricercare un'informazione simultaneamente in diversi archivi di dati distribuiti su diversi computer
Viviana Patti Informatica di base - 29 novembre
Analisi
Analizzando e confrontando queste enormi moli di dati archiviati si aprono diversi scenari:
possibilità di ricostruire le tappe evolutive delle varie specie, incluso l'uomopossibilità di ricavare caratteristiche per le variebiomolecole utili nella progettazione di nuove molecole e farmaci in settori diversi, dall'agro-alimentare a quello farmaceutico
4
Viviana Patti Informatica di base - 29 novembre
Informatica e biotecnologie
ci sono aree dell'informatica che studiano propriostruttura dei dati e ricerca delle informazioni (database, motori di ricerca su Web, database distribuiti) -> queste conoscenze possono essere utilizzate per risolvere il problema: "come strutturare e organizzare le informazioni sui dati biologici in modo da ottenere una risposta efficiente alle interrogazioni su questi dati?" analisi di algoritmi = specifica di metodi adatti a risolvere problemi
diverse analisi dei dati, diversi problemi da risolvere, diversi algoritmi più o meno efficienti:
Esempio: conoscenze su algoritmi per i confronto di sequenze di caratteri (string matching) possono essere utilizzate per risolvere il problema confrontare 2 sequenze di nucleotidi per scoprire se sono simili
Viviana Patti Informatica di base - 29 novembre
Banche dati biologiche: sommario
Focus su banche dati primarie (non specializzate) di dati biologici rappresentati come sequenze (sequenze di amminoacidi; sequenze di acidi nucleici)Banche dati di strutture di proteine (solo cenni)
Analisi di 3 fasi di interazione con una banca datiRecupero dell'informazione in una banca dati
sistemi di interrogazioni via Web -> Entrezinterrogazioni semplici per parola chiavestrumenti per interrogazioni più raffinate
Scelta del formato dei dati estratti da una banca datiScaricare un dato biologico estratto nel formato scelto in locale -> EntrezIn Lab esercizio su come realizzare praticamente queste fasi
5
Viviana Patti Informatica di base - 29 novembre
Banche dati biologiche
Banca dati biologica comprende1. un archivio di dati biologici2. un'organizzazione logica di queste
informazioni3. strumenti per accedere alle informazioniL’informazione proviene da
Letteratura specializzata sull’argomentoAnalisi effettuate in laboratorio (in vitro e in vivo)Analisi bioinformatiche (in silico)
Viviana Patti Informatica di base - 29 novembre
Istituzioni: NCBI e EBI
NCBI (National Center for Biotechnology Information):centro di raccolta di risorse di vario tipo
http://www.ncbi.nlm.nih.gov/accesso alla National Library of Medicine e al National Institutes of Healthaccesso a vari database attraverso Entrez
GenBankSwissprotPubMed (database della letteratura biomedica)…
accesso a software per riconoscimento e allineamento di sequenze
EBI (European Bioinformatics Institute): stessa funzionehttp://www.ebi.ac.uk/
6
Viviana Patti Informatica di base - 29 novembre
NCBI - Entrez
ENTREZ: sistema di interrogazione di banche dati biologiche disponibile via web. Mette a disposizione un ambiente integrato per la ricerca e l'estrazione da diverse banche dati (GeneBank, Swissprot) di sequenzenucleotidiche o proteiche.La presenza di un ambiente integrato permette di fare ricerche usando la stessa sintassi su diverse banche dati
http://www.ncbi.nlm.nih.gov/Entrez/
Viviana Patti Informatica di base - 29 novembre
I dati
Quali dati? Sequenze di caratteri (nucleotidi del DNA, amminoacidi delle proteine) o struttureRappresentazione dei dati biologici come sequenze: l’uso di sequenze è la forma di gran lunga più diffusa per rappresentare dati biologici di varia naturaAd esempio:
DNA genomicoProteinecDNAmRNA
si trovano sotto forma di sequenze nelle banche dati biologiche consultabili da Enterz di NCBI come GenBank o SWISSPROT
7
Viviana Patti Informatica di base - 29 novembre
Sequenze
Hanno un formato puramente testuale: sono stringhe di caratteri di un certo alfabetosequenze di nucleotidi
sequenze DNA -> formate da 4 tipi di lettere:a (adenina), c (citosina), g (guanina), t (timina)
esempio: atggtacat..., tag, ttt, …convenzione lettere minuscole
Sequenze RNA -> formate da 4 tipi di lettere:a (adenina), c (citosina), g (guanina),u (uracile)
esempio: aucgcuaa, auucg, …Sequenze proteiche -> formate da 20 lettere corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y
esempio: MPIVDTGSVAPLSAAEK…, TAG,...convenzione lettere maiuscole
Viviana Patti Informatica di base - 29 novembre
Sequenze DNA
La rappresentazione di una molecola di DNA come sequenza di simboli {a,t,c,g} è ovviamente un'astrazione di una struttura chimica 3DTuttavia se lo scopo è quello di usare le tecniche per l’analisi di sequenze, possiamo temporaneamente ignorare tale strutturaAnalogo vale per molecole di RNA
8
Viviana Patti Informatica di base - 29 novembre
Sequenze di proteine
La rappresentazione di proteine come sequenze di simboli {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y} è anche detta struttura primariaOsservazione: a causa della maggiore complessità chimica degli amminoacidi rispetto agli acidi nucleici è più difficile fare delle analisi significative tenendo separato il contenuto informativo delle sequenze dalle proprietà degli amminoacidi componenti
Viviana Patti Informatica di base - 29 novembre
Es. GenBank
http://www.ncbi.nlm.nih.govBanca del genoma dell’ NIH accessibile da NCBI78000 sequenze di DNA in GenBank nel 1992, ora le dimensioni raddoppiano ogni 6-8 mesi
Formato ANS.1 standard per dati di sequenze per DB relazionali (Abstract Syntax NotationOne)Humane Genome ProjectGenomi completi o parziali di 900 specie
9
Viviana Patti Informatica di base - 29 novembre
GenBank
Viviana Patti Informatica di base - 29 novembre
Accesso: entry e interrogazioni
Ogni banca dati è caratterizzata da un elemento biologico centrale, che chiamiamo entry:
es: banche dati di sequenze di acidi nucleicielemento centrale: sequenza nucleotidica di DNA o RNA
le interrogazioni alla banca dati (queries) mirano a estrarre un insieme di elementi (entries) questi elementi sono un sottoinsieme dei record che costituiscono la banca dati e sono descritti mediante una serie di attributigli attributi associati a una entry (una sequenza biologica) sono annotazioni tecniche (identificativo della entry nella base di dati) annotazioni generiche che classificano quell’elemento (nome della specie, funzione, referenze bibliografiche) o annotazioni scientifiche (es. regioni codificanti di una sequenza di DNA).
10
Viviana Patti Informatica di base - 29 novembre
Accesso: esempi di interrogazioni
specifico mediante parole chiave le caratteristiche di una sequenza che voglio recuperare
horse (inglese, latino): il software di ricerca fornisce un elenco di entry della banca dati contenente quel termine"Le banche dati di sequenze proteiche contengono la α-catena emoglobinica del cavallo" analogie con la ricerca per keyword nei motori di ricerca sul www -> tecniche simili
specifico una sequenza campione e voglio recuperare le sequenze "simili" archiviate
"Ho determinato una nuova sequenza. Le banche dati contengono qualcosa di simile"
Viviana Patti Informatica di base - 29 novembre
Accesso: ricerca dei dati e interrogazioni
Modalità di ricerca dei dati attraverso “motori di ricerca" su banche dati biologiche”
Interrogazione/query: campo “text search” o form per l’immissione del dato cercato (query semplice per parola chiave = keyword) o del codice che identifica la sequenza se lo si conosce
Problema della ricerca per semplice parola chiave: molto spesso si ottengono troppe risposte (sovraccarico informativo): molte più sequenze di quelle di interesse contengono in qualche linea la parola chiave cercata
11
Viviana Patti Informatica di base - 29 novembre
Ricerca per parola chiave
Esempio di query in GenBankDalla ricerca in categoria Nucleotide (sequenze di acidi nucleici) -> ottengo una lista di record parola chiave Arabidopsis thaliana
Seleziono una entry
formato di visualizzazione
salva il risultato
Viviana Patti Informatica di base - 29 novembre
Accesso: ricerca dei dati e interrogazioni
Per diminuire il numero di risposte si deve specializzare ulteriormente la domanda -> strumenti per raffinare la ricerca
Specifica di criteri di ricerca avanzati mediante operatori booleani: AND, OR, BUT NOT(specializzazione della query)Entrez: funzione Limits
Strumenti per procedere per ricerche successive cumulative
Entrez: funzione History: combino più query già fatte
12
Viviana Patti Informatica di base - 29 novembre
Operatori booleani: AND
Restringe il campo di ricerca, inserendo ad esempio la stringa:
equus caballus AND hemoglobin alpha
La banca dati ci mostrerà una lista di sequenze proteiche i cui campi di descrizione contengono entrambe le parole -> per. es. le sequenze proteiche del cavallo che non contengono nella descrizione la parola hemoglobin non vengono selezionate
Viviana Patti Informatica di base - 29 novembre
Operatori booleani: OR
Estende il campo di ricerca, digitando ad esempio:
homo sapiens OR mus musculus
Otterremo una lista di sequenze i cui campi contengono la parola homo sapiens o la parola mus musculus. L'immagine sotto evidenzia come l'operatore abbia allargato l'insieme delle sequenze che incontrano le nostre esigenze.
13
Viviana Patti Informatica di base - 29 novembre
Operatori booleani: BUT NOT
Restringe il campo di ricerca, inserendo:
homo sapiens BUT NOT hemoglobin
Richiederemo sequenze i cui campi contengono la parola homo sapiens ma non la parola hemoglobin.
Viviana Patti Informatica di base - 29 novembre
Naturalmente gli operatori booleani consentono di effettuare ricerche con più di due parole chiave, creando così interrogazioni che possono diventare molto complesse.
La costruzione di queste espressioni -> esercizio di teoria degli insiemi
Operatori booleani: combinazioni
14
Viviana Patti Informatica di base - 29 novembre
Entrez: Limits
Per ottimizzare la ricerca Entrez prevede l'uso della funzione Limits: consente di limitare la ricerca a solo alcuni criteri (campi del database) o sottoinsiemi di dati
es. scegli campo organism
Viviana Patti Informatica di base - 29 novembre
Entrez: Limits
Esempio: è stata limitata la ricerca a sequenze del DB contenenti la parola mouse nel campo organism
15
Viviana Patti Informatica di base - 29 novembre
Entrez: History
Per rendere più efficiente la ricerca e procedere per raffinamenti successivi Entrez prevede l'opzione History: combino più query già fatte
1 query -> etichetta #12 query -> etichetta #23 query: combino in AND #1 e #2
Viviana Patti Informatica di base - 29 novembre
Formato dei dati
Oltre alla visualizzazione di default il dato può essere reso disponibile in diversi formati standard o specifici per l'uso di determinati tipi di softwareIn generale esistono diversi formati
sia per visualizzare i dati risultato di ricerca,sia per l'inserimento dati quando si vuole intraprendere una ricerca o un'analisi
Formato dei dati e software di analisi: certi software di analisi per dati biologici chiederanno in input la (le) sequenze memorizzate su file dove l'informazione è codificata in un determinato formato -> sono in grado di decodificare l'informazione biologica e di elaborarla SOLO quando è presentata in quel formatoQuali formati abbiamo a disposizione quando andiamo a prenderci un dato biologico in una banca dati, su cui magari poi vogliamo fare delle analisi?
16
Viviana Patti Informatica di base - 29 novembre
Visualizzazione di entry in formato flat file (FF)
DATO SEQUENZA• Sequenza di caratteri +HEADER di linee informative: • Locus: codice di identificazione della sequenza•Accession number: codice di accesso all'elemento all'interno della base di dati• Source/Organism: organismo da cui è stata isolata la sequenza • Riferimenti alla letteratura scientifica• Cross references -> riferimenti incrociati -> link a informazioni presenti in altre banche dati+FEATURES: •annotazioni tecniche su parte della sequenza
+
Visualizzazione di default nel caso di GeneBank:
Viviana Patti Informatica di base - 29 novembre
Visualizzazione di entry Swissprot come FF
campo DBSOURCE: Banca datisorgente: SWISSPROT
Le annotazioni possono essere un po' diverse da banca dati a banca dati
17
Viviana Patti Informatica di base - 29 novembre
Banche dati biologiche: formati
Formato dei dati in NCBI in generaleFASTA
semplice sequenza di caratteri alfabetici leggibile da vari programmi per l’analisi delle
sequenzecontiene poche informazioni collegate
(annotazioni)GenBank
formato legacy (usato da vecchi sistemi in disuso)
ASN.1 (Abstract Syntax Notation.One)specifica generica dei dati, usata in tutti i DB di
NCBIportabilità su diversi sistemi operativi diversi -> adatto allo scambio via software
Formati usati sia per dati risultato di ricerca sia per l'inserimento dati
Viviana Patti Informatica di base - 29 novembre
Esempio di file di GenBank
Formati:Formato ASN.1Formato XML
per manipolazione e presentazione sul WebFormato FASTA
Esempi di diverse visualizzazioni dello stesso file nei diversi formati, nelle pagine successive
Banche dati biologiche: formati
18
Viviana Patti Informatica di base - 29 novembre
ASN.1
Viviana Patti Informatica di base - 29 novembre
FASTA
Una sequenza in formato FASTAcomincia con una singola riga di descrizione il cui primo carattere è "<", seguita da righe contenenti la sequenza vera e propria
19
Viviana Patti Informatica di base - 29 novembre
Accesso: banche dati distribuite
Problema dell’accesso a banche dati distribuite su diversi siti e con strutture eterogenee
Cross referencing Rilascio della banca dati in formato XML:oltre ai dati viene fornita sia la struttura logica che la struttura fisica della banca dati
Viviana Patti Informatica di base - 29 novembre
XML
20
Viviana Patti Informatica di base - 29 novembre
formati standard versus formati legacyUna banca dati può supportare oltre ai formati standard (FASTA, ANS.1) dei formati di dati particolari, che possono essere usati da software per l'analisi del tipo di dato trattato dalla banca datiEsempio: la banca dati di strutture di proteine ProteinData Bank (PDB)
formato legacy di PDBusato comunemente dai software per l'analisi di proteine
mmCIF: solo il nuovo software per l'analisi delle strutture usa questo formato
Banche dati biologiche: formati
Viviana Patti Informatica di base - 29 novembre
Formati: PDB
http://www.rcsb.org/pdb/ Attenzione: per potere utilizzare le informazioni di questa banca dati è necessario avere un programma di visualizzazione molecolare -> che supporti il formato in cui ho scaricato le informazioni
21
Viviana Patti Informatica di base - 29 novembre
Entrez: salva il dato
Una volta trovato il dato di interesse e scelto il formato di visulaizzazione, da Entrez è possibile scaricare in locale il dato; salvo il dato in un file nel formato che mi interessa -> Lab
Viviana Patti Informatica di base - 29 novembre
Entrez: taxonomy
Da Entrez è possibile esplorare la classificazione degli organismi come riportata in Taxonomy
22
Viviana Patti Informatica di base - 29 novembre
Letteratura (pubblicazioni scientifiche): PubMed: http://www.ncbi.nlm.nih.gov/PubMed
Sequenze di acidi nucleici:GenBank: da http://www.ncbi.nlm.nih.govSRS: http://srs.ebi.ac.uk
Human genome resources:http://www.ncbi.nlm.nih.gov/genome/guide/human/
Sequenze proteiche:Swiss-Prot: http://www.expasy.ch/swissprot
Struttura delle proteine:Protein Data Bank: http://www.rcsb.org/pdb/
Risorse Web: EBI Biocatalog: http://www.ebi.ac.uk/biocat/IUBio Archive: http://iubio.bio.indiana.edu
Banche dati biologiche: una lista