corso di laurea specialistica in informatica bioinformatica a.a. 2010/2011 prof. alfredo ferro...
TRANSCRIPT
![Page 1: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/1.jpg)
Corso di Laurea Specialistica in InformaticaCorso di Laurea Specialistica in Informatica
BioinformaticaBioinformaticaA.A. 2010/2011A.A. 2010/2011
Prof. Alfredo FerroProf. Alfredo Ferro09/03/201109/03/2011
![Page 2: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/2.jpg)
ContattiContatti
• Prof. Alfredo Ferro: [email protected]
• Dott. Giuseppe Pigola: [email protected]
• Dott. Alfredo Pulvirenti: [email protected]• Dott.ssa Rosalba Giugno: [email protected]
![Page 3: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/3.jpg)
Orari di Ricevimento (per appuntamento)Orari di Ricevimento (per appuntamento)
• Prof. Alfredo FerroLunedì,Mercoledì,Venerdì 16.00 – 17.00Ufficio 324 – Blocco I, 2° PianoTel. 095 [email protected]
• Dott. Giuseppe Pigola Lunedì,Mercoledì,Venerdì 16.00 – 17.00
Ufficio 308- Blocco I , 2° PianoTel. 095 [email protected]
![Page 4: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/4.jpg)
Orario lezioniOrario lezioni
• Lunedì,Mercoledì e Venerdì 17-19 – Aula 2
![Page 5: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/5.jpg)
Modalità d'esameModalità d'esame
• Prova orale/laboratorio• Progetto
![Page 6: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/6.jpg)
Testi consigliatiTesti consigliati
• Valle et al.Introduzione alla BioinformaticaZanichelli
• Jambeck, GibasDeveloping Bioinformatics Computer SkillsO'Reilly
• LewinIl Gene – Edizione CompattaZanichelli
![Page 7: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/7.jpg)
Genomica e ProteomicaGenomica e Proteomica
• La genomica è una branca della biologia molecolare che si occupa dello studio del genoma degli organismi viventi. – In particolare si occupa della struttura, contenuto, funzione
ed evoluzione del genoma.
• La proteomica è una disciplina che studia il proteoma, il complemento tempo-specifico e cellulo-specifico del genoma.
• Il proteoma è l'insieme di tutte le proteine espresse in una cellula:– Dinamico nel tempo– Varia in risposta a fattori esterni– Differisce tra i diversi tipi cellulari di uno stesso organismo
![Page 8: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/8.jpg)
Cos'è la Bioinformatica?Cos'è la Bioinformatica?
• E’ la disciplina che studia le interazioni fra Informatica e processi biologici. Essa viene anche chiamata Biologia Computazionale.
• Utilizza i metodi propri dell'informatica per la risoluzione di problemi biologici.
• La genomica e la proteomica sono basate sulla Bioinformatica, per l'elaborazione, l'interpretazione e la visualizzazione dell'enorme quantità di dati che producono.
• La nuova era è iniziata con il Progetto Genoma Umano e con la produzione della sequenza completa del DNA umano e di altri organismi.
![Page 9: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/9.jpg)
La BioinformaticaLa Bioinformatica
• Necessità di interpretare la grande mole di dati collezionate dai biologi.
• DNA(memoria), RNA(comunicazione), Proteine(computazione-esecuzione) etc..
• Quali parti del DNA controllano certi processi?
• Qual è la funzione di certe proteine?
![Page 10: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/10.jpg)
I principali tipi di datiI principali tipi di dati
• Biosequenze– DNA, RNA, Proteine
• Strutture– DNA, Secondaria dell'RNA, Secondaria e Terziaria
delle proteine
• Dati di interazione– DNA-Proteina, RNA-RNA, RNA-Proteina, Proteina-
Proteina
• Livelli di espressione– RNA (microarray)– Proteine (protein array)
![Page 11: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/11.jpg)
Esempio 1Esempio 1
• In una sequenza proteica è possibile individuare regioni funzionalmente importanti.
• Ogni sequenza proteica è codificata da una sequenza genomica.
• Supponiamo che la regione X nel moscerino sia cruciale in una certa funzione.
• Domanda: esiste un analogo nell'uomo?• Risposta: effettuando una ricerca per
similarità della regione X nel genoma umano è possibile individuare dei geni candidati.
![Page 12: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/12.jpg)
Esempio 2Esempio 2
• Tutte le cellule di un individuo contengono lo stesso DNA.
• Eppure un neurone è molto diverso da un globulo bianco!
• Che cosa li rende così diversi nella forma e nella funzione?
• Sebbene il DNA sia lo stesso, esso contiene delle regioni importanti in tutte le cellule ed altre specifiche per alcune di esse.
• Mediante un'analisi del trascrittoma (microarray) è possibile stabilire quali regioni del DNA contengono informazioni relative al funzionamento di ognuna delle due cellule.
![Page 13: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/13.jpg)
Esempio 3: Eyless e Aniridia: wet-biologyEsempio 3: Eyless e Aniridia: wet-biology
• Eyless è un gene della Drosophila melanogaster (moscerino della frutta) la cui rimozione (wet biology) causa la generazione di mosche senza occhi.
• I biologi hanno anche identificato un gene umano Aniridia la cui mancanza o eccessiva mutazione, tale da non far funzionare la corrispondente proteina, causa il mancato sviluppo dell’iride negli occhi.
![Page 14: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/14.jpg)
Eyless e Aniridia: BioinformaticaEyless e Aniridia: Bioinformatica
• Operiamo una query a NCBI dando come input a BLAST la biosequenza del gene Eyless e ricercando match con Aniridia.
• Il risultato mostra due regioni altamente simili. Il match è illustrato da una sequenza in mezzo alle due confrontate, contenente l’amminoacido nel caso di match perfetto, il segno + se c’è una similarità chimica (ad esempio D ed E sono acidi aspartico e glutammico), blank (cioè spazio vuoto) nel caso di NON MATCH.
![Page 15: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/15.jpg)
QUERY BLAST EYLESS-ANIRIDIAQUERY BLAST EYLESS-ANIRIDIA
pir||A41644 homeotic protein aniridia - human Length = 447 Score = 256 bits (647), Expect = 5e-67 Identities = 128/146 (87%), Positives = 134/146 (91%), Gaps = 1/146 (0%) Query: 24 IERLPSLEDMAHKGHSGVNQLGGVFVGGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 83 I R P+ M + HSGVNQLGGVFV GRPLPDSTRQKIVELAHSGARPCDISRILQVSN Sbjct: 17 IPRPPARASMQNS-HSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 75 Query: 84 GCVSKILGRYYETGSIRPRAIGGSKPRVATAEVVSKISQYKRECPSIFAWEIRDRLLQEN 143 GCVSKILGRYYETGSIRPRAIGGSKPRVAT EVVSKI+QYKRECPSIFAWEIRDRLL E Sbjct: 76 GCVSKILGRYYETGSIRPRAIGGSKPRVATPEVVSKIAQYKRECPSIFAWEIRDRLLSEG 135 Query: 144 VCTNDNIPSVSSINRVLRNLAAQKEQ 169 VCTNDNIPSVSSINRVLRNLA++K+Q Sbjct: 136 VCTNDNIPSVSSINRVLRNLASEKQQ 161 Score = 142 bits (354), Expect = 1e-32 Identities = 68/80 (85%), Positives = 74/80 (92%) Query: 398 TEDDQARLILKRKLQRNRTSFTNDQIDSLEKEFERTHYPDVFARERLAGKIGLPEARIQV 457 +++ Q RL LKRKLQRNRTSFT +QI++LEKEFERTHYPDVFARERLA KI LPEARIQV Sbjct: 222 SDEAQMRLQLKRKLQRNRTSFTQEQIEALEKEFERTHYPDVFARERLAAKIDLPEARIQV 281 Query: 458 WFSNRRAKWRREEKLRNQRR 477 WFSNRRAKWRREEKLRNQRR Sbjct: 282 WFSNRRAKWRREEKLRNQRR 301
![Page 16: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/16.jpg)
Match Parziale e NON EsattoMatch Parziale e NON Esatto
• Eyless ed Aniridia hanno match significativi solo nelle posizioni 24-169 e 398-477 di Eyless con le posizioni 17-161 e 222-301 di Aniridia rispettivamente. Tutto il resto NON presenta match significativi.
• Tuttavia il match è significativo per cui possiamo dedurre proprietà dell’Aniridia da quelle del più conosciuto Eyeless (struttura, funzione,effetti sul fenotipo(caratteristiche visibili o misurabili) etc..)
![Page 17: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/17.jpg)
Programma del corsoProgramma del corso
• Biologia molecolare: cellule, genomi ed evoluzione• Biologia molecolare: RNA e trascrizione• Biologia molecolare: La traduzione e le proteine• Basi di dati biologiche• Allineamento di sequenze• Gene prediction• Predizione della struttura secondaria dell’RNA• RNA non codificanti: miRNA e siRNA• Analisi del trascrittoma – Microarray• Systems Biology e Network biologiche• Sistemi per il mining di network biologiche• Il linguaggio Perl
![Page 18: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/18.jpg)
Cellule, genomi e Dogma della Biologia Cellule, genomi e Dogma della Biologia MolecolareMolecolare
• La cellula• Il Genoma
– Geni, pseudogeni, ripetizioni
• Struttura dei geni• Il Dogma della Biologia Molecolare
– Trascrizione (DNA -> RNA)– Traduzione (RNA -> Proteine)
![Page 19: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/19.jpg)
Basi di dati biologicheBasi di dati biologiche
• Dati biologici e loro formati– Sequenze biologiche
• Banche dati generiche– NCBI, EMBL, DDBJ
• NCBI– Entrez: Nucleotide, Protein, Gene
• EMBL– Ensembl!
![Page 20: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/20.jpg)
Allineamento di sequenzeAllineamento di sequenze
• Omologia, similarità e distanza• Funzioni di scoring e matrici di sostituzione• Allineamento Pairwise: algoritmo di Needleman-Wunsch• Allineamento Pairwise locale: BLAST, Smith-Waterman• Allineamento Multiplo• Funzioni di scoring: sum-of-pairs, entropia, circular sum• Center star method• Profili• Allineamento progressivo: algoritmo di Feng-Doolittle• ClustalW• Metodi basati su consistenza: T-Coffee, ProbCons• Valutazione di allineamenti multipli• Motif finding
![Page 21: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/21.jpg)
Il linguaggio PerlIl linguaggio Perl
• Perl– Il linguaggio di scripting più utilizzato in
Bioinformatica– Interpretato– Punto di forza: espressioni regolari– Linguaggio "colla": utile nell'automatizzazione di
esperimenti, test e nella conversione di formati
![Page 22: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/22.jpg)
Gene predictionGene prediction
• Modelli di Markov Nascosti (HMM)• Metodi per la predizione di geni
– ORF– Modelli statistici– Individuazione di Esoni ed introni
• Tool per la predizione di geni– GenScan
![Page 23: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/23.jpg)
Predizione della struttura secondaria Predizione della struttura secondaria dell’RNAdell’RNA
• Struttura secondaria dell’RNA• Rappresentazione di strutture secondarie• Metodi probabilistici per la predizione• Tool per la predizione della struttura dell’RNA
– MFold
![Page 24: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/24.jpg)
Analisi del trascrittoma e MicroarrayAnalisi del trascrittoma e Microarray
• Microarray technology• Analisi di dati da microarray• Cenni su protein array
![Page 25: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/25.jpg)
RNA non codificanti e miRNARNA non codificanti e miRNA
• I miRNA• Database di miRNA• Predizione di geni miRNA• Predizione di target per miRNA
– miRanda
• RNA interference e siRNA
![Page 26: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/26.jpg)
Database specializzatiDatabase specializzati
• NCBI– Pubblicazioni scientifiche:Pubmed– Profili di espressione: GEO– Polimorfismi: dbSNP– Interrogazione del DB via script: EUtils
• Browser genomici– NCBI MapViewer– UCSC Genome Browser
• miRNA– miRBase, TarBase, miRò
• GO: Gene Ontology• Pathways
– KEGG, Pathway Commons
• Ensembl! BioMart
![Page 27: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/27.jpg)
Network biologicheNetwork biologiche
• Teoria dei grafi• Misure di Centralità• Classificazione delle network• Clustering e metodi per l'identificazione dei clusters• Network scale-free e gerarchiche• Rilevamento della struttura modulare• Algoritmi tradizionali
– Single linkage clustering– Average linkage clustering
• Algoritmi basati su betweenness centrality (Girvan, Newman)
![Page 28: Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011](https://reader035.vdocuments.mx/reader035/viewer/2022062418/5542eb4d497959361e8ba8a8/html5/thumbnails/28.jpg)
Sistemi per il mining di network biologicheSistemi per il mining di network biologiche
• Sistemi di visualizzazione di network– Cytoscape
• Ricerca – Netmatch
• Annotazione di network con miRNA– miRScape