banche dati e software per l’identificazione di interazioni fra geni
TRANSCRIPT
![Page 1: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/1.jpg)
Banche dati e software per l’identificazione di interazioni fra geni
![Page 2: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/2.jpg)
cellule trattate con un composto esogeno a confronto con cellule non trattate
un tessuto tumorale a confronto con uno sano
Supponiamo di voler studiare le differenze nell’espressione genica fra due trascrittomi.Per esempio:
Composto esogeno
realizziamo un esperimento microarray
![Page 3: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/3.jpg)
Cos’è un microarray?
![Page 4: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/4.jpg)
Fasi di un esperimento microarray
• Estrazione mRNA• Retrotrascrizione e
Marcatura• Ibridazione• Scansione• Analisi dei dati
![Page 5: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/5.jpg)
Output dell’esperimento: lista di geni differenzialmente espressi
Rank GeneSymbolAccession Number
(Transcript)Description
Differential expression (Up- or Down-regulation)
P-value
1 DUSP1 NM_004417ref|Homo sapiens dual specificity phosphatase 1
(DUSP1), mRNA0.7606655 0.0004
2 SRGAP1 BC029919gb|Homo sapiens SLIT-ROBO Rho GTPase
activating protein 1, mRNA1.0329521 0.00038
3 HES1 NM_005524ref|Homo sapiens hairy and enhancer of split 1,
(Drosophila) (HES1), mRNA0.7117039 0.00026
4 SMAD3 U68019gb|Homo sapiens mad protein homolog
(hMAD-3) mRNA, complete cds-0.4286814 0.00021
5 RHEBL1 NM_144593ref|Homo sapiens Ras homolog enriched in
brain like 1 (RHEBL1), mRNA-0.5070915 0.00018
7 FZD10 NM_007197ref|Homo sapiens frizzled homolog 10
(Drosophila) (FZD10), mRNA-0.6491815 0.00015
8 RGS16 NM_002928ref|Homo sapiens regulator of G-protein
signaling 16 (RGS16), mRNA0.6270794 0.00012
9 GPR56 NM_201525ref|Homo sapiens G protein-coupled receptor 56
(GPR56), transcript variant 3, mRNA-0.3310189 0.0001
10 ZNF831 NM_178457ref|Homo sapiens zinc finger protein 831
(ZNF831), mRNA0.3905212 0.008
11 TFPI NM_001032281ref|Homo sapiens tissue factor pathway inhibitor
(lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA
-0.5849317 0.0075
. . . . . . . . . . . . . . . . . .
600 BTG1 NM_001731ref|Homo sapiens B-cell translocation gene 1,
anti-proliferative (BTG1), mRNA -0.3668739 0.05
![Page 6: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/6.jpg)
Obiettivo: ricostruire la rete di interazioni fra geni per comprendere quale sia l’effetto a livello molecolare del fenomeno biologico indagatoEsempi di reti di interazione…
![Page 7: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/7.jpg)
Ricostruzione delle interazioni
Rank GeneSymbolAccession Number
(Transcript)Description
Differential expression (Up- or Down-regulation)
P-value
1 DUSP1 NM_004417ref|Homo sapiens dual specificity phosphatase 1
(DUSP1), mRNA0.7606655 0.0004
2 SRGAP1 BC029919gb|Homo sapiens SLIT-ROBO Rho GTPase
activating protein 1, mRNA1.0329521 0.00038
3 HES1 NM_005524ref|Homo sapiens hairy and enhancer of split 1,
(Drosophila) (HES1), mRNA0.7117039 0.00026
4 SMAD3 U68019gb|Homo sapiens mad protein homolog
(hMAD-3) mRNA, complete cds-0.4286814 0.00021
5 RHEBL1 NM_144593ref|Homo sapiens Ras homolog enriched in
brain like 1 (RHEBL1), mRNA-0.5070915 0.00018
7 FZD10 NM_007197ref|Homo sapiens frizzled homolog 10
(Drosophila) (FZD10), mRNA-0.6491815 0.00015
8 RGS16 NM_002928ref|Homo sapiens regulator of G-protein
signaling 16 (RGS16), mRNA0.6270794 0.00012
9 GPR56 NM_201525ref|Homo sapiens G protein-coupled receptor 56
(GPR56), transcript variant 3, mRNA-0.3310189 0.0001
10 ZNF831 NM_178457ref|Homo sapiens zinc finger protein 831
(ZNF831), mRNA0.3905212 0.008
11 TFPI NM_001032281ref|Homo sapiens tissue factor pathway inhibitor
(lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA
-0.5849317 0.0075
. . . . . . . . . . . . . . . . . .
600 BTG1 NM_001731ref|Homo sapiens B-cell translocation gene 1,
anti-proliferative (BTG1), mRNA -0.3668739 0.05
![Page 8: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/8.jpg)
…ma le interazioni?Vorremmo vedere simultaneamentesimultaneamente se e come interagiscono i geni di interesse
![Page 9: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/9.jpg)
Per sapere qualcosa in più sulle interazioni fra geni: Banche dati di pathway e ontologie
• Kegg http://www.genome.jp/kegg/- Kegg GenesInfo sui geni e sui trascritti- Kegg PathwayInfo sulle reti di trasduzione del segnale genico (pathway)
• Gene Ontology http://www.geneontology.org/Informazioni sulla classificazione ontologica dei geni\prodotti genici
![Page 10: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/10.jpg)
Contenuti:
KEGG: Kyoto Encyclopedia of Genes and GenomesKEGG: Kyoto Encyclopedia of Genes and Genomes
![Page 11: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/11.jpg)
Rappresentazione dei dati in KEGG• Entity: una molecola o un gene
- identificata, eccetto che per GENE and ENZYME, con 3 lettere + 5 numeri:
• Binary relation: una relazione fra due entity
• Network: un grafo formato da un set di entity collegate
• Pathway: una rete di co-regolazione; un network o un insieme di network
![Page 12: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/12.jpg)
Legenda dei simboli
![Page 13: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/13.jpg)
Un esempio di Pathway
![Page 14: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/14.jpg)
KEGG PATHWAYE’ una collezione di diagrammi o mappe ciascuna corrispondente a una rete di co-regolazione biologica con significato funzionale.
Ogni pathway è identificato da:-3 lettere -> specifiche per ciascun organismo-5 numeri -> identificativi della mappa
Essi possono essere:- Creati e curati manualmente- Generati attraverso simulazioni computazionali
Ci sono:- Pathway di riferimento: generati dall’unione di evidenze sperimentali tratte da organismi differenti- Pathway specifici: che raccolgono le informazioni provenienti da un determinato organismo-Pathway globali: che collegano più pathway insieme
![Page 15: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/15.jpg)
Sezioni di KEGG Pathway
1. Global Map 2. Metabolism
Carbohydrate Energy Lipid Nucleotide Amino acid Other amino acid Glycan Cofactor/vitamin Terpenoid/PK Other secondary metabolite Xenobiotics Reaction module Chemical structure
3. Genetic Information Processing 4. Environmental Information Processing 5. Cellular Processes 6. Organismal Systems 7. Human Diseases8. Drug Development
Pathway metabolici
Pathway regolatori
![Page 16: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/16.jpg)
KEGG ORGANISMS
![Page 17: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/17.jpg)
• Nei pathway metabolici le entity sono quasi esclusivamente enzimi
• Nei pathway regolatori le entity rappresentano quasi sempre prodotti genici, ma troviamo anche composti chimici, DNA e altre molecole
![Page 18: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/18.jpg)
Pathway di riferimentoStandard view-generato dall’unione di evidenze sperimentali provenienti da organismi multipli
- individuato dal prefisso map
![Page 19: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/19.jpg)
Pathway di riferimentoKEGG ORTHOLOGY (KO) view
I geni assegnati ad un KO group sono evidenziati in viola
![Page 20: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/20.jpg)
Pathway di riferimentoEnzyme (EC) view
I geni assegnati ad un KO group sono evidenziati in viola
![Page 21: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/21.jpg)
Pathway di riferimentoReaction (RN) view
I geni assegnati ad un KO group sono evidenziati in viola
![Page 22: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/22.jpg)
Pathway organismo-specificogenerato da informazioni provenienti da un unico organismo o informazioni da KEGG ORTHOLOGY
I geni specifici dell’organismo coinvolto nel pathway sono colorati in verde
![Page 23: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/23.jpg)
Pathway specifico per più organismi
![Page 24: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/24.jpg)
Pathway organismo-specifico + drug info
I geni coinvolti in malattie sono evidenziati in rosa
I geni target di farmaci sono evidenziati in celeste
![Page 25: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/25.jpg)
KEGG DRUGContiene informazioni su:
• Farmaci approvati in Giappone, USA ed Europa che riguardano la loro struttura chimica
• Target dei farmaci ed enzimi che li metabolizzano
• Storia della trasformazione della struttura chimica delle molecole rappresentate attraverso mappe
I farmaci sono identificati con la lettera D + 5 numeriES: Gleevec D01441
![Page 26: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/26.jpg)
KEGG DRUG
![Page 27: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/27.jpg)
Pathway globali – reference pathway
![Page 28: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/28.jpg)
Pathway globale – Homo sapiens
![Page 29: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/29.jpg)
Pathway globale – Arabidopsis thaliana
![Page 30: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/30.jpg)
Pathway globaleHomo Sapiens + Arabidopsis Thaliana
![Page 31: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/31.jpg)
Disease Pathway Mapsono visti come perturbazioni di processi di regime
Stadi della malattia
![Page 32: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/32.jpg)
Vogliamo sapere se ci sono gruppi di geni differenzialmente espressi mappati nei pathway e
in quali pathway
Pathway-Express
![Page 33: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/33.jpg)
Pathway-Express : http://vortex.cs.wayne.edu/projects.htm
Impact Analysis: mappatura dei geni differenzialmente espressi nei pathway molecolari e valutazione della propagazione della perturbazione della trasduzione del segnale genico provocata dalla variazione di espressione genica
![Page 34: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/34.jpg)
Pathway-Express : http://vortex.cs.wayne.edu/projects.htm
![Page 35: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/35.jpg)
35
L’Impact Factor è formato da tre contributi:- Numero di geni differenzialmente espressi mappati in un pathway rispetto al numero di geni che formano il pathwaylivello di rappresentatività della lista dei geni DE nel pathway- Fold-change dei geni differenzialmente espressi mappatientità della perturbazione del pathway provocata dai geni differenzialmente espressi- Posizione dei geni differenzialmente espressi all’interno del pathwayun gene posizionato a monte (p.es. sulla membrana cellulare o su un nodo cui fa capo una sottorete) di una cascata di segnale è “più importante” di un gene posizionato a valle
![Page 36: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/36.jpg)
GeneOntology
![Page 37: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/37.jpg)
Cos’è un’ontologia?An ontology is a specification of a conceptualization
that is designed for reuse across multiple applications and implementations. …a specification of a
conceptualization is a written, formal description of a set of concepts and relationships in a domain of
interest.
Peter Karp (2000) Bioinformatics 16:269
… un insieme di definizioni
![Page 38: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/38.jpg)
Cos’è un’ontologia genica?Ontologia genica: un vocabolario di definizioni, indipendente dall’organismo, da utilizzare per descrivere i geni attraverso i loro prodotti genici (proteine)
• “trasferimento” delle informazioni funzionali fra organismi differenti a parità di complessità del genoma
• “trasferimento” delle informazioni funzionali da organismi “meno complessi” ad organismi “più complessi”
• univocità nella descrizione delle caratteristiche di un gene
![Page 39: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/39.jpg)
Gene Ontology http://www.geneontology.org/
Consorzio
che si occupa della definizione delle ontologie geniche
per la classificazione dei geni attraverso i loro prodotti genici
![Page 40: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/40.jpg)
http://www.geneontology.org/
![Page 41: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/41.jpg)
Che tipo di informazione è rilevante per descrivere un prodotto genico?
• Che cosa codifica il gene?• Dove e quando il prodotto agisce?• In che cosa è coinvolto?
Funzione molecolareComponente cellulareProcesso biologico
![Page 42: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/42.jpg)
Tre ontologie• Funzione molecolare -> definizioni che riguardano la funzione biochimica di un prodotto genico
- enzima, lega gli ioni calcio, lega i nucleotidi, etc
• Processo biologico -> definizioni che riguardano il processo di co-regolazione all’interno del quale il prodotto genico può essere inserito
- metabolismo di una molecola, glicolisi, ciclo della cellula, apoptosi
• Componente cellulare -> definizioni che riguardano il “luogo” della cellula nel quale un determinato prodotto genico può agire
- membrana cellulare, reticolo endoplasmatico
![Page 43: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/43.jpg)
Componente cellulare
• Dove agisce un prodotto
![Page 44: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/44.jpg)
Componente cellulare
![Page 45: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/45.jpg)
Componente cellulare
![Page 46: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/46.jpg)
Funzione molecolare
• Attività o compito del prodotto genico
glucose-6-phosphate isomerase activity
![Page 47: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/47.jpg)
24th Feb 2006 Jane Lomax
insulin bindinginsulin receptor activity
Funzione molecolare
![Page 48: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/48.jpg)
Processo biologico
-una serie di eventi a cui prende parte il prodotto
cell division
![Page 49: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/49.jpg)
transcription
Processo biologico
![Page 50: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/50.jpg)
regulation of gluconeogenesis
Processo biologico
![Page 51: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/51.jpg)
limb development
Processo biologico
![Page 52: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/52.jpg)
GO evidence codes
I geni sono associati a categorie sulla base di evidenze di diverso tipo
![Page 53: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/53.jpg)
Statistiche di GeneOntology
![Page 54: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/54.jpg)
Com’è organizzata un’ontologia?Ontologie
Categorie ontologiche
Ogni ontologia è strutturata in un Grafo Aciclico Diretto (DAG)
Ogni livello del grafo costituisce una categoria ontologica o GO term A ciascun GO term è associata una definizione univoca
![Page 55: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/55.jpg)
• I GO term sono legati per mezzo di due tipi di relazioni:– is-a – part-of
Struttura di un’ontologia
![Page 56: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/56.jpg)
cell
membrane chloroplast
mitochondrial chloroplastmembrane membrane
is-apart-of
Struttura di un’ontologia
![Page 57: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/57.jpg)
Struttura di un’ontologia
• Ogni ontologia non è una lista di termini biologici, ma è strutturata in livelli gerarchici
![Page 58: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/58.jpg)
gene A
Lo stesso gene può essere annotato in più di un GO term
Struttura di un’ontologia
![Page 59: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/59.jpg)
I geni possono essere raggruppati sulla base di livelli gerarchici e percorsi definiti dall’utente
sono ammesse le parentele multiple
Struttura di un’ontologia
cell
membrane chloroplast
mitochondrial chloroplastmembrane membrane
Directed Acyclic Graph (DAG) - multiple parentage allowed
![Page 60: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/60.jpg)
Come funziona GeneOntology?
• GO è organismo indipendente- Alcuni termini, soprattutto quelli ai più bassi
livelli di gerarchia e di dettaglio, possono essere specifici per certi organismi
- photosynthesis
– Quando però essi vengono collassati insieme ai livelli con più alto ordine gerarchico la dipendenza dall’organismo scompare
![Page 61: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/61.jpg)
Anatomia di un GO term
id: GO:0006094name: gluconeogenesisnamespace: processdef: The formation of glucose fromnoncarbohydrate precursors, such aspyruvate, amino acids and glycerol.[http://cancerweb.ncl.ac.uk/omd/index.html]exact_synonym: glucose biosynthesisxref_analog: MetaCyc:GLUCONEO-PWYis_a: GO:0006006is_a: GO:0006092
unique GO IDterm name
definition
synonymdatabase ref
parentage
ontology
![Page 62: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/62.jpg)
GO tools
• GO mette a disposizione strumenti per fare ricerca ottimizzata nella banca dati
• Altri gruppi hanno creato strumenti con differenti propositi:
http://neurolex.org/wiki/Category:Resource:Gene_Ontology_Tools
![Page 63: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/63.jpg)
Analisi tradizionale
Gene 1ApoptosisCell-cell signalingProtein phosphorylationMitosis…
Gene 2Growth controlMitosisOncogenesisProtein phosphorylation…
Gene 3Growth controlMitosisOncogenesisProtein phosphorylation…
Gene 4Nervous systemPregnancyOncogenesisMitosis…
Gene 100Positive ctrl. of cell prolifMitosisOncogenesisGlucose transport…
![Page 64: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/64.jpg)
• Ricerca gene by gene
• Richiede di fare una ricerca in letteratura
• time-consuming
Analisi tradizionale
![Page 65: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/65.jpg)
Se utilizziamo le annotazioni fornite da GO…
…il lavoro è già fatto!
GO:0006915 : apoptosis
![Page 66: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/66.jpg)
Raggruppamento per processo
ApoptosisGene 1Gene 53
MitosisGene 2Gene 5Gene45Gene 7Gene 35…
Positive ctrl. of cell prolif.Gene 7Gene 3Gene 12…
GrowthGene 5Gene 2Gene 6…
Glucose transportGene 7Gene 3Gene 6…
Come facciamo ad ottenerlo automaticamente e….
![Page 67: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/67.jpg)
….Esiste un modo per associare una significatività statistica a questi raggruppamenti di geni?
68
Over-representation analysis:
- Esistono gruppi di geni differenzialmente espressi rappresentati in maniera “sproporzionata” in qualche GO term?
- Questa rappresentatività “sproporzionata” è statisticamente significativa rispetto al totale dei geni che vengono annotati in quel GO term?
![Page 68: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/68.jpg)
Quanto è probabile che gruppi di geni differenzialmente espressi vengano catalogati in un GO term “by chance”?
microarray
1000 genesexperiment
100 genes differentially regualted
mitosis – 80/100apoptosis – 40/100p. ctrl. cell prol. – 30/100glucose transp. – 20/100
0
10
20
30
40
50
60
70
80
mitosis apoptosis positive control ofcell proliferation
glucose transport
![Page 69: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/69.jpg)
Se osserviamo il numero di geni distribuiti sull’array e appartenenti alle stesse categorie, possiamo calcolare la probabilità che ci interessa:
Process Genes on array # genes expected in occurred 100 random genes
mitosis 800/1000 80 80apoptosis 400/1000 40 40p. ctrl. cell prol. 100/1000 10 30 glucose transp. 50/1000 5 20
Onto-Express
![Page 70: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/70.jpg)
GO term significativi nell’ontologia Molecular Function
Onto-Express: http://vortex.cs.wayne.edu/projects.htm
![Page 71: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/71.jpg)
Espansione delle ontologie e visualizzazione annidata dei GO term
Onto-Express: http://vortex.cs.wayne.edu/projects.htm
![Page 72: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/72.jpg)
OntoExpress: http://vortex.cs.wayne.edu/projects.htm
73
Molecular FunctionBiological Process
Cellular Component
![Page 73: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/73.jpg)
Sfruttare-le reti di interazioni (gene network) fra bio-entità costruite utilizzando dati di letteratura o info da banche dati eterogenee
per comprendere quale sia l’effetto a livello molecolare del fenomeno biologico indagato
- Co-occorrenza di bio-entità (geni, proteine, parole chiave, etc) in testi
- Individuazione di connessioni fra bio-entità riportate in database di
interazioni biologiche (pathway, interazioni fra proteine, interazioni chimiche
o fisiche, co-espressione in esperimenti di espressione genica, etc.)
Interpretazione biologica di una lista di geni: data/text mining
![Page 74: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/74.jpg)
Text mining: Individuazione della co-occorrenza di parole in un testo
Ricorrenza in un testo di coppie di elementi bio-entità:• coppie di nomi di geni• coppia gene/parola chiave
“X binds Y”, “X phosphorylates Y”, “X is involved in Y process”, “X is a marker for Y disease”, …
Ricorrenza in un testo di coppie di elementi bio-entità:• coppie di nomi di geni• coppia gene/parola chiave
“X binds Y”, “X phosphorylates Y”, “X is involved in Y process”, “X is a marker for Y disease”, …
![Page 75: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/75.jpg)
1S) Individuazione nel testo di informazioni (contenute in titolo, testo e abstract) e metainformazioni (affiliazione, giornale, etc)data retrieving and selection
2S) Analisi grammaticale del testo per individuare i diversi tipi di parole: sostantivi, aggettivi, verbi e nomi propri parsing
3S) Conteggio del il numero di volte in cui ogni parola appare nei testiinformation extraction e indexing
4S) Assegnazione di un punteggio ad ogni testo sulla base della co-occorrenza delle parole cercate (X e Y ) quanto più è alta in un testo tanto più quel testo è attinente alla co-occorrenza considerata e attesta la relazione fra X e Yscoring
5S) Rappresentazione grafica della connessione tramite una rete
Text mining: Individuazione della co-occorrenza in un testo
Ricorrenza in un testo di coppie di elementi linguistici (bio-entità):
• coppie di nomi di geni• coppia gene/parola chiave
Ricorrenza in un testo di coppie di elementi linguistici (bio-entità):
• coppie di nomi di geni• coppia gene/parola chiave
… ma come si fa?
![Page 76: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/76.jpg)
Text mining: Individuazione della co-occorrenza in un testo
Alcuni algoritmi sono capaci di:
-rilevare sulla base di un vocabolario il tipo di interconnessione fra le bio-entità considerate“X binds Y”, “X phosphorylates Y”, “X is involved in Y process”, “X is a marker for Y disease”, …
- dare un peso alla co-occorrenza a seconda della distanza che separa le bio-entità espressa in numero di parole
- rilevare connessioni indirette:
X è connesso a Y, Y è connesso a Z X è connesso a Z
ciò può influire sulla valutazione dell’attinenza del documento alla connessione fra le bio-entità
![Page 77: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/77.jpg)
Cosa si può fare con il Data mining?Costruire reti di “interazioni eterogenee”
Banche dati utili:- MIPS: Munich Information center for Protein Interaction- BIND: Biomolecular Interaction Network Databases- HPRD: Human Protein Reference Database- IntAct: InterAction- Reactome- STRING:Search Tool for the Retrieval of Interacting Genes/Proteins- …
LetteraturaScientifica
![Page 78: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/78.jpg)
Integrazione di informazioni eterogenee
![Page 79: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/79.jpg)
Esistono gruppi di geni della mia lista che sono coinvolti in malattie?
Disease Ontology, GeneRIF e FunDO
![Page 80: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/80.jpg)
Disease Ontology- Definizioni univoche e standardizzate di malattie- Integra MeSH di NCBI
![Page 81: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/81.jpg)
Esempi da DO
![Page 82: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/82.jpg)
Disease Ontology
![Page 83: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/83.jpg)
GeneRIF Database
![Page 84: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/84.jpg)
MetaMapTransfer
FunDO
Software basato sul text-mining che associa geni da GeneRIF e malattie da Disease Ontology
![Page 85: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/85.jpg)
FunDO – Functional Disease Ontology
![Page 86: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/86.jpg)
FunDO – Functional Disease Ontology
In quali malattie sono coinvolti?
314 geni differenzialmente espressi
![Page 87: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/87.jpg)
GNCPro – Gene Network Central PRO
![Page 88: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/88.jpg)
GNCPro – Gene Network Central PRO
Sottomissione di 4 geni
GNCPro aggiunge 5 geni “vicini” a quelli sottomessi per fornire nuove vie di connessione fra i geni
![Page 89: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/89.jpg)
COREMINE
• Motore di ricerca biomedico• Fornisce set di informazioni ordinate per attinenza con l’oggetto della
query• Consente di salvare le ricerche effettuate e di creare gruppi di
discussione su temi di ricerca
![Page 90: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/90.jpg)
COREMINE• Input data da 13 differenti categorie
• Database messi in relazione per creare l’output
![Page 91: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/91.jpg)
COREMINE• Altre sorgenti consultabili per arricchire l’output
![Page 92: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/92.jpg)
COREMINE
![Page 93: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/93.jpg)
…take-home message
• Ogni banca dati fornisce un “pezzo” di informazione• Ogni strumento di navigazione fornisce una peculiare “view”
delle informazioni
• Non esiste UNA banca dati omnicomprensiva• Non esiste UNO strumento capace di collezionare tutte le informazioni frazionate nelle banche dati
• L’uso di più strumenti consente di collezionare i diversi “pezzi” di informazione• La costruzione del “puzzle” è compito di chi interpreta i dati
![Page 94: Banche dati e software per l’identificazione di interazioni fra geni](https://reader036.vdocuments.mx/reader036/viewer/2022062404/5542eb75497959361e8de2b7/html5/thumbnails/94.jpg)
Esercitazionehttp://131.114.94.135/lezioni/ADO_tecnici
• Cercare i seguenti GO term: 00301820051402• Per ciascuno di essi:
- fare l’anatomia dell’ontologia evidenziando i GO term sulla base degli “is-a” o “part-of”- indicare quanti sono i prodotti genici associati a ciascun GO term a seconda dei termini di cui sono “is-a” o “part-of”- scaricare e salvare la tree view e la graph view ed indicare chi sono i GO term “padri” dei GO term considerati - indicare quali GO term dell’albero visualizzato sono “is-a” o “part-of”