argomenti trattati

Download Argomenti trattati

If you can't read please download the document

Upload: solada

Post on 08-Jan-2016

52 views

Category:

Documents


15 download

DESCRIPTION

Argomenti trattati. Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software. Introduzione biologica. DNA Doppia catena polinucleotidica definita sull’alfabeto: A, C, G, T Gene Regione di DNA che codifica proteine. - PowerPoint PPT Presentation

TRANSCRIPT

  • Argomenti trattatiStruttura di un gene e alternative splicing (AS)

    Definizione del problema AS e algoritmo per risolverlo

    ASPic software

  • Introduzione biologicaDNADoppia catena polinucleotidica definita sullalfabeto: A, C, G, TGeneRegione di DNA che codificaproteine

  • Numero geni e genomi in eucariotiNumber of genes in prokaryotes (up to 8000)Genoma in procarioti (> 9 Mb)

  • Espressione di un geneDNA

  • Trascritti e sequenze ESTUn trascritto lelenco delle basi (A, T, C, G) che compongono un mRNA maturoUn EST un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro )

  • Pattern di un introne GT AGIntroni canonici: 99.24 % Introni non canonici: 0.05 %0.69 %0.02 %ALTROBurset et al., Nucleic Acids Res. 2000, 28:4363-4375

  • Espressione di un geneMa le cose funzionano davvero cos?Numero Geni corpo umano : 40000 circaNumero Proteine : centinaia di migliaiaLa corrispondenza 1 a 1 non rispettata. Perch?SPLICING ALTERNATIVO

  • Tipi di Alternative SplicingAI1CDBGENOMICASplice/dont spliceA I1 BCompeting 5ACompeting 3BExon skippingMutually exclusive exonsBC

  • Perch AS importante?AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002)AS genera numerosi trascritti a partire da un singolo geneAS is specifico del tessuto in cui si trova la cellula (Graveley, 2001)AS correlato alle malattie

  • Problema di ASpredire le forme di splicing alternativo di un geneanalizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoformeAS ancora un problema aperto

  • Cosa c a disposizione?errori di sequenziamento nellEST (inserzioni, delezioni e mismatch) => criteri di ottimizzazionesequenze duplicate sulla genomica => analisi combinata di un cluster di sequenze ESTProgrammi veloci che producono lallineamento di una singola sequenza EST contro la genomica: Spidey (Wheelan et al., 2001)Squall (Ogasawara & Morishita, 2002)

  • Definizioni formaliDef 1Sequenza genomica, G = I1 f1 I2 f2 I3 f3 In fn In+1, con Ii (i=1, 2, , n+1) introni e fi (i=1, 2, , n) esoniDef 2Fattorizzazione in esoni di G, GE = f1 f2 f3 fnDef 3Fattorizzazione di un EST S compatibile con GE S=s1 s2 sk t.c. per 1 i1 < i2 < < ik n si abbia:st = fit per t=2, 3, , k-1s1 un suffisso di fi1 e sk un prefisso di fik

    st = suff (fit) o st = pref (fit)variante di splicingDef 1Sequenza genomica, G = I1 f1 I2 f2 I3 f3 In fn In+1, con Ii (i=1, 2, , n+1) introni e fi (i=1, 2, , n) esoniDef 2Fattorizzazione in esoni di G, GE = f1 f2 f3 fn Def 3Fattorizzazione di un EST S compatibile con GE S=s1 s2 sk t.c. per 1 i1 < i2 < < ik n si abbia:edit (st, fit) errore per t=2, 3, , k-1edit(s1, suff(fi1)) errore e edit(sk, pref(fik)) errore

  • Il problemaInput

    - Una sequenza genomica G- Un cluster di sequenze EST S = {S1, S2, , Sn}

    Output

    Una fattorizzazione GE di G (GE = f1, f2, , fn) e unset di fattorizzazioni degli EST compatibili con GE

    Obiettivo: minimizzare n

  • EsempioSequenza genomica GEST set S = {S1, S2, S3}A2A1A2BD1C1D1D2C1C2A2D1C1A1A2BD1A2D1D2C1C2A2D1D2C1C2BD1D2C1C2A1A2

  • RisultatiIl problema MAX-SNP-hard (riduzione lineare da NODE-COVER)

    Euristica: Processo iterativo per fattorizzare ogni EST

    backtracking per ricomputare fattorizazzioni precedenti se si giunge ad una fattorizzazione non compatibile con GE

  • Lalgoritmosi1si j-1sijSie1e2GPasso j-esimo: Fattorizzazione parziale dellEST Si (fattore sij)emif (Compatible(em, exon_list)) thenadd em to exon_list;otherwise try to place sij elsewhere; If not possible then backtrack;si-1 1si-1 j-1si-1 jsi-1 nSi-1After placing all the factors sij for the set S,place the external factors;

  • Lalgoritmo (dettagli)Gsi1si j-1Sisi jCalcolo del fattore sijSij can be divided into n components ck (k=1,2,,n)At least one of these components for k from 1 to (n-1)is error-free and can be placed on Gsijc1c2c3c4c5The algorithm searches a perfect match of c1 on G

    c1Suppose that c1 has no perfect match on G

    Then the algorithm searches a perfect match of c2 on G

    c2c1c1Suppose that c2 has a perfect match on G c2Then the entire factor sij can be placed on G

    Find the canonical ag pattern on the left

    Find the rightmost gt pattern such that the edit distance between sijy and the genomic substring from ag to gt is boundedsi jyesone

  • ASPic software (Alternative Splicing PredICtion)Input- La lunghezza minima prevista per un esone- La lunghezza della componente di matching perfetto- Lerrore di riduzione degli introni- Lerrore di sequenziamento di un EST- La sequenza genomica- Il cluster di EST

    Output- Un file di testo per tutti gli allineamenti EST-genomica- Un file HTML degli allineamenti in prossimit dei siti displicing predetti

  • ASPic web siteASPic un web-based tool disponibile allindirizzo http://aspic.algo.disco.unimib.it/aspic-devel che permette di predire i siti di splicing per un gene in input

  • ASPIC web site

  • ASPIC web site

  • ASPIC web sitehttp://www.caspur.it/ASPIC/ Information about the input A graphical view of the predicted gene structure A table of the predicted introns A graphical view of the transcript-genome alignments A graphical view of the predicted full-length isoforms A table of the predicted full-length isoforms OUTPUT:

  • ASPIC web site

  • ASPIC web site

  • ASPIC web site

  • ASPIC web site

  • ASPIC web site

  • ASPIC web site

  • ASPIC web site

  • Prediction of p53 protein isoforms

    Foglio1

    IsoformEntryL (aa)ASPICASAP2ASDACEVIEW

    p53 alphaNM_000546393++++

    p53 betaDQ186648341+---

    p53 gammaDQ186649346+---

    DQ186650261++--

    DQ186651209+-+-

    DQ186652214+-+-

    nd354+-+-

    nd302----

    nd307----

    Foglio2

    Sequence17:00162021aa

    Sequence8:00162012408aa

    Sequence7:00162011405aa

    Sequence1:00162005393aa

    Sequence9:00162013393aa

    Sequence4:00162008383aa

    Sequence3:00162007317aa

    Sequence5:00162009315aa

    Sequence2:00162006261aa

    Sequence6:00162010261aa

    Sequence14:00162018158aa

    Sequence16:00162020158aa

    Sequence15:00162019139aa

    Sequence10:00162014113aa

    Sequence11:0016201551aa

    Sequence13:0016201748aa

    Sequence18:0016202238aa

    Sequence19:0016202330aa

    Sequence20:0016202426aa

    Sequence12:001620167aa

    Foglio3

    IsoformEntryL (aa)ASPICASAP2ASDACEVIEW

    p53 alphaNM_000546393++++

    p53 betaDQ186648341+---

    p53 gammaDQ186649346+---

    D133 p53 alphaDQ186650261++--

    D133 p53 betaDQ186651209+-+-

    D133 p53 gammaDQ186652214+-+-

    D40 p53 alphand354+-+-

    D40 p53 betand302----

    D40 p53 gammand307----

  • GRAZIE!