bioinformatika 2 −3. előadás3 2019.09.30. bioinformatika 2 többszörös...

33
2019.09.30. Bioinformatika 2 Bioinformatika 2 3. előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika proteomika Előadás és gyakorlat

Upload: others

Post on 08-Feb-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • 2019.09.30. Bioinformatika 2

    Bioinformatika 2 − 3. előadás

    Prof. Poppe László

    BME Szerves Kémia és Technológia Tsz.

    Bioinformatika – proteomika

    Előadás és gyakorlat

  • 2 Bioinformatika 22019.09.30.

    Többszörös szekvencia összerendezés

    A többszörös szekvencia összerendezés [multiple sequence alignment (MSA)]

    három vagy több biológiai szekvencia (általában fehérje, DNS vagy RNS)

    szekvenciájának összerendelése. A páronkénti összerendezéshez képest nő a jel/zaj

    viszony.

    A vizsgált szekvenciák között általában evolúciós kapcsolat van, így a közös ős-

    szekvenciától való genetikai távolság is elemezhető. A szekvenciák közötti homológia

    viszonyok tanulmányozhatóak és filogenetikai analízis segítségével vizsgálható a közös

    evolúciós eredet.

    A többszörös szekvencia összerendezés eredményének vizuális megjelenítése jól

    elemezhetővő tesz mutációs eseményeket (pontmutáció az egyetlen nukleotid /

    aminosav csere eltérő karakterként jelenik meg; beékelődéses / kitörléses mutációk

    ezek egy vagy több szekvencia esetében kötőjelekként jelennek meg).

    Többszörös szekvencia összerendezés segítségével meghatározhatóak konzervált

    nukleotidok / aminosavak, konzervált szekvencia elemek, fehérje domének vagy

    szekunder / tercier szerkezeti elemek.

  • 3 Bioinformatika 22019.09.30.

    Többszörös szekvencia összerendezésVizuális megjelenítés (pl. Clustal W)

    Kétdimenziós táblázat. Sorok: a szekvenciák; Oszlopok: a pozíciók

    Clustal: http://www.clustal.org/

  • 4 Bioinformatika 22019.09.30.

    Abszolút pozíció: Egy adott aminosav/nukleotid sorszáma az egy adott szekvencián belül.

    Az adott szekvencia jellemzőjeként ez mindig változatlan.

    Relatív pozíció: Annak az oszlopnak a sorszáma, amelyben az adott aminosav/nukleotid

    az összerendezésen belül szerepel. Az összerendezés változtatásával változik.

    Konszenzus-szekvencia: Az összerendezés összegzéseként nyerhető pszeudoszekvencia,

    amely egy sorban (általában az összerendezés felett), szimbólumok segítségével összegzi

    az egyes pozíciók változását/változatlanságát. A pszeudoszekvencia matematikai

    objektumokból (pl. helyettesítési mátrixok) is állhat.

    Többszörös szekvencia összerendezésAlapfogalmak

  • 5 Bioinformatika 22019.09.30.

    A többszörös szekvencia összerendezés ugyancsak jelenti a három vagy több biológiai

    szekvencia összerendelésének eljárását / algoritmusát is.

    A páronkénti összerendezéshez képest a három vagy több biológiai jelentőséggel bíró

    hosszúságú szekvencia összerendelése kézi módszerekkel igen nehéz és időigényes,

    számítógépes algoritmusok szükségesek az összerendezéshez és az eredmény analíziséhez.

    A többszörös szekvencia összerendezés bonyolultabb eljárásokat igényel, mint a páronkénti

    összerendezés.

    A páronkénti összerendezés algoritmusainak (Needleman−Wunsch, Smith−Waterman, stb.)

    egyszerű kiterjesztése többdimenziós mátrixokat igényel, a számításigény a szekvenciák

    számával exponenciálisan nő.

    A legtöbb többszörös szekvencia összerendezési algoritmus inkább heurisztikus eljárásokat

    mintsem globális optimalizálást alkalmaz, mivel már közepes hosszúságú szekvenciák

    esetén is a néhányat meghaladó számú szekvencia összerendelése igen számításigényes.

    Többszörös szekvencia összerendezésAlgoritmusok

  • 6 Bioinformatika 22019.09.30.

    Többszörös szekvencia összerendezésManuális szerkesztőprogramok

    BioEdit (http://www.mbio.ncsu.edu/BioEdit/bioedit.html)

    Jalview (http://www.jalview.org/)

    SeaView (http://doua.prabi.fr/software/seaview ):

    A kézi szerkesztőprogramok pl. színezéssel segítik a motívumok felismerését. A kézi igazításra az automatikus

    összerendezés finomításakor is szükség lehet. Néhány program:

    http://www.mbio.ncsu.edu/BioEdit/bioedit.htmlhttp://www.jalview.org/http://doua.prabi.fr/software/seaview

  • 7 Bioinformatika 22019.09.30.

    A progresszív (hierarchikus ill. fa-) módszerek olyan heurisztikus eljárások, amelyek

    elfogadható időtartam alatt szolgáltatnak megfelelően jó (még ha nem is optimális)

    összerendezést.

    A szekvenciák összerendezése több szempont szerint történhet:

    Adott szekvencia összerendezése az összes szekvenciával

    Szekvenciák összerendezése valamilyen szempont szerinti sorrendben

    Szekvenciák összerendezése egy filogenetikai törzsfa elágazásainak sorrendje szerint

    A progresszív módszerek a többszörös szekvencia összerendezést a páronkénti

    összerendezések kombinációiként hozzák létre úgy, hogy a leginkább hasonló pártól haladnak

    a legtávolabbi kapcsolatban levő pár felé.

    Progresszív mószereken alapuló programok: Clustal, MultAlin

    Többszörös szekvencia összerendezésProgresszív módszerek

  • 8 Bioinformatika 22019.09.30.

    Program: Clustal W2 vagy Clustal Ω; Grafikus felület: Clustal X (http://www.clustal.org/)

    (Új command line-ból és Webszerverről futtatható új változat: Clustal Omega.

    (http://www.ebi.ac.uk/Tools/msa/clustalo/)

    A szekvenciákon páronkénti összerendezést végez az összes lehetséges módon

    A páronkénti összerendezésekből a szekvenciapárok közötti távolságokat számít

    A távolságok alapján filogenetikai törzsfát készít, ez a vezérfa.

    A többszörös összerendezést a vezérfa elágazásainak sorrendje szerint végzi: a legközelebbi szekvenciák

    összerendezése után ehhez rendezi az egyre távolabbiakat. A megközelítés problémája: a kezdeti,

    páronkénti, tökéletlen összerendezésekből származtatja a vezérfát. A valódi fát a végső összerendezésből

    lehetne megkapni.

    Az újabb verziók finomításai:

    Az összerendezés pontszámának kiszámításakor a közeli szekvenciákat kisebb súllyal veszik figyelembe

    azért, hogy a közel azonos szekvenciák ne nyomják el a távolabbiakat

    Az aminosav helyettesítési mátrixok változtatása az aktuális összerendezett szekvenciák távolsága szerint

    Oldallánc- és pozíció specifikus gap penalty−k

    Többszörös szekvencia összerendezésProgresszív módszerek - Clustal

    J.D. Thompson, D.G. Higgins, T.J. Gibson,

    Nucl. Acids Res., 1994, 22, 4673-4680.

    http://www.clustal.org/http://www.ebi.ac.uk/Tools/msa/clustalo/

  • 9 Bioinformatika 22019.09.30.

    Chenna, R. et al. Nucl. Acids Res. 2003, 31, 3497-3500.

    Többszörös szekvencia összerendezésProgresszív módszerek – Clustal W

    Négy oxidoreduktáz NAD kötő domén protein szekvenciáinak összerendezése.

  • 10 Bioinformatika 22019.09.30.

    Többszörös szekvencia összerendezésProgresszív módszerek - MultAlin

    F. Corpet, Nucl. Acids Res., 1988, 16(22), 10881-10890

    A MultAlin rekurzív eljárás, amely az előállított többszörös összerendezésből

    újraszámolja a vezérfát, ennek alapján újabb összerendezést készít, ezt addig ismétli,

    míg már nem javul tovább a pontszám.

    Hátrány: kezdeti hibák a rekurzió során

    továbbadódnak

    Online elérés:

    http://bioinfo.genotoul.fr/multalin/

    http://bioinfo.genotoul.fr/multalin/

  • 11 Bioinformatika 22019.09.30.

    Többszörös szekvencia összerendezésProgresszív módszerek - MultAlin

    F. Corpet, Nucl. Acids Res., 1988, 16(22), 10881-10890

    http://multalin.toulouse.inra.fr/multalin/

    Multalin version 5.4.1

    Copyright I.N.R.A. France 1989, 1991, 1994, 1996

    Published research using this software should cite

    Multiple sequence alignment with hierarchical clustering

    F. CORPET, 1988, Nucl. Acids Res., 16 (22), 10881-10890

    Symbol comparison table: blosum62

    Gap weight: 12

    Gap length weight: 2

    Consensus levels: high=90% low=50%

    Consensus symbols:

    ! is anyone of IV

    $ is anyone of LM

    % is anyone of FY

    # is anyone of NDQEBZ

    MSF: 134 Check: 0 ..

    Name: CCPC50 Len: 134 Check: 7173 Weight: 0.71

    Name: CCRF2C Len: 134 Check: 1222 Weight: 0.71

    Name: CCRF2S Len: 134 Check: 8544 Weight: 1.35

    Name: CCQF2R Len: 134 Check: 8341 Weight: 1.12

    Name: CCQF2P Len: 134 Check: 1096 Weight: 1.12

    Name: Consensus Len: 134 Check: 4972 Weight: 0.00

    Öt citokróm C2 protein szekvenciáinak összerendezése.

  • 12 Bioinformatika 22019.09.30.

    Többszörös szekvencia összerendezés

    Az egyes módszerek eredményei eltérhetnek.

    Van-e a preferált módszer?

    Ez nem egyértelmű, az egyes módszerek megbízhatósága változó. Fontos esetekben a

    követendő eljárás az, ha több módszert eredményeit összevetjük, majd ennek

    konszenzusát állítjuk elő, adott esetben kézi szerkesztési módszereket is felhasználva.

  • 13 Bioinformatika 22019.09.30.

    Többszörös összerendezés adatbázisok

    Xfam - Pfam (http://xfam.org/)

    Pl.: a hisztidin / fenilalanin ammónia liáz család összerendelése, Pfam (PF00221):

    Automatikusan származtatott protein domén / protein család összerendezéseket tartalmaz.

    Sok, erősen divergens szekvenciákat tartalmazó családok esetében széteső az összerendelés.

  • 14 Bioinformatika 22019.09.30.

    Többszörös összerendezés adatbázisok InterPro (http://www.ebi.ac.uk/interpro/)

    Pl.: a hisztidin / fenilalanin ammónia liáz család az InterPro adatbázisban:

  • 15 Bioinformatika 22019.09.30.

    Filogenetikus analízis

    Filogenetikus analízis eszközök:

    http://evolution.genetics.washington.edu/phylip.html)

    A filogenetikai analízis az evolúciós események, evolúciós történet

    elemzésének eszköze. Eredménye általában egy filogenetikai fa (törzsfa).

    Gyökeres fa:

    A gyökeres filogenetikus fa olyan rendezett

    fa, amely egyedülálló csomóponttal

    rendelkezik, amely a fa levelein található

    összes entitás közös ősének felel meg.

    http://evolution.genetics.washington.edu/phylip.html

  • 16 Bioinformatika 22019.09.30.

    Filogenetikus analízis

    Gyökértelen fa:

    A gyökér nélküli filogenetikus fa a levelek közti

    kapcsolatot anélkül mutatja be, hogy feltételeznék a

    közös származást. Míg a gyökértelen fák minden

    esetben származtathatóak gyökeres fából a gyökér

    elhagyásával, a gyökér nem vezethető le egy

    gyökértelen fárból, anélkül, hogy a származást

    azonosították volna

  • 17 Bioinformatika 22019.09.30.

    A filogenetikus analízist főként DNS szekvenciák alapján végzik, a protein szekvenciák

    elemzésén alapuló eljárás ritka, nem is eléggé kidolgozott.

    A filogenetikai törzsfákat generáló eljárások egyféle evolúciós modell érvényességét

    feltételezik. Az a feltételezés azonban, hogy az evolúció törzsfával ábrázolható nem

    mindenkor igaz: a hibrid fajok, ill. az egyes szervezetek közt lezajló laterális géntranszfer

    esetén ez nem áll fenn.

    További problámakat eredményező feltételezés az, hogy a szekvenciák mind homológok.

    A filogenetikai analízis eredményét a fentiek értelmében mindig fenntartásokkal kell kezelni.

    Mivel a múltbeli eseményekre csak következtetni tudunk, de pontos ismereteink nincsenek egy

    filogenetikai analízis program esetenként nem a valóságnak megfelelő eredményeket

    eredményezhet.

    Filogenetikus analízis

  • 18 Bioinformatika 22019.09.30.

    1. Összerendezés

    2. A helyettesítési (tk. evolúciós) modell meghatározása

    3. Faépítés

    4. A fa kiértékelése

    A filogenetikai analízis lépései

  • 19 Bioinformatika 22019.09.30.

    Filogenetikus analízis – Összerendelés (HAL)

    Az ismertetett módszerek (Clustal, MultAlin, stb.) elvégzik több szekvencia összerendelését:

  • 20 Bioinformatika 22019.09.30.

    Filogenetikus analízis – Összerendelés (HAL)

    Az ismertetett módszerek (Clustal, MultAlin, stb.) kezdetleges filogenetikai analízist végeznek

    a vezérfa felépítésekor, de ezek nem megbízhatóak

  • 21 Bioinformatika 22019.09.30.

    Filogenetikus analízis – Összerendelés

    Clustal vezérfa az 5.8S rDNS szekvenciák alapján.

    Míg a vörösmoszatok (red alga) és a tűlevelűek

    (conifers) több törzsben szétszórva szerepelnek, a

    páfrányok (ferns) és mohák (moss) viszont

    összekerültek.

    Az ismertetett módszerek (Clustal, MultAlin, stb.)

    kezdetleges filogenetikai analízist végeznek a

    vezérfa felépítésekor, de ezek nem megbízhatóak

  • 22 Bioinformatika 22019.09.30.

    A vezérfát és a biológiai háttértudást felhasználva az összerendezést alkalmassá kell

    tenni az alaposabb filogenetikai analízisre

    −−> "összerendezés−sebészet".

    Ennek kivitelezése részletes biológiai / taxonómiai ismereteket és gondos elemző

    munkát kíván

    Filogenetikus analízis – Összerendelés

  • 23 Bioinformatika 22019.09.30.

    A helyettesítési (evolúciós) modell meghatározása

    Három eleme (paramétere) van:

    Bázisgyakoriságok

    A bázisok egymás közti cseréjének gyakorisága

    A szekvencián belüli pozíciók mutációgyakoriságának heterogenitása

    Ezek meghatározásának két módja:

    Empirikus módszer: korábbi elemzésekből meghatározott értékeket használunk fel, mint fix

    értékeket.

    Előny: könnyű számíthatóság. Hátrány: az adott adathalmazra nem biztos, hogy jók a

    paraméterek.

    Paraméteres módszer: magából a vizsgált adathalmazból vezetjük le a paramétereket.

    Előny: pontosabb lehet. Hátrány: félrevezethet, ha az adatkészlet nem megfelelő.

  • 24 Bioinformatika 22019.09.30.

    A bázisok egymás közti cseréjének gyakorisága

    Lehet előre rögzített mátrix pl.:

    A C G T

    A − 2 1 2

    C 2 − 2 1

    G 1 2 − 2

    T 2 1 2 −

    A pontszámok a csere költségét mutatják. Purinbázis pirimidinbázisra való cseréje (transzverzió)

    ritkább, ezért költségesebb, mint a purin−purin és a pirimidin−pirimidin csere (tranzíció).

    Dolgozhatunk az összerendezésből számított helyettesítési mátrixokkal is:

    Időreverzibilis mátrixok: az oda− és visszacsere pontszáma azonos, akkor teljesül, ha nincs

    meghatározott időbeli eltolódás a bázisfrekvenciákban (stacioner modell).

    Létezik korrekciós módszer nem stacioner esetre.

    A helyettesítési (evolúciós) modell meghatározása

  • 25 Bioinformatika 22019.09.30.

    A szekvencia mutációgyakoriságok heterogenitásaA szekvencián belül a mutációk gyakorisága erősen változó. Pl. fehérjét kódoló

    szakasznál a kodonok harmadik bázisai sokkal variábilisabbak, mint az első kettő. A

    fehérjék konzerválódott régióit kódoló részek is kevésbé variábilisek. Modellek a

    mutációgyakoriság heterogenitásának leírására:

    1. Nemparaméteres módszer: az egyes pozíciókat (pl. szekvenciaszakaszokat) kategóriákba

    sorolja a megfigyelt mutációs gyakoriság alapján

    2. Invariánsok módszere: A pozíciók egy bizonyos hányadát invariánsnak tekinti, a többit

    azonos valószínûséggel változónak

    3. Gamma eloszlás módszere (legkorszerűbb): feltételezi, hogy a mutációs gyakoriságok

    eloszlása a gamma valószínûségeloszlás szerinti, ennek az alakját egy paraméter jellemzi,

    melyet meg kell becsülni. Lehet folytonos vagy diszkrét.

    A helyettesítési (evolúciós) modell meghatározása

    valószínűségeloszlás

    sűrűségfüggvénye,

    valószínűségeloszlás

    eloszlásfüggvénye,

  • 26 Bioinformatika 22019.09.30.

    A helyettesítési (evolúciós) modell meghatározása

    Melyik helyettesítési modellt válasszuk? A kevés paraméterrel dolgozó modellek jobban

    alkalmazhatóbbak, megbízhatóbbak, a túlságosan leegyszerűsített modellek viszont hibás

    eredményt adhatnak.

    Fontos a tranzíció és a transzverzió megkülönböztetése és a mutációgyakoriság

    heterogenitásának figyelembe vétele. Gondosan kell kiválasztani az adott adatokhoz legjobban

    illeszkedő evolúciós modellt.

  • 27 Bioinformatika 22019.09.30.

    Faépítés

    Kétféle faépítő módszer különböztethető meg:

    1.

    Algoritmus alapú: egy algoritmus levezet egy bizonyos fát

    Kritérium alapú: az összes lehetséges fát generálja, ezeket értékeli valamilyen optimalizációs

    kritérium alapján.

    2.

    Távolság alapú: Páronkénti távolságokat számít a szekvenciák között, majd ezekkel a

    távolságokkal dolgozik tovább, fákat levezetve belőlük. A távolságszámításnál mindig

    információvesztés van.

    Karakter alapú: (Karakter = pozíció az összerendezésben.) Olyan fákat származtat le, amelyek

    mindegyik pozícióra optimalizálják az adatmintázatok eloszlását.

  • 28 Bioinformatika 22019.09.30.

    A szekvenciák közötti távolság egy határértéket ér el, ahogy a távolság nő. Ha egy pozícióban

    már történt mutáció, a további mutációk már nem teszik távolibbá. A távolság alapú módszerek

    korrigálnak erre az effektusra.

    Neighbour Joining (NJ): Egy csillag alakú fából kiindulva a legközelebbi szomszédokat

    összekapcsolja, helyettesíti őket az átlagukkal, majd ezt ismételgeti a teljes fa kialakulásáig.

    Minimum Evolution (ME): A legrövidebb olyan fát találja meg, amely összeegyeztethető a

    szekvenciák közötti távolságokkal. (A faágak hossza evolúciós távolságnak felel meg, így két

    szekvencia távolsága a fa szerint számítható a megfelelő ágak hosszának összeadásával.)

    Hasonló elven működik a Fitch−Margoliash (FM) módszer.

    FaépítésTávolság alapú módszerek

  • 29 Bioinformatika 22019.09.30.

    Maximum Parsimony (MP): "legnagyobb takarékosság" módszere: Olyan fát épít, ami a lehető

    legkevesebb mutációs eseménnyel magyarázza meg a meglévő szekvenciák létrejöttét.

    Számos azonos pontszámú fát szolgáltat, ezek közös részét vehetjük mint megbízhatót. Nagy

    távolságú szekvenciák esetében hátránya, hogy azonos bázis esetén azt tételezi fel, hogy nem

    történt mutáció, holott valószínûbb a visszacserélődés.

    ·

    Maximum Likelihood (ML): "legnagyobb valószínûség" módszere: Komplikált módszer.

    Minden pozícióra kiszámítja, hogy adott fa és helyettesítési modell mellett mi a valószínűsége

    annak, hogy a megfigyelt variációs mintázat jöjjön létre az adott pozícióban. Az egyes

    pozíciókra kapott valószínűségek összeszorzásával adódik a teljes fa valószínűsége. Ezt sok

    fára a legjobbat kiválasztja. Ezt többféle helyettesítési modell mellett is elvégezhetjük, ezek

    közül is kiválasztva a legjobbat. Igen számításigényes, de ez a legmegbízhatóbb.

    A fák kiértékelése (kétféle módszer):

    Randomizált adatokra kapott eredményekkel való összehasonlítás.

    A kapott fa alátámasztottságának tesztelése ún. "resampling" statisztikai módszerekkel

    (bootstrapping, jackknife). Lényegük: a meglévõ adatokból véletlenszerûen mintákat veszünk,

    ezekre végezzük el a számítást, majd statisztikát készítünk. (Nem részletezzük.)

    FaépítésKarakter alapú módszerek

  • 30 Bioinformatika 22019.09.30.

    A helyettesítési (evolúciós) modell meghatározásaAz emberszabású majmok leszármazási viszonyai

  • 31 Bioinformatika 22019.09.30.

    ICF

    vektorokMP

    ML

    Bayes

    analízis

    NJ

    Jaccard

    ICF

    Manhattan

    távolság

    mátrix

    NJ

    szubsztitúciós

    modell

    távolság

    mátrix

    Hagyományos módszerek Diszkrét matematikai

    módszer

    22 mitokondriális tRNS gén

    Öt módszer

    Számos fa

    Konszenzus törzsfák

    A helyettesítési (evolúciós) modell meghatározásaAz emberszabású majmok leszármazási viszonyai

  • 32 Bioinformatika 22019.09.30.

    és

    Bayes

    A helyettesítési (evolúciós) modell meghatározásaAz emberszabású majmok leszármazási viszonyai

  • 33 Bioinformatika 22019.09.30.

    Filogenetikus analízis online