podobnosť fylogenetických stromov
DESCRIPTION
Podobnosť fylogenetických stromov. Jana Lukešová. O čom to bude. fylogenetické stromy metódy fylogenetickej analýzy tvorba fylogenetických stromov porovnávanie fylogenetických stromov. Základné pojmy. Fylogenéza vývoj druhov v evolučnom procese (vzťahy) Fylogenetická analýza - PowerPoint PPT PresentationTRANSCRIPT
Podobnosť fylogenetických stromov
Jana Lukešová
O čom to bude fylogenetické stromy metódy fylogenetickej analýzy tvorba fylogenetických stromov porovnávanie fylogenetických
stromov
Základné pojmy FylogenézaFylogenéza
• vývoj druhov v evolučnom procese (vzťahy)
Fylogenetická analýza • hľadá vzťahy medzi sekvenciami génov,
proteínov
Fylogenetický strom • zobrazuje výsledky fylogenetickej analýzy,
možný priebeh evolúcie
Z biológie Proteín (bielkovina)
• organická zlúčenina zložená z aminokyselín
Gén • pomenovaný úsek DNA so
špecifickou funkciou• kóduje bielkovinu
Genóm• kompletná genetická
informácia
Evolúcia Gény
• polymorfné -> alely frekvencia génu/alely
• mení sa v priebehu evolúcie v dôsledku prirodzeného výberu
Mutácie pozitívne / negatívne / neutrálne somatické / zárodočné
Fylogenetické stromy oblasť analýzy Systému popisuje vzťahy medzi taxónmi
(systematická jednotka)
najlepší prostriedok na vizuálnu reprezentáciu evolučných vzťahov medzi organizmami
Fylogenetické stromy-pojmy
Vetva - vzťah medzi
taxónmi (predok-potomok) Dĺžka vetvy – počet zmien v rámci danej vetvy Uzol – vyhynutý alebo žijúci druh Clade (klád) – skupina dvoch alebo viac taxónov /
sekvencií proteínov / sekvencií DNA Vzdialenosť – počet zmien medzi organizmami /
sekvenciami Topológia – usporiadanie vetiev
Fylogenetické stromy - typy škálované
• počet evolučných zmien, čas (molekulárne hodiny)
Fylogenetické stromy - typy neškálované
• nezohľadňujú počet evolučných zmien, udávajú len “dátum“, kedy vznikla daná vetva / taxón
Fylogenetické stromy - typy bez roota
Fylogenetická analýza Genómy sa menili mutáciami. Počet zmien nukleotidov medzi
genómami rôznych organizmov môže udávať vývoj rozdielov v čase. (timing of genome divergence)
Porovnávaním rôznych genómov môžeme odhaliť evolučné vzťahy.
Fylogenetická analýza - predpoklady Sekvencie
neobsahujú chyby pochádzajú od známeho zdroja sú homologické (spoločný predok,
rôzna funkcia) každá sekvencia má spoločnú
fylogentickú históriu s ostatnými
Hypotéza molekulárnych hodín zmeny v sekvenciách sa objavujú v
pravidelných intervaloch intervaly sú u rôznych druhov a
génov rozdielne kalibrujú sa pomocou fosílií, aby sa
určila doba vzniku kládu
Fylogenetická analýza - metódy Maximálna parsimónia
• strom s najmenším možným počtom evolučných zmien
Metódy založené na vzdialenostiach Bayesovský prístup Metóda maximálnej
pravdepodobnosti (Maximum likelihood)
• najpravdepopodobnejší priebeh evolúcie
Fylogenetická analýza -kroky Zarovnanie - Multiple Sequence
Alignment (MSA) Určiť substitučný model Postavenie stromu Ohodnotenie stromu
MSA
MSA – metódy výpočtu
Dynamické programovanie Heuristiky Iteratívne metódy Hidden Markove modely
(pravdepodobnostná metóda)pravdepodobnostná metóda) Genetické algoritmy
Maximálna parsimónia strom s najmenším možným počtom
evolučných zmien vyžaduje MSA vhodná pre malý počet podobných
sekvencií náročné na výpočet aj čas software: PHYLIP, PAUP
Metóda maximálnej pravdepodobnosti (ML) používa pravdepodobnostné metódy skúša všetky možné stromy
(topológia, dĺžka vetiev) časovo náročná vyžaduje substitučný model umožňuje zohľadniť viac evolučných
ukazovateľov v rodokmeňoch
Metódy založené na vzdialenostiach používa počet zmien v každom páre
sekvencií “susedné“ sekvencie predstavujú
najmenší počet zmien Metódy
Fitch and Margoliash UPGMA (Unweighted Pair Group Method
With Arithmetic Mean)
Matica vzdialeností
Metóda Fitch and Margoliash Porovnáva “najbližšie“ taxóny s
priemerom ostatných taxónov, potom počíta hodnoty medzi menej príbuznými taxónmi, až kým nenájde všetky vzdialenosti.
Neberie v úvahu molekulárne hodiny, výsledkom sú rôzne dĺžky vetiev.
Konštrukcia stromu(1) Nakreslíme tri
možné usporiadania nezakoreneného stromu
Konštrukcia stromu(2) Na základe
najmenej vzdialených sekvencií v tabuľke vyberieme najpravdepodob-nejšie usporiadanie stromu
Konštrukcia stromu(3) Označíme vetvy stromu
Konštrukcia stromu(4) – výpočet vzdialeností d(O,P)= o + p = 12 d(O,avgMN)= o + [q + (m + n)/2] = 27.5 d(P,avgMN)= p + [q + (m + n)/2] = 29.5 odpočítame d(O,avgMN) od d(P,avgMN):
Konštrukcia stromu(4) – výpočet vzdialeností {p + [q + (m + n)/2]} - {o + [q + (m + n)/2]} =
29.5 -27.5p -o = 29.5 -27.5 = 2
p = o + 2 d(O,P)= o + p = 12 o + (o + 2) = 12
2o = 10o = 5
Teda máme o = 5, p = o+2 = 7 To isté pre M a N, dostaneme m = 6, n = 9.
Konštrukcia stromu(4) – výpočet vzdialeností Máme o=5, p=7, m=6, n=9, chceme q.
Dosadíme do jednej z rovníc: d(P,avgMN)= p + [q + (m + n)/2] = 29.5
d(P,avgMN)= 7 + [q + 15/2] = 29.5q + 7.5 = 22.5
q = 15
Metóda UPGMA(1) Predpokladá, že
rýchlosť zmien je konštantná (Hypotéza molekulárnych hodín) a
vzdialenosti spĺňajú podmienku:d(x, z) ≤ max{d(x, y), d(y, z)} (silná trojuholníková alebo ultrametrická nerovnosť).
Metóda UPGMA(2) o + p = 12
o = p= 12/2 = 6 m + n = 15
m = n= 15/2 = 7.5 Vypočítame priemernú vzdialenosť q od všetkých
sekvencií: (MO + MP + NO + NP)/4 = (26 + 28 + 29 + 31)/4 = 28.5 q1 + 7.5 = 14.25
q1 = 6.75 q2 + 6.0 = 14.25
q2 = 8.25 Therefore, q = q1 + q2 = 15
Metóda UPGMA(3)
Ďalšie metódy tvorby stromov Presné metódy
Vyčerpávajúce hľadanie (exhaustive search, implicit enumeration)
Branch-and-bound (ohraničovanie vetiev) Heuristické algoritmy
Pridávanie po krokoch• Približné metódy, ktoré však nezaručujú nájdenie
najkratšieho stromu
Úpravy počiatočných stromov Výmena vetiev (branch swapping)
Vyčerpávajúce hľadanie (1)
Vyčerpávajúce hľadanie (2)
• Má zmysel cca do 11 taxónov
Vyčerpávajúce hľadanie (3)
Branch-and-bound (ohraničovanie vetiev)
heuristickou metódou sa nájde suboptimálny strom, ktorý slúži ako východiskové kritérium
pri počte taxónov do 25
Heuristické algoritmy – Pridávanie po krokoch Najprv sa spoja tri objekty Potom sa náhodne vyberie štvrtý
a postupne sa pridáva k trom existujúcim vetvám
Jednotlivé stromy sa posudzujú podľa optimalizačného kritéria a jeden alebo viaceré najkratšie sa ponechajú do ďalšieho kola, kde sa pridáva piaty objekt, atď.
A B
C
Výmena vetiev(1) Výmena susedných objektov (nearest neighbour
interchange - NNI)
Výmena vetiev(2) Prerezávanie vetiev (podstromov) a vrúbľovanie
(roubování) – subtree pruning and regrafting (SPR)
Výmena vetiev(3) Delenie a
znovuspájanie stromov – tree bisection and reconnection (TBR)
Porovnávanie fylogen. stromov – pojmy (1) Konsenzuálny strom (consensus
tree) • zobrazuje mieru zhodnosti stromov
väčšinové stromy (majority-rule) striktné stromy (strict consensus)
Porovnávanie fylogen. stromov – pojmy (2) Agreement subtree
• podstrom rovnaký pre 2 a viac stromov
• Greatest Agreement subtree (GAS)• AS s najväčším počtom listov
Porovnávanie fylogen. stromov – pojmy (3) Triplet
• podstrom o troch listoch• štruktúra zakoreneného stromu sa dá vyjadriť
výčtom tripletov
Porovnávanie fylogen. stromov – pojmy (4) Triplety – využitie
• môže slúžiť ako báza na výpočet rozdielu medzi zakorenenými stromami
• rozdiel štruktúry stromov je počet rozdielnych tripletov
• Structural triplet difference(Tree1, Tree2) = 2
Porovnávanie fylogen. stromov – pojmy (4) Výmena susedných objektov (nearest
neighbour interchange - NNI)• používa sa pre výpočet rozdielu medzi
nezakorenenými stromami, dá sa previesť na zakorenené stromy
• NNI difference je minimálny počet zmien potrebných na prevedenie jedného stromu na strom druhý
Porovnávanie fylogen. stromov – pojmy (5)
Najbližší sused vetvy Dog je Bat a Cow Najbližší sused vetvy Ant je vetva Dog a
vetva predka Bat/Cow Po 1 NNI kroku dostaneme aj
strom rovnaký s Tree 2, teda NNI difference = 1
Porovnávanie fylogen. stromov - predpoklad Strom z neusporiadanými vetvami
môže byť nakreslený s vetvami v rôznom poradí (vo fylogenetických stromoch to ale nevadí, dôležitá je štruktúra).
To je výhodné na zobrazovanie spoločných a rozdielnych častí.
Cieľom je nájsť také usporiadanie, aby taxóny dvoch stromov boli face-to-face.
Porovnávanie fylogen. stromov - metódy Minimum Triplet Difference (MTD)
• využíva Triplet difference
Maximum Branch Similarity (MBS) All-But-n
• využíva GAS
MTD(1) – vzory Tripletov Keď ohodnotíme
listy hodnotami (–,0,+) dostaneme 12 vzorov Tripletov.
Triplet difference je počet tripletov, ktoré majú rôzne tripletové vzory medzi dvomi stromami.
MTD(2) Tripplet
difference je 3
MTD(3) MTD algoritmus
hľadá usporiadanie vetiev, ktoré minimalizuje triplet difference.
Ak je takých usporiadaní viac, tak vyberieme ľubovolné
MTD(4) - výsledok Jedno z možných vyhovujúcich
usporiadaní
Zdroje www.wikipedia.org http://www.bioinformaticsonline.org Wan Nazmee Wan Zainon & Paul
Calder:Visualising Phylogenetic Trees
http://www.natur.cuni.cz/~flegr http://libot.sav.sk/mater_Karol.htm