skattning av avstånd mellan arter i fylogenetiska...

60
U.U.D.M. Project Report 2018:28 Examensarbete i matematik, 15 hp Handledare: Ingemar Kaj Examinator: Martin Herschend Juni 2018 Department of Mathematics Uppsala University Skattning av avstånd mellan arter i fylogenetiska träd Linnéa Eriksson

Upload: others

Post on 04-Jan-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

U.U.D.M. Project Report 2018:28

Examensarbete i matematik, 15 hpHandledare: Ingemar KajExaminator: Martin HerschendJuni 2018

Department of MathematicsUppsala University

Skattning av avstånd mellan arter i fylogenetiska träd

Linnéa Eriksson

Page 2: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika
Page 3: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Sammanfattning

I det här arbetet beräknas och visas det om skattning av avståndet mellan gen-frekvenser. De matematiska modellerna kan tillämpas inom fylogeni. Modellernasom arbetet tar upp är JC69, Jukes-Cantor, och K80-modellen, Kimura. De tvåmodellerna studeras steg för steg och tillämpas därefter på en människas genfre-kvens mot fem olika djur. De fem djuren är schimpans, gorilla, bonobo, gibbonoch ett utstickande djuret som är lejon. Genfrekvenserna från djuren som ärjämförda med människans är hämtade ifrån GeneBank. Genfrekvenserna stude-ras och data tillämpas sedan på de matematiska modellerna. Beräkningar ochgrafer har utförts i datorprogrammet MatLab. Slutligen så jämförs alla beräk-ningar med varandra och de diskuteras hur man skulle kunna gå tillväga för attutveckla arbetet.

1

Page 4: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Innehåll

1 Inledning 4

2 Biologisk bakgrund 52.1 Fylogeni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Protein och nukleotider . . . . . . . . . . . . . . . . . . . . . . . 62.4 Kodonbias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Modeller för nukleotidsubstitution 73.1 JC69 (Jukes and Cantor 1969) . . . . . . . . . . . . . . . . . . . 83.2 K80 (Kimura 1980) . . . . . . . . . . . . . . . . . . . . . . . . . . 113.3 Generellt för båda modellerna . . . . . . . . . . . . . . . . . . . . 143.4 Avståndsuppskattning med UNREST . . . . . . . . . . . . . . . 15

4 Maximum likelihood-metoden 154.1 JC69 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.2 K80 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5 Uppbyggnad av fylogenetiska träd 175.1 Avstånd mellan arter . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.1.1 Minstakvadratmetoden . . . . . . . . . . . . . . . . . . . 185.2 Maximum likelihood-metoden - �er generationer . . . . . . . . . 19

5.2.1 Likelihood beräkningar på träd . . . . . . . . . . . . . . . 19

6 Resultat 206.1 Människa (Homo sapiens) D38112 mot Schimpans (Pan troglo-

dytes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206.1.1 JC69 modellen . . . . . . . . . . . . . . . . . . . . . . . . 216.1.2 K80-modellen . . . . . . . . . . . . . . . . . . . . . . . . . 23

6.2 Människa (Homo sapiens) D38112 mot Gorilla (Gorilla gorilla) . 256.2.1 JC69 modellen . . . . . . . . . . . . . . . . . . . . . . . . 256.2.2 K80-modellen . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.3 Människa (Homo sapiens) D38112 mot Bonobo (Pan paniscus) . 296.3.1 JC69 modellen . . . . . . . . . . . . . . . . . . . . . . . . 306.3.2 K80-modellen . . . . . . . . . . . . . . . . . . . . . . . . . 32

6.4 Människa (Homo sapiens) D38112 mot Svarthandad Gibbon (Hy-lobates agilis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346.4.1 JC69 modellen . . . . . . . . . . . . . . . . . . . . . . . . 346.4.2 K80-modellen . . . . . . . . . . . . . . . . . . . . . . . . . 36

6.5 Människa (Homo sapiens) D38112 mot Lejon (Panthera leo) . . . 386.5.1 JC69 modellen . . . . . . . . . . . . . . . . . . . . . . . . 396.5.2 K80-modellen . . . . . . . . . . . . . . . . . . . . . . . . . 41

6.6 Jämförelse av resultat . . . . . . . . . . . . . . . . . . . . . . . . 43

7 Diskussion 45

2

Page 5: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

8 Bilagor 468.1 Tabell för 95%-kon�densintervall - normalfördelnings kvantiler . 468.2 Tabell för χ2

κ,5% . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468.3 Genfrekvenser från GeneBank . . . . . . . . . . . . . . . . . . . . 47

8.3.1 Människa (Homo sapiens) D38112 mot Schimpans (Pantroglodytes troglodytes) . . . . . . . . . . . . . . . . . . . 47

8.3.2 Människa (Homo sapiens) D38112 mot Gorilla (Gorillagorilla) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

8.3.3 Människa (Homo sapiens) D38112 mot Bonobo (Pan pa-niscus) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

8.3.4 Människa (Homo sapiens) D38112 mot Svarthandad Gib-bon (Hylobates agilis) . . . . . . . . . . . . . . . . . . . . 50

8.3.5 Människa (Homo sapiens) D38112 mot Lejon (Panthera leo) 518.4 Matlab-kod för uträkningar för modellerna . . . . . . . . . . . . . 52

8.4.1 Matris - Människa mot Schimpans . . . . . . . . . . . . . 528.4.2 Matris - Människa mot Gorilla . . . . . . . . . . . . . . . 528.4.3 Matris - Människa mot Bonobo . . . . . . . . . . . . . . . 538.4.4 Matris - Människa mot Svarthandad Gibbon . . . . . . . 538.4.5 Matris - Människa mot Lejon . . . . . . . . . . . . . . . . 548.4.6 Kod för JC69 . . . . . . . . . . . . . . . . . . . . . . . . . 548.4.7 Kod för K80 . . . . . . . . . . . . . . . . . . . . . . . . . 56

9 Referenser 589.1 Referenser för matematiska modeller . . . . . . . . . . . . . . . . 589.2 Referenser för fakta . . . . . . . . . . . . . . . . . . . . . . . . . . 589.3 Referenser genfrekvens . . . . . . . . . . . . . . . . . . . . . . . . 589.4 Referenser för bilder . . . . . . . . . . . . . . . . . . . . . . . . . 58

3

Page 6: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

1 Inledning

Att beräkna avståndet mellan två genfrekvenser är en relativt enkel fylogenetiskanalys men ändå väldigt viktig. En viktig del är beräkningar av avstånd mellansekvenspar. Vilket är de första steget i metoden för konstruktion av avstånds-matrisen inom fylogeni. De består av att klusteralgoritmer som konverterar enavståndsmatris till ett fylogenetiskt träd. De andra viktiga är modeller för mar-kovprocesser av nukleotidsubstitution. Det används i avståndsberäkningarnafrån basen av maximum likelihood och bayesiansk analys av multipla sekvenseri fylogeni.

I det här arbetet har jag till stor del utgått från boken Computational Mo-lecular Evolution av Ziheng Yang. Det är en modern bok som bygger på statis-tiska och beräkningsmässiga metoder som används i molekylär evolutionsanalys,såsom maximum likelihood, markovprocesser och bayesianska statistik. I bokenanalyseras molekylär sekvensdata och som vi under de senaste åren fått extremtmycket mer förståelse för. Boken går inte in på djupare matematiska bevis utanhåller sig till metoder och hur de beräknas. Det nämns även lite om hur mangår till väga för att påbörja byggandet av ett fylogenetiskt träd.

Metoderna som studeras i det här arbetet är de två modellerna JC69 ochK80. Det används olika metoder så som markovprocesser, maximum likelihood-metoden och avståndsmetoden. De olika genfrekvenserna som studerats i ar-betet kommer från GeneBank och beräkningarna som genomförts har gjorts idatorprogrammet MatLab.

4

Page 7: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

2 Biologisk bakgrund

Genom matematisk statistik analyseras biologisk data för att få fram sannolik-heten av önskad hypotes. För att sedan studera den samt se vad resultatet visaroch om hypotesen kan förkastas eller inte.

2.1 Fylogeni

Fylogeni är en studie om organismers släktskap där resultaten sammanställs medfylogenetiska träd. Idag studeras släktskap mellan organismer genom att jämfö-ra deras DNA. Längre tillbaka när människan inte hade någon större vetskap omDNA, studerade man de olika organismernas yttre och morfologiska egenskaper.Under de senaste åren har vetenskapen om DNA och den molekylära evolutio-nen ökat explosionsartat. Detta då kunskapen har ökat något enormt inom dettekniska, vilket gör att det nu går mycket snabbare att ackumulera genetisksekvensdata, vår förbättring inom hårdvara och mjukvara samt utvecklingen avanalysmetoder.

Den stora ökningen av genomisk data kräver kraftfulla statistiska modelleroch datorer för att de ska kunna analyseras och tolkas. Tre termer som oftaanvänds inom fylogeni är monofyli, parafyli och polyfyli. Monofyli är de somomfattar ättlingar, det vill säga de närmsta individerna med gemensam stamfa-der och gemensamma förfäder. Parafyli är när en grupp bestående av ättlingartill en stamfader men i denna grupp ingår inte alla ättlingar utan vissa kan ute-slutas på grund utav olika anledningar. Polyfyli är en grupp som är besläktademen inte nära, det vill säga de har en avlägsen gemensam stamfader.

De vetenskapliga metoderna som används inom fylogenetik brukar gruppe-ras i vad som benämns kladistik. Skillnaden mellan fylogenetik och kladistik äratt fylogenetik kan innehålla hypoteser om släktskap, medan kladistik iställettillämpas mer vetenskapligt som till exempel i matematiska modeller. Vanli-ga vetenskapliga modeller som används inom kladistik är maximum likelihood-metoden och markovprocesser med en bayesiansk inferens. Markovprocesser ochmaximum likelihood-metoden är de metoder som kommer att studeras i det härarbetet.

Inom fylogeni och kladistik studeras homologa egenskaper hos organismer.Organismer som har homologa egenskaper anses vara närmare besläktade ochtvärtom, färre likheter mer avlägsna från varandra. Inom detta konstruerar manträd för att på ett enkelt sätt se hur organismer är besläktade, de benämnsfylogenetiska träd eller kladogram. Dessa två är väldigt lika varandra, de sombland annat skiljer dem åt är att i ett fylogenetiskt träd indikerar grenarna påolika tidsförhållanden.

2.2 DNA

DNA är en förkortning av deoxyribonucleic acid och är det ämne i en organismsom bär på den genetiska informationen. DNA-molekylens viktigaste funktion äratt lagra information om organismens funktioner och utveckling. DNA innehåller

5

Page 8: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

all information om hur organismen ska konstruera och hur den ska bygga uppalla ämnen. Därför kan DNA kallas för kroppens alldeles egna receptbok. EnDNA-molekyl har två strängar, så kallade polymer, som i sin tur är uppbyggdaav nukleotider. En nukleotid består av en kvävebas och en pentos. Där det ärkvävebaserna som innehåller den genetiska koden. Det �nns fyra olika typerav kvävebaser, Adenin (A), Cytosin (C), Guanin (G) och Tymin (T). De fyranukleotider kan inte kopplas samma hur som helst, adenin och tymin kopplasihop samt cytosin och guanin kopplas ihop.

Fig.1 En DNA spiral som delas och som visar alla fyra nukleotider samthur de kopplas samman.

2.3 Protein och nukleotider

Ett protein är en lång kedja bestående av aminosyror. En aminosyra är kemis-ka föreningar mellan en aminogrupp och en karboxylgrupp. Det �nns en stormängd olika aminosyror men alla �nns inte levande i organismers celler. När detpratas om levande organismer säger man att det existerar 20 aminosyror, det�nns dock enstaka undantag för några få organismer. Ett protein byggs upp in-uti en cell i två steg. I det första steget transkriberas proteinet och det benämnsäven för RNA-syntes. Detta är en process där den genetiska informationen i encells DNA kopieras och skapar ett RNA. RNA är som DNA uppbyggt av nuk-leotider. Nukleotiderna är nästintill lika som de som används för DNA, det somskiljer är att tymin (T) har ersatts av uracil (U). När själva transkriptionensker delar sig DNA-strängen för att den ska kunna bilda en mall för RNA:t.Nukleotiderna A, C, G och T i DNA-kedjan kommer att ge upphov till U, G, Coch A på motsvarande plats i RNA-molekylen. Denna typ av RNA benämns förmRNA som är förkortning för messenger RNA och agerar som förnamnet sägersom budbärare mellan cellkärnan och ribosomerna. I andra steget translaterarmRNA i ribosomerna till aminosyror. Det är alltså här som aminosyrorna sättssamman till det färdiga proteinet. Translationen sker så att nukleotiderna kopp-las ihop och läses av tre och tre, där tre nukleotider kodar tillsammans för enspeci�k aminosyra. En grupp av tre nukleotider benämns för ett kodon och det�nns 43 = 64 möjliga kombinationer. Det �nns dock bara 20 olika aminosyror,så olika kodon kan koda för samma aminosyra. Det �nns ett startkodon somstartar translationen och tre stoppkodon som gör att translationen avbryts.

6

Page 9: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

2.4 Kodonbias

Det �nns fördelar med att en aminosyra svara för �er än ett kodon, en anledningär att den blir mer tålig mot mutationer. Det förekommer nämligen främst attdet är den sista nukleotiden som har översatts felaktigt utav de tre nukleotider-na. Organismer fungerar så �nurligt att den sista nukleotiden sällan har någonstörre betydelse för vilken aminosyra den kodar för. Det är alltså de två förstanukleotiderna som till största del är avgörande för vilken aminosyra den kodarför. Studeras till exempel aminosyran alanin och dess genetiska kod så är denGCU, GCC, GCA och GCG. Här ser man tydligt att de två första nukleotider-na är densamma varav den sista varierar och alla kodar ändå för alanin. Det ärdock inte alltid så simpelt, organismer har listigt nog gjort att aminosyror medliknande kodon generellt har relativt lika egenskaper. Vilket därför sällan görnågon större skillnad om ett kodon blir fel då aminosyran oftast har likvärdigafunktioner som den tilltänkta aminosyran. Därav kan proteinet relativt ofta fun-gera som de ska ändå. Kodonbias är alltså de praktiska som organismen skapatsom gör att relativt små skillnader i ett kodon sällan har någon större betydelseför de kodande DNA:t. Kodonbias kan även förekomma i övergångarna mellanolika nukleotider och göra att det inte sker likformigt. Övergångarna delar mani transition och transversion. Först delas nukleotiderna in i två grupper, purineroch pyrimidin. Nukleotiderna A och G är puriner som är heterocykliska kväve-föreningar som är uppbyggda av två ringar. C och T är pyrimidin och är ävendem heterocykliska föreningar men är endast uppbyggd av en ring istället. Över-gångarna inom grupperna purin och pyrimidin är transitioner och övergångarmellan de två grupperna är transversioner.

Fig.2: Bilden visar vilka övergångar mellan nukleotider samt vilka som ärtransition och transversion. De blåa pilarna är transversion och deröda är transition.

3 Modeller för nukleotidsubstitution

Här kommer två modeller för nukleotidsubstitution att studeras steg för steg.Den första heter Jukes-Cantor modellen, JC69, och är en av enklare modeller för

7

Page 10: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

nukleotidsubstitution. Den andra heter Kimura modellen, K80, och är fortfaran-de relativt enkel men något mer avancerad än Jukes-Cantor modellen. Figur 3,nedan, illustrerar övergångarna mellan de fyra nukleotiderna samt hur transitionoch transversion har lite olika betydelse mellan de två modellerna. För JC69-modellen har samtliga övergångar samma frekvens, a. För K80-modellen skiljersig övergångarna, transitioner har frekvens a och transversioner har frekvens b.

Fig.3: Visar hur övergångarna är för modell K80. JC69 är liknande baraatt alla övergångar är α, det vill säga β = α.

3.1 JC69 (Jukes and Cantor 1969)

JC69 antar att alla nukleotidsekvenser har samma frekvens, λ, av en förändringtill en annan nukleotid. Frekvensen qij = ogonblicksfrekvensen av substitutionfran nukleotid i till j, dar i, j = T, C, A och G. Matris (1), nedan, harordningen T, C, A och G för nukleotiderna. Varje matrisrad måste ha summannoll. Den totala substitutionskvoten för bytet av nukleotid, i, är 3λ vilket imatrisen står för qii. Det är −qii som motsvarar substitutionfrekvensen för nuk-leotid, i, det vill säga frekvens det tar för markovkedjan att lämna tillståndet i.Frekvensmatrisen är

Q = {qij} =

−3λ λ λ λλ −3λ λ λλ λ −3λ λλ λ λ −3λ

(1)

Övergångsmatrisen är P (t) = {pij(t)}. Övergångssannolikheten, pij(t), är san-nolikheten där given nukleotid, i, vill bli nukleotid, j, över tiden, t. Beräkningenpå övergångsmatrisen ger som följer

P (t) = { pij(t) } = eQt =

p0(t) p1(t) p1(t) p1(t)p1(t) p0(t) p1(t) p1(t)p1(t) p1(t) p0(t) p1(t)p1(t) p1(t) p1(t) p0(t)

(2)

8

Page 11: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

där övergångssannolikheten är{p0(t) = 1

4 + 34e−4λt

p1(t) = 14 −

14e−4λt (3)

Beräkningar görs på övergångsmatrisen P (t) och en matris exponentiellt genomtaylorutveckling. De�nitionen för taylorutveckling följer

P (t) = eQt = I +Qt+1

2!(Qt)2 +

1

3!(Qt)3 +

1

4!(Qt)4 + . . . (4)

En taylorutveckling på nukleotider är varken avancerad eller tidskrävande dåmatrisen generellt är förhållandevis liten. Emellertid kan denna metod bli merkostsam och ostabil om man gör det för någon aminosyra eller för ett kodon dådet ger en mycket större matris. En matris för en aminosyra är storlek 20x 20och för ett kodon 61x 61. Frånmatris (2) kommer i att för varje plats vara någonnukleotid i en lång sekvens under tiden, t. Den andra nukleotiden j i en sekvenskommer att vara pij(t), där j = T, C, A, G. Summan av varje radmatrisen ärett, P (t) = 1. För tiden noll, t = 0, är blir övergångsmatrisen identitetsma-trisen, P (0) = I. De �nns två generella modeller för markovkedjor. Den förstaär den generella tidsövergångsmodellen och den andra är den generella otvung-na modellen. Notera att markovprocesser klassi�ceras beroende på om tidenpå tillståndet är diskret eller kontinuerligt. Den teori som visas här, för JC69,är en relativt enkel modell där utbytet sker mellan aminosyror och kodon. Närt→∞ är pij(t) = 1

4 för alla i och j. Detta visar när en substitution har inträ�atmånga gånger på varje plats, så att den slutliga nukleotiden är slumpmässig medsannolikheten 1

4 för varje nukleotid oberoende från vart man började. Sannolik-heten att kedjan är i tillståndet j när t → ∞ betecknas för πj . Distributionenär (πT , πC , πA, πG) och benämns för limiting distribution. För JC69 är πj = 1

4för varje nukleotid j, där jämviktdistributionen blir π = ( 1

4 ,14 ,

14 ,

14 ). Detta ger

πQ = 0 givet att∑i πi = 1. Om det �nns en markovkedja med �era tillstånd

används följande ekvation, även kallad för Chapman-Kolmogorov teoremet

pij(t1 + t2) =∑k

pik(t1)pkj(t2) (5)

Sannolikheten att nukleotid i blir nukleotid j under tiden t1 + t2 är summan avalla möjliga tillstånd, k, vid varje mellanliggande tidpunkt t1. Det är avståndetmellan dessa två sekvenser som ska beräknas. Från frekvensmatrisen, matris(1), får man den totala substitutionsfrekvensen för någon nukleotid, som är3λ. Därav kan avståndet mellan två sekvenser beräknas till d = 3λt. Där d äravståndet, t är tiden och λ är frekvensen. Antag att x utav n platser är olikamellan två sekvenser, då kommer proportionen av di�erensen av platserna attbli p = x

n . Detta är sannolikheten, p, för att en plats har olika nukleotider mellande två sekvenserna med ett avstånd, d, som ger följande

p = 3p1(t) =3

4− 3

4e−4λt =

[d

3= λt

]=

3

4− 3

4e−4d/3 (6)

9

Page 12: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Beräkning för att räkna ut den uppskattade avståndet är

p− 3

4=

3

4e−4d/3 ⇔ 1− 4

3p = e−4d/3

Vidare förenklingar ger

log(1− 4

3p) = log(e−4d/3)⇔ log(1− 4

3p) = −4d

3

−3

4log(1− 4

3p) = d

Följande blir den slutgiltiga uppskattningen för avståndet

d = −3

4log(1− 4

3p) (7)

När p > 34 går de skattade avståndet inte att tillämpas, två slumpmässiga

sekvenser bör alltså ha omkring 75% olika platser. När p < 34 är de skattade

avståndet oändligt. Sannolikheten, p, är binomial i förhållande till variansen,p(1−p)n . Variansen av de skattade avståndet, d, ska nu härledas, där d är en

funktion av den skattade sannolikheten, p. Gauss-approximationen används föratt räkna ut variansen.

var(d) = var(p) · | ddp|= p(1− p)

n· 1

(1− 4p3 )2

(8)

Gauss-approximationen används som en generell riktlinje för att derivera vänte-värdet, variansen och kovariansen av funktion med slumpmässiga variabler. Dären icke-linjär funktion, f(x), där x är en slumpmässig variabel som har vänte-värdet är µ och variansen är σ2. Följande gäller E(f(x)) 6= fE((x)). När n ärett positivt heltal, kan taylorutvecklingen skrivas som följande med ordningenn och funktionen, f ,

f(x) = Tn(x) +Rn(x)

där

Tn(z) = f(a) +f ′(a)

1!(z − a) +

f ′′(a)

2!(z − a)2 + . . .+

f (n)(a)

n!(z − a)n (9)

Taylorutvecklingen ska nu tillämpas på Gauss-approximation. Taylorutvecklingav f(x) runt väntevärdet µ ger

f = f(x) = f(µ) +df(µ)

dx(x− µ) +

d2f(µ)

2! dx2(x− µ)2 + . . . (10)

Funktionen, f , och derivatorna är ekvivalent med x = µ. Alla termer medexponent tre eller högre ger ett väntevärde för funktionen. Det approximeradeväntevärdet för funktionen, f , blir

10

Page 13: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

E(f) ≈ f(µ) +1

2

d2f(µ)

dx2σ2

Där E(x− µ) = 0 och E(x− µ)2 = σ2. Derivatan är ekvivalent med x = µ ochde är konstant där när man tar förväntade värden över x. Den approximerandevariansen av funktionen, f , och den uppskattade parametern x.

var(f) ≈ E(f − E(f))2 ≈ σ2

[df(µ)

dx

]Efter att ha räknat ut variansen av den skattade sannolikheten, p, var(p) =p(1−p)n , och variansen av det skattade avståndet, d, var(d) = p(1−p)

n · 1(1−4p/3)2 ,

kan man beräkna derivatan av dem, âdâp = 1

(1− 4p3 )

. Slutligen tillämpas detta

tillsammans med ett approximerat 95%-kon�densintervall, d ± λ0.025. ε. Där εär de standard felet, ε =

√var(d), och där signi�kansnivån på 95% ger λ0.025 =

1.96 . Olika signi�kanta nivåer och dess värden kommer från tabell som liggerunder bilagor, bilaga 8.1.

3.2 K80 (Kimura 1980)

I K80 modellen �nns en substitution mellan antingen två pyrimidin (hetero-cyklisk förening, cytosin och tymin) T ↔ C eller mellan två puriner (hetero-cyklisk kväveförening, har två ringar, adenin och guanin) A↔ G. När någon avdessa två sker benämns det för transition. Substitutioner sker mellan pyrimidinoch puriner (T,C ↔ A,G) och det benämns för transversioner. I verklighetenuppkommer transitioner med högre frekvens än transversioner. Alltså notera atttransitionen och transversionen inom biologin inte har exakt samma sannolikhetsom för modellerna. Substitutionsfrekvensen för transitionen kallas för α och förtransversionen β. Frekvensmatrisen blir som följer

Q = {qij} =

−(α+ 2β) α β β

α −(α+ 2β) α ββ α −(α+ 2β) αβ β α −(α+ 2β)

(11)

Den totala substitutionsfrekvensen för någon nukleotid är α+2β. Där avståndetmellan två sekvenser multipliceras med tiden t, vilket ger avståndet d = (α +2β)t. Där αt är det förväntade värdet transitioner per plats och 2βt är detförväntade värdet för transversioner per plast. Oftast används avståndet, d,eller transitions-/transversionsfrekvenskvoten, κ = α

β . Jämviktsfördelningen

för K80 är identisk som för JC69, alltså π = ( 14 ,

14 ,

14 ,

14 ). Där πQ = 0 givet att∑

i πi = 1. Övergångsmatrisen är följande

11

Page 14: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

P (t) = {pij(t)} = eQt =

p0(t) p1(t) p2(t) p2(t)p1(t) p0(t) p2(t) p2(t)p2(t) p2(t) p0(t) p1(t)p2(t) p2(t) p1(t) p0(t)

(12)

De tre olika övergångssannolikheterna, p, som �nns i matrisen beräknas viataylorutveckling, se ekvation (9), och blir med de nya värdena.

p0(t) = 1

4 + 14e−4βt + 1

2e−2(α+2β)t = 1

4 + 14e−4d(κ+2) + 1

2e−2d(κ+1)/(κ+2)

p1(t) = 14 + 1

4e−4βt − 1

2e−2(α+2β)t = 1

4 + 14e−4d(κ+2) − 1

2e−2d(κ+1)/(κ+2)

p2(t) = 14 −

14e−4βt = 1

4 −14e−4d(κ+2)

(13)Summan av en radmatris måste bli värdet ett, det vill säga p0(t) + p1(t) +2p2(t) = 1. Denna datasekvens kan nu delas in i andelar av transitional ochtransversional di�erens, de kommer att få betäckningarna S och V. Genomsymmetrin i modellen och matris (12) blir sannolikheten för uppkomsten av enplats nukleotider den transitionala di�erensen E(S) = p1(t) och transversionaladi�erensen E(V ) = 2p2(t). Där det skattade avståndet, d, samt de skattadetransitions-/transversionsfrekvenskvoten, κ, ger

p = p1(t) + 2p2(t) =1

4+

1

4e−4βt − 1

2e−2(α+2β)t + 2(

1

4− 1

4e−4βt)

=1

4+

1

4e−4d(κ+2)−1

2e−2d(κ+1)/(κ+2)+2(

1

4−1

4e−4d(κ+2)) =

3

4−1

4e−4d(κ+2)−1

2e−2d(κ+1)/(κ+2)

Det skattade avståndet, d, blir

d = −1

2log(1− 2S − V )− 1

4log(1− 2V ) (14)

Där det skattade transitions-/transversionsfrekvenskvoten, κ, blir

κ =2log(1− 2S − V )

log(1− 2V )− 1 (15)

Transitionsavståndet är ekvivalent med αt och transversionsavståndet med 2βtoch är skattade till följande

αt = −1

2log(1− 2S − V ) +

1

4log(1− 2V ) (16)

2βt = −1

2log(1− 2V ) (17)

12

Page 15: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Transitionsavståndet gäller endast om 1−2S−V > 0 samt 1−2V > 0. S och Vfår följande varianser var(S) = S(1−S)

n och var(V ) = V (1−V )n . Det ger en kovari-

ans på cov(S, V ) = −SVn . Därefter används Gauss-approximationen, se ekvation(10), och deriverar varians-kovariansmatrisen. Varians-kovariansmatrisen ser utsom följer

var(SV

) =

(S(1−S)

n−SVn

−SVnV (1−V )

n

)(18)

där n står för antal platser i sekvensen. En skattning görs av d och κ på enfunktion av S och V . Tillämpningen blir följande

var(dκ

) = J · var( SV

) · JT (19)

J står för en Jacobimatris av en anpassad storlek m x n. Här blir Jacobianenföljande

J =

(∂d∂S

∂d∂V

∂κ∂S

∂κ∂V

)

=

(1

1−2S−V1

2(1−2V ) + 12(1−2S−V )

− 4(1−2S−V )log(1−2V ) − 2

(1−2S−V )log(1−2V ) + 4log(1−2S−V )(1−2V )(log(1−2V ))2

)(20)

Det gör att att variansen av d slutligen kan deriveras. Så

var(f) ≈n∑i=1

n∑j=1

cov(xi, xj)(∂f

∂xi)(∂f

∂xj) (21)

som är variansen av ett enkelvärdesfunktion av f(x) approximerat av x. Därcov(xi, xj) är kovariansen av xi och när i 6= j och när i = j blir det variansenistället. Därefter får man

var(d) =(∂d

∂S)var(S) + 2 · ∂d

∂S· ∂d∂V· cov(S, V ) + (

∂d

∂V)2var(V )

=[a2S + b2V − (aS + bV )2

]/n

(22)

där a och b står för följande

a = (1− 2S − V )−1 (23)

b =1

2

[(1− 2S − V )−1 + (1− 2V )−1

](24)

13

Page 16: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Till sist kan man använda det man beräknat och tillämpa de i ett approximerat95%-kon�densintervall d±λ0.025. ε. Avståndet och standard felet räknas ut ifrånS och V . Det går även att studera transitionsfrekvensen för att se hur mycketstörre eller mindre den är jämfört med transversionsfrekvensen.

3.3 Generellt för båda modellerna

Låt tillståndet i kedjan vid tidpunkt t så den blir X(t). X(t) är en av de fy-ra nukleotiderna A,T,C eller G. Antag att alla positioner i en DNA-sekvensutvecklas oberoende och att markovprocessen används för att beskriva nukleo-tidsubstitutionerna för alla positioner. Där är Pr {X(t+ �t | X(t) = i} = qij�tom markovprocessen qij beror av tiden t. Beror qij inte av tiden, t, säger manatt den är tidshomogen. Den generella modellen utan några begränsningar avuppbyggnaden utav frekvensmatrisen, Q, kommer att bestå av 12 fria paramet-rar. Den angivna frekvensmatrisen, Q, över någon tid t > 0 : P (t) = {pij(t)},där pij(t) = Pr {X(t) = j | X(0) = i}. P (t) ger alltså följande ekvation

dP (t)

dt= P (t)Q, (25)

med ett randvillkor på P (0) = I, där I är identitetsmatrisen. Detta ger i sin turlösningen

P (t) = eQt (26)

Frekvensmatrisen, Q, och tiden, t, är en produkt där Q varierar i olika skal-faktorer att den genomsnittliga frekvensen blir ett. Markovkedjan X(t) har eninitial fördelning π(0) = (π

(0)T , π

(0)C , π

(0)A , π

(0)G ), medan tiden t har fördelningen

π(t) = (π(t)T , π

(t)C , π

(t)A , π

(t)G ), vilket ger följande

π(t) = π(0)P (t) (27)

Ett exempel om man tar ekvation (27) med nukleotiden T som slutpunkt ochett initialvärde på noll. Får man ekvationen π(t) = (π

(0)TT , π

(0)CT , π

(0)AT , π

(0)GT ). När

den initiala och slutliga fördelningen är ekvivalenta, det vill säga π(0) = π(t),så kommer kedjan att stanna i fördelningen i en oändlighet. Då säger man attkedjan är stationär eller att den är i jämvikt. Man säger även att fördelningen πär stationär eller i steady-state fördelning. Markovkedjan gör att alla tillståndkan anta vilket annat tillstånd inom en ändlig tid med en positiv sannolikhet.Denna kedja säger man är irreducibel och har då en unik stationär fördelning,vilket också är begränsad fördelning när tiden t → ∞. Från ekvation (27) ärföljande ekvivalent

πQ = 0 (28)

Notera att de totala �ödet av något j är∑i 6=j πiqij medan det totala ut�ödet

är för något j är −πjqjj . När kedjan är stationär kommer detta tillsammansmed ekvation (28) att vara identiska, alltså

∑i πiqij = 0 för något j. Ekvation

(28) tillsammans med πj > 0 och∑j πj = 1 ger oss möjlighet att bestämma

den stationära fördelningen från Q för någon markovkedja.

14

Page 17: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

3.4 Avståndsuppskattning med UNREST

UNREST är en generell modell för nukleotidsubstitution med en frekvensmatris,Q, utan några större begränsningar och med 12 parametrar. Frekvensmatrisen,Q, de�nieras av den relativa frekvensen där 11 parametrar är involverade. Model-len implementerades av Yang (1994b) för att uppskatta avståndet av sekvensersom använder två grenlängder, t1 och t2. Maximum likelihood-metoden ger denmultinomiella sannolikheten med 16 olika cellerna, där de 16 cellerna motsvarar16 möjliga kombinationer. Låt funktionen fij(t1, t2) vara sannolikheten för denij-te cellen, det vill säga den sannolikhet för att någon plats har nukleotid i i enasekvens och nukleotid j i den andra sekvens. Då de fyra möjliga nukleotidernahärstammar från förfäder måste den genomsnittliga beräknas över dem

fij(t1, t2) =∑k

πkpki(t1)pkj(t2) (29)

Låt nij vara antalet platser i den ij-te cellen. Då blir logaritmen av maximumlikelihood-metoden som följer

`(t1, t2, Q) =∑i,j

nij log{fij(t1, t2)} (30)

Frekvensparametrarna πT , πC , πA, πG de�nieras från frekvensmatrisen, Q,med hjälp av ekvation (30) och de är inte fria parametrar. Det �nns dock tvåproblem med denna modell som därför inte alltid gör att den är helt lämplig atttillämpa. Det ena problemet är att den numeriska metoden som används för atthitta maximum likelihood-metodens parametrarna där ingen analytisk lösningverkar möjlig. Egenvärdena för frekvensmatrisen Q tar nämligen inte hänsyntill komplexa tal. Den andra anledningen är att den typiska datamängdernasällan är tillräckliga för att ge otillräckligt med information för att kunna skattaparametrarna.

4 Maximum likelihood-metoden

Generellt används maximum likelihood som en metod för att skatta paramet-rar i en modell och för att testa hypoteser om parametern. Denna metod harmånga användningsområden och inom molekylärfylogeni har den en viktig roll.Här används maximum likelihood-metoden för att uppsatta avståndet i en se-kvens. Låt X vara vår data och θ den parameter som man vill skatta. Maximumlikelihood-funktionen betecknas som följande L(θ;X) = f(θ | X). Den kan medord förklaras så att sannolikheten av den observerade informationen är X meden studerad funktion av en okänd parameter θ, med en given data. Likelihood-principen säger att maximum likelihood-funktionen har all information i dataom θ.

15

Page 18: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

4.1 JC69

Vid användning av maximum likelihood-metoden för JC69 skattas avståndetmellan sekvenser och parametrar, där avståndet är d. Data för två sekvensersom vardera har n platser och x antal skillnader mellan de två sekvenserna.Detta är sannolikheten p för att en plats har olika nukleotider mellan de tvåsekvenserna med en avståndet d, som ger följande

p = 3p1(t) =3

4− 3

4e−4d/3 (31)

Sannolikheten för den observerade data, x, som är antal skillnader mellan detvå sekvenserna och består av n antal platser, får man genom den binomialsannolikheten.

L(d;x) = f(x | d) = Cpx(1− p)n−x = C(3

4− 3

4e−4d/3)x(

1

4+

3

4e−4d/3)n−x (32)

Sannolikheten av den observerade data, x, skrivs som en funktion utav parame-tern d, det vill säga avståndet. Värden för avståndet, d, med ett högt värde avmaximum likelihood, L, stöds bättre än för låga värden för maximum likelihood,L. Ekvation (32) ska nu kompletteras. Först adderas den binomiala koe�cien-

ten, C =[

n!x!(n−x)!

], men eftersom det är en konstant och kan den förkastas.

Samma de�nition kommer därför att användas för samtliga substitutionsmodel-ler och där det �nns 16 möjligheter istället för två stycken som i ekvation (32), poch 1− p. I JC69 �nns fyra konstanta mönster (TT, CC, AA, GG) där alla harsamma sannolikhet att inträ�a, där det är lika för de andra 12 möjligheterna(TC, TA, TG etc.). Detta är en omde�nierad multinomial sannolikhet för 16celler

L(d;x) = (1

4p1)x(

1

4p0)n−x = (

1

16− 1

16e−4d/3)x(

1

16− 3

16e−4d/3)n−x (33)

Parametrarna p0 och p1 kommer från den tidigare ekvation (3). De andra 12möjligheterna har en sannolikhet på p1

4 eller p12 . Då blir sannolikheten för den

första nukleotiden 14 , då det existerar fyra möjligheter (A, T, C, G). Sanno-

likheten att det sker en transition är p1, detta tillsammans blir då p14 . Är det

istället en transversion blir det istället p04 och 1−p

12 . Det går enkelt att se hurekvationerna (32) och (33) enbart skiljer sig på proportionerna av konstanter-na. Sannolikheten för maximum likelihood, L, är väldigt små och blir därförganska besvärliga att arbeta med. Det är därför vanligt att man istället an-vänder logaritmen, `(d) = log {L(d)}. Logaritmfunktionen är monoton och denuppnår samma resultat som är L(d1) > L(d2) om och endast om `(d1) > `(d2).Logaritmfunktionen blir följande

`(d;x) = log {L(d;x)} = x log(1

16− 1

16e−4d/3)+(n−x)log(

1

16+

1

16e−4d/3) (34)

16

Page 19: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Genom att d`dd = 0 kan man bestämma att logaritmen, `, är maximerad av

maximum likelihood, L. Därifrån kan man få det skattade avståndet, d,

d = −3

4log(1− 4

3

x

n) (35)

Detta är precis lika som avståndet i ekvationen (7) för JC69-modellen somderiverades och hade i den ekvationen p = x

n .

4.2 K80

K80-modellen har �era parametrar än JC69, vilket gör att maximum likelihood-metoden behöver justeras lite i jämfört med det tidigare avsnittet. Maximumlikelihood-metoden tillämpas för att uppskatta sekvensens avstånd, d, samttransitions-/transversionsfrekvensens förhållande till, κ. Informationen som krävsför metoden är antalet nukleotider, n, samt antalet antalet övergångar, nS , ochantalet transversionaler, nV . Sannolikheten beräknas för en konstant plats (ex-empelvis TT ) är p0

4 , och sannolikheten för en transitions skillnaden (exempelTC) är p1

4 . Till sist är sannolikheten för en transversell skillnad (till exempelTA) p2

4 . I ekvation (13) anges vad p0, p1 och p2 står för. Log-likelihood är

`(d, κ | nS , nV ) = log{f(nS , nV | d, κ)}

=(n− nS − nV ) log(p04

) + nS log(p14

) + nV log(p24

)

Maximum likelihood-metoden av avståndet, d, och transitions- /transversions-frekvenskvoten, κ, härleds genom ∂`

∂d = 0 och ∂`∂κ = 0. Detta kan lösas med

ekvation (15), S = nS

n och V = nV

n .

5 Uppbyggnad av fylogenetiska träd

Det kommer att visas i en enklare grad hur man konstruerar och skapar fyloge-netiska träd. Ett fylogenetiska träd är en trädliknande graf där man ingåendestuderar relationer mellan arter, gener eller individer. Inom matematiken byggsgrafer upp med �hörn� och �kanter� som bygger upp trädet bildligt. Här kommerdet att skrivs om fylogeniträd uppbyggnad av arter. När ett träd konstruerasför arter kommer de externa noderna, eller löven som de också kallas, att re-presentera de arter som existerar idag och de interna noderna är arter som ärutdöda. Slutligen vid roten av de fylogenetiska träd �nns förfäderna. Trädenritas vanligtvis med roten högst upp där de interna noderna infaller nedanföroch avslutas trädet med de externa noderna. Det är så generellt träden är upp-byggda, men det �nns såklart �era modeller utav uppbyggnad av träd. Ett trädkan till exempel vara orotad, då är man inte är säker på vilken förfadern är.Det ger trädet en lite mer rundare form. Har man en evolutionsfrekvens somär konstant över tiden så kallar man det för den molekylära klockan. Då av-ståndsmatrisen och maximum likelihood-metoden identi�erar roten och sedan

17

Page 20: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

konstruerar trädet. Utan den molekylära klockan är de svårt att identi�era ro-ten, vilket gör det svårare att skapa ett träd. I ett fylogenetiskt träd brukarman kalla de närmsta besläktade arterna för ingrupper och de som är släkt pålite längre håll för utgrupper. Två vanliga trädtyper är kladogram och fylogram.Ett kladogram är ett träd som inte visar någon information av grenarnas längdmedan ett fylogram ger information genom grenarnas längder.

5.1 Avstånd mellan arter

Avståndsmetoder innebär två steg; beräkning av genetiska avstånd mellan tvåarter och rekonstruktion av ett fylogenetiskt träd från en avståndsmatris. Enav de simplare avståndsmetoden är kanske UPGMA (Sokal och Sneath 1963).Denna metod är baserad på den molekylära klockans antagande och genererarrotade träd. Det är tillämpligt på befolkningsuppgifter och används sällan föratt analysera data arter, eftersom klockan ofta krävs när sekvenserna är avvi-kande. En metod som inte kräver den molekylära klockans antagande är denminstakvadratmetoden.

5.1.1 Minstakvadratmetoden

Minstakvadratmetoden tar den parvisa avståndsmatrisen, med given data, ochuppskattar grenarnas längd på ett träd genom att para ihop deras avstånd sånoga som möjligt. Det görs genom att minimera summan av kvadratskillnadenmellan det förutbestämda avståndet, d, och det skattade avståndet, d. De förut-bestämda avståndet beräknas genom att summera grenarnas längd mellan tvågränsande arterna. Låt avståndet mellan art i och j vara dij . Låt summan avgrenarnas längd från art i till j vara dij . Därefter används minstakvadratmeto-den för att minimera summan över samtliga par i och j med kvadratskillnaden(dij − dij)2, så att trädet passar avståndet så mycket som möjligt. Summan avkvadratskillnaden är som följer

S =∑i<j

(dij − dij)2 (36)

18

Page 21: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Om man exempelvis har fyra arter a, b, c och d som bildar följande träd

Fig.4: Ett artträd som demonstrerar för minstakvadratmetoden där krite-rier för grenarna ((a, b), c, d)

Trädet består av fem grenar, t0, t1, t2, t3 och t4. Det förutsagda avståndetmellan till exempel a och b är t1 + t2 medan för a och c är avståndet t1 + t0 + t2.För a och d är avståndet t1 + t0 + t4, för b och c är avståndet t2 + t0 + t3 och tillsist är avståndet för c och d är lika med t3 + t4. Summan av kvadratskillnadenför detta fall är följande

S =∑i<j

(dij − dij)2 = (d12 − d12)2

+(d13 − d13)2 + (d14 − d14)2 + (d23 − d23)2 + (d24 − d24)2 + (d34 − d34)2

5.2 Maximum likelihood-metoden - �er generationer

Här diskuteras och beräknas sannolikheten för multipla sekvenser på ett fyloge-netiskt träd. Detta kommer att ske som en naturlig förlängning från de tidigareberäkningar av avståndet mellan två sekvenser. Boken går igenom två sätt attberäkna detta på, men i det här arbetet blir det bara fokus på en av möjligametoder. Den metoden uppskattar parametrar i den evolutionära modellen ochtestar en hypotes om den evolutionära processen när en trädtopologi är kändsamt �xerad. Där tillämpas maximum likelihood-metoden som har många brastatistiska egenskaper och som ger en kraftfull och �exibel för denna analys.

5.2.1 Likelihood beräkningar på träd

Som det tidigare förklarades de�nierar maximum likelihood-metoden sannolik-heten för att observera data för en given parameter, även fast de anses vara enfunktion av parametrar. Här kommer man att utgå från K80 metoden. Manutgår från att de olika platserna utvecklas oberoende av varandra och att engren är oberoende av en annan gren.

19

Page 22: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Fig.5: Ett träd med 5 arter som används för att demonstrera exemplet somanvänds under maximum likelihood-funktionen. Grenarnas längd ärmätta med förväntat antal nukleotid substitutioner per plats.

Förfäderna i trädet i Figur 5 är noderna 0, 6, 7 och 8, där 0 är roten. Grenarnaslängder betecknas ti, där i står för noden grenen går till. Parametrarna i model-len inkluderar grenarnas längd och dess transition-/transversionsfrekvensen, κ, med gemensamma betäckningar θ = {t1, t2, t3, t4, t5, t6, t7, t8, κ}. Eftersom an-tagandet av en oberoende evolution mellan platserna där sannolikheten av heladatasekvensen är produkten av sannolikheten för enskild individs plats. Dettaär ekvivalent med logaritmen av maximum likelihood-metoden är summan överplatserna i sekvensen.

` = log(L) =∑

log{f(xn | θ)}

6 Resultat

6.1 Människa (Homo sapiens) D38112 mot Schimpans (Pantroglodytes)

Här jämförs genfrekvensen D38112 hos en människa med en schimpans. Genfre-kvensen �nns under bilagor, bilaga 8.3.1. De först 960 nukleotiderna har blivitjämförda med varandra, dock har de nukleotiderna som inte kunnat jämförastagits bort så det totala antalet jämförda nukleotider är 956 stycken. Tabell 1är lätt avrundad med små modi�eringar.

20

Page 23: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

MänniskaSchimpans T C A G

∑π

T 195(0.2039) 15(0.0157) 0(0) 4(0.0042) 0.2238C 9(0.0094) 247(0.2584) 2(0.0021) 0(0) 0.2699A 0(0) 0(0) 309(0.3232) 0(0) 0.3232G 0(0) 0(0) 6(0.0063) 169(0.1768) 0.1831∑π 0.2133 0.2741 0.3316 0.1810

∑1

Tabell 1.

Tabell 1 visar alla nukleotider i sekvensen och vilka nukleotider som skiljer sigåt mellan arterna. I parenteserna visas di�erensen för alla möjliga utfall. Detgenomsnittliga värdet på frekvensen för de olika nukleotiderna är T = 0.21855,C = 0.24685, A = 0.30075 och G = 0.18205.

6.1.1 JC69 modellen

De totala antalet nukleotider från genfrekvensen som är jämförda i det här falletär n = 956. De nukleotider som skiljer sig från varandra summeras ihop, x = 2+6+9+15+4 = 36. Tillsammans med n och x räknas andelen olika platser ut, p =xn = 36

956 = 0.03765690377. De skattade avståndet beräknas från ekvation (7),

d = − 34 log(1− 4

3 p) = 0.03863515. Därefter räknas variansen ut från ekvation (8),

var(d) = p(1−p)n

1(1− 4

3 p)2 = 0.00004202. Variansen behövs för att kunna räkna ut

standardfelet, som är roten ur på variansen, så standardfelet blir ε =

√var(d) =

0.0064823. Till sist tillämpas ett approximerat 95%-kon�densintervall

d ± λ0.025 · ε =

{0.0513405

0.0259298

där λ0.025 = 1.96, värdet �nns i tabellen under bilagor, bilaga 8.1. Om variansenistället räknas ut med sannolikheten, p, från ekvation (8), var(p) = p(1−p)

n =

0.0000379. Det nya standardfelet räknas ut till ε =√var(p) = 0.006157 och de

approximerade 95%-kon�densintervallet blir

d ± λ0.025 · ε =

{0.0507026

0.0265677

Från ekvation (33) kan man räkna ut maximum liklihood där p : p = xn

`(d) =`(p) = x log(x

12n) + (n− x) log(

n− x4n

)

=36 · log(36

12 · 956) + (956− 36) log(

956− 36

4 · 956) = −1518.213558

21

Page 24: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Genom att sänka värdet av log-likelihood till χ21,5% från toppen skapas ett

approximerat 95%-kon�densintervall för avståndet, d, och sannolikheten, p. Dengenerella formen är χ2

k,5% där k står för grad av frihet och det står för antalet

parametrar. Då får vi χ21,5%/2 = 3.841/2 = 1.921, vilket ger `(p) = `(d) = `(d)−

χ21,5%/2 = −1520.134559 . Därefter görs en fplot av maximum likelihood-

funktionen av avståndet, d. Därefter studeras intervallet för avståndet, d, underχ21,5% som blir `(d) = −1520.134559.

Fig 6: Graf av loglikelihood-funktionen över avståndet, d, för JC69. Grafenvisar vilka värden kon�densintervallet under χ2

1,5% antar.

Grafen ger oss ett intervall för avståndet, d, på (0.02659, 0.05104). Gör man enfplot på maximum likelihood av sannolikheten, p, istället och studerar inter-vallet för det under χ2

1,5% , `(p) = −1520.134599.

Fig 7: Graf av loglikelihood-funktionen över sannolikheten, p, för JC69.Grafen visar vilka värden kon�densintervallet under χ2

1,5% antar.

Intervallet över sannolikheten, p, blir som följer (0.02714, 0.0506).

22

Page 25: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

P (t) = eQt =

p0(t) p1(t) p1(t) p1(t)p1(t) p0(t) p1(t) p1(t)p1(t) p1(t) p0(t) p1(t)p1(t) p1(t) p1(t) p0(t)

där övergångssannolikheterna blir{

p0(t) = 14 + 3

4e−4λt = 1

4 + 34e−4d/3 = 0.962343

p1(t) = 14 −

14e−4λt 1

4 −14e−4d/3 = 0.0125523

En kontroll görs, p0 + 3 · p1 = 1, och det visar att det stämmer.

6.1.2 K80-modellen

Här beräknas K80-modellen för samma data som för JC69. Beräkningarna förK80 blir bara lite mer precisare än för JC69. Istället för att endast räknaalla nukleotider som skiljer sig från varandra delar man upp de i två grup-per, transitions och transversions skillnad. Andelen av alla transitions skill-nader blir S = (9 + 15 + 6 + 0)/956 = 30/956 = 15/478 och transversionsskillnaden blir V = (0 + 0 + 0 + 0 + 2 + 4 + 0 + 0 + 0)/956 = 6/956 =

3/478. Efter detta beräknas de skattade avståndet ut från ekvation (14), d =− 1

2 log(1 − 2S − V ) − 14 log(1 − 2V ) = 0.03892616. Variansen av det skatta-

de avståndet är var(d) = a2S+b2V−(aS+bV )2

n , där a = (1 − 2S − V )−1 ochb = 1

2

[(1− 2S − V )−1 + (1− 2V )−1

]. Genfrekvensens data räknas ut och blir

a = 1.074157, b = 1.043435 och var(d) = 0.0000434067. Med all insamlad datakan det approximerade 95%-kon�densintervallet beräknas till

d ± λ0.025 · ε =

{0.05183938

0.02601294

där standardelet är ε =

√var(d) = 0.00658838. Från ekvation (15) kan den

skattade transitions- och transversionsfrekvenskvoten beräknas, som blir κ =2log(1−2S−V )log(1−2V ) − 1 = 10.326454. Detta visar oss att transitionsfrekvenskvoten är

ungefär 10 gånger högre än transversionfrekvenen.

αt =− 1

2log(1− 2S − V ) +

1

4log(1− 2V )

=− 1

2log(0.9309623) +

1

4log(0.9874477) = 0.0326103

2βt = −1

2log(1− 2V ) = −1

2log(0.9874476) = 0.00631587

23

Page 26: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Maximum likelihood-metoden beräknas enligt ekvation (36) och ser ut somföljer

`(d, κ | nS , nV ) = (n− nS − nV ) log(p04

) + nS log(p14

) + nV log(p24

)

där övergångssannolikheten blir

p0(t) = 1

4 + 14e−4βt + 1

2e−2(α+β)t = 1

4 + 14e−0.01263174 + 1

2e−0.07153645 = 0.962343

p1(t) = 14 + 1

4e−4βt − 1

2e−2(α+β)t = 1

4 + 14e−0.01263174 − 1

2e−0.07153645 = 0.031381

p2(t) = 14 −

14e−4β = 1

4 −14e−0.01263174 = 0.003138

Detta ger oss följande

`(d, κ | nS , nV ) = (956−30−6) log(p04

)+30 log(p14

)+6 log(p24

) = −1468.654387

En kontroll kan görs för att kotrollera att värdena för övergångssannolikheter-na stämmer, p0 + p1 + 2 · p2 = 1. I vårt fall stämmer kontrollera. Även härstuderas χ2

1,5% med en frihetsgrad 1 och från toppen skapas ett approxime-rat 95%-kon�densintervall för avståndet, d. Där χ2

1,5%/2 = 1.921 vilket ger oss

`(d)− χ21,5%/2 = −1500.963602 .

Fig 8: Graf av likelihood över sannolikheten, p, för K80. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

Från grafen får vi intervall (0.02903, 0.05089). För att kunna räkna ut variansenav d över κ behövs bland annat variansen av S över V samt jacobianen, J .Ekvation (19) visar hur formeln ser ut. Variansen av S över V beräknas påföljande sett

var(SV

) =

(S(1−S)

n −SVn−SVn

V (1−V )n

)=

(0.00003179498 −0.00000020601−0.00000020601 0.00000652381

)

24

Page 27: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Där jacobianen räknas ut såhär

J =

(1

1−2S−V1

2(1−2V ) + 12(1−2S−V )

−4(1−2S−V ) log(1−2V )

−2(1−2S−V )log(1−2V ) + 4log(1−2S−V )

(1−2V ) (log(1−2V ))2

)

=

(1.0741573 1.0434346340.14539 −1646.05531

)Med all denna information kan nu variansen av det skattade avståndet,d,

över det skattade transitions-/transversionsfrekvenskvoten,κ, beräknas

var(dκ

) = J · var( SV

) · JT =

(0.0000433265 0.00070308520.0007030852 21.585582163

)

6.2 Människa (Homo sapiens) D38112 mot Gorilla (Goril-la gorilla)

Här jämförs genfrekvensen D38112 hos en människa med en gorilla. De först960 nukleotiderna har blivit jämförda med varandra, dock har de nukleotidernasom inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotiderär 956 nukleotider. Genfrekvenserna �nns under bilagor, bilaga 8.3.2.

MänniskaGorilla T C A G

∑π

T 194(0.2029) 12(0.0126) 0(0) 6(0.0063) 0.2218C 12(0.0126) 244(0.2552) 1(0.0010) 0(0) 0.2688A 0(0) 3(0.0031) 312(0.3264) 0(0) 0.3295G 0(0) 0(0) 5(0.0052) 167(0.1747) 0.1799∑π 0.2155 0.2709 0.3326 0.181

∑1

Tabell 2.

Tabell 2, visar alla nukleotider i sekvensen och vilka nukleotider som skiljersig åt mellan arterna. I parenteserna visas di�erensen för alla möjliga utfall.Medelvärdet av frekvensen för de olika nukleotiderna är T = 0.21865, C =0.26985, A = 0.33105 och G = 0.18045.

6.2.1 JC69 modellen

De totala antalet nukleotider från genfrekvensen som är jämförda är n = 956.De nukleotider som skiljer sig från varandra summeras ihop x = 1+5+12+3+12 + 6 = 39. Tillsammans med n och x räknas andelen olika platser ut, p = x

n =39956 = 0.04079498. Det uppskattade avståndet beräknas genom ekvation (7),

d = − 34 log(1 − 4

3 p) = 0.041946. Därefter räknas variansen ut för det skattade

25

Page 28: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

avståndet, d, från ekvation (8) vilket ger oss p(1−p)n

1(1− 4

3 p)2 = 0.00004578. Vari-

ansen behövs för att kunna beräkna standardfelet, detta görs genom att roten

ur på variansen, ε =

√var(d) = 0.0067658. Till sist tillämpas ett approximerat

95%-kon�densintervall

d ± λ0.025 · ε =

{0.0552074

0.0286854

där λ0.025 = 1.96 och tabellen �nns under bilagor, bilaga 8.1. Om variansenkalkyleras ut med sannolikheten, p, istället i ekvation (8) får vi var(p) =p(1−p)n 0.00004093. Det nya standardfelet räknas ut och blir ε =

√var(p) =

0.0063978 och det approximerade 95%-kon�densintervallet justeras till följande

d ± λ0.025 · ε =

{0.0544860

0.0294067

Maximum likelihood ger oss

`(d) =`(p) = x log(x

12n) + (n− x) log(

n− x4n

)

=39 · log(39

12 · 956) + (956− 39) log(

956− 39

4 · 956) = −1531.105397

Genom att sänka log-likelihood till χ21,5% från maximum likelihood-metoden

skapas ett 95% intervall för avståndet, d, och sannolikheten, p. Där χ21,5%/2 =

3.841/2 = 1.921 vilket ger `(p) = `(d) = `(d)− χ21,5%/2 = −1533.026397 . Där-

efter görs en fplot av maximum likelihood funktionen av avståndet,d. Därefterstuderas intervallet av avståndet, d, under χ2

1,5% alltså för `(d) = −1533.026397.

Fig 9: Graf av likelihood över avståndet, d, för JC69. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

26

Page 29: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Detta ger oss ett intervall för avståndet, d, på (0.02956, 0.05715). Om en fplot

istället görs på maximum likelihood av sannolikheten, p, och studerar intervalletav p under χ2

1,5% , `(p) = −1533.026397.

Fig 10: Graf av likelihood över sannolikheten, p, för JC69. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

Intervallet över sannolikheten, p, blir som följer (0.03424, 0.05337).

P (t) = eQt =

p0(t) p1(t) p1(t) p1(t)p1(t) p0(t) p1(t) p1(t)p1(t) p1(t) p0(t) p1(t)p1(t) p1(t) p1(t) p0(t)

där övergångssannolikheten blir{

p0(t) = 14 + 3

4e−4λt = 1

4 + 34e−4d/3 = 0.9592050

p1(t) = 14 −

14e−4λt = 1

4 −14e−4d/3 = 0.01359832

En kontroll görs, p0 + 3 · p1 = 1, och det stämmer.

6.2.2 K80-modellen

Här beräknas K80-modellen istället med samma data som innan. Istället föratt beräkna alla nukleotider som skiljer sig från varandra delar man upp demi två grupper, transitions och transversions skillnader. Andelen av transitionsskillnaden blir S = (12 + 12 + 5 + 0)/956 = 29/956

och transversions skillnaden blir V = (0 + 0 + 3 + 0 + 1 + 6 + 0 + 0)/956 =10/956 = 5/478. Efter detta kalkyleras det skattade avståndet ut från ek-

vation (14) d = − 12 log(1 − 2S − V ) − 1

4 log(1 − 2V ) = − 12 log(0.928870) −

14 log(0.979079) = 0.0421787. Variansen av det skattade avståndet är var(d) =a2S+b2V−(aS+bV )2

n , där a = (1−2S−V )−1 och b = 12

[(1− 2S − V )−1 + (1− 2V )−1

].

Med genfrekvensens data blir a = 1.076577, b = 1.048972 och

27

Page 30: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

var(d) = 0.00004690. Med all insamlad data kan ett approximerat 95%-kon�densintervall beräknas till

d ± λ0.025 · ε =

{0.05560158

0.02875581

där standardfelet är ε =

√var(d) = 0.00684841. Från ekvation (15) kan den

skattade transitions- och transversionsfrekvenskvoten beräknas till κ = 2log(1−2S−V )log(1−2V ) −

1 = 5.9799117. Detta visar oss att transitionsfrekvensen är nästan 6 gånger hög-re än transversionfrekvensen.

αt = −1

2log(1−2S−V )+

1

4log(1−2V ) = −1

2log(0.928870)+

1

4log(0.979079) = 0.0316075

2βt = −1

2log(1− 2V ) = −1

2log(0.979079) = 0.0105712

Maximum likelihood-metoden beräknas enligt ekvation (35)

`(d, κ | nS , nV ) = (n− nS − nV ) log(p04

) + nS log(p14

) + nV log(p24

)

där övergångssannolikheten blir

p0(t) = 1

4 + 14e−4βt + 1

2e−2(α+β)t = 1

4 + 14e−0.0211424 + 1

2e−0.0737862 = 0.95920502

p1(t) = 14 + 1

4e−4βt − 1

2e−2(α+β)t = 1

4 + 14e−0.0211424 − 1

2e−0.0737862 = 0.03033473

p2(t) = 14 −

14e−4β = 1

4 −14e−0.0211424 = 0.0052301

Vilket ger oss

`(d, κ | nS , nV ) = (956−29−10) log(p04

)+29 log(p14

)+10 log(p24

) = −1471.895889

Kontrollerar övergångssannolikheternas värden som innan, p0 + p1 + 2 · p2 = 1,och det stämmer. Studera χ2

1,5% med frihetsgraden 1 och från maximum skapasett approximerat 95%-kon�densintervall för avståndet, d. Där χ2

1,5%/2 = 1.921

ger `(d)− χ22,5%/2 = −1519.313464 .

28

Page 31: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Fig 11: Graf av likelihood över avståndet, d, för K80. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

Intervallet för avståndet, d, är (0.03086, 0.0545). För att kunna räkna ut varian-sen av det skattade avståndet, d, över det skattade transitions-/transversionsfrekvenskvoten,κ, behövs bland annat variansen av S över V samt jacobianen, J . Ekvation (19)visar hur formeln ser ut. Variansen av S över V beräknas på här

var(SV

) =

(S(1−S)

n −SVn−SVn

V (1−V )n

)=

(0.000030768 −0.000000332−0.000000332 0.0000108272

)Där jacobianen beräknas såhär

J =

(1

1−2S−V1

2(1−2V ) + 12(1−2S−V )

−4(1−2S−V )log(1−2V )

−2(1−2S−V )log(1−2V ) + 4log(1−2S−V )

(1−2V )(log(1−2V ))2

)

=

(1.076577 1.04897203.6807 −572.5431

)Med all denna information kan nu variansen av det skattade avståndet, d,

över det skattade transitions-/transversionsfrekvenskvoten, κ, beräknas till

var(dκ

) = J · var( SV

) · JT =

(0.00004683 0.000377840.00037785 4.90309071

)

6.3 Människa (Homo sapiens) D38112 mot Bonobo (Panpaniscus)

Här jämförs genfrekvensen D38112 hos en människa med en schimpans. De först960 nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna

29

Page 32: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

som inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotiderär 957 nukleotider. Under bilagor, bilaga 8.3.3. �nns genfrekvensen.

MänniskaBonbo T C A G

∑π

T 196(0.2048) 15(0.0157) 0(0) 5(0.0052) 0.2257C 9(0.0094) 246(0.2571) 2(0.0021) 0 (0) 0.2686A 1(0.0010) 0(0) 310(0.3243) 0 (0) 0.3253G 0(0) 0(0) 5(0.0052) 168(0.1755) 0.1807∑π 0.2152 0.2728 0.3316 0.1807

∑1

Tabell 3.

Tabell 3, visar alla nukleotider i sekvensen och vilka nukleotider som skiljersig åt mellan arterna. I parenteserna visas di�erensen för alla möjliga utfall.Medelvärdet av frekvensen för de fyra nukleotiderna är T = 0.22045, C = 0.2707,A = 0.32845 och G = 0.1807.

6.3.1 JC69 modellen

De totala antalet nukleotider från genfrekvensen som är jämförda är n = 957.De nukleotider som skiljer sig från varandra summeras ihop till x = 2 + 5 +1 + 9 + 15 + 5 = 37. Tillsammans med n och x räknas andelen olika platserut, p = x

n = 37957 = 0.0386625. Det uppskattade avståndet beräknas genom

ekvation (7), d = − 34 log(1 − 4

3 p) = 0.03969494. Därefter räknas variansen av

det skattade avståndet, d, ut från ekvation (8), p(1−p)n

1(1− 4

3 p)2 = 0.00004317.

Variansen behövs som sagt för att kunna beräkna standardfelet, ε =

√var(d) =

0.00657071. Till sist tillämpas ett approximerat 95%-kon�densintervall

d ± λ0.025 · ε =

{0.0525721406

0.0268177406

där λ0.025 = 1.96, tabell �nns under bilagor, bilaga 8.1. Om variansen kalkylerasut med sannolikheten, p, istället i ekvation (8), var(p) = p(1−p)

n = 0.00003884.Det nya standardfelet räknas ut till ε =

√var(p) = 0.00623199 och det nya

approximerade 95%-kon�densintervallet blir

d ± λ0.025 · ε =

{0.0519093

0.0274799

Maximum likelihood-metodens ger följande beräkningar

`(d) =`(p) = x log(x

12n) + (n− x) log(

n− x4n

)

=37 · log(37

12 · 957) + (957− 37) log(

957− 37

4 · 957) = −1523.964465

30

Page 33: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Genom att sänka log-likelihood till χ21,5% från maximum skapas ett 95%

intervall för avståndet, d, och sannolikheten, p. Där χ21,5%/2 = 3.841/2 = 1.921

vilket ger `(p) = `(d) = `(d)−χ21,5%/2 = −1525.885465 . Därefter görs en fplot

av maximum likelihood-funktionen av avståndet, d. Därefter studeras intervalletav avståndet, d, under χ2

1,5% alltså för `(d) = −1525.885465.

Fig 12: Graf av likelihood över avståndet, d, för JC69. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

Detta ger oss ett intervall för avståndet, d, på (0.02907, 0.05184). Om en fplot

istället görs på maximum likelihood av sannolikheten, p, och studerar intervalletav p under χ2

1,5% , `(p) = −1525.885465.

Fig 13: Graf av likelihood över sannolikheten, p, för JC69. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

Figur 13, ovan, ger oss intervallet över sannolikheten, p, blir som följer (0.02966, 0.05047).

31

Page 34: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

P (t) = eQt =

p0(t) p1(t) p1(t) p1(t)p1(t) p0(t) p1(t) p1(t)p1(t) p1(t) p0(t) p1(t)p1(t) p1(t) p1(t) p0(t)

,där övergångssannolikheten blir{

p0(t) = 14 + 3

4e−4λt = 1

4 + 34e−4d/3 = 0.9613375

p1(t) = 14 −

14e−4λt = 1

4 −14e−4d/3 = 0.0128875

En kontroll görs, p0 + 3 · p1 = 1, och är stämmer.

6.3.2 K80-modellen

Här beräknas K80-modellen för samma data som ovan i JC69-modellen. Iställetför att beräkna alla nukleotider som skiljer sig från varandra delar man upp demi två grupper, transitions och transversions skillnaden. Andelen av transitionsskillnaden blir S = (9 + 15 + 5 + 0)/957 = 29/957 = 1/33

och transversions skillnaden V = (1+0+0+0+0+2+5+0)/957 = 8/957. Ef-ter detta kalkyleras det skattade avståndet ut från ekvation (14) d = − 1

2 log(1−2S − V ) − 1

4 log(1 − 2V ) = − 12 log(0.9310345) − 1

4 log(0.983281) = 0.0399445.

Variansen av det uppskattade avståndet är var(d) = a2S+b2V−(aS+bV )2

n , dära = (1− 2S − V )−1 och b = 1

2

[(1− 2S − V )−1 + (1− 2V )−1

]. Genfrekvensens

data beräknas och blir a = 1.074074, b = 1.0455386 och var(d) = 0.0000443707.Med all insamlad data kan det ett approximerat 95%-kon�densintervall beräk-nas till

d ± λ0.025 · ε =

{0.05300037

0.02688872

där standardfelet, ε =

√var(d) = 0.006661. Från ekvation (15) kan den skattade

transitions- och transversionsfrekvenskvoten beräknas, κ = 2log(1−2S−V )log(1−2V ) − 1 =

7.4766188. Detta visar att transitionsfrekvensen är ungefär 7 gånger högre äntransversionfrekvensen.

αt = −1

2log(1−2S−V )+

1

4log(1−2V ) = −1

2log(0.9310345)+

1

4log(0.983281) = 0.0315144

2βt = −1

2log(1− 2V ) = −1

2log(0.983281) = 0.00843013

Maximum likelihood-metoden beräknas enligt ekvation (35)

`(d, κ | nS , nV ) = (n− nS − nV ) log(p04

) + nS log(p14

) + nV log(p24

)

32

Page 35: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

där övergångssannolikheten är

p0(t) = 1

4 + 14e−4βt + 1

2e−2(α+β)t = 1

4 + 14e−0.01686025 + 1

2e−0.07145896 = 0.9613375

p1(t) = 14 + 1

4e−4βt − 1

2e−2(α+β)t = 1

4 + 14e−0.01686025 − 1

2e−0.07145896 = 0.0303030

p2(t) = 14 −

14e−4β = 1

4 −14e−0.01686025 = 0.0041797

Vilket ger

`(d, κ | nS , nV ) = (957−29−8) log(p04

)+29 log(p14

)+8 log(p24

) = −1508.177838

Kontrollerar övergångssannolikheternas värden som innan, p0 + p1 + 2 · p2 = 1.Även här används en parameter vilket gör att man använder frihetsgraden 1när man sänker log-likelihood, χ2

1,5%, från maximum skapas ett 95%-intervall

för avståndet, d. Detta ger `(d)− χ21,5%/2 = −1510.098839 .

Fig 14: Graf av likelihood över avståndet, d, för K80. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

Intervallet för d blir som följer (0.02792, 0.05573). För att kunna räkna ut varian-sen av det skattade avståndet, d, över de skattade transitions-/transversionsfrekvenskvoten,κ, behövs bland annat variansen av S över V samt jacobianen, J . Ekvation (19)visar hur formeln ser ut. Variansen av S över V beräknas på följande sett

var(SV

) =

(S(1−S)

n −SVn−SVn

V (1−V )n

)=

(0.000030705 −0.0000002647−0.0000002647 0.00000866204

)Där jacobianen räknas ut såhär

J =

(1

1−2S−V1

2(1−2V ) + 12(1−2S−V )

−4(1−2S−V )log(1−2V )

−2(1−2S−V )log(1−2V ) + 4log(1−2S−V )

(1−2V )(log(1−2V ))2

)

=

(1.074074 1.04553863

254.818038 −895.203029

)

33

Page 36: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Med all denna information kan nu variansen av det skattade avståndet, d,över de skattade transitions-/transversionsfrekvenskvoten, κ, beräknas

var(dκ

) = J · var( SV

) · JT =

(0.000044297 0.00048036030.000480360 9.0561741899

)

6.4 Människa (Homo sapiens) D38112 mot SvarthandadGibbon (Hylobates agilis)

Här jämförs genfrekvensen D38112 hos en människa med en svarthandad gib-bon. De först 960 nukleotiderna har blivit jämförda med varandra, dock har denukleotiderna som inte kunnat jämföras tagits bort så det totala antalet jäm-förda nukleotider är 947 nukleotider. Genfrekvensen �nns under bilagor, bilaga8.3.4. Tabell 4 är lätt avrundad med små modi�eringar.

MänniskaGibbon T C A G

∑π

T 174(0.1837) 15(0.0158) 2(0.0021) 15(0.0158) 0.2174C 27(0.0285) 234(0.2471) 4(0.0042) 0(0) 0.2798A 3(0.0032) 3(0.0032) 290(0.3063) 1(0.0011) 0.3138G 2(0.0021) 2(0.0021) 18(0.0190) 157(0.1658) 0.189∑π 0.2175 0.2682 0.3316 0.1827

∑1

Tabell 4.

Tabell 4, visar alla nukleotider i sekvensen och vilka nukleotider som skiljersig åt mellan arterna. I parenteserna visas di�erensen för alla möjliga utfall.Medelvärdet av frekvensen för de fyra nukleotiderna är T = 0.21745, C = 0.274,A = 0.3227 och G = 0.18585.

6.4.1 JC69 modellen

De totala antalet nukleotider från genfrekvensen som är jämförda är n = 947.De nukleotider som skiljer sig ifrån varandra och summeras ihop x = 2+4+18+3+27+2+3+15+2+15+1 = 92. Tillsammans med n och x räknas andelen olikaplatser ut, p = x

n = 92947 = 0.09714889. Det skattade avståndet beräknas genom

ekvation (7), d = − 34 log(1 − 4

3 p) = 0.104043. Därefter räknas variansen av det

skattade avståndet, d, ut från ekvation (8), p(1−p)n1

(1− 43 p)

2 = 0.00012224. Vari-

ansen behövs för att kunna beräkna standardfelet , ε =

√var(d) = 0.011056.

Till sist tillämpas ett approximerat 95%-kon�densintervall

d ± λ0.025 · ε =

{0.1257128457

0.0823733257

där λ0.025 = 1.96, tabell �nns under bilagor, bilaga 8.1. Om variansen räknasut med sannolikheten, p, istället som i ekvation (8) blir den var(p) = p(1−p)

n =

34

Page 37: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

0.00009262. Det nya standardfelet räknas ut till ε =√var(p) = 0.009623920

och approximerat 95-kon�densintervallet justeras till

d ± λ0.025 · ε =

{0.122906

0.085180

Maximum likelihood ger oss det maximalavärdet

`(d) =`(p) = x log(x

12n) + (n− x) log(

n− x4n

)

=92 · log(92

12 · 947) + (947− 92) log(

947− 92

4 · 947) = −1715.771027

Genom att sänka log-likelihood till χ21,5% från maximum skapas ett 95%-

kon�densintervall för avståndet, d, och sannolikheten, p. Där χ21,5%/2 = 3.841/2 =

1.921 vilket ger `(p) = `(d) = `(d) − χ21,5%/2 = −1717.692027. Därefter görs

en fplot av maximum likelihood-funktionen av avståndet, d. Därefter studerasintervallet av avståndet, d, under χ2

1,5% alltså för `(d) = −1717.692027.

Fig 15: Graf av likelihood över avståndet, d, för JC69. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

Detta ger oss ett intervall för avståndet, d på (0.08574, 0.1251). Om en fplot

istället görs på maximum likelihood av sannolikheten, p, och studerar intervalletav p under χ2

1,5% , `(p) = −1717.692027.

35

Page 38: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Fig 16: Graf av likelihood över sannolikheten,p, för JC69. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

Intervallet för sannolikheteb, p, blir som följer (0.08213, 0.1134).

P (t) = eQt =

p0(t) p1(t) p1(t) p1(t)p1(t) p0(t) p1(t) p1(t)p1(t) p1(t) p0(t) p1(t)p1(t) p1(t) p1(t) p0(t)

där övergångssannolikheten blir{

p0(t) = 14 + 3

4e−4λt = 1

4 + 34e−4d/3 = 0.9028511

p1(t) = 14 −

14e−4λt = 1

4 −14e−4d/3 = 0.03238297

En kontroll görs, p0 + 3 · p1 = 1, och den stämmer.

6.4.2 K80-modellen

Här beräknas K80-modellen för samma data som tidigare med JC69-modellen.Istället för att beräkna nukleotider som skiljer sig från varandra delar man uppdem i två grupper, transitions och transversions skillnad. Andelen av transitionsskillnaden blir S = (27 + 15 + 18 + 1)/947 = 61/947

och transversions skillnaden V = (3 + 2 + 3 + 2 + 2 + 4 + 15 + 0)/947 =

31/947. Efter detta kalkyleras det skattade avståndet ut från ekvation (14) d =− 1

2 log(1−2S−V )− 14 log(1−2V ) = − 1

2 log(0.83843717)− 14 log(0.934530095) =

0.1050357. Variansen av det skattade avståndet är var(d) = a2S+b2V−(aS+bV )2

n ,där a = (1− 2S − V )−1 och b = 1

2

[(1− 2S − V )−1 + (1− 2V )−1

]. Genfrekven-

sens data beräknas till a = 1.192695, b = 1.131376 och var(d) = 0.00012825.Med all insamlad data kan det ett approximerat 95%-kon�densintervall beräk-nas

d± λ0.025 · ε =

{0.1272320

0.0828394

36

Page 39: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

där standardfelet är ε =

√var(d) = 0.01132466. Från ekvation (15) kan den

uppskattade transitions- och transversionsferkvenskvoten beräknas, κ = 2log(1−2S−V )log(1−2V ) −

1 = 4.204899. Detta visar att transitionsfrekvensen är ungefär 4 gånger högreän transversionfrekvensen.

αt = −1

2log(1−2S−V )+

1

4log(1−2V ) = −1

2log(0.83843717)+

1

4log(0.934530095) = 0.07117995

2βt = −1

2log(1− 2V ) = −1

2log(0.934530095) = 0.0338557

Maximum likelihood-metoden beräknas enligt ekvation (36)

`(d, κ | nS , nV ) = (n− nS − nV ) log(p04

) + nS log(p14

) + nV log(p24

)

där övergångssannolikheten blir

p0(t) = 1

4 + 14e−4βt + 1

2e−2(α+β)t = 1

4 + 14e−0.0677114 + 1

2e−0.1762156 = 0.9028511

p1(t) = 14 + 1

4e−4βt − 1

2e−2(α+β)t = 1

4 + 14e−0.0677114 − 1

2e−0.1762156 = 0.0644139

p2(t) = 14 −

14e−4β = 1

4 −14e−0.0677114 = 0.0163675

Vilket ger

`(d, κ | nS , nV ) = (947−61−31) log(p04

)+61 log(p14

)+31 log(p24

) = −1694.973899

Genom att sänka log-likelihood till χ21,5% från maximum skapas ett approx-

imerat 95%-kon�densintervall för avståndet, d. vilket ger `(d) − χ21,5%/2 =

−1696.894899.

Fig 17: Graf av likelihood över distansen, d, för K80. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

37

Page 40: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Figur 17 ger oss intervallet (0.08667, 0.1260). Kontrollerar övergångssannolik-heternas värdena som tidigare, p0 +p1 + 2 ·p2 = 1, som stämmer. För att kunnaräkna ut variansen av d över κ behövs bland annat variansen av S över V samtjacobianen, J . Ekvation (19) visar hur formeln ser ut. Variansen av S över Vberäknas på följande sett

var(SV

) =

(S(1−S)

n −SVn−SVn

V (1−V )n

)=

(0.000063637 −0.000002227−0.000002227 0.00003343545

)Där jacobianen beräknas såhär

J =

(1

1−2S−V1

2(1−2V ) + 12(1−2S−V )

−4(1−2S−V )log(1−2V )

−2(1−2S−V )log(1−2V ) + 4log(1−2S−V )

(1−2V )(log(1−2V ))2

)

=

(1.192695 1.131375870.457522 −129.27920

)Med all denna information kan nu variansen av det skattade avståndet, d,

över de skattade transitions-/transversionsfrekvenskvoten, κ, beräknas

var(dκ

) = J · var( SV

) · JT =

(0.0001273 0.00062320.0006232 0.9152869

)

6.5 Människa (Homo sapiens) D38112 mot Lejon (Pant-hera leo)

Här jämförs genfrekvensen D38112 hos en människa med ett lejon. De först 1020nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna sominte kunnat jämföras tagits bort så det totala antalet jämförda nukleotider är983 nukleotider. Genfrekvenser �nns under bilagor, bilaga 8.3.5.

MänniskaLejon T C A G

∑π

T 172(0.1750) 35(0.0356) 7(0.0071) 23(0.0234) 0.2411C 25(0.0254) 195(0.1984) 14(0.0143) 3(0.0031) 0.2412A 15(0.0152) 26(0.0265) 293(0.2981) 2(0.0020) 0.3418G 2(0.0020) 7(0.0071) 13(0.0132) 151(0.1536) 0.1759∑π 0.2176 0.2676 0.3327 0.1821

∑1

Tabell 5.

Tabell 5, visar alla nukleotider i sekvensen och vilka nukleotider som skiljersig åt mellan arterna. I parenteserna visas di�erensen för alla möjliga utfall.Medelvärdet av frekvensen för de fyra olika nukleotiderna är T = 0.22935, C =0.2544, A = 0.33725 och G = 0.179.

38

Page 41: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

6.5.1 JC69 modellen

De totala antalet nukleotider från genfrekvensen som är jämförda är n = 983.De nukleotider som skiljer sig ifrån varandra summeras ihop x = 7 + 14 +13 + 15 + 25 + 2 + 26 + 35 + 7 + 23 + 3 + 2 = 172. Tillsammans med n ochx räknas andelen olika platser ut, p = x

n = 172983 = 0.174975. Det skattade

avståndet beräknas genom ekvation (7), d = − 34 log(1 − 4

3 p) = 0.199244. Där-

efter räknas variansen av det skattade avståndet, d, ut från ekvation (8) ochger oss p(1−p)

n1

(1− 43 p)

2 = 0.0002498. Variansen behövs för att kunna beräkna

standardfelet, ε =

√var(d) = 0.015806. Till sist tillämpas ett approximerat

95%-kon�densintervall

d ± λ0.025 · ε =

{0.2302237

0.1682647

där λ0.025 = 1.96, tabellen �nns under bilagor, bilaga 8.1. Om variansen kal-kyleras ut med sannolikheten, p, istället i ekvation (8) var(p) = p(1−p)

n =

0.000146855. Det nya standardfelet beräknas till ε =√var(p) = 0.0121183

och de approximerade 95%-kon�densintervallet justeras till

d ± λ0.025 · ε =

{0.2229962

0.1754922

Maximum likelihood-metodens ger följande beräkningar

`(d) =`(p) = x log(x

12n) + (n− x) log(

n− x4n

)

=37 · log(172

12 · 983) + (957− 37) log(

983− 172

4 · 983) = −2007.492994

Genom att sänka log-likelihood till χ21,5% från maximum skapas ett 95%-

kon�densintervall för avståndet, d, och sannolikheten, p. Där χ21,5%/2 = 3.841/2 =

1.921 vilket ger `(p) = `(d) = `(d)− χ21,5%/2 = −2009.413994 Därefter görs en

fplot av maximum likelihood-funktionen av avståndet, d. Därefter studerasintervallet av avståndet, d, under χ2

1,5%

39

Page 42: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Fig 18: Graf av likelihood över distansen, d, för JC69. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

Detta ger oss ett intervall för avståndet, d, på (0.1696, 0.228). Om en fplot

istället görs på maximum likelihood av sannolikheten, p, och studerar intervalletav p under χ2

1,5% , `(p) = −2009.413994.

Fig 19: Graf av likelihood över sannolikheten, p, för JC69. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

Intervallet över sannolikheten, p, får vi från �gur 19. och blir (0.1531, 0.1961).

P (t) = eQt =

p0(t) p1(t) p1(t) p1(t)p1(t) p0(t) p1(t) p1(t)p1(t) p1(t) p0(t) p1(t)p1(t) p1(t) p1(t) p0(t)

där övergångssannolikheten blir{

p0(t) = 14 + 3

4e−4λt = 1

4 + 34e−4d/3 = 0.825025

p1(t) = 14 −

14e−4λt = 1

4 −14e−4d/3 = 0.0583248

Kontrollerar så att p0 + 3 · p1 = 1 stämmer, vilket det gör i vårt fall.

40

Page 43: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

6.5.2 K80-modellen

Här beräknas K80-modellen för samma data som tidigare med JC69-modellen.Istället för att beräkna alla nukleotider som skiljer sig från varandra delar manupp dem i transitions och transversions skillnaden. Andelen av transitions skill-naden blir S = (35 + 25 + 13 + 2)/983 = 75/983

och den transversions skillnaden V = (15+2+26+7+7+14+23+3)/983 =97/983. Efter detta kalkyleras det uppskattade avståndet ut från ekvation (14)

d = − 12 log(1−2S−V )− 1

4 log(1−2V ) = − 12 log(0.74872838)− 1

4 log(0.80264496) =0.1996502.

Variansen av det skattade avståndet är var(d) = a2S+b2V−(aS+bV )2

n , dära = (1− 2S − V )−1 och b = 1

2

[(1− 2S − V )−1 + (1− 2V )−1

]. Genfrekvensens

data beräknas och blir a = 1.3355978, b = 0.12907393 samt var(d) = 0.0002538.Med all insamlad data kan det ett 95%-kon�densintervall beräknas till

d± λ0.025 · ε =

{0.230875522

0.168424879

där standardfelet, ε =

√var(d) = 0.01593129. Från ekvation (15) kan den skat-

tade transitions- och transversionsfrekvenskvoten beräknas, κ = 2log(1−2S−V )log(1−2V ) −

1 = 1.6325993. Detta visar att transitionsfrekvensen är nästan 2 gånger högreän transversionsfrekvensen.

αt = −1

2log(1−2S−V )+

1

4log(1−2V ) = −1

2log(0.74872838)+

1

4log(0.80264496) = 0.0897288

2βt = −1

2log(1− 2V ) = −1

2log(0.80264496) = 0.109921

Maximum likelihood-metoden beräknas enligt ekvation (35)

`(d, κ | nS , nV ) = (n− nS − nV ) log(p04

) + nS log(p14

) + nV log(p24

)

där övergångssannolikheten blir

p0(t) = 1

4 + 14e−4βt + 1

2e−2(α+β)t = 1

4 + 14e−0.219842 + 1

2e−0.289379 = 0.82502543

p1(t) = 14 + 1

4e−4βt − 1

2e−2(α+β)t = 1

4 + 14e−0.219842 − 1

2e−0.289379 = 0.07629705

p2(t) = 14 −

14e−4β = 1

4 −14e−0.219842 = 0.45066124

Vilket ger

`(d, κ | nS , nV ) = (983−75−97) log(p04

)+nS log(p14

)+nV log(p24

) = −1789.01285

41

Page 44: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Kontrollerar övergångssannolikhetens värdena som innan, p0 + p1 + 2 · p2 = 1,och de stämmer för oss. Genom att sänka log-likelihood till χ2

1,5% från maximumskapas ett 95%-kon�densintervall för avståndet, d, och sannolikheten, p. Därχ22,5%/2 = 5.991/2 = 2.996 vilket ger `(d)− χ2

2,5%/2 = −1792.00885 .

Fig 20: Graf av likelihood över distansen, d, för K80. Grafen visar vilkavärden kon�densintervallet under χ2

1,5% antar.

Intervallet kommer från �gur 20. och är (0.1706, 0.2314). För att kunna räk-na ut variansen av det skattade avståndet, d, över det skattade transitions-/transversionsfrekvenskvoten, κ, behövs bland annat variansen av S över Vsamt jacobianen, J . Ekvation (19) visar hur formeln ser ut. Variansen av S överV beräknas som följer

var(SV

) =

(S(1−S)

n −SVn−SVn

V (1−V )n

)=

(0.0000716946 −0.000007659−0.000007659 0.000090478

)Där jacobianen beräknas såhär

J =

(1

1−2S−V1

2(1−2V ) + 12(1−2S−V )

−4(1−2S−V )log(1−2V )

−2(1−2S−V )log(1−2V ) + 4log(1−2S−V )

(1−2V )(log(1−2V ))2

)=

(1.3355978 1.290739324.300961 −17.688159

)Med all denna information kan nu variansen av det skattade avståndet, d,

över de skattade transitions-/transversionsfrekvenskvoten, κ, beräknas

var(dκ

) = J · var( SV

) · JT =

(0.0002522 0.000201950.00020195 0.07723065

)

42

Page 45: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

6.6 Jämförelse av resultat

Här kommer de olika beräkningarna studeras mellan dem olika arterna. Jagbörjar med att studera antalet gener som skiljer arterna ifrån människan ochser att det är ganska stor skillnad dem emellan. Som förväntat har schimpansenoch gorillan minst antal nukleotider som skiljer men även bonobo har relativtfå avvikelser. Förväntat hade lejonet �est avvikelser i genfrekvensen. Därefterstudera de olika avstånden för både de två modellerna för alla fem arter. Tabellennedan sammanfattar alla avstånd.

Avstånd, dSchimpans Gorilla Bonobo Gibbon Lejon

JC69 0.0386 0.0419 0.0397 0.1040 0.1992K80 0.0389 0.0422 0.0399 0.1050 0.1996

Tabell 6.

I tabell 6, ovan, visas alla beräknade avstånd över de två modellerna och samtligaarter. Studerar man och jämför avstånden mellan de två olika modellerna, JC69och K80, kan man se att det är relativt liten skillnad modellerna emellan för allafem arter. Jämför man istället avståndet dem fem olika arterna emellan �nnsdet skillnader. Mellan schimpanser, gorillor och bonobo är skillnaden relativtliten. Gibbonapan sticker ut i jämfört med de tre andra aporna då avståndetskiljer mer än två gånger så mycket. Jämför man lejonet med schimpanser såhar lejonet ett avstånd på ungefär fem gånger större.

Nedan, tabell 7, är en tabell gjord över ett approximerat 95%-kon�densintervalletför avståndet mellan modellerna. JC69 och K80, för de fem arterna. Övre kvan-til visar det större värdet från det approximerade 95%-kon�densintervallet ochden undre kvantilen visar det lägre värdet.

Kon�densintervall för avstånd, dSchimpans Gorilla Bonobo Gibbon Lejon

JC69övre kvantil 0.0513 0.0552 0.0526 0.1257 0.2302undre kvantil 0.0259 0.0287 0.0268 0.0824 0.1683

K80övre kvantil 0.0518 0.0556 0.0530 0.1272 0.2309undre kvantil 0.0260 0.0288 0.0269 0.0828 0.1684

Tabell 7.

Från tabell 7. kan vi se alla arter har relativt små avstånd i sina intervall. Mankan även se att den undre kvantilen i kon�densintervallet för alla arterna harväldigt små skillnader mellan de två modellerna. I tabell 8, nedan visas χ2-testetför alla arter samt de två modellerna, JC69 och K80.

43

Page 46: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

χ2av avståndet, dSchimpans Gorilla Bonobo Gibbon Lejon

JC69övre kvantil 0.0510 0.0571 0.0518 0.1251 0.2280undre kvantil 0.0266 0.0296 0.0291 0.0857 0.1696

K80övre kvantil 0.0509 0.0545 0.0557 0.1260 0.2314undre kvantil 0.0290 0.0309 0.0279 0.0867 0.1706

Tabell 8.

Studerar man kon�densintervallet för avståndet, d, med χ2 i tabell 8. ser man attför alla apor är intervallen relativt små medan för lejonet är det något större. Vil-ket var förväntat. Studerar man det första approximerade 95%-kon�densintervalletmed kon�densintervallet för χ2 kan man se att intervallen ligger väldigt näravarandra. Kon�densintervallet för χ2 ligger bara en aning längre ner än för detapproximerade 95%-kon�densintervallet.

I tabell 9. nedan är ser vi alla approximerade 95%-kon�densintervall för san-nolikheten för JC69 modellen och de fem arterna.

Kon�densintervall för sannolikheten, pSchimpans Gorilla Bonobo Gibbon Lejon

JC69övre kvantil 0.0507 0.0545 0.0519 0.1229 0.2230undre kvantil 0.0266 0.0294 0.0275 0.0852 0.1755

Tabell 9.

Tabell 9. visar som förväntat att schimpans, gorilla och bonobo har relativt lik-nande kon�densintervall. Lejonet har högst kon�densintervall för sannolikhetenoch spannet är även något större än för schimpansen, gorillan och bonobon.Spannet för lejonet är störst utav de fem arterna.

I Tabell 10. nedan har vi χ2-testet för sannolikheten.

χ2av sannolikheten, pJC69 Schimpans Gorilla Bonobo Gibbon Lejon

över kvantil 0.0506 0.0534 0.0505 0.1134 0.1961undre kvantil 0.0271 0.0342 0.0297 0.0821 0.1531

Tabell 10.

De approximerade 95%-kon�densintervallen i tabell 10. visar att sannolikhe-ten, p, relativt små för aporna och något större för lejonet. Även här skiljerdet inte mycket mellan det approximerade 95%-kon�densintervallet och kon�-densintervallet för χ2. Kon�densintervallet för χ2 ligger en aning längre ner ände approximerade 95%-kon�densintervallet.

LogartmfunktionenSchimpans Gorilla Bonobo Gibbon Lejon

JC69 -1518.2136 -1531.1054 -1523.9645 -1715.7710 -2007.4930K80 -1468.6544 -1471.8959 -1508.1778 -1694.9739 -1789.0128

Tabell 11.

44

Page 47: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

Från tabell 11. visar de olika värdena för maximum likelihood-metoden för detvå modellerna och de fem arterna. JC69 visar något högre värde för alla max-imum likelihood-metoderna jämfört med K80. Som tidigare ligger värdena förschimpans, gorilla och bonobo väldigt nära varandra. Lejonet har som förvän-tat även det högsta värdet. För K80-modellen visar något större skillnad förbonobon mellan gorillan och schimpansen.

χ2av logaritmfunktionenSchimpans Gorilla Bonobo Gibbon Lejon

JC69 -1520.1346 -1533.0263 -1525.8855 -1717.6920 -2009.4140K80 -1500.9636 -1519.3135 -1510.0988 -1696.8949 -1792.0088

Tabell 12.

Genom att studera tabell 12. som visar χ2 -testet för de olika arterna och mo-dellerna, kan man se att värdena inte skiljer sig så värst mycket jämfört medmaximum likelihood-modellen. χ2-testet är endast omkring 2 mindre än max-imum likelihood för alla arter utom schimpansen, som har identiskt värde, förJC69. För K80-modellen skiljer det lite mer mellan värdena jämfört med maxi-mum likelihood-metoden. Som för att innan är det störts skillnad för lejonet.

Man måste ha hänsyn till att i K80-modellen används en transitions- /trans-versionsfrekvens E(S)

E(V ) = p1(t)p2(t)

är generellt ett mått.

7 Diskussion

Syftet med detta arbete är att studera släktskapet mellan olika arter. Alla re-sultat blev som jag hade förväntat, med att schimpans, gorilla och bonobonhade ett väldigt litet avstånd mot människan. Det var även förväntat att lejonetskulle ha störts avstånd till människan jämfört med aporna. Vi kunde se attmänniskan har mycket små skillnader jämfört med aporna, speciellt schimpan-ser och gorillor. Det var som sagt förväntat eftersom vi redan vet att det är detvå arterna är närmst besläktade med oss människor. Lejonet hade förstås störstskillnader, dock kanske man hade trott att det skulle vara något större än detvar. Det �nns mycket som skulle kunna utvecklas i det här arbetet. Så som tillexempel att man skulle kunna utveckla och konstruera fylogenetiska träd. Detskulle även gå att räkna ut den molekylära klockan. Det tog lite tid innan jaglyckades lista ut hur jag skulle kunna använda GeneBank och på så sätt få utgenfrekvenser att studera. En annan klurighet jag stötte på efter var att få tillgraferna över χ2-testets kon�densintervall. Några av graferna såg till en börjantomma ut, men när jag zoomade in på rätt axlar kunde man hitta grafen.

45

Page 48: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

8 Bilagor

8.1 Tabell för 95%-kon�densintervall - normalfördelningskvantiler

a 0.0005 0.001 0.005 0.01 0.025 0.05 0.10λ 3.29 3.09 2.58 2.33 1.96 1.64 1.28

8.2 Tabell för χ2κ,5%

Grad av Sannolikhet av stora värden av x2

frihet, κ 0.05 = 5%1 3.822 5.993 7.814 9.495 11.07

46

Page 49: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

8.3 Genfrekvenser från GeneBank

8.3.1 Människa (Homo sapiens) D38112 mot Schimpans (Pan tro-glodytes troglodytes)

47

Page 50: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

8.3.2 Människa (Homo sapiens) D38112 mot Gorilla (Gorilla gorilla)

48

Page 51: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

8.3.3 Människa (Homo sapiens) D38112 mot Bonobo (Pan paniscus)

49

Page 52: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

8.3.4 Människa (Homo sapiens) D38112 mot Svarthandad Gibbon(Hylobates agilis)

50

Page 53: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

8.3.5 Människa (Homo sapiens) D38112 mot Lejon (Panthera leo)

51

Page 54: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

8.4 Matlab-kod för uträkningar för modellerna

8.4.1 Matris - Människa mot Schimpans

%Data för skillnaden mellan en människa och en schimpans

Grandmatris = [195, 15, 0, 4 ;

9, 247, 2, 0;

0, 0, 309, 0;

0, 0, 6, 169];

Frekvensmatris = [0.2039, 0.0157, 0, 0.0042;

0.0094, 0.2584, 0.0021, 0;

0, 0, 0.3232, 0;

0, 0, 0.0063, 0.1768];

%medelvärdet på frekvensen av A,T,C och G

avgpivector=[0.21855,0.24685,0.30075,0.18205];

%konstanta variabler

x = 36;

n = 956;

S = 30/n;

V = 6/n;

nS = 30;

nV = 6;

8.4.2 Matris - Människa mot Gorilla

%Data för skillnaden mellan en människa och en schimpans

Grundmatis = [194, 12, 0, 6;

12, 244, 1, 0;

0, 3, 312, 0;

0, 0, 5, 167];

Frekvensmatris = [ 0.2029, 0.0126, 0, 0.0063;

0.0126, 0.2552, 0.0010, 0;

0, 0.0031, 0.3264, 0;

0, 0,0.0052, 0.1747];

%medelvärdet på frekvensen av A,T,C och G

avgpivector=[0.21865,0.26985,0.33105,0.18045];

%konstanta variabler

x = 39;

n = 956;

S = 29/n;

V = 10/n;

52

Page 55: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

nS = 29;

nV = 10;

8.4.3 Matris - Människa mot Bonobo

%Data för skillnaden mellan en människa och en schimpans

Grundmatris = [196, 15, 0, 5;

9, 246, 2, 0;

1, 0, 310, 0;

0, 0, 5, 168];

Frekvensmatris = [0.2048, 0.0157, 0, 0.0052;

0.0094, 0.2571, 0.0021, 0;

0.0010, 0, 0.3243, 0;

0, 0 , 0.0052, 0.1755];

%medelvärdet på frekvensen av A,T,C och G

avgpivector=[0.22045,0.1707,0.32845,0.1807];

%konstanta variabler

x = 37;

n = 957;

S = 29/n;

V = 8/n;

nS = 29;

nV = 8;

8.4.4 Matris - Människa mot Svarthandad Gibbon

%Data för skillnaden mellan en människa och en schimpans

Grundmatris = [174, 15, 2, 15;

27, 234, 4, 0;

3, 3, 290, 1;

2, 2, 18, 157];

Frekvensmatris = [ 0.1837, 0.0158, 0.0021, 0.0158;

0.0285, 0.2471, 0.0042, 0;

0.0032, 0.0032, 0.3063, 0.0011;

0.0021, 0.0021, 0.0190, 0.1658];

%medelvärdet på frekvensen av A,T,C och G

avgpivector=[0.21745,0.2740,0.3227,0.18585];

%konstanta variabler

x = 92;

n = 947;

53

Page 56: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

S = 61/n;

V = 31/n;

nS = 61;

nV = 31;

8.4.5 Matris - Människa mot Lejon

%Data för skillnaden mellan en människa och en schimpans

Grundmatris = [172, 35, 7, 23;

25, 195, 14, 3;

15, 26, 293, 2;

2, 7, 13, 151];

Frekvensmatris = [0.1750, 0.0356, 0.0071, 0.0234;

0.0254, 0.1984, 0.0143, 0.0031;

0.0152, 0.0265, 0.2981, 0.0020;

0.0020, 0.0071, 0.0132, 0.1536];

%medelvärdet på frekvensen av A,T,C och G

avgpivector=[0.22935,0.2544,0.33725,0.1790];

%konstanta variabler

x = 172;

n = 983;

S = 75/n;

V = 97/n;

nS = 75;

nV = 97;

8.4.6 Kod för JC69

%Få fler decimaler

format long

%landa till ett 95-konfidensintervall

L95 = 1.96;

%Medelvärdet och avståndet

p = x/n;

d = -(3/4)*log(1-4/3*p);

%Variansen av p och d

varp = p*(1-p)/n;

vard = varp * 1/(1-4/3*p)^2;

%error av variansen av p och d

feld = (vard)^(1/2);

felp = (varp)^(1/2);

54

Page 57: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

%Båda sidorna av konfidensintervallet med variansen av d

konfint1d = d + L95 * feld;

konfint2d = d - L95 * feld;

%Båda sidorna av konfidensintervallet med variansen av p

konfint1p = d + L95 * felp;

konfint2p = d - L95 * felp;

%Maximum likelihood med och utan chi2

mle = x*log(x/(12*n))+(n-x)*log((n-x)/(4*n));

chi215 = 1.921;

mlelow = mle - chi215;

%kontroll så att mle=ldx=lpx

ldx = x*log(1/16-1/16*exp(-4*d/3))+(n-x)*log(1/16+3/16*exp

(-4*d/3));

lpx = x*log(k/12)+(n-x)*log((1-k)/4);

%så att funktionerna går att tillämpa på fplot

fldx = @(i) x*log(1/16-1/16*exp(-4*i/3))+(n-x)*log(1/16+3/16*

exp(-4*i/3));

flpx = @(k) x*log(k/12)+(n-x)*log((1-k)/4);

%fplot(flpx); %fplot(fldx);

%Maximum likelihood av d

ldx = x*log(1/16-1/16*exp(-4*d/3))+(n-x)*(1/16+3/16*exp(-4*d/3));

%Maximum likelihood av p

lpx = x*log(p/12)+(n-x)*log((1-p)/4);

%sannolikheten p0 och p1

p0 = 0.25+0.75*exp(-4*d/3);

p1 = 0.25-0.25*exp(-4*d/3);

%Q-matrisen

matrixsq=[p0,p1,p1,p1;

p1,p0,p1,p1;

p1,p1,p0,p1;

p1,p1,p1,p0;];

%pi-vektor

pivektor = [0.25,0.25,0.25,0.25];

55

Page 58: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

8.4.7 Kod för K80

%Få flera decimaler

format long

%landa till ett 95-konfidensintervall

L95 = 1.96;

%beräkna avståndet

d = -(1/2)*log(1-2*S-V)-(1/4)*log(1-2*V);

%variabler

a = (1-2*S-V)^(-1);

b = (1/2)*((1-2*S-V)^(-1)+(1-2*V)^(-1));

%Variansen av d

vard = ((a^2)*S+(b^2)*V-(b*S+b*V)^2)/n;

%error

fel = vard^(1/2);

%konfindesintervall från båda sidorna

konfint1 = d + L95 * fel;

konfint2 = d - L95 * fel;

%k-transitions-/transversions frekvenskvoten

k = (2*log(1-2*S-V))/(log(1-2*V))-1;

%variabler

alfa = -(1/2)*log(1-2*S-V)+(1/4)*log(1-2*V);

beta = -(1/2)*log(1-2*V);

%sannolikheterna p0,p1 och p2 med alfa och beta

p0 = (1/4)+(1/4)*exp(-2*beta)+(1/2)*exp(-2*alfa-beta);

p1 = (1/4)+(1/4)*exp(-2*beta)-(1/2)*exp(-2*alfa-beta);

p2 = (1/4)-(1/4)*exp(-2*beta);

%sannolikheterna p0,p1 och p2 med d och k

p0dk = (1/4)+(1/4)*exp(-4*d/(k+2))+(1/2)*exp(-2*d*(k+1)/(k+2));

p1dk = (1/4)+(1/4)*exp(-4*d/(k+2))-(1/2)*exp(-2*d*(k+1)/(k+2));

p2dk = (1/4)+(1/4)*exp(-4*d/(k+2));

%Maximum likelihood av p

mle = (n-nS-nV)*log(p0/4)+nS*log(p1/4)+nV*log(p2/4);

chi225 = 2.996;

chi215 = 1.921;

mlelow = mle - chi225;

mle1low = mle - chi215;

56

Page 59: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

%Maximum likelihood av d

ldx = (n-nS-nV)*log(1/16+1/16*exp(-4*d/(k+2))+1/8*exp(-2*d*(k+1)

/(k+2)))+nS*log(1/16+1/16*exp(-4*d/(k+2))-1/8*exp(-2*d*(k+1)/

(k+2)))nV*log(1/16-1/16*exp(-4*d/(k+2)));

ffldx = @(dd)(n-nS-nV)*log(1/16+1/16*exp(-4*dd/(k+2))+1/8*

exp(-2*dd*(k+1)/(k+2)))+nS*log(1/16+1/16*exp(-4*dd/(k+2))-

1/8*exp(-2*dd*(k+1)/(k+2)))+nV*log(1/16-1/16*exp(-4*dd/(k+2)));

%variansen av S över V

varSV = [S*(1-S)/n, -S*V/n; -S*V/n, V*(1-V)/n];

%Jaconianen

J = [1/(1-2*S-V), 1/(2*(1-2*V))+1/(2*(1-2*S-V)); -4/((1-2*S-V)*log(1-2*V)),

-2/((1-2*S-V)*log(1-2*V))+(4*log(1-2*S-V))/((1-2*V)*((log(1-2*V))^2))];

%variansen för d över k

vardk = J*varSV*(J');

%Q-matrisen

matrixsq = [p0,p1,p2,p2;

p1,p0,p2,p2;

p2,p2,p0,p1;

p2,p2,p1,p0;];

%pi-matrisen

pimatris = [0.25,0.25,0.25,0.25];

57

Page 60: Skattning av avstånd mellan arter i fylogenetiska träduu.diva-portal.org/smash/get/diva2:1231347/FULLTEXT01.pdf · fylogenetiska träd eller kladogram. Dessa två är äldigtv lika

9 Referenser

9.1 Referenser för matematiska modeller

Yang Ziheng (2010), Computational Molecular Evolution, New York: OxfordUniversity Press

9.2 Referenser för fakta

[1.] https://sv.wikipedia.org/wiki/Protein 2015-11-19, kl 15:06

[2.] https://en.wikipedia.org/wiki/Codon_usage_bias 2015-11-20, kl 11:50

[3.] https://sv.wikipedia.org/wiki/Genetiska_koden 2015-11-20, kl 12:15

[4.] https://en.wikipedia.org/wiki/Phylogenetics 2015-11-25, kl 10:49

[5.] https://en.wikipedia.org/wiki/Cladistics 2015-11-25, kl 11:52

9.3 Referenser genfrekvens

https://blast.ncbi.nlm.nih.gov/Blast.cgi 2017-09-02 kl 10:07

9.4 Referenser för bilder

Fig.1: http://home.swipnet.se/sadrak/images/DNA[1].gif

Fig.2: http://carrot.mcb.uconn.edu/~olgazh/bioinf2010/images/titv.gif

Fig.3: http://www.google.se/imgres?imgurl=http://4.bp.blogspot.com/-bcuueXXmx5A/T5ubDduSzBI/AAAAAAAAAE0/FEl-woFERDg/s1600/1471-2105-8-89-2-l.jpg&imgrefurl=http://biologystu�s.blogspot.com/2012/04/evolusi-dan-�logeni-pengantar-menuju.html&h=1340&w=1200&tbnid=y17XpG7IYhkRKM:&docid=BwYDIk3TdHs8jM&ei=oo9QVvyIKYO3sQHDgI6gAg&tbm=isch&ved=0ahUKEwj84c-d7KHJAhWDWywKHUOAAyQQMwhSKC8wLw

58