métodos estatísticos

21
Métodos estatísticos Almir R. Pepato

Upload: riona

Post on 20-Feb-2016

50 views

Category:

Documents


0 download

DESCRIPTION

Métodos estatísticos. Almir R. Pepato. O velho problema. Máxima Verossimilhança. O conceito de verossimilhança refere-se a situações em que dado um conjunto de dados D , uma decisão deve ser tomada a respeito da explicação adequada dos dados. - PowerPoint PPT Presentation

TRANSCRIPT

Mxima Verossimilhana

Mtodos estatsticosAlmir R. PepatoO velho problema...

Mxima VerossimilhanaO conceito de verossimilhana refere-se a situaes em que dado um conjunto de dados D, uma deciso deve ser tomada a respeito da explicao adequada dos dados.

No caso das inferncias filogenticas temos um modelo composto pela topologia, comprimento de ramos e parmetros do modelo de substituio.

Assinalando valores a esses elementos do modelo podemos computar a probabilidade dos dados sob cada um desses valores e escolher os valores mais plausveis.

REPARE QUE EM NENHUM MOMENTO A VALIDADE DO MODELO QUESTIONADA.

Ronald FisherMxima Verossimilhana

Isso incomodava Fisher!Para eliminar esse incmodo:

Se os dados forem robustos isso... muito maior que isso!Mxima VerossimilhanaExemplo simples:

N=100; Caras=21 ; Coroas= 79.

O modelo estabelece apenas que com alguma probabilidade , caras aparecem quando a moeda lanada e que cada resultado independente dos demais.

A probabilidade de obtermos exatamente H =h caras a partir de n lanamentos de:

Isso pode ser lido de duas maneiras:

A- Se conhecido, ento podemos computar a probabilidade de que h= 0, 1, 2, ...n.B- Caso contrrio uma distribuio, a PROBABILIDADE em questo pode ser tratada como uma funo de n e h!

Mxima Verossimilhana

Obviamente o valor 21/100. Mas podemos calcular isso analiticamente! S para mostrar que sabemos clculo! Os computadores agradecem tambm.

Para facilitar vamos transformar tudo em logaritmos, assim ao invs multiplicaes teremos somas.

Como sabemos, temos que calcular a derivada da funo acima:

Mxima VerossimilhanaMas o que nos interessa mesmo poder comparar duas hipteses.

Por exemplo: segundo a nossa funo, a verossimilhana de que a moeda seja no-viciada de:

Comparado nosso valor mximo (0,21) temos que 6 x 107 mais verossmil que a probabilidade que produziu os dados seja = 0,21 que = 0,5.

XRecordando: Modelos de substituioSuponha que um stio tenha em alguma posio uma adenina. Qual a probabilidade desse stio ter uma adenina depois de um tempo t, dada uma taxa de substituio idntica para todos os tipos de substituio e frequncia idntica de 25% para as quatro bases?

E depois de mais um tempinho t? Dois cenrios:AAAAANo AT=0T= tT= 2t

Podemos generalizar essa equao para:

Andrey Kolmogorov- Sydney Chapman9Recordando: Modelos de substituioAt agora, racionamos a respeito de um processo que corre em tempos discretos, mas podemos imaginar que t tende a zero, de forma que temos o valor instantneo de PA(t) atravs do clculo diferencial:

Que se resolve em:

Andrey Kolmogorov- Sydney Chapman10Recordando: Modelos de substituioPara os dois cenrios delineados acima, temos:

Que se aplica, j que as taxas so as mesmas, para todos os nucleotdeos. So essas as probabilidades que devemos contabilizar para cada stio de um alinhamento ao longo dos ramos de uma rvore.

Andrey Kolmogorov- Sydney Chapman11Recordando: Modelos de substituioPodemos estimar a grandeza t partir dos dados empricos, na verdade, a partir da distncia observada p. Considere I(t) a identidade entre duas sequncias:

K= nmero de substituies por stio desde o tempo de divergncia de duas sequncias.

Caso mais simplesVamos imaginar agora uma rvore com dois terminais, um ramo, sequncias evoluindo de acordo com o JC69.Seq. 1Seq. 2

k = transies ao longo do ramoTemos apenas p: distncia observadaPara encontrar o valor de k que maximize a verossimilhana devemos maximizar a seguinte funo:Isso daqui o nosso -8t, lembram? Isso daqui a frequncia de nts

Caso mais simplesPara cada posio devemos considerar:Lembrando sempre que sabemos k, j que sabemos p:

O raciocnio apresentado aqui circular. Voltamos ao ponto em que havamos parado na aula sobre mtodos de distncia e modelos, j que o valor que maximiza a funo da verossimilhana a equao que j conhecamos para k. Mas serviu para mostrar como podemos derivar a probabilidade de cada stio ao longo das extremidades dos ramos. Vamos agora para algo mais complexo.Mxima Verossimilhana

Muita conta!

22n-2 cenrios15Mxima Verossimilhana

Se o modelo reversvel podemos enraizar em qualquer lugar.

Mxima Verossimilhana

Essa expresso ter 256 termos (22(5)-2 )O que pode ser rearranjado como:

H! ISSO O MESMO QUE SEGUIR A RVORE DAS FOLHAS PARA A RAIZ!

17Mxima Verossimilhana

18Inferncia BayesianaExemplo Simples, comparando dois modelos.H dois sapos de origami, Joe e Herman. Por experincias anteriores sabe-se que Joe cai 60% das vezes em p, enquanto Herman cai apenas 20% das vezes. O nome dos sapos foi apagado. Como podemos inferir qual Joe apenas fazendo-os saltar?

Primeiro lanamento, caiu em p:

19Inferncia Bayesiana

Segundo lanamento, caiu em p:

Terceiro lanamento, caiu de costas:

20Inferncia Bayesiana

Probabilidade da topologia dado as observaesVerossimilhana, probabilidade das observaes dada a topologiaPrior, possibilidade dada a priori a topologia em questoSoma do produto da verossimilhana e do prior sobre todas as outras topologias

Sendo:Ento:

21