fundamente teoretice s i exemple constantin manuel bosancianu · 2019-03-08 · analiza˘...

82
A NALIZ ˘ A B AYESIAN ˘ A Fundamente Teoretice s , i Exemple Constantin Manuel Bosancianu S , coala Doctoral ˘ a de S , tiint , e Politice, Politici Publice s , i Relat , ii Internat , ionale Central European University Metode Aplicate de Cercetare Social˘ a Cluj-Napoca, România: 24 Iulie, 2014 Manuel Bosancianu (CEU) Analiz˘ a Bayesian ˘ a FSPAC 24.07.2104 1 / 82

Upload: others

Post on 30-Dec-2019

14 views

Category:

Documents


1 download

TRANSCRIPT

ANALIZA BAYESIANA

Fundamente Teoretice s, i Exemple

Constantin Manuel Bosancianu

S, coala Doctorala de S, tiint,e Politice, Politici Publice s, i Relat,ii Internat,ionaleCentral European University

Metode Aplicate de Cercetare SocialaCluj-Napoca, România: 24 Iulie, 2014

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 1 / 82

Introducere

Întrebari s, i teme

I Ce este nou în analiza Bayesiana?

I Concepte de baza

I Principiile analizei Bayesiene

I Metode moderne: algoritmul Gibbs, algoritmulMetropolis–Hastings

I Exemple, exemple, exemple...

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 2 / 82

Introducere Istoric

Scurt istoric

Ramuri statistice:

1. Paradigma frecventista: J. Neyman (CIs), E. Pearson(NHST), A. Wald (experimente);

2. Paradigma verosimilitat, ii (likelihood): R. A. Fisher –inferent, a bazata pe un es, antion unic;

3. Paradigma Bayesiana: T. Bayes, P.-S. Laplace, B. de Finetti.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 3 / 82

Introducere Istoric

Scurt istoric

Paradigma Bayesiana are cele mai vechi radacini – secolul XVIII(T. Bayes s, i P.-S. Laplace).

Nu a devenit fezabila pentru inferent,e statistice în situat, iipractice decât recent.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 4 / 82

Introducere Istoric

Motive pentru adoptarea târzie

Ostilitate a practicienilor celorlalte ramuri statistice, e.g. R. A.Fisher.

Dificultat, i în a accepta caracterul ei subiectiv.1

Cerint,ele computat, ionale foarte ridicate în majoritateaaplicat, iilor practice (algoritmii Gibbs sau Metropolis–Hastings).

1Mai multe despre aceasta peste câteva slide-uri.Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 5 / 82

Introducere Istoric

Exemplele practice

Prezentarea: https://manuelbosancianu.github.io/workshops/2014-07-Cluj

Am evitat sa ofer s, i codul R, deoarece scopurile noastre suntmai teoretice de data aceasta.

Pe lânga R, mai este nevoie de un program care se ocupa deanaliza propriu-zisa (JAGS, BUGS, STAN).

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 6 / 82

Probabilitat, i

Probabilitat,i Notat,ie

Probabilitate

A BA∩ B

A∪ B

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 8 / 82

Probabilitat,i Notat,ie

Probabilitate

p(A∪ B) = p(A) + p(B)− p(A,B).

Formula poate fi citita ca “probabilitatea ca A sau B sa seîntâmple”.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 9 / 82

Probabilitat,i Notat,ie

Probabilitate

p(A∩ B) = p(A,B) = p(A) ∗ p(B), daca s, i numai daca A s, i Bsunt independente.

Formula poate fi citita ca “probabilitatea ca A s, i B sa seîntâmple”.

Daca A s, i B nu sunt independente, p(A∩ B) = p(A|B) ∗ p(B)

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 10 / 82

Probabilitat,i Notat,ie

Probabilitate condit, ionala

p(A|B) = p(A,B)

p(B)(1)

Poate fi citita ca “probabilitatea ca A sa se întâmple t, inând contca B deja s-a întâmplat”

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 11 / 82

Probabilitat,i Notat,ie

Probabilitate condit, ionala

Interes politic1 2 3 4 Total rând

Ciclu secundar 19 37 39 14 4%Liceu 70 375 387 155 34%Facultate 49 397 617 224 44%MA s, i peste 5 95 274 180 19%Total coloana 5% 31% 45% 20% ≈100%

Distribut, iile marginale sunt marginile, iar distribut, iile condit, ionalesunt coloanele sau rândurile (condit, ionate de valoarea celeilaltevariabile).

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 12 / 82

Probabilitat,i Legea lui Bayes

Legea

p(A|B) = p(A,B)p(B)

p(B |A) = p(B,A)p(A)

(2)

Înmult, irea cu numitorul transforma equat, ia 2 în{p(A,B) = p(A|B) ∗ p(B)p(B ,A) = p(B |A) ∗ p(A) (3)

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 13 / 82

Probabilitat,i Legea lui Bayes

Legea

Deoarece p(A,B) = p(B ,A)

p(A|B) ∗ p(B) = p(B |A) ∗ p(A)⇒ p(A|B) = p(B |A) ∗ p(A)p(B)

(4)

Legea lui Bayes!

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 14 / 82

Probabilitat,i Legea lui Bayes

Semnificat, ia

În termeni simpli, ofera posibilitatea de a inversa probabilitat, icondit, ionale.

Posibilitat, i imense apar daca înlocuim B cu date, iar A cu unparametru θ.

p(θ|date)︸ ︷︷ ︸posterioara

=

verisimilitate︷ ︸︸ ︷p(date|θ) ∗

anterioara︷︸︸︷p(θ)

p(date)︸ ︷︷ ︸=1

(5)

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 15 / 82

Probabilitat,i Legea lui Bayes

Semnificat, ia

Combinam probabilitatea de a observa datele din es, antioncondit, ionata de modelul nostru statistic, p(date|θ), cu gradulnostru de încredere în acel model, p(θ), pentru a obt, ineprobabilitatea modelului condit, ionata de observarea datelor dines, antion.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 16 / 82

Probabilitat,i Exemplu

Teste pentru boala

Sa presupunem ca un virus afecteaza 1% din populat, ie.

Avem un test, cu 95% rata de succes: categorizeaza corect 95%din cazurile de infect, ie, s, i 95% din cazurile lipsite de infect, ie.

Daca testul îmi spune ca sunt infectat, care e probabilitatea safiu infectat?

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 17 / 82

Probabilitat,i Exemplu

Teste pentru boala

Probabilitatea de depistare în cazul infect, iei: p(D |I ) = 95%.

Probabilitatea infect, iei: p(I ) = 1%.

Probabilitatea depistarii:

p(D) = p(D |I ) ∗ p(I ) + [1− p(D | ∼ I )] ∗ p(∼ I ) =

= 0.95 ∗ 0.01+ 0.05 ∗ 0.99 = 0.059

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 18 / 82

Probabilitat,i Exemplu

Teste pentru boala

Punând toate cele 3 elemente împreuna, avem:

p(I |D) =p(D |I ) ∗ p(I )

p(D)=

=0.95 ∗ 0.01

0.059≈ 0.161

Legea lui Bayes poate fi aplicata înca o data, s, i înca o data...

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 19 / 82

Întrebari?

Analiza Bayesiana

Analiza Bayesiana Diferent,e

Interpretarea probabilitat, ii2

NON-BAYESIENI

Proport, ia de “succese” dintr-o serie lunga (infinita) de probe(experimente) derulate în condit, ii identice.

BAYESIENI

Gradul de încredere (subiectiva!) a cercetatorului în valoareaunui parametru înainte de a observa datele.

2Am folosit textul lui Jeff Gill (2008) pentru aceasta sect, iune.Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 22 / 82

Analiza Bayesiana Diferent,e

Fix vs. aleatoriu

NON-BAYESIENI

Es, antionul este aleatoriu, însa parametrii care genereaza datelesunt fics, i (exista în natura).

BAYESIENI

Es, antionul este fix (observat de noi), însa parametrii care augenerat datele sunt aleatorii (fiecare este descris printr-odistribut, ie a carei variant, a denota gradul nostru de încredere învaloarea parametrului).

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 23 / 82

Analiza Bayesiana Diferent,e

Sumarizarea rezultatelor

NON-BAYESIENI

Coeficient, i s, i erori standard. Intervale de încredere care indicafaptul ca în 19/20 de încercari intervalul include parametrul.

BAYESIENI

Descrierea distribut, iei posterioare: medie, IQR etc. Indica faptulca suntem 95% siguri ca parametrul se gases, te în intervalulHPD (higest posterior density).

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 24 / 82

0 2 4 6 8 10 12

0

0.1

0.2

0.3

0.4

Ce concluzie ar lua un non-Bayesian s, i un Bayesian?

Analiza Bayesiana Anterioara

Distribut, ie anterioara

Am trecut de la probabilitat, i clare (ca în exemplul cu infect, ia), laprobabilitat, i exprimate în distribut, ii.

Din punct de vedere teoretic, saltul nu e chiar atât de mare.

O distribut, ie exprima gradul nostru de încredere privindparametrul estimat.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 26 / 82

Analiza Bayesiana Anterioara

Grad de încredere diferit...

−4 −2 0 2 4 60

0.2

0.4

0.6

0.8

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 27 / 82

Analiza Bayesiana Anterioara

Parametri diferit, i

−4 −2 0 2 4 60

0.2

0.4

0.6

0.8

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 28 / 82

Analiza Bayesiana Anterioara

Exemplul cu infect, ia

p(I ) = 1%. Însa, s, tim ca exista variabilitate în populat, ie, e.g. ceitineri au o probabilitate mai scazuta de a fi infectat, i decât ceimai în vârsta.

Putem exprima aceasta ca p ∼ N (1, 0.25).

Un grad mai mare de incertitudine ar putea fi exprimat cap ∼ N (1, 0.5).

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 29 / 82

Analiza Bayesiana Anterioara

De unde vin distribut, iile anterioare?

Un aspect foarte controversal al Analizei Bayesiene, deoareceaduce subiectivism în procedura.

Pe de alta parte, exista suficient subiectivism ascuns în practicaparadigmei frecventiste.

Bayesienii trebuie sa depuna eforturi considerabile pentru aarata ca rezultatele obt, inute nu sunt datorate alegerii “foarteatente” a distribut, iei anterioare.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 30 / 82

Analiza Bayesiana Anterioara

De unde vin distribut, iile anterioare?

1. Experient,a cercetatorului;

2. Expert, i externi (procedura se numes, te elicitare);

3. Analize existente.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 31 / 82

Analiza Bayesiana Anterioara

Tipuri de anterioare

1. Informative;

2. Non-informative;

3. Conjugate (conjugate).

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 32 / 82

Analiza Bayesiana Anterioara

Anterioare informative

−4 −2 0 2 4 60

0.2

0.4

Exprima cunos, tint,ele noastre despre valoarea parametrului s, i gradulnostru de încredere în aceste cunos, tint,e

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 33 / 82

Analiza Bayesiana Anterioara

Anterioare non-informative

−4 −2 0 2 4 6

0.45

0.5

0.55

0.6

Exprima lipsa oricarei cunos, tint,e despre parametru, ceea cetransforma analiza într-una bazata integral pe ML

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 34 / 82

Analiza Bayesiana Anterioara

Anterioare conjugate

În cele mai multe cazuri, distribut, ia posterioara e foarte dificilde obt, inut analitic.

Caracterul conjugat e o proprietate a distribut, iei anterioare s, i afunct, iei verosimilitat, ii (likelihood function), care asigura caposterioara va apart, ine aceleias, i familii de distribut, ii caanterioara.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 35 / 82

Analiza Bayesiana Anterioara

Anterioare conjugate

Foarte importante din punct de vedere istoric, pentru ca altfeldoar un numar minuscul de analize Bayesiene ar fi putut firezolvate.

Recent, cu metodele MCMC (Markov chain Monte Carlo), careabordeaza problema prin simulare iar nu analitic, anterioareleconjugate nu mai sunt atât de importante.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 36 / 82

Întrebari?

Analiza Bayesiana Exemplu

Estimarea unei proport, ii

Un politician face un sondaj cu 2 saptamâni înainte de alegeri(N=100); 51% din respondent, i ar vota cu ea.

Cu o saptamâna înainte, un nou sondaj (N=150) arata ca 60%din alegatori ar vota cu ea.

Ce s, anse de câs, tig are politicianul nostru?

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 38 / 82

0.0 0.2 0.4 0.6 0.8 1.0

02

46

81

2

Prior

θ

p(θ

)

beta(θ|51,49)

0.0 0.2 0.4 0.6 0.8 1.0

0e

+0

03

e−

44

6e

−4

4 Likelihood

θ

p(D

|θ)

Data: z=93,N=150

0.0 0.2 0.4 0.6 0.8 1.0

02

46

81

2

Posterior

θ

p(θ

|D)

beta(θ|144,106)

p(D)=7.97e−45

95% HDI0.515 0.637

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

Prior

θ

p(θ)

beta(θ|51,49)

0.0 0.2 0.4 0.6 0.8 1.00.0e

+00

1.0e

−131

Likelihood

θ

p(D

|θ)

Data: z=274,N=450

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

Posterior

θ

p(θ|

D)

beta(θ|325,225)

p(D)=1.36e−132

95% HDI0.55 0.632

Dar daca al doilea sondaj e cu N=450?

0.0 0.2 0.4 0.6 0.8 1.0

020

4060

Prior

θ

p(θ)

beta(θ|5100,4900)

0.0 0.2 0.4 0.6 0.8 1.00.0e

+00

1.0e

−131

Likelihood

θ

p(D

|θ)

Data: z=274,N=450

0.0 0.2 0.4 0.6 0.8 1.0

020

4060

Posterior

θ

p(θ|

D)

beta(θ|5374,5076)

p(D)=NaN

95% HDI0.505 0.524

Dar daca al primul sondaj e cu N=10000?

Analiza Bayesiana Exemplu

Exemplu

Am putea continua cu exemple de alte distribut, ii.

Matematica devine put, in mai complexa, însa rat, ionamentul eacelas, i.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 42 / 82

Iar teorie...

MCMC Probleme mai complexe

Realitatea e rareori as, a

−4 −2 0 2 4 60

0.2

0.4

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 44 / 82

−1

0

1

2

3

4−1

0

1

2

3

40

0.2

0.4

P (x1)P (x2)

x1 x2

P

0

5 · 10−2

0.1

0.15

P (x1, x2)

MCMC Probleme mai complexe

Alte cazuri problematice4

Distribut, ii univariate care nu pot fi descrise printr-un set deparametri.3

În aceste cazuri, nu mai putem obt, ine o solut, ie analitica pentrua descrie distribut, ia posterioara.

3Spre exemplu, cei doi parametri care descriu o distribut, ie Gaussianaspecifica: N (1, 0.25).

4Putet, i gasi figura de mai sus la: http://tex.stackexchange.com/questions/31708/draw-a-bivariate-normal-distribution-in-tikz.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 46 / 82

MCMC Probleme mai complexe

Metode Monte Carlo

Solut, ia este de a obt, ine o “imagine” aproximativa a acesteidistribut, ii, s, i de a folosi aceasta “copie” pentru a obt, ineparametrii de care suntem interesat, i.

Acesta este rolul metodelor Monte Carlo (numite astfel deoareceimplica procese aleatorii).

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 47 / 82

MCMC Probleme mai complexe

Rolul “imaginii”

−4 −2 0 2 4 60

0.2

0.4

−4 −2 0 2 4 60

0.2

0.4

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 48 / 82

Algoritmul Gibbs

MCMC Gibbs

Simplificare

Putem aborda problema încercând sa simplificam: o distribut, iemultivariata poate fi sect, ionata într-o serie de distribut, ii deordin mai mic, e.g. univariate.

În asta consta esent,a algoritmului Gibbs.

Însa cum putem analiza aceste distribut, ii de ordin mai mic dacanu analitic?

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 50 / 82

MCMC Gibbs

Metode

Metode

Es, antionarePrin inversiune

Prin respingere

AproximareQuadratura

Expansiune serii Taylor

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 51 / 82

MCMC Gibbs

Es, antionare prin respingere

−1 0 1 2 3 4 5 60

0.2

0.4

0.6

0.8

g(x)

f (x)

Alegem un punct, z, pe funct, ia “plic” g(x). Suntem interesat, i defunct, ia f (x)

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 52 / 82

MCMC Gibbs

Es, antionare prin respingere

−1 0 1 2 3 4 5 60

0.2

0.4

0.6

0.8

g(x)

f (x)

Alege aleatoriu u ∈ (0, 1) s, i alege punctul u ∗ g(z)

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 53 / 82

MCMC Gibbs

Es, antionare prin respingere

−1 0 1 2 3 4 5 60

0.2

0.4

0.6

0.8

g(x)

f (x)

Daca u ∗ g(z) > f (z), respinge s, i selecteaza un nou z. Daca nu,pastreaza-l ca apart, inând de f(x). În cazul de fat, a, trebuie respins.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 54 / 82

MCMC Gibbs

Avantaje

Metoda funct, ioneaza pentru orice forma a funct, iei f(x).

Într-o forma put, in mai complexa funct, ioneaza pentru distribut, iimultivariate.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 55 / 82

MCMC Gibbs

Limite

Uneori e dificil de a gasi o funct, ie “plic” potrivita.

Alteori, procesul poate deveni foarte ineficient daca funct, ia“plic” e mult mai înalta decât funct, ia de care suntem interesat, i.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 56 / 82

MCMC Gibbs

Ineficient, a

0 5 10 15 200

0.1

0.2

0.3

0.4

0.5

Distribut, ie gamma dificil de “acoperit” eficient

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 57 / 82

MCMC Gibbs

Cum o folosim?

Algoritmul Gibbs poate folosi es, antionarea prin respingerepentru a ajunge la o “imagine” a distribut, iei multivariate deinteres.

Sa presupunem ca avem un vector de parametri, θ1, θ2, . . . , θk ,carora le alocam nis, te valori init, iale aleatorii, S .

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 58 / 82

MCMC Gibbs

Algoritmul Gibbs

1. θj=0 = S

2. j devine j + 1

3. Es, antionam (θj1 | θj−12 , θj−1

3 , . . . , θj−1k )

4. Es, antionam (θj2 | θj1, θj−13 , . . . , θj−1

k )

5. . . .

6. Es, antionam (θjk | θj1, θj2, . . . , θjk−1)

7. Ne întoarcem la pasul 1.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 59 / 82

MCMC Exemplu

Exemplu

−4 −2 0 2 4

0.1

0.2

0.3

0.4

X

−4 −2 0 2 4

0.1

0.2

0.3

0.4

Y

Doua variabile distribuite normal, corelate la 0.5

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 60 / 82

MCMC Exemplu

Exemplu

● ●

●●

−10

−5

0

−10 −5 0

x

y

● ●

●●

● ●

●●

●●●

−10

−5

0

−10 −5 0

x

y

Parcursul algoritmului Gibbs dupa 10 s, i dupa 50 de iterat, ii

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 61 / 82

MCMC Exemplu

Exemplu

● ●

●●

● ●

●●

●●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●●●

●●

●●

● ●

●●

●●

−10

−5

0

−10 −5 0

x

y

● ●

●●

● ●

●●

●●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●●●

●●

●●

● ●

●●

●●

● ●

● ●

●●

●●

●●

●●

● ●

●●

●● ●

●●

●●

●●

●●

●●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

● ● ●

●● ●

●●

●●

● ●

●●

● ●

●●

●●

●●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

● ●

●●

●●

●●

● ●

●●

●● ●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

● ●

●●●

●●

● ●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●●

●●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

−10

−5

0

−10 −5 0

x

y

Parcursul algoritmului Gibbs dupa 200 s, i dupa 2000 de iterat, ii

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 62 / 82

Algoritmul Metropolis–Hastings

MCMC Metropolis–Hastings

Probleme cu Gibbs

Uneori, nu putem gasi o funct, ie “plic”, sau algoritmul e preaineficient (respinge prea multe valori pentru fiecare valoareacceptata).

Algoritmul Metropolis–Hastings poate fi folosit.5

5Matematic vorbind, Gibbs este un caz special al Metropolis–Hastings.Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 64 / 82

MCMC Metropolis–Hastings

Exemplul politicianului

Un politician trebuie sa mearga în campanie pe o serie de insule,cu populat, ii diferite.

Pornes, te de la insula Ix , dar nu poate merge decât pe insuleleadiacente, Ix−1 sau Ix+1.

Ea dores, te sa mearga mai des pe insulele mai populate, pentru acâs, tiga alegerile.

Ce regula trebuie adoptata?

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 65 / 82

MCMC Metropolis–Hastings

Exemplul politicianului

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 66 / 82

MCMC Metropolis–Hastings

Pasul 1: dreapta sau stânga?

Probabilitatea p = 0.5

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 67 / 82

MCMC Metropolis–Hastings

Pasul 2: schimbam insula sau nu?

Daca Ix+1 ≥ Ix , da cu p = 1. Daca Ix+1 < Ix , da cu p = PopIx+1/PopIx .

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 68 / 82

1 2 3 4 5

15%

10%

40%

20%

15%

Prob

abili

tate

În loc de insule, ar putea fi o distribut, ie

Din Kruschke (2010).

MCMC Metropolis–Hastings

Mai formal

Algoritmul Metropolis–Hastings se bazeaza pe 2 pas, i:

1. Mai întâi, o decizie aleatorie este luata cu privire la direct, iade avansare;

2. Apoi, algoritmul avanseaza spre aceasta direct, ie cuprobabilitatea:{

p = 1 : P(θpropus) ≥ P(θactual )

p =P(θpropus )P(θactual )

: P(θpropus) < P(θactual )(6)

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 71 / 82

MCMC Metropolis–Hastings

“Imaginea”

Algoritmul poarta numele de lant, Markov deoarece are omemorie scurta: pozit, ia viitoare în distribut, ie nu estedeterminata decât de pozit, ia actuala.

Calea parcursa de algoritm reprezinta o imagine suficient debuna a distribut, iei de care suntem interesat, i.6

6Atât timp cât excludem primii pas, i, care îi dau punctului de pornire oinfluent, a prea mare asupra distribut, iei finale.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 72 / 82

MCMC Metropolis–Hastings

Algoritmul

Am prezentat doar un caz special pentru un algoritm mult maigeneral (Metropolis, Rosenbluth, Rosenbluth, Teller, & Teller,1953).

Partea frumoasa a algoritmului este ca funct, ioneaza s, i daca:

1. Avem o distribut, ie continua;

2. Avem mai mult de o dimensiune a distribut, iei;

3. Salturile dintre pozit, ii sunt mai mari.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 73 / 82

MCMC Exemplu

Exemplu

Un exemplu foarte simplu de estimare a unei proport, ii cuajutorul algoritmului Metropolis–Hastings.

Distribut, ia anterioara va fi una non-informativa (uniforma).

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 74 / 82

MCMC Exemplu

Datele

0 1

40%

60%

Prob

abili

tate

O simpla proport, ie de succese dintr-un es, antion de 20 de încercari

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 75 / 82

MCMC Exemplu

Un fragment important de cod

Partea de cod care specifica distribut, ia de unde se va facees, antionarea.

targetRelProb = function(theta, data) {targetRelProb = likelihood(theta, data) * prior(theta)return(targetRelProb)}

Codul funct, ioneaza datorita Legii lui Bayes:Posterior ∝ Likelihood × Prior .

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 76 / 82

MCMC Exemplu

Un fragment important de cod

Partea de cod care decide daca trecem la o noua locat, ie îndistribut, ie sau stam pe loc.

probAccept = min( 1,targetRelProb( currentPosition + proposedJump , myData )/ targetRelProb( currentPosition , myData ) )if ( runif(1) < probAccept ) {trajectory[ t+1 ] = currentPosition + proposedJump }} else {trajectory[ t+1 ] = currentPosition}

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 77 / 82

θ0.0 0.2 0.4 0.6 0.8 1.0

mean = 0.59

95% HDI0.396 0.792

Npro=50000 Nacc

Npro

=0.72

Nu suntem foarte departe de proport, ia init, iala

θ0.0 0.2 0.4 0.6 0.8 1.0

mean = 0.626

95% HDI0.379 0.801

Npro=50000 Nacc

Npro

=0.65

Rezultatul cu o anterioara bimodala

MCMC Sumar

Analiza Bayesiana

Analiza Bayesiana este mult mai flexibila decât metodele deanaliza mai “tradit, ionale”.

Însa, nu implica doar software sau cod nou, ci o noua filosofiestatistica.

Rezultatele nu mai sunt obt, inute analitic, ci prin es, antionare,ceea ce implica cerint,e computat, ionale MULT mai înalte.

Munca mai multa + Putere de calcul⇒ inferent,e mai complexe.

Manuel Bosancianu (CEU) Analiza Bayesiana FSPAC 24.07.2104 80 / 82

Mult,umesc pentru atent, ie!

Referint,e

Gill, J. (2008). Bayesian Methods: A Social and Behavioral Sciences Approach (2nded.). Boca Raton, FL: Chapman & Hall/CRC.

Kruschke, J. K. (2010). Doing Bayesian Data Analysis: A Tutorial with R andBUGS. Burlington, MA: Academic Press.

Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H., & Teller,E. (1953). Equation of State Calculations by Fast ComputingMachines. The Journal of Chemical Physics, 21(6), 1087–1092.