redes neurais: técnicas bayesianas

22
Técnicas Técnicas Bayesianas Bayesianas Renato Vicente Renato Vicente rvicente rvicente @if.usp. @if.usp. br br 10/01, 10/01, mpmmf mpmmf , IME/FEA , IME/FEA USP USP

Upload: renato-vicente

Post on 09-Jul-2015

553 views

Category:

Education


3 download

TRANSCRIPT

Page 1: Redes Neurais: Técnicas Bayesianas

Técnicas Técnicas BayesianasBayesianas

Renato VicenteRenato [email protected][email protected]

10/01, 10/01, mpmmfmpmmf, IME/FEA , IME/FEA –– USPUSP

Page 2: Redes Neurais: Técnicas Bayesianas

Técnicas Técnicas BayesianasBayesianas

Teorema de Teorema de BayesBayesModelos HierárquicosModelos HierárquicosInferência de ParâmetrosInferência de ParâmetrosInferência de Inferência de Hiperparâmetros Hiperparâmetros Seleção de ModelosSeleção de Modelos

Page 3: Redes Neurais: Técnicas Bayesianas

Teorema de Teorema de BayesBayesSeja dado um conjunto de dados Seja dado um conjunto de dados DD e um conjunto de e um conjunto de hipóteses sobre os dados hipóteses sobre os dados HH11 , H, H2 2 , ..., , ..., HHnn..

A teoria elementar de probabilidades nos fornece:A teoria elementar de probabilidades nos fornece:

Daí decorre que:Daí decorre que:

( , ) ( ) ( ) ( ) ( )k k k kP D H P D H P H P H D P D= =

( ) ( )( )

( )k k

k

P D H P HP H D

P D=

Page 4: Redes Neurais: Técnicas Bayesianas

Bayes Bayes em Palavrasem Palavras

ˆVEROSSIMILHANÇA A PRIORIPOSTERIOR

EVIDENCIA×

=

Page 5: Redes Neurais: Técnicas Bayesianas

BayesianosBayesianos X X FreqüencistasFreqüencistasFreqüencistasFreqüencistas: Probabilidades como “freqüência” de ocorrência de : Probabilidades como “freqüência” de ocorrência de um evento ao repetirum evento ao repetir--se o experimento infinitas vezes. se o experimento infinitas vezes.

BayesianosBayesianos: Probabilidades como “grau de crença” na ocorrência de : Probabilidades como “grau de crença” na ocorrência de um evento. um evento.

JaynesJaynes,, ProbabilityProbability: : The Logic The Logic of of ScienceSciencehttphttp://://omegaomega..albanyalbany..eduedu:8008/:8008/JaynesBookJaynesBook..htmlhtml

1

1( ) ( )

( ) 1 , 0 ..

limN

A jjN

A j j

P A xN

x se x A ou c c

χ

χ=→∞

=

= ∈ =

Page 6: Redes Neurais: Técnicas Bayesianas

PerceptronPerceptron ContínuoContínuo

j jj

y g w x μ⎛ ⎞

= +⎜ ⎟⎝ ⎠∑

1( )1 ag a

e −=+

-4 -2 2 4

0.2

0.4

0.6

0.8

1

Função de transferência

Page 7: Redes Neurais: Técnicas Bayesianas

BayesBayes, , Perceptron Perceptron e Classificaçãoe ClassificaçãoDados em duas classes CDados em duas classes C11 e Ce C22 são geradossão geradosa partir de duas Gaussianas centradas em ma partir de duas Gaussianas centradas em m11 e me m22. Assim:. Assim:

Utilizando o Teorema de Utilizando o Teorema de BayesBayes::

( )1 / 2 1/ 2

1 1( ) exp ( )22 ( )dP C

Detπ⎧ ⎫= − ⋅⎨ ⎬⎩ ⎭

-11 1x x -m Σ (x -m )

Σ

1 11

1 1 2 2

( ) ( )( )

( ) ( ) ( ) ( )P x C P C

P C xP x C P C P x C P C

=+

Page 8: Redes Neurais: Técnicas Bayesianas

BayesBayes, , Perceptron Perceptron e Classificaçãoe Classificação

Assumindo a seguinte forma para o posterior P(C1|x):

Retomando o Perceptron:

1

1 1

2 2

1( ) ( )1

( ) ( )ln

( ) ( )

aP C x g ae

P x C P Ca

P x C P C

−= =+

⎡ ⎤≡ ⎢ ⎥

⎣ ⎦

1( | )j jj

y g w x P C xμ⎛ ⎞

= + =⎜ ⎟⎝ ⎠∑

Page 9: Redes Neurais: Técnicas Bayesianas

BayesBayes, , Perceptron Perceptron e Classificaçãoe Classificação

Retomando o Perceptron:

Com

1( | )j jj

y g w x P C xμ⎛ ⎞

= + =⎜ ⎟⎝ ⎠∑

1

2

( )

1 1 ( )log2 2 ( )

P CP C

μ

=

⎛ ⎞= − ⋅ + ⋅ + ⎜ ⎟

⎝ ⎠

-11 2

-1 -11 2 1 2

w Σ m -m

m Σ m m Σ m

Page 10: Redes Neurais: Técnicas Bayesianas

Modelos HierárquicosModelos Hierárquicos

Dados D são produzidos por um processo estocástico com

parâmetros w , P(D|w).

Os parâmetros w são, por sua vez, produzidos por um processo estocástico com hiperparâmetros α , P(w| α).

A hierarquia pode continuar indefinidamente ...

... inclusive acomodando diversas hipóteses a serem testadas H1 , H2 ,

..., HN e seus respectivos graus de plausibilidade P(w,α|Hk).

Page 11: Redes Neurais: Técnicas Bayesianas

Inferência de ParâmetrosInferência de Parâmetros

Dado um conjunto de dados Dado um conjunto de dados D e D e um modelo um modelo HHii , , encontrar os encontrar os parparââmetros mais provmetros mais provááveis veis ww** ..

DeveDeve--se minimizar a funse minimizar a funçãção o ““erroerro”” a seguir a seguir

( | , ) ( | )( | , )( | )

i ii

i

P D H P HP D HP D H

=w ww

max

( ) ln ( | , )ln ( | , ) ln ( | )

i

i i

verossimilhança conhecimento a priori

E P D HP D H P H cte

= − == − − +

w ww w

Page 12: Redes Neurais: Técnicas Bayesianas

Ex: Ex: Perceptron Perceptron ContínuoContínuo

: ( , ) ( )iH y x g x= ⋅w w 0

1

, (0, )

{( , )}Nn n n

t t N

D x t

ε ε σ

=

= +

=

[ ]

1

2

22

2

1

1( | ) ( | , ) ( | )

[ ( , ) ]1( | , ) exp22

1( ) ( , )2

N

n n in i

n nn n

N

n nn

P D P t x P H

y x tP t x

E y x t

σπσ

=

=

= =Ω

⎧ ⎫−= −⎨ ⎬

⎩ ⎭

= −

w w w

ww

w w

Page 13: Redes Neurais: Técnicas Bayesianas

Intervalos de ConfiançaIntervalos de Confiança

ln ( | , ) ln ( * | , ) ( *) *1 ( *) *( *)2

i iP D H P D H E≈ − − ∇

− − ⋅ −

w w w w

w w H w w

1( | , ) ( * | , ) exp ( *) *( *)2i iP D H P D H ⎡ ⎤≈ − − ⋅ −⎢ ⎥⎣ ⎦

w w w w H w w

-2-1

01

2

-2-1

01

20

0.2

0.4

0.6

0.8

Page 14: Redes Neurais: Técnicas Bayesianas

Inferência de Inferência de HiperparâmetrosHiperparâmetros

1

1

{ , } { }

( ) ( )

: ( ) (0, )

Km m j j

K

j jj

m m

D x t H g

y x w g x

Ruido t y x Nε ε σ

=

=

= =

=

= +

∑∼

Page 15: Redes Neurais: Técnicas Bayesianas

HiperparâmetroHiperparâmetro da Verossimilhançada Verossimilhança

[ ]1( | , , , ) exp ( | , )( ) D

D

P D H Ruido E D HZ

β ββ

= −w w

( )2 2

2 21

1 1( | , , , ) exp ( )2 2

NN

m mm

PD H Ruido y x tβπσ σ =

⎡ ⎤⎛ ⎞= − −⎜ ⎟ ⎢ ⎥⎝ ⎠ ⎣ ⎦∑w

2

1βσ

=

Page 16: Redes Neurais: Técnicas Bayesianas

Hiperparâmetro Hiperparâmetro da Distribuição a Priorida Distribuição a Priori

[ ]{ }

[ ]

[ ]

2

1

, 1

1( | , ) exp ( )( )

: ( ) ( )

1( | , , ) exp ( | , )( )

(

( ) exp ( | ,

| , ) ( )

)

( )

W

y

K

j jj

WW

K

W j ii

W

j ij

P y R dx y xZ

H y x w g x

P H R E H RZ

E H R w w dx g x g

d E H R

x

Z

α αα

α α

α α

α

=

=

′′= −

′′ ′′=

= −

′′ ′=

=

∑ ∫

w w

w

w w

Page 17: Redes Neurais: Técnicas Bayesianas

Estimação de Estimação de hiperparâmetroshiperparâmetros

Pr

( | , , ) ( , | )( , | , )( | )

ior flatverossimilhança

Evidencia

P D H P HP D HP D H

α β α βα β =

( , )( | , , )( ) ( )E

D W

ZP D HZ Z

α βα ββ α

=

( *, *) arg max ( , | , )P D Hα β α β=

Page 18: Redes Neurais: Técnicas Bayesianas

Seleção de ModelosSeleção de Modelos

( | ) ( | ) ( )i i iP H D P D H P H∝

Não há necessidade de normalização já que sempre podemos introduzir um novo modelo para comparação

com os demais.

Maximiza-se a evidência

Page 19: Redes Neurais: Técnicas Bayesianas

Navalha de Navalha de OccamOccamEntre modelos de mesma capacidade explicativa o mais Entre modelos de mesma capacidade explicativa o mais simples deve ser preferido.simples deve ser preferido.

Ω D

( )P D prior

1( | )P D H2( | )P D H

Page 20: Redes Neurais: Técnicas Bayesianas

Avaliando a EvidênciaAvaliando a Evidência

max

( | ) ( | , ) ( | )

( | ) ( | *, ) ( * | )i i i

i i i

Evidencia verossimilhança Fator de Occam

P D H d P D H P H

P D H P D H P H

=

Δ∫ w w w

w w w

D

. . jF OΔ

=Δ 0

ww

0Δw

1Δw2Δw

Page 21: Redes Neurais: Técnicas Bayesianas

Aproximação para a EvidênciaAproximação para a Evidência

/ 2

( | ) ( | , ) ( | )

1( | ) ( | *, ) ( * | ) exp ( *) ( *)2

( | *, ) ( * | ) (2 ) ( )

i i i

i i i

Ki i

Fator de Occam

P D H d P D H P H

P D H P D H P H d

P D H P H Det Hπ

=

⎡ ⎤− − ⋅ −⎢ ⎥⎣ ⎦

=

w w w

w w w w w H w w

w w

Page 22: Redes Neurais: Técnicas Bayesianas

BibliografiaBibliografia

David MacKay, Information Theory, Inference, and Learning Algorithms (http://wol.ra.phy.cam.ac.uk/mackay/)

David MacKay, Bayesian Methods for Adaptive Models (http://wol.ra.phy.cam.ac.uk/mackay/)

Differential Geometry in Statistical Inference

(Ims Lecture Notes-Monograph Ser.: Vol. 10)by S. Amari