uporaba em algoritma in učenje gmm modelov

13
Uporaba EM algoritma in učenje GMM modelov Jakob Bartolj Univerza na Primorskem Fakulteta za metematiko, naravoslovje in Informacijske tehnologije Koper, Slovenija [email protected] 1. Pričakovani-maksimizacijski algoritem V statistiki je pričakovani-maksimizacijski (angl. expectation-maximization (EM)) algoritem metoda za iskanje maksimalne verjetnosti ali maksimalne »a posteriori« verjetnosti (angl. maximum a posteriori probability (MAP)), ki ocenjuje parametre in statistične modele, kjer je model odvisen od neopazovanih latentnih spremenljivk. EM je ponavljalna metoda, ki se izmenjuje med izvajanjem pričakovanega koraka (E), ki izračuna pričakovano logaritemsko verjetnost ovrednoteno z uporabo trenutne ocene za latentne spremenljivke in maksimiziranem koraku (M), ki izračuna parametre z maksimizacijo logaritemske verjetnosti najdene z E korakom. Ti parametri (ocene) se potem uporabijo za določitev porazdelitve latentnih spremenljivk v naslednjem E koraku. 1.1 Opis EM Glede na statistični model, ki predstavlja nabor X opazovanih podatkov, nabor neopazovanih latentnih podatkov ali manjkajočih vrednosti Z in vektor neznanih parametrov skupaj z verjetnostno funkcijo ; , , L XZ pXZ , ocenjeno maksimalno verjetnostjo (angl. maximum likelihood estimate (MLE) neznanih parametrov, ki je definirana z mejno verjetnostjo opazovanih podatkov ; , Z L X pX pXZ Vendar je ta kvantiteta pogosto nepristopna. EM algoritem išče, da bi našel MLE od mejne verjetnosti z iterativno uporabo naslednjih dveh korakov: Pričakovani korak (E-korak): Izračuna pričakovano vrednost funkcije logaritemske verjetnosti v oziru do pogojne porazdelitve Z danih X -ov pod trenutno oceno v oziru do t parametrov: , log ; , t t ZX Q E L XZ Maksimizirani korak (M-korak): Najde parameter, ki maksimizira to kvantiteto: 1 arg max t t Q Upoštevajte tipične modele v katerih se EM uporablja : Opazovane podatkovne točke X so lahko diskretne (vzamemo vrednosti v končni ali števno neskončni množici) ali nepretrgane (vzamemo vrednosti v neštevni neskončni množici). Tam je lahko v bistvu vektor opazovanj povezan z vsako podatkovno točko.

Upload: jani666

Post on 07-Mar-2015

141 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Uporaba EM algoritma in učenje GMM modelov

Uporaba EM algoritma in učenje GMM modelov Jakob Bartolj

Univerza na Primorskem Fakulteta za metematiko, naravoslovje in

Informacijske tehnologije Koper, Slovenija

[email protected]

1. Pričakovani-maksimizacijski algoritem V statistiki je pričakovani-maksimizacijski (angl. expectation-maximization (EM)) algoritem metoda za iskanje maksimalne verjetnosti ali maksimalne »a posteriori« verjetnosti (angl. maximum a posteriori probability (MAP)), ki ocenjuje parametre in statistične modele, kjer je model odvisen od neopazovanih latentnih spremenljivk. EM je ponavljalna metoda, ki se izmenjuje med izvajanjem pričakovanega koraka (E), ki izračuna pričakovano logaritemsko verjetnost ovrednoteno z uporabo trenutne ocene za latentne spremenljivke in maksimiziranem koraku (M), ki izračuna parametre z maksimizacijo logaritemske verjetnosti najdene z E korakom. Ti parametri (ocene) se potem uporabijo za določitev porazdelitve latentnih spremenljivk v naslednjem E koraku.

1.1 Opis EM

Glede na statistični model, ki predstavlja nabor X opazovanih podatkov, nabor neopazovanih latentnih podatkov ali manjkajočih vrednosti Z in vektor neznanih parametrov skupaj z

verjetnostno funkcijo ; , ,L X Z p X Z , ocenjeno maksimalno verjetnostjo (angl. maximum

likelihood estimate (MLE) neznanih parametrov, ki je definirana z mejno verjetnostjo opazovanih podatkov

; ,Z

L X p X p X Z

Vendar je ta kvantiteta pogosto nepristopna.

EM algoritem išče, da bi našel MLE od mejne verjetnosti z iterativno uporabo naslednjih dveh korakov:

Pričakovani korak (E-korak): Izračuna pričakovano vrednost funkcije logaritemske verjetnosti v oziru do pogojne porazdelitve Z danih X -ov pod trenutno oceno v oziru do

t parametrov: ,

log ; ,t

t

Z XQ E L

X Z

Maksimizirani korak (M-korak): Najde parameter, ki maksimizira to kvantiteto: 1 arg maxt tQ

Upoštevajte tipične modele v katerih se EM uporablja :

Opazovane podatkovne točke X so lahko diskretne (vzamemo vrednosti v končni ali števno neskončni množici) ali nepretrgane (vzamemo vrednosti v neštevni neskončni množici). Tam je lahko v bistvu vektor opazovanj povezan z vsako podatkovno točko.

Page 2: Uporaba EM algoritma in učenje GMM modelov

Manjkajoče vrednosti (latentne spremenljivke) Z so diskretne, sestavljene iz določenega števila vrednosti in tam je ena latentna spremenljivka na opazovano podatkovno točko.

Parametri so nepretrgani in so dveh vrst: Parametri, ki so povezani z vsemi podatkovnimi točkami in parametri, ki so povezani z točno določeno vrednostjo latentne spremenljivke (povezane z vsemi podatkovnimi točkami katerih ustrezna latentna spremenljivka ima točno določeno vrednost).

Vendar je možno uporabiti EM na ostalih vrstah modelov. Motivacija je takšna kot sledi. Če poznamo vrednosti parametrov lahko ponavadi najdemo vrednosti latentnih spremenljivk Z , z maksimizacijo logaritemske verjetnosti nad vsemi možnimi vrednostmi Z , bodisi enostavno z ponavljanjem nad Z ali skozi algoritem kot je Viterbi algoritem za skrite Markove modele. Nasprotno, če poznamo vrednost latentnih spremenljivk Z lahko najdemo oceno parametrov precej lahko, tipično enostavno z združevanjem opazovanih podatkovnih točk glede na vrednosti povezanih latentnih spremenljivk in povprečja vrednosti ali neko funkcijo vrednosti točk v vsaki skupini. To pomeni iterativni algoritem v primeru kjer sta oba in Z neznana:

Prvič, pripravi začetne vrednosti parametrov na neke naključne vrednosti. Izračunaj najboljšo vrednost za Z dane vrednosti parametrov. Nato uporabi pravkar izračunane vrednosti Z za izračun boljše ocene za parametre .

Parametri, ki so povezani z določeno vrednostjo Z bodo uporabljali samo tiste podatkovne točke, katere povezane latentne spremenljivke imajo to vrednost.

Nazadnje, postopek ponavljaj do konvergence.

Algoritem, ki je bil pravkar opisan bo dejansko deloval in se pogosto imenuje ”hard EM”. ”K-means” algoritem je primer algoritmov takšnega tipa.

Slika 1: k-means razvrščanje v skupine (angl. clustering) in EM razvrščanje v skupine na umetnem naboru podatkov ("mouse"). Težnja k-means, da bi proizvedla roje enakih velikosti vodi do slabih rezultatov, medtem ko EM pridobiva iz Gaussove porazdelitve prikazane v naboru podatkov. Vendar, kar lahko naredimo do neke mere boljše z, rajši kot da naredimo težko odločitev za Z dane trenutne vrednosti parametrov in vzamemo povprečje samo na nizu podatkovnih točk povezanih z določeno vrednostjo Z , namesto da določamo verjetnost vsake posamezne vrednosti Z , da izračunamo tehtano povprečje nad celotnim nizom podatkovnih točk. Posledični algoritem je pogosto imenovan “soft EM” in je tip algoritma normalno povezanega z EM. Števila, ki so bila uporabljena za izračun tehtanega povprečja imenujemo ”mehka števila” (kot nasprotje ”trdim številom”, ki se

Page 3: Uporaba EM algoritma in učenje GMM modelov

uporabljajo v trdem-EM algoritmu kot je to K-means). Verjetnosti izračunane za Z so posterior verjetnosti in so tisto kar je izračunano v E-koraku. Mehka števila, ki se uporabljajo za izračun novih parametričnih vrednosti so tisto kar je izračunano v M-koraku.

1.2 Lastnosti Ko govorimo o koraku pričakovanja (E) je to napačno poimenovanje. Kar je izračunano v prvem koraku so to fiksni, podatkovno odvisni parametri funkcije . Enkrat ko so parametri Q znani je v celoti določena in maksimizirana v drugem (M) koraku EM algoritma.

Q

Čeprav EM ponavljanje ne zmanjša opazovanih podatkov (obrobnih) verjetnostne funkcije ni nobene garancije, da sekvenca konvergira do ocene maksimalne verjetnosti. Za multimodusne porazdelitve to pomeni, da EM algoritem lahko konvergira v lokalni maksimum opazovane funkcije podatkovne verjetnosti, odvisno od začetnih vrednosti. Obstajajo različni neuristični ali metaheuristični pristopi za izogib lokalnemu maksimumu kot je naključni ponovni začetek (začeti z večimi različnimi

naključnimi prvotnimi ocenami t ali z uporabo simuliranih kaljenih (ang. annealing) metod.

Slika 2: Multimodal porazdelitev je kontinuirana verjetnostna porazdelitev z dvemi ali več modusi.

EM je še posebej uporabna kadar je verjetnost eksponentne oblike: E-korak postane vsota pričakovanj samozadostnih statistik in M-korak vključuje maksimiziranje linearne funkcije. V takšnem primeru je običajno mogoče izpeljati zaprte oblike posodobitev za vsak korak z uporabo Sundberg enačbe.

EM metoda je bila modificirana za izračun maksimalne a posteriori (MAP) ocene za Bayesovo sklepanje v originalni listini Dempsterja, Lairda, and Rubina.

Obstajajo tudi druge metode za iskanje ocene maksimalne verjetnosti kot je to gradientni spust, konjugirani gradient ali variacije Gauss-Newtonovih metod. Za razliko od EM takšne metode tipično zahtevajo vrednotenje prvih in/ali drugih izpeljank verjetnostne funkcije.

.

Page 4: Uporaba EM algoritma in učenje GMM modelov

1.3 Alternativni opis Pod določenimi pogoji je primerno, da vidimo EM algoritem kot dva izmenično maksimizacijska koraka. Vzemimo funkcijo:

, log ; , ; log ;q KL Z XF q E L x Z H q D q p x L x

Kjer je q poljubna verjetnostna porazdelitev nad neopazovanimi podatki z, ;Z X p x je pogojna

porazdelitev neopazovanih podatkov danih opazovanih podatkov x, je entropija in H KLD je

Kullback–Leiblerjeva divergenca.

Nato lahko koraki v EM algoritmu izgledajo kot:

Pričakovani korak: Izberi q da maksimiziraš F:

arg max ,t t

qq F q

Maksimizirani korak: Izberi da maksimiziraš F:

1 arg max ,t tF q

Slika 3: Ilustracija Kullback–Leibler (KL) divergence za dve normalni Gaussovi porazdelitvi. Opomba: tipična simetrija za KL divergenco je jasno vidna.

Page 5: Uporaba EM algoritma in učenje GMM modelov

1.4 Aplikacije EM pogosto uporabljamo za razvrščanje podatkov v skupine (angl. data clustering) za strojno učenje (angl. machine learning) in računalniški vid (angl. computer vision). V procesiranju naravnih jezikov sta dva pomembna primera algoritmov: Baum-Welchov algoritem (znan kot naprej-nazaj) in znotraj-zunaj algoritem za nenadzorovano indukcijo brez-okvirnih verjetnostnih gramatik (angl. probabilistic context-free grammars ). V psihometriji je EM skoraj nujna za ocenjevanje parametrov predmeta in latentnih sposobnosti modelov teorije odziva predmeta (angl. item response theory). S sposobnostjo, da se ukvarjamo z manjkajočimi podatki in opazovanjem neidentificiranih spremenljivk EM postaja uporabno orodje za ceno in obvladovanje tveganja portfelja. EM algoritem (in njegova hitrejša varianta “maksimizacija pričakovanja naročene pod skupine” (angl. ordered subset expectation maximization) ) je tudi široko uporabljan v medicini za rekonstruiranje slik, še posebej v pozitronski emisijski tomografiji in računalniški tomografiji z emisijo samostojnega fotona.

Slika 4: Rezultat razvrščanja podatkov v skupine (cluster analysis) je prikazan z obarvanjem kvadratkov v tri skupine.

Slika 5: Slika možganov z uporabo magnetne resonance

Page 6: Uporaba EM algoritma in učenje GMM modelov

Slika 6: slika možganov z uporabo pozitronske emisijske tomografije (PET).

1.5 Variante Številne metode so bile predlagane za pospeševanje včasih počasne konvergence EM algoritma, kot so tiste, ki uporabljajo konjugirani gradient in modificirane Newton-Raphson tehnike. EM lahko tudi uporabljamo z tehnikami omejene metode ocenjevanja (angl. constrained estimation techniques ). Pričakovana pogojna maksimizacija (angl. expectation conditional maximization (ECM)) nadomesti vsak M-korak z zaporedjem pogojnih maksimizacijskih (CM) korakov v katerem je vsak parameter

i maksimiziran posamično, pogojno na druge parametre ostaja fiksno.

Ta ideja je nadaljno razširjena z algoritmom splošne pričakovane maksimizacije (angl. generalized expectation maximization (GEM)) s katerim se išče povečanje v objektivni funkciji za oba E in M koraka v poglavju 1.3 Alternativni opis. Možen je tudi razmislek o EM algoritmu kot podrazred od MM (povečaj/minimiziraj (angl. Majorize/Minimize) ali zmanjšaj/maksimiziraj (angl. Minorize/Maximize), odvisno od konteksta) algoritma in zaradi tega uporabiti katerikoli mehanizem razvit v bolj splošnem primeru.

F

Page 7: Uporaba EM algoritma in učenje GMM modelov

1.5 Povezava z variacijskimi Bayes metodami EM je delno ne-Bayes metoda z maksimalno verjetnostjo. Njen končni rezultat daje verjetnostno porazdelitev nad latentnimi spremenljivkami (v Bayes stilu) skupaj z točko ocenjeno za (ali ocena maksimalne verjetnosti ali posterior način). Mi bi želeli povsem Bayesovo verzijo tega, dati verjetnostno porazdelitev nad kot tudi latentne spremenljivke. Pravzaprav bayesov pristop do sklepa je enostavno za obravnavanje kot drugo latentno spremenljivko. V tej paradigmi, razlika med E in M korakom izgine. Če uporabimo faktoriziran približevanje kot je opisano zgoraj (variacijski Bayes), lahko ponavljamo nad vsako latentno spremenljivko (sedaj vključno z ) in jih optimiziramo eno za drugo. Sedaj je korakov na ponovitev, kjer je število latentnih spremenljivk. Za grafične modele je to enostavno narediti saj je vsak spremenljivkin novi Q odvisen samo od svoje Markove odeje (angl.

k k

Markov blanket) tako, da lokalno prehajanje sporočil lahko uporabimo za učinkovito sklepanje (angl. inference ).

Slika 7: Diskretna verjetnostna porazdelitev za vsoto dveh kock.

Slika 8: Normalna porazdelitev, imenovana tudi Gaussova ali "Gaussova krivulja", najpomembnejša zvezna naključna porazdelitev.

Page 8: Uporaba EM algoritma in učenje GMM modelov

Slika 9: V Bayesovem omrežju je Markova odeja z vozliščem A, ki vključuje svoje starše, otroke in ostale starše od vseh svojih otrok.

1.7 Geometrijska interpretacija V informacijski geometriji sta E in M korak interpretirana kot projekcije pod dvojno “affine” povezavo, imenovano e-povezava in m-povezava; Kullback–Leiblerjevo divergenco lahko tudi razumemo pod temi pogoji.

Slika 10: Affine povezava na krogli kotali affine tangentno ravnino iz ene točke v drugo. S tem kontaktna točka sledi iz krivulje v ravnini: razvoj.

Page 9: Uporaba EM algoritma in učenje GMM modelov

2. Gaussova mešanica Naj bo x = (x1,x2,…,xn) vzorec samostojnih opazovanj iz mešanice dveh multivariatnih normalnih porazdelitev dimenzij n in naj bo z=(z1,z2,…,zn) latentne spremenljivke, ki določajo komponento iz katere opazovanje izvira.

in

kjer

in

Cilj je oceniti neznane parametre, ki predstavljajo “mešanje” vrednosti med Gaussovimi in sredstvi ter kovariancami vseh:

Kjer je verjetnostna funkcija:

Kjer je indikatorska funkcija in f je funkcija gostote verjetnosti (angl. probability density function (PDF)) multivariatne normale. To lahko zapišemo v eksponencialni obliki:

E-korak

Glede na naš sedanje ocene parametrov t , pogojna porazdelitev iZ je določena z Bayes teoremom,

da bi bila proporcionalna višina normalne gostote (kontinuirani naključnih spremenljivk) uravnotežena z :

.

Na ta način E-korak rezultira v funkciji:

Page 10: Uporaba EM algoritma in učenje GMM modelov

M-korak Kvadratna oblika Q(θ|θ(t)) pomeni, da določitev maksimiziranja vrednosti je relativno nekomplicirana. Najprej je potrebno omeniti, da , (μ1,Σ1) in (μ2,Σ2) lahko vse maksimiziramo neodvisno eno od druge, saj se pojavljajo ločenih linearnih terminih. Najprej upoštevajmo, da , ki ima omejitev τ1 + τ2=1:

To ima isto obliko kot MLE za binomsko porazdelitev:

Za naslednjo oceno (μ1,Σ1):

To ima isto obliko kot uravnotežena MLE za normalno porazdelitev:

in

In po simetriji:

in .

Page 11: Uporaba EM algoritma in učenje GMM modelov
Page 12: Uporaba EM algoritma in učenje GMM modelov
Page 13: Uporaba EM algoritma in učenje GMM modelov

Slika 11: Slike prikazujejo vgradnjo EM algoritma v dvo komponentni model Gaussovih mešanic iz Old Faithful (gejzir v Yellowstone nacionalnem parku) naboru podatkov. Koraki algoritma so od naključne inicializacije do konvergence.