image classification using multimodal generative-discriminative methods

Upload: micc

Post on 18-Jul-2015

845 views

Category:

Documents


0 download

DESCRIPTION

B. Zaccone, A. Serain MICC thesis: image classification using multimodal generative-discriminative methods

TRANSCRIPT

UNIVERSIT`ADEGLISTUDIDIFIRENZEFacolt` adi Ingegneria-Dipartimentodi Sistemi eInformaticaTesidilaureainIngegneriaInformaticaSpecialisticaclassificazionedi immagini conmetodi multimodaligenerativo-discriminativiimageclassificationusingmultimodalgenerative-discriminativemethodsCandidatiAndreaMatteoSerainBenitoFabioZacconeRelatoriProf. AlbertoDelBimboIng. MarcoBertiniCorrelatoriIng. LambertoBallanIng. GiuseppeSerraAnnoAccademico2010-2011IndiceIntroduzione iv1 Statodellarte 11.1 Modelliatopiclatenti . . . . . . . . . . . . . . . . . . . . . . 21.1.1 ClassicazionediscenetramitepLSA. . . . . . . . . . 31.1.2 Segmentazione . . . . . . . . . . . . . . . . . . . . . . 61.2 Socialknowledge . . . . . . . . . . . . . . . . . . . . . . . . . 71.2.1 Metodimultimodali . . . . . . . . . . . . . . . . . . . . 101.2.2 Insiemidiimmaginireal-world. . . . . . . . . . . . . . 122 BagofWords 162.1 Classicazionedidocumentitestuali . . . . . . . . . . . . . . . 162.1.1 Creazionedeldizionario . . . . . . . . . . . . . . . . . 172.1.2 Tipologiedirappresentazione . . . . . . . . . . . . . . 182.1.3 Apprendimentodiunmodello . . . . . . . . . . . . . . 202.1.4 Metodidiclassicazione . . . . . . . . . . . . . . . . . 212.2 BagofVisualWords . . . . . . . . . . . . . . . . . . . . . . . 222.3 Estrazioneedescrizionedellefeature . . . . . . . . . . . . . . 242.3.1 Ricercadifeaturesalienti . . . . . . . . . . . . . . . . 242.3.2 DescrittoreSIFT . . . . . . . . . . . . . . . . . . . . . 272.3.3 DescrittoreColorSIFT . . . . . . . . . . . . . . . . . . 282.4 Creazionedelvocabolario . . . . . . . . . . . . . . . . . . . . 302.4.1 AlgoritmodiclusteringK-means . . . . . . . . . . . . 312.4.2 Creazionedidizionaritestualievisuali . . . . . . . . . 332.5 Descrizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34i2.6 Classicazione. . . . . . . . . . . . . . . . . . . . . . . . . . . 362.6.1 MetodiNearestNeighbor. . . . . . . . . . . . . . . . . 372.6.2 SupportVectorMachines . . . . . . . . . . . . . . . . . 383 Modelliatopiclatenti 423.1 Dalmodellobagofwordsalmodellogenerativo . . . . . . . . 423.1.1 Modelligraci . . . . . . . . . . . . . . . . . . . . . . . 443.1.2 Notazionieterminologia . . . . . . . . . . . . . . . . . 453.1.3 Distribuzionemultinomiale. . . . . . . . . . . . . . . . 463.2 pLSA(pLSI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.3 LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.3.1 Scambiabilit` a . . . . . . . . . . . . . . . . . . . . . . . 493.3.2 LadistribuzionediDirichlet . . . . . . . . . . . . . . . 503.3.3 FormulazionediLDA. . . . . . . . . . . . . . . . . . . 523.3.4 Calcolodellaprobabilit` aaposteriori . . . . . . . . . . 583.3.5 Smoothing. . . . . . . . . . . . . . . . . . . . . . . . . 624 Soluzioneproposta 634.1 Modalit` adiclassicazione . . . . . . . . . . . . . . . . . . . . 654.1.1 MetodibasatisuNearestNeighbors. . . . . . . . . . . 654.1.2 FunzioniKernelperlapprendimentoconSVM. . . . . 664.2 Pipelineunimodali . . . . . . . . . . . . . . . . . . . . . . . . 684.2.1 BagofWords . . . . . . . . . . . . . . . . . . . . . . . 684.2.2 LatentDirichletAllocation. . . . . . . . . . . . . . . . 714.2.3 SpatialPyramidMatching . . . . . . . . . . . . . . . . 764.2.4 GIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . 804.2.5 Analisideitag . . . . . . . . . . . . . . . . . . . . . . . 834.3 MultipleKernelLearning. . . . . . . . . . . . . . . . . . . . . 865 Esperimenti 905.1 Caltech-101 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 905.1.1 Setupdegliesperimenti . . . . . . . . . . . . . . . . . . 935.1.2 BagofWords . . . . . . . . . . . . . . . . . . . . . . . 955.1.3 Modelliatopiclatenti . . . . . . . . . . . . . . . . . . 97ii5.1.4 Metodiunimodali . . . . . . . . . . . . . . . . . . . . . 995.1.5 MKL. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1015.1.6 Valutazionedelleprestazioni . . . . . . . . . . . . . . . 1035.2 MICC-Flickr. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1065.2.1 Metodiunimodali . . . . . . . . . . . . . . . . . . . . . 1095.2.2 MKL. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1195.2.3 Valutazionedelleprestazioni . . . . . . . . . . . . . . . 120Conclusioni 1246 Dettaglisullimplementazione 1266.1 Risorse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1266.2 Implementazione . . . . . . . . . . . . . . . . . . . . . . . . . 1276.2.1 ColorSIFT. . . . . . . . . . . . . . . . . . . . . . . . . 1306.2.2 SpatialPyramidMatching . . . . . . . . . . . . . . . . 1316.2.3 GIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1326.2.4 pLSA-LDA . . . . . . . . . . . . . . . . . . . . . . . . 132Bibliograa 135iiiIntroduzioneLostudioelaclassicazionedelleimmagini si avvalgonoormai daanni delcontributo fornito dai diversi approcci di analisi e dalle numerose tecniche didescrizionedei dati multimediali. Laletteraturafornisceunavastagammadisoluzionialproblema, conmetodologiechesidistinguonoperilmodoincuilinformazionevienericercataallinternodeldocumentoeperloschemaattraversocuiessavienerappresentataneisoftwaredielaborazione.Si `e visto negli anni come una base di partenza possa essere la ricerca dellin-formazionealivellolocale, attraversolaselezionedi uninsiemedi elementialtamentedescrittivi comei punti salienti ingradodi catturareunaparteimportantedel contenutoinformativo: questoprincipio, insiemeadalcunetecnichemutuatedaaltredisciplinecomeadesempiolInformationRetrie-val,hacondottoalladenizionediunavastagammadiapproccidiversiperlaclassicazionedelleimmagini.La ricerca continua di miglioramenti volti a superare alcuni limiti dei metodidi base ha portato ad arontare il problema della descrizione delle immaginidadiversi punti di vista: daunlatolamancanzadi localizzazionespazialedei punti salienti ha suggerito lutilizzo delle informazioni di posizione per lacostruzione di modelli che fornissero un ordine su cui vincolare la descrizionedelle immagini; dallaltro la necessit` a di una semantica diretta degli elementiinformativi analizzati dai metodi classici haindirizzatolaricercaversounusodi modelli matematici pi` ucomplessi, checonsentisserodi elevarelade-scrizionedeidatiadunlivellosemanticosuperiore.Parallelamenteagliapproccinatidallaricercadifeaturelocali,metodologiealternative si sono sviluppate su tecniche di descrizione dei documenti basatesuunanalisi di tipoglobale. Il processo`estatomotivatodallaconvinzioneivchelinterpretazionepercettivadi unascenavisivapossaprescinderedallaconoscenzadei dettagli di bassolivello, ma, al contrario, possaessereav-vantaggiatadalladecisionedicatturareesclusivamentegliaspettiessenzialidellarappresentazione.Conquestepremesse`erisultatointeressanteinquestolavoroosservareil comportamentodi diversi approcci proposti dallaletteratura, siaintestcheprevedonolutilizzosingolodellediversetecnicheincongurazioni uni-modali,siaincongurazionimultimodali cheprevedonolimpiegocongiuntodidueopi` umetodologie, ponendoparticolarmenteattenzionealleventualevantaggiodi avvalersi di soluzioni semanticamentepi` uranate, oppuredisoluzioniibridechetraggonogiovamentodallapresuntacomplementarit` aditecnichediversefuseinpipelinemultimodali.Questi argomenti di interessesonostati esaminati attraversounaseriediesperimenti condotti primadi tuttosuunacollezionedi immagini di riferi-mentoperlaletteraturascientica, conloscopodi validareleprestazionirispettoallostatodellarte.In una seconda fase del lavoro `e risultato interessante assecondare la tendenzadi questi ultimi anni di spostare lattenzione sulla classicazione di documentirealistici e condivisi pubblicamente sui pi` u popolari social network. CercandocontenutiliberamentedisponibilisuFlickr,`estatocreatounnuovodatasetsul modellodi quellodi riferimento. Lanalisi di immagini realistichepiut-tostochedi documenti spessocreati appositamenteperscopi scientici hadaunlatoaumentatoillivellodidicolt`adelproblemadellaclassicazionevisuale, mentre dallaltro ha permesso di integrare la descrizione dei contenu-tivisualiconlanalisideimetadatitestualiinseritidagliutentidelnetwork.Ci` o ha permesso di estendere le congurazioni multimodali con informazionidinaturadiversamaevidentementeinreciprocarelazionesemantica. Nellafasenaledegli esperimenti il sistemadi classicazionebasatosullanalisidelleinformazioni visuali`estatoquindi ampliatoconlanalisi del contribu-totestualerelativoaciascunaimmagine, incongurazioni multimodali checombinanoinsiemeapproccidierentiedinformazionicomplementari.vCapitolo1StatodellarteImodelli featurebasedsonoadoggi trai pi` upopolari perladescrizionediimmagini. Lobiettivo di questa tipologia di tecniche `e individuare parti del-limmagine che possano essere considerate rilevanti secondo qualche criterio:in genere si desidera selezionare porzioni della scena che siano rappresentativedel contenutoinformativodel documento, ochepossanodarnenellinsiemeunadeguatadescrizioneinterminivisuali.Ciascuna delle feature locali individuate viene descritta generalmente trami-teunvettoredi valori numerici, inmododaconsentireunsuoimpiegoinoperazioni di classicazione o Information Retrieval che coinvolgano la stimadelgradodisimilarit`atrafeaturediverse. Attraversotecnichediclustering`epoi possibileraggrupparetralorofeaturesimili, inmododaottenereunmodellodidescrizionedipi` ualtolivello. Questotipodiapproccio,mutuatodallanalisideltesto,`eilcosiddettobagofwords: undocumento,siaessodinaturatestualeounimmagine,vienedescrittosoloinbaseallafrequenzadi uncertonumerodi paroleal suointerno, senzatenercontodellaloroposizione in esso. Nel caso testuale le parole sono ben denite dal linguag-giousato; nel casovisualeessesonoingenereassociateai rappresentati diclassidiequivalenzadifeaturelocali.Esistono molte soluzioni per la classicazione di immagini basate sul mo-dellobagofwords. Perincrementareleprestazioniilsemplicemodellobase1CAPITOLO1. STATODELLARTEviene per`o sempre pi` u spesso aancato da altre tecniche di rappresentazione,checonsentanodicrearemodellisemanticamentepi` urilevanti.Ad esempio di recente sono state elaborate svariate implementazioni che im-pieganolusodi modelli atopiclatenticomepLSAoLDA[5] costruitisullabasedelladistribuzionedelleparolevisuali. Grazieadessi`epossibileottenereunariduzionedelladimensionalit` anellarappresentazionedelleim-magini edal tempostessoinferireinformazioni di pi` ualtolivello. Questogenere di metodi viene impiegato con successo in applicazioni di InformationRetrieval,classicazioneesegmentazione.Da non sottovalutare inoltre il possibile apporto che pu`o derivare dalla com-ponentesocial dei portali cheraccolgonodati multimediali creati dautenticomuni: sfruttandoquesterisorse`epossibilecostruiredatasetrealistici edutilizzaremeta-informazioni peragevolarei processi di classicazione; lusodi descrizioni di natura dierente, inoltre, consente di implementare algoritmidiclassicazionemultimodali.1.1 ModelliatopiclatentiGli algoritmi basati sulla ricerca di topiclatenti a partire da una descrizioneditipobagofwordsvisualidiimmaginisonostatiutilizzatisiaperapplica-zionidiclassicazionechedisegmentazioneedimageretrieval.Nel lavoro di Fei-Fei e Perona [11] viene presentato un metodo di appren-dimentoericonoscimentodi categorieinscenenaturali incui vieneusatoLDAperricavareunlivellointermediodirappresentazione: leparolevisualivengono raggruppate in classi (o temi) ed i temi sono poi usati per assegnareunacategoriaallimmagine. Utilizzandoundatasetdifotograedielementinaturali suddivise in 13 categorie, gli autori hanno confrontato le prestazioniottenutevariandosialatipologiadirilevatori(campionamentodensoapas-socostante,campionamentocasuale,regionidirilevanzadiKadir&Brady,DierencesofGaussians)chequelladeidescrittori(SIFT,livellidigrigiosuunanestra11x11). Perlacreazionedel vocabolariovisuale`estatoimpie-gatolalgoritmoK-means. I risultati mostranochelasoluzionemigliore`e2CAPITOLO1. STATODELLARTEquellacheutilizzapunti derivanti dauncampionamentodensodescritti daunSIFT-128,chearrivaadunaccuratezzadiclassicazionedel65,2%.IllavoropresentatodaHorsteretal. [10]introduceunmetododiimageretrieval basatosul contenutopermezzodi modelli LDA, utilizzandoperitest undataset di 246.000immagini divisein12categorie; taleinsieme`estatocostruitoapartiredaricerchediunnumerolimitatoditagtraicon-tenuti multimediali pubblicamente disponibili su Flickr. Vengono comparateleprestazioni ottenuteutilizzandomisuredi distanzadiverseperlavaluta-zionedellasimilarit`a: coseno,L1,divergenzaJensen-Shannon,likelihood. IlmetodoLDAvieneinoltreconfrontatoconunarappresentazionebasatasupLSA.I risultati ottenuti mostrano che per valutare la similarit` a la misura che orelemigliori prestazioni `equellabasatasullalikelihood, ovveroindicizzareidocumenti inbaseallaprobabilit`acheil modelloderivantedalladistribu-zionedi parolevisuali inciascunodi essi possagenerarelaquery; incasodi dataset di grandi dimensioni sembrapreferibileper` oil secondomigliormetodointerminidiprestazioni,ovveroquellobasatosulladivergenzaJS.Itestcomparativi trai duemodelli atopiclatenti portanoaconcluderecheil punteggio ottenuto dai modelli pLSA `e sempre signicativamente inferiorerispettoalleprestazioniottenutedaLDA.1.1.1 ClassicazionediscenetramitepLSANel lavoro di Anna Bosh etal. del 2006 [6] viene proposta una soluzione perlaclassicazionediimmaginicheusaunmetodocompletamentenonsuper-visionatobasatosupLSA.Lideadibase `equelladitrasporreletecnichediricercadi topiclatenti daunambitotestualeadunovisuale: leimmaginivengonoassociateal concettodi documento, mentrei topicsonorap-presentati dagli oggetti ragurati inesse; leparolevisualisonoottenutetramiteunprocessodiquantizzazionedidescrittoriSIFT-like. Ogniimma-ginevienedescrittadalvettoredidistribuzionedeitopicalsuointerno.Lacreazionedel dizionariovisualeavvienetramitelestrazionedi features3CAPITOLO1. STATODELLARTElocali SIFT-likenelleimmagini, chevengonopoi quantizzateattraversoK-meansperottenereleparolevisuali. Il modellopLSAvienecalcolatosulleimmagini di addestramento; in base ad esso vegono determiate le distribuzio-nideitopicancheperimmaginiincogniteinmododaminimizzareladiver-genzaKullback-Leibler1rispettoaidatiditraining. Lacategoriaattribuitaadogni nuovaimmagine`equellapi` upresentetralek-Nearest-Neighboursdeltrainingsetetichettate.Per la creazione delle parole visuali sono state anche in questo caso testate so-luzioni diverse per la ricerca di feature locali: tra le varie metodologie testatequellachehaottenutolemiglioriprestazioni`eunSIFTdensocalcolatosuitre canali HSV su quattro scale. Gli autori hanno testato il metodo propostosuldatasetdiscenenaturalipropostoin[11],ottenendorisultatimiglioridiquellipresentatinellarticolooriginale.Inunaversionesuccessivadellostessoarticolo[7]gliautoriestendonoilmetodo proposto distinguendo due fasi di apprendimento successive: durantelaprimafase, di tipogenerativo, vienecostruitounmodelloatopiclatentiapartiredalleoccorrenzedellevisual wordsnelleimmagini; sullabasedel-ladescrizionealivelloimmaginecos` ottenutaesfruttandolaconoscenzaaprioridelleetichettedelleimmaginiditrainingvienepoimessainattounafase di learning di tipo discriminativoaddestrando una macchina SVM. Que-stasoluzionesidierenziadallaprecedenteinquantolusodiunamacchinaSVMmodicaapartenaledelprocessodiclassicazione, sostituendosidifattoalk-NN.Lastrutturaaggiornata `emostrataingura1.1.Gli autori hannoeseguitotestcomparativi sul dataset[11] perconfrontareleprestazioni di pLSAeBoWclassiconelleduevarianti, quellagenerativapurabasatasuk-NNequellaibridagenerativa/discriminativachefausodiSVM.PerilclassicatoreSVMvieneusatounkernel2esponenzialeperil modelloBoW, mentreperpLSAunoesponenzialebasatosulladistanzaeuclidea. Per incrementare ulteriormente le prestazioni sono state introdottedellemodicheal metodobasatosupLSA, inmododaprendereinconsi-derazioneinformazionisullaposizione. Sonostatimessiaconfrontometodi1misura della dierenza tra due distribuzioni di probabilit`a4CAPITOLO1. STATODELLARTEFigura 1.1. Schema della versione ibrida del metodo di classicazionetramite pLSAdiversi: alcuni che prevedono la semplice aggiunta delle informazioni di posi-zioneaifeature vectordeikeypoint,denominatixy-pLSAeABS-pLSA;altriche invece provano ad integrare rappresentazioni strutturate a piramide spa-ziale con linformazione ottenibile tramite topic latenti. Unimplementazionedello Spatial Pyramid Matching (SPM, [37]) `e stata confrontata con linnova-tivo SpatialPyramid-pLSA (SP-pLSA). Test eseguiti su Caltech-101 hannomostratochequestultimometodooreprestazioni migliori di tutti quelliprecedentementedescritti.5CAPITOLO1. STATODELLARTE1.1.2 SegmentazioneI modelli a topic latenti sono stati impiegati anche in molti lavori che miranoalla classicazione delle immagini tramite la loro segmentazione, in modo daindividuareoggettisemanticamenterilevantiallorointerno.Ad esempio Sivic etal. in [36] presentano un metodo non supervisionatodiclassicazionediscenemediantepLSAcheestendeimetodigi`adescrittiintroducendoil concettodi doublets: coppie di parole che occorrononel-lestesseimmagini inregioni spaziali contigue, escluseregioni conelevatasovrapposizione. Inquestomodovieneintrodottoil concettodi specicit`aspazialenelladescrizionedeglioggetti,inmododamigliorareirisultatidel-lasegmentazione. Leparolevisuali sonoottenuteapartiredadescrittoriSIFTeregioni MSER. Unanalisi delladistribuzionedei topicnellediverseimmaginiportagliautoriadosservarecheleparolepi` urappresentativeperciascunacategoriadescrivonoregionidellimmaginerilevantianchedalpun-todivistasemanticoperidenticareglielementichelacontraddistinguono.Adesempionellacategoriavoltisonoparticolarmenterilevanti leparolevisualiassociateagliocchi.Laclassicazioneavvienecomeinprecedenzadescrivendoogniimmagineinbase alla percentuale di topic presenti in essa; la successiva segmentazione av-viene tramite una procedura di allineamento tra le parole visuali e le regionidaindividuarenellimmagine. TesteseguitisuCaltech-101hannomostratochelusodi doublets portaunmiglioramentodel 20%delleprestazioni diclassicazione.Un framework che combina LDA per il riconoscimento e un modello ibridoparametrico-non parametrico per la segmentazione `e la soluzione adottata daAndreetto et al. in [24]. Lobiettivo del progetto `e la scoperta di relazioni trasegmenti inunacollezionedi immagini, intesi comeparti di unoggetto. Sipropone infatti di apprendere dei categorical segmentssvolgendo simultanea-mentesegmentazione,scopertadicorrispondenzetrasegmentiappartenentiadimmagini diverseericonoscimento. Inquestocasolevisual wordsono6CAPITOLO1. STATODELLARTEottenute a partire da un campionamento denso in cui a ciascun punto `e asso-ciato un vettore di feature che comprende la posizione e i valori RGB, mentreLDAvieneusatopermodellareladistribuzionedeitopicallinternodiognisegmento.Arrivareallacomprensionetotaledellascena `elobiettivodellavoropre-sentatodaLi eFei-Fei in[17]: inessogli autori propongonounmodellogenerativogerarchicobasatosutopiclatenticheconsentediclassicareunascena, riconoscere e segmentare ciascun suo componente visuale ed annotarelimmagineconunalistadi tag. Inquestosensosi vuolearrivareadunadescrizione dellimmagine con un modello congiunto che derivi sia da un mo-delloditipovisualechedaunoditipotestuale.Il modellopropostopu`oriconoscereesegmentareoggetti multipli allinter-nodelleimmagini; si poneinoltrecomeil primotentativodi ottenereunadescrizioneglobaleper lapprendimentoautomaticoapartiredaimmaginietagottenutedallarete, adesempiodaFlickr. Si introduceinoltreunasoluzioneperidenticarepossibili tagerroneamenteassegnati. I testsonostati eseguiti suundatasetdi ottoclassi rappresentati scenesportive: 800elementi perclasse, di cui 200usati peri test. Itagassociati adessesonostatiltratitramiteunopportunoalgoritmo: dopoavereliminatoquellichenonsiriferisconoadentit` asichesecondoWordNet,irimanentivengonoraggruppati inbaseai synset specicati sullostessoportale. Dei 1256tagunici ottenuti al termine di questa fase di preprocessing,sono stati utilizzatiperlalgoritmosoloi30pi` ufrequenti.1.2 SocialknowledgeLaquasitotalit`adellesoluzionipropostenorautilizzadatasetcostruitiar-ticialmentepermettereallaprovalemetodologieproposte, conimmaginiscelte appositamente per la creazione dei dataset dagli stessi ricercatori che sioccupanodelprogetto,etichettatespessodautentispecializzati. Vistaper` ola grande diusione di contenuti multimediali su Internet e soprattuto il con-tinuoaccrescimentodi portali perlacondivisionedi immagini comeFlickr7CAPITOLO1. STATODELLARTE(www.flickr.com) viene spontaneo chiedersi in quale misura questa quantit` adiinformazionidirettamentedisponibileedincontinuacrescitapossaessereimpiegataascopidiricerca.Come gi` a visto in [17], luso di questo genere di immagini consente anchedi impiegareleinformazioni derivanti dallanalisi dei tag, ovverolebrevidescrizioni associateallestessedai loroautori. Inprimaistanzasi potreb-beessereportati adassociareil taggingsocialeallaclassicazioneaccuratacompiutadairicercatori: inquestomodolusodiquestogenerediimmaginiconsentirebbe di creare dataset in cui loperazione di etichettatura diverrebbesuperua. I tag costituirebbero inoltre una possibile sorgente informativa ag-giuntiva direttamente associabile allimmagine. Ma quali beneci porterebbequestasoluzione? Quantosonorealmenteadabili i taginapplicazioni diclassicazione?Nel lavoro di Setz e Snoek del 2009 [35] viene mostrato comei tag siano spesso ambigui e altamente personalizzati, oltre a poter contenereerroriinalcunicasi. Iricercatorimostranocheper` odopounaprimafasediltraggio e disambiguazione luso di questa informazione aggiuntiva porta adun miglioramento delle prestazioni di classicazione, soprattutto per concettichesonovisivamenteconsistenti al variaredel dominiodi ricercadelleim-maginideldataset. In[18]LieSnoekintroduconolideadiunasostituzionedel social tagging alle procedure di expertlabelingper creare esempi negativiperlaclassicazionebinaria. Vengonoconfrontatidiversiscenaridiappren-dimentoadueclassi(esempipositivi-esempinegativi): nelprimoscenarioentrambigliinsiemisonocostituiticonimmaginietichettatedaesperti; nelsecondolinsiemedegli esempi negativi `eottenutotramitequerysuFlickrbasate sui tag. Identicato linsieme dei sinonimi del concetto che si intendeclassicare, linsiemedei negativi vienecostruitorimuovendodaunacolle-zionedi immagini scaricatedaFlickr quellechesonoassociateadalmenounsinonimo. Lariduzionediprestazioniusandoifreenegativeexamples siattestaintornoal4%.Il problemaprincipaleincasodi utilizzodi unasorgentesocial per lacreazionedeldatasetdiventadunquetrovareunmodoperelaborarelinsie-8CAPITOLO1. STATODELLARTEmedeitaginmododarenderlononambiguo. In[35]ilprocesso`eeseguitovolutamentemanualmente,maaltriautorisuggerisconomolteplicisoluzioniditipoautomaticoosemi-automatico.Unasoluzioneinteressantepu` oesserequellaintrodottadal cosiddettoESPgame[2]: basandosi sullassunto che un tag adabile sar` a scelto da pi` u uten-ti, il giococonsistenel mostrareadueutenti, scelti casualmente, lastessaimmagine; gli utenti, che non possono comunicare tra di loro, devono scrivereunelencodi termini chesecondolorodescrivanoecacementequantorap-presentato; non appena lo stesso termine viene usato da entrambi i giocatori,adognunodiessivieneassegnatounpuntoedilgiocoprosegueconlimma-ginesuccessiva. Seunterminevieneassegnatoadunimmagineunnumerosuciente di volte, viene aggiunto ai tag. I punti di forza di questa idea sonolegati alladabilit`adi annotazioni compiutedautenti diversi,supponendochequestidescrivanoinmodooggettivoilcontenutovisualedellimmagine.LalgoritmopropostodaKennedyet al. [21], miraadapplicarei concettiintrodotti nellESPgameadundatasetdi immagini ottenutodaFlickr. Inquesto caso viene fatto notare come i fotogra, che hanno realizzato le imma-gini condiviseonline, possanoessereconsiderati quasi al pari di annotatoriesperti rispettoai lorolavori; quindi immagini visivamentesimili sarannomoltoprobabilmente annotate dai loroautori contaganaloghi. Sembradunquesensatosupporreche, analogamenteal casodel giocoESP, sedueautori diversi usanogli stessi tagperdescrivereimmagini vicinenellospa-ziodei descrittori visuali, tali tagsianoconnessi col contenutovisivodelleimmagini. Datouninsiemedi immagini, nevengonocercatealtrechesia-noadessesimiliinbaseafeaturevisuali di bassolivello, macreatedaautori diversi econalcuni tagincomune. Ai tagdelleimmagini originalivienequindiassegnatounpunteggio,chesar` atantopi` ualtoquantopi` uessisarannofrequentinellinsiemecreato.Partendodapresupposti simili, Li eSnoek[19] introduconounmetodoperassegnareunpunteggiodi rilevanzaai taginbaseallalorooccorrenzaallinternodellinsiemedeivicinidiunimmaginecreatopermezzodellesuefeaturevisuali. Inparticolarevieneintrodottaunamisuradi tagrelevance9CAPITOLO1. STATODELLARTEchetienecontodelladistribuzionedei tagsianellinsiemedei vicini chealivelloglobalenellinterodataset; laformulanale`epari alladierenzatraun punteggio derivante dal conteggio delle occorrenze del tag nellinsieme deivicinielasuafrequenzaapriori.Sono stati condotti esperimenti di image retrieval basata sui tag, utilizzandounafunzionepunteggioincui allafrequenzadei termini vienesostituitoilpunteggio di tag relevance introdotto. In modo analogo gli autori presentanoancheapprocci di tagsuggestionsiaperimmagini etichettatechenoneti-chettate.La soluzione di calcolo della rilevanza dei tag presentata in [19] `e stata adesempioutilizzatadaBallanetal. in[16] perlassegnazioneautomaticaditag a parti di sequenze video. Prendendo in considerazione un video caricatosuunodei pi` upopolari siti di condivisionedi dati multimediali (YouTube,Facebook, Vimeo), vengono considerati separatamente i sui tag ed alcuni suikeyframe.I tag sono usati come parole chiave per ricerche su Flickr, in modo da ottenereuninsiemediimmaginichesianoetichettateconglistessitermini;unostepdiclusteringconsentediraggruppareimmaginivisivamentesimili. Perognikeyframreestrattodal video, si cercanoimmagini adessovicinenei clustercostruiti come descrittosopra, basandosi sempre suopportune misure didistanzanellospaziodellecaratteristichevisuali. Sullabasedellinsiemedivicinicos`ottenutosicreauna listaditagsuggeritiper ilframe facendousodellafunzioneditagrelevance.1.2.1 MetodimultimodaliLa combinazione delle descrizioni derivanti da diverse unimodal feature, spe-cialmente in caso identichino caratteristiche dissimili del contenuto informa-tivo, possono portare ad un consistente incremento delle prestazioni rispettoai metodi di partenza. Letecnichedi fusionepossonoagrandi lineeesserediviseinduecategorie: earlyfusion,incasolacombinazioneavvengaprimadelprocessodiapprendimento;latefusionincasocontrario. Ilsecondome-10CAPITOLO1. STATODELLARTEtodofornisceprestazionimigliorinellamaggiorpartedeicasi[9],perquestonelpresentelavorosonostaticonsideratiapproccidiquestotipo.Unulteriore classicazione dei diversi approcci deriva dalla tipologia di featu-readesserecombinatetraloro: inalcunicasiadesempiovengonoaccostatesolo caratteristiche che derivano da unanalisi visiva della scena rappresenta-ta, facendo attenzione ad utilizzare descrittori che vadano a descrivere aspettieterogenei;in caso sia possibile associare allimmagine anche informazioni dialtra natura, ad esempio di tipo testuale, pu` o essere possibile includere ancheimodelligeneratiapartiredaessenellanalisimutlimodale.Unesempiodel primotipo, chefaquindi usosolodi featurevisuali, `epresentatoin[32]daGehlereNowozin: intalelavorogliautoriconfrontanometodologie diverse di apprendimento multimodale basato sui metodi kernel.Inparticolareimetodicosiddettibaseline, ovveromediaaritmetica(ave-rage) e media geometrica (product) dei kernel derivanti dalle diverse feature,vengonocomparati conunMKL(MultipleKernel Learning)puroeconal-cunetecnichediLPBoost (linearprogrammingboosting).Le feature visuali considerate sono: descrittori SIFT a griglia densa su quat-troscale,unistogrammadelledirezionidelgradientecalcolatecomeoutputdiunedgedetectorCanny,valoridicovarianzalocaledifeaturealivellopi-xel,LPB(patternbinarilocali),funzionidiGabor. Tuttelefeature,trannelultima, sono calcolati a pi` u valori di scala, per un totale di 39 kernel utiliz-zatineidiversiprocessidifusione.I risultati ottenuti da test eseguiti anche su Caltech-101 mostrano che le sem-plici soluzioni baseline, molto pi` u veloci delle altre tecniche di apprendimento,oronoottimeprestazioni; sololetecnichebasatesul boostingraggiungonoperformancedimigliorlivellosututtiitest.Unapprocciodiverso`equellopresentatodaLienhartetal. in[33]. GliautoripropongonounmodelloatopiclatentibasatosupLSAperrealizzareunapplicazionediInformationRetrievalchefausosiadiinformazionideri-vanti daanalisi visualedelleimmagini chedei dati ottenuti dai tagadesseassociati. Partendodaconsiderazioni relativeai processi di apprendimento11CAPITOLO1. STATODELLARTEumani, vieneintrodottounmetodomultimodalemultilivello: vengonoap-presi separatamente un modello a topic latenti a partire dalle feature visualiedunoderivatodaitag; leduedescrizionicos`ottenutevengonofuseinununico vettore, usato come input per un nuovo passo di apprendimento pLSAchefornisceunadescrizionedipi` ualtolivellodellimmagine.Il modellovisualevienecostruitoinmodosimileaquantofattoinlavorianaloghi, come ad esempio in [6]: le feature puntuali individuate nelle imma-ginivengonoquantizzateperformareuncodebookdivisualword;costruitaunatabelladi co-occorrenzadelleparoleinogni documento, lapplicazionedi pLSAconsentedi ottenereundescrittoreperogni immagine, costituitodalla frequenza deidiversitopic alsuo interno. Per utilizzare itag,essiven-gonoanzituttoltrati pereliminarelestopwords; inseguitounaricercasuWordNetconsentediconsolidareulteriormentelinsiemedelleparolescelte:questa analisi inoltre consente di includere sinonimi ed iperonimi no al terzolivelloaldizionarionale. Sullabasedeitokencos`ottenutivienecreatounmodelloatopiclatentiinmodoanalogoalcasovisuale.I test compiuti sul dataset introdotto in [10] mostrano un incremento di pre-stazioni del 19%rispettoal singolometodounimodalebasatosullefeaturevisuali.Unaltroapprocciodel secondotipo`estatointrodottoin[28] daRasi-wasiaet al.: inquestocasoci si poneil problemadi determinareil gradodi similarit` atraundocumentotestualeedunimmagine, eviceversa. Perfarci`ovienepropostounmetodochefausodi metodi diversi perottenererappresentazioni ad elevati livelli di astrazione a partire da elementi eteroge-nei. Tecnichedi correlationmatching, comelatentsemanticindexing(LSI)oprincipal component analysis (PCA), vengonointegrateconstrategiedisemanticmatchingcomeLDA.1.2.2 Insiemidiimmaginireal-worldComesi `evisto, possonoderivareindubbi vantaggi dallusodi undatasetprovenientedaunafontesocial. Primofratutti limmediatadisponibilit`a12CAPITOLO1. STATODELLARTEdi meta-informazioni che possono essere associate alle immagini, da utilizza-redurantelefasi di creazionedei modelli matematici peraccrescerelaloroaccuratezza. Realizzaresoluzioni chebensi adattanoaquesti insiemi real-world, inoltre, orelapossibilit` adi usufruiredellimmensaquantit` adi datiliberamentedisponibileonline,adoggiincontinuacrescita.AesempioHorsteret al. in[10] hannotestatoil metodopresentatosuundatasetdicirca246kimmagini,sceltetraquellepostatesuFlickrprimadelSettembre 2006 ed etichettate come geotaggedinsieme ad almeno uno dei se-guentitag: sanfrancisco,beachetokyo. Tratuttequelleottenutesonostateconservatesoloquellechecontevanoalmenounodei seguenti tag: wildlife,animal, animals, cat, cats, dog, dogs, bird, birds, ower, owers, grati, sign,signs, surf, surng, night, food, building, buildings, goldengate, goldengate-bridge, o baseball. In totale sono state dunque costruite 12 categorie, con unamediadi20.500immaginiperclasse.Un dataset pi` u recente, realizzato utilizzando le immagini rilasciate sottolicenzaCreativeCommonssuFlickrecostituitodaunnumeroinferiorediimmagini, maconmaggiorevariabilit`aintermini di tag, denominatoMIRFlickr[27].Secondogliautoriildatasetidealedovrebbesoddisfareiseguentirequisiti:essere rappresentativo per larea di interesse: in caso di dataset deri-vatidafontisocial,dovrebbeessererealizzatoapartiredalcontributodimigliaiadiutentidiversi;disponibilit` a di risultati di base (groundtruth), da poter usare comemetrodiparagonepertestfuturi;esserefacilmenteaccessibileeliberamentecondivisibile;disponibilit` adirisultatiperteststandardizzati.Nellaprimaversioneessocomprende25000immagini ottenutetramitelA-PIdi Flickr, cercandofotoscattatetraMarzo2007edGiugno2008. Allacreazionedellacollezionecontribuiscono9862autori diversi, dei quali 556613CAPITOLO1. STATODELLARTEsonorappresentati nellinsiemedaunasolaimmagine. Il numeromedioditag `e 8.94 per immagine, con 1386 tag che compaiono in almeno 20 immagini.Itagpi` ufrequenti sono: sky(845img.), water (641), portrait (623), night(621), nature (596), sunset (585), clouds (558), ower (510), beach(407),landascape(385). Oltreaitag,perogniimmaginisonofornitiidatiEXIF2dei parametri della fotocamera. Un gruppo di annotatori esperti ha raggrup-patoitagin11argomentidialtolivello: sky,water,people,night,plantlife,animals, man-built structures, sunset, indoor, trasport, food; alcuni di essisonocaratterizzati dasotto-argomenti associati adetichettespeciche, peruntotaledi 27classi. Suquestodatasetsonostatepropostetretipologiedi teststandard: riconoscimentodi concettivisuali; tagpropagation; tagsuggestion.Inunarticolosuccessivo[26] sonostati forniti i risultati delleprestazioniditestdiclassicazionebasatisugliargomentiassegnatiadogniimmagine,utilizzandosiadescrizionivisualiglobalidibassolivellochelanalisitestua-ledei tag. Vieneinoltreintrodottoil progettodi estendereil datasetad1milionedi immagini: questolavorosi`econclusonel 20113, edil risultato`estatousatonellImageCLEF2011workshop4.AncheChuaetal. hannopresentatoin[8]undatasetdiimmaginicosti-tuitodaelementi ottenuti daFlickr, denominatoNUS-WIDE. Il numerocomplessivodi immagini `e269648, ognunaconi relativi metadati, peruntotaledi5018tagunici.Per la descrizione sono stati utilizzati sei tipi diversi di feature di basso livello:istogrammadicolorea64-D,correlogrammadicolorea144-D,istogrammadelledirezionideibordi73-D,wavelettexturesa128-D,momentidicoloreablocchi225-D,unmodellobagofwordsa500-DbasatosudescrittoriSIFT.Ildataset `estatosuddivisosecondo81concettidiversi.Inquestolavorovengonointrodottialcunimetodidiannotazioneeretrievaldi immagini basati sul datasetpresentato; unsetdi risultati baselinesono2http://exif.org3http://press.liacs.nl/mirflickr/4http://imageclef.org/201114CAPITOLO1. STATODELLARTEstati inneottenuti conunaproceduradi annotazionebasatasul metodok-NN.15Capitolo2BagofWords2.1 ClassicazionedidocumentitestualiUnodei metodi pi` uusati perlarappresentazioneinambitoinformaticodidocumentitestuali,siaperapplicazionidiInformationRetrievalchediclas-sicazione, `e il cosiddetto bag of words. Questo modello prevede di rappre-sentareognidocumentoattraversolacollezionedeiterminiinessopresenti,senza considerare le loro rispettive posizioni allinterno del testo. In entram-beletipologiedi problemalaquestionedaarontare`estabilireil gradodisimilarit` a tra un documento a cui non `e ancora stata assegnata unetichet-ta(query)equellichecompongonoilcorpusgi` aanalizzato. Aquestoscopo`enecessariostabiliredeimetodidi:creazionedeldizionariodeitermini;rappresentazionedeidocumenti;creazionedi unmodellomatematicodi classicazione, basatosullecategoriedeidocumentinoti;classicazione di nuovi documenti, basata sul calcolo della similarit` atralaqueryedidocumentidelmodello.16CAPITOLO2. BAGOFWORDS2.1.1 CreazionedeldizionarioIl dizionario dei termini non pu`o derivare direttamente dallelenco di tutte leparolechecompaionoallinternodeidocumenti: `enecessarioapplicaredelleoperazionidiltraggioperdeterminareglielementichehannomaggioreri-levanzadalpuntodivistasemantico.Il processodi creazionedei tokenapartiredaundocumentotestuale, adesempio, deve anzituttotener contodelle regole di punteggiaturae dellarappresentazionedinumeri,date,importi,oltreastabilirecomeindicizzaretermini provenienti da lingue diverse. Allo stesso modo `e necessario stabilireinchemodotrattarei sinonimi esesiaopportunoomenoconvertiretuttelelettereinmaiuscole.La cosiddetta regola di Zipf, pubblicata dal linguista di HarvardGeorgeKingsleyZipf,stabilisceche:Inuncorpusdienunciatiinlinguaggionaturale, lafrequenzadiogniparola `egrossomodoinversamenteproporzionalealsuogra-do(rank) nellatabelladi frequenza. Quindi, laparolapi` ufre-quenteapparecircaduevoltepi` uspessodellasecondaparolapi` ufrequente, cheappareduevoltepi` uspessolaquartaparolapi` ufrequente,eccFigura 2.1. Relazione tra frequenza dei termini in un corpus e loro rilevanzasemanticaIn gura 2.1 viene rappresentato il concetto in forma graca. Da notare che iterminicherisultanodimaggiorinteresseperleoperazionidiclassicazione17CAPITOLO2. BAGOFWORDSe ricerca sono quelli per i quali il valore della frequenza non `e troppo elevatomanemmenotroppobasso. Moltedelleparolepi` ufrequenti allinternodeidocumentihannoinfattiscarsovaloredalpuntodivistasemantico: sonolestopwords,ovveroarticoliepreposizioni. Lalororimozionepu` oportareadunanotevoleriduzionedelladimensionedel dizionarioedal contempocon-sentediaumentarelecienzaelecaciadelsistemadiclassicazione.Ilpassosuccessivoconsistenelleseguireoperazionidistemmingsullinsiemediparolerestanti,perridurreleformeessedelleparoleallelororadici: adesempioterminicomeuser, users, used, usingvengonotuttiricon-dottiallastessaradicesemanticause. Inquestomodosifannocorrispon-dere termini simili e le dimensioni del dizionario possono essere ulteriormenteridotte. Itokencos`ottenutivannoacostituireilvocabolariosullacuibasevienerealizzatoil modellodei documenti echesar` autilizzatoper laloroclassicazione.Permaggiori dettagli sullediversetecnicheutilizzabili perlacreazionedeldizionariosirimandaallostudiocondottodaYangePedersennel97[44].2.1.2 TipologiedirappresentazioneDataunacollezionedi documenti D, siaK= k1, k2, . . . , ktil vocabolariostabilito a partire dai termini usati nei documenti. A ciascun documento pu` oesserealloraassociatounvettore:dj= (w1j, w2j, . . . , wtj) (2.1)dovewij`eilpesodiogniterminekineldocumentodj. Siavr`awij> 0soloseiltermineki`epresenteneldocumentodj. Nelseguitoverr` aimpiegatalaseguenteterminologia:kiindicauntermine;djindicaundocumento;wij`eilpesoassociatoa(ki, dj);datotil numerototaledi termini, K=(k1, k2, . . . , kt)`elinsiemedeitermini;18CAPITOLO2. BAGOFWORDSvec(dj)=(w1j, w2j, . . . , wtj)siriferiscealvettoredeipesiassociatoaldocumentodj;RappresentazionebooleanaSi vuole valutare soltanto se un termine `e presente o meno in un documento,manonil numerodi volteincui compare. I pesi assumonopertantodeivalori booleani: wij= 0, 1. Inquestomodellosi avr` awij=1soloseiltermineki`epresenteneldocumentodj.Unodeiprincipalivantaggidellusodiquestatecnicarisiedenelformalismochiaro delle query, che sono indicate da espressioni booleane. Ad esempio, laquery:q= ka (kb kc)portaairisultatimostratiingura2.2.Figura 2.2. Modello booleano (q = ka (kb kc))SpaziovettorialeIlpesowijdiognitermineallinternodiundocumentovariaconcontinuit` atra0e 1inbase al numerodi occorrenze allinternodel testo. Adognitermine kiviene associatounvettore di modulounitariovec(i), consoloun1allaposizionei-esima. Cos` si ottengonot versori cheformanouna19CAPITOLO2. BAGOFWORDSbaseortonormaleperunospaziot-dimensionale. Inquestospazioqueryedocumentisonorappresentaticomevettorideipesi:vec(dj) = (w1j, w2j, . . . , wtj) vec(q) = (w1q, w2q, . . . , wtq)Per il calcolo dei wij, sia per i documenti che per le query, vengonodeterminatiperogniki:TFTermFrequency: ilnumerodioccorrenzedelterminekineldocumentodj, normalizzato rispetto alle frequenze di tutti gli altri termini nel do-cumento dj; indicando con fij la frequenza del termine ki nel documentodj,siha:TFij=fijmaxf1j, f2j, . . . , ftj(2.2)IDFInverseDocumentFrequency: illogaritmodellinversodellafrequenzaconlaqualeilterminekicompareintuttiidocumenti:IDFi= logNni(2.3)con Npari al numero totale di documenti e ni= numero di documentineiqualicompareki.Ilpesovienecalcolatocome:wij= TFij IDFi(2.4)Tale scelta `e motivata dalla volont` a di utilizzare una buona misura di peso,chetengacontosiadellasimilarit`adei contenuti intra-document(TF)chedelgradodidissimilarit` ainter-document(IDF).2.1.3 ApprendimentodiunmodelloDatalacollezionedi documenti D= d1, d2, . . . , dNelinsiemedelleca-tegorie individuate dalle etichette C= c1, c2, . . . , cL, loscopodellafa-sedi apprendimento`eapprossimarelacosiddettafunzioneobiettivo:DC T, F, che descrive come un documento viene classicato, tramite20CAPITOLO2. BAGOFWORDSuna:DC T, F, inmodocheecoincidanoil pi` upossibile[34].Aquestoscopolinsiemedei documenti adisposizionevienedivisonei duesottoinsiemiditrainingetest: ilprimovieneusatodurantelafasediadde-stramentoperlacreazionedel modello, il secondoperlavericadellasuavalidit`a.Durantelafasedi apprendimentovienecalcolataunasfruttandolaco-noscenzaapriori dellacategorizzazionedei documenti del trainingset. Lafunzionecos` calcolatavieneusataperclassicarei documenti dellinsiemedi test. In base ai risultati ottenuti `e possibile stabilire se occorra modicareivaloridialcuniparametridelmodello.Uno dei metodi pi` u usati per la stima dei parametri `e la K-fold cross-validation: le tecniche di K-foldcross-validation prevedonoil partiziona-mento del dataset in K sottoinsiemi aventi la stessa cardinalit` a, ciascuno deiquali vieneutilizzatoaturnocometestsetperlamacchinaaddestratasuirimanentiK-1sottoinsiemi.2.1.4 MetodidiclassicazioneData una collezione di documenti D = d1, d2, . . . , dN, un insieme di etichet-te C= c1, c2, . . . , cL e una query q, lobiettivo del processo di classicazione`eassegnareunetichettaal documentodellaqueryinbaseadunafunzionedi classicazione . Condizione necessariaaquestoscopo`e determinareuna funzionedisimilarit`asim(q, dj), denita come la somiglianza tra unaqueryqedundocumentodj. Esistonoduetipologiedi funzioni di questogenere:funzioni indicatrici: sim(q, dj) T, F, permettonodi stabiliresoloseduedocumentisonosimiliinmodoassoluto;funzionidirilevanza: sim(q, dj) [0, ],> 0,fornisconounamisuradi similarit`acheconsentedi stabilireunrankingtrai documenti delmodello.21CAPITOLO2. BAGOFWORDSLe funzioni del primo tipo possono fornire in modo diretto informazioni sullaclasse di appartenenza del documento query, per esempio votando a maggio-ranzatratutti gli elementi segnalati simili; unasoluzionedi questotipopu` o per` o essere poco accurata, in quanto non fornisce una misura del grado disimilarit` a. Lusodifunzionidirankingconsenteinvecediapprendereinfor-mazioni sul grado di similarit` a e di poter ordinare e raggruppare gli elementiinbaseaquestidati.2.2 BagofVisualWordsLaricercadi concetti di altolivello, capaci di renderedistinguibileunim-maginedallealtreinquantoesplicatividelsuocontenutosemantico,sipu`otradurretecnicamentenellassociazionetraimmagineevisual words di unvocabolarioche`epossibileindividuarealsuointerno. Sitrattadiunap-plicazionedellatecnicadel BagOf Wordsprecedentementeintrodottaperdocumentitestualiadattataaduncontestovisuale.Ancheinquestocasoil processoprevede, primadellaclassicazioneveraepropria, unafasedi apprendimentosuuninsiemedi immagini dellequali`enotalacategoriadi appartenenza; perognunadi essevienecostruitounvettorei cui campi indicanolafrequenzao, pi` usemplicemente, lapresenzadelleparoledelvocabolario(g. 2.3). Inquestomodoivettorirelativialleimmagini di training vengono utilizzati per creare uno spazio delle categorie.Per classicare una nuova immagine baster` a generarne il vettore di frequenzadelleparolerispettoallostessovocabolarioedosservarelasuacollocazionenellospaziodellecategorie.Le dierenze principali rispetto alle applicazioni BoW per documenti testua-li risiede nella creazione delle parole e in quella del dizionario. Preso uninsiemedi immagini di training, si estraggonoleinformazioni di ciascunadi esseattraversolaricercadi punti oregioni salienti. Leinformazioni cos`ottenute vengono raggruppate per la generazione dei termini del vocabolarioattraversounoperazionediclustering,necessariaperridurreladimensiona-lit` aadunvaloressato. Unavoltaottenutounvocabolario,ogniimmaginevienedescrittainbaseallafrequenzadelleparolevisualialsuointerno.22CAPITOLO2. BAGOFWORDSFigura 2.3. Esempio di creazione di modello BoW visualeIl processo di creazione del codebookdi parole visuali `e lanalogo della creazio-ne del dizionario nel caso testuale; lanalogia si estende anche alle operazionidi clusteringequantizzazionerispettoaquelledi stemmingedeliminazio-nedellestop-words. Mentreper`onellaclassicazionedi documenti testualiquesti stepsonoopzionali evengonointrodotti soloal nedi migliorareleprestazione, il clustering e successiva quantizzazione dei feature vector `e unacondizionenecessariaallacreazionedelcodebookvisuale.I passi principali della procedura di classicazione di immagini per mezzo delmodelloBoWsonoiseguenti:ricercaedestrazionedi feature: ricercaedescrizionedipuntisa-lientiallinternodiciascunaimmagine,checoncorrerannoaformareildizionariovisuale;clustering-quantizzazione: inanalogiaalleproceduredi stemmingperdocumenti testuali, vengonoapplicatedelletecnichedi clusteringdellinformazioneallinsiemedei descrittori perottenereundizionariovisualedelledimensionidesiderate;23CAPITOLO2. BAGOFWORDSdescrizione: ogni immagine viene rappresentata per mezzo del vettoredellefrequenzedeiterminideldizionarioalsuointerno;classicazione: le nuove immagini vengono classicate inbase adappropriatemisuredidistanza.2.3 EstrazioneedescrizionedellefeatureLa ricerca di concetti allinterno di unimmagine ha come presupposto lindi-viduazionedi informazioni di bassolivellochenepossanodescrivereil con-tenutosemantico. Il contributoinformativodellimmaginevienecatturatodalladescrizionedeipuntisalienti(keypoints)che`epossibileindividuarealsuointerno. Questi elementi di interessesi riferisconoacaratteristicheditipo locale dellimmagine che orano una certa robustezza ad alcune trasfor-mazioni.Loschemageneraleseguitoperladeterminazionedelcontenutoinformativodiunimmagineprocedeinduepassi:1. ricercadicaratteristichepuntualiolocalisalienti;2. descrizionedellecaratteristichetrovate.2.3.1 RicercadifeaturesalientiLe strategie di ricerca dei punti salienti possono essere distinte in due catego-rie: tecniche di campionamento sparso o denso. La prima categoria si avvaledimetodididetectionbasatisulcontenutodellimmagine,mentrelasecon-damiraacostruireuninsiemedi punticompostosecondocriteri stabiliti apriori.Ilvantaggioprincipalechederivadallusodiunatecnicasparsadiricercadiregioni salienti `echeconsentedi determinarelezoneamaggiorcontenutoinformativodellimmagine; daltraparteper`oirisultatiottenuticonquestometodo dipendono in larga misura dallalgoritmo scelto e dal tipo/risoluzionedellimmagine, oltre a fornire spesso un numero basso di risultati. Una tecni-cadensaconsentedidescrivereilcontenutodellimmaginealivelloglobalee24CAPITOLO2. BAGOFWORDSpu` o quindi rivelarsi utile in applicazioni BoW, ma fornisce poche informazionisullimmagineinse.CampionamentosparsoEsistono molte tipologie diverse di algoritmi di ricerca di feature locali salien-ti inimmagini: adesempio[25] oreunampiadescrizioneedunconfrontotrai principali. Tradi essi unodi quelli cheorelemigliori performance`esenzadubbioSIFT(ScaleInvariantFeatureTransform), introdottodaLowein[22]: sitrattadiunmetodoperlarilevazioneeladescrizionedicaratteristiche locali di unimmagine attraverso la ricerca di keypoints. SIFTorebuoneperformanceed`einvariantearotazione, scala, variazioni di in-tensit` aemoderatetrasformazioniani.Ipunti salienti individuati daSIFTgodonodellapropriet` adi esseremassi-milocaliallinternodelloscale-spacediDierenzediGaussiane(DoG);essicorrispondonoapunti dellimmaginecherimangonostabili ascalediverse.Unarappresentazionepiramidaledellimmagineascaladi grigi `eottenutapermezzodiconvoluzionisuccessiveconltrigaussianiascalediverse(vediimmagine2.4):Figura 2.4. Rappresentazione piramidale di unimmagine nello scale-spaceDoGL(x, y, ) = G(x, y, ) I (x, y) (2.5)25CAPITOLO2. BAGOFWORDSdoveI (x, y)`elintensit` adel pixel (x, y) eG(x, y, ) =122e(x2+y2)22. LeDoGsonoottenutecomedierenzetralivelliadiacentidellapiramide:D(x, y, ) = L(x, y, k) L(x, y, ) (2.6)Perogni livellodi DoGciascunpixel vieneconfrontatoconi suoi 8viciniallastessascalaeconi 9vicini individuati sullescaleadiacenti (inferioreesuperiore). Soltantoi pixel cherisultanoessereestremi locali (massimiominimi)inquestoinsiemevengonoscelti comekeypoints. Il valoredellascalaallinternodellapiramideDoGacui vieneindividuatoil keypointvieneindicatocomescalacaratteristicadelpunto.CampionamentodensoSoluzionidiricercadipuntisalientialternativeprevedonodidescrivereogniimmagine secondounnumerossodi punti. Tali tecniche sonodette dicampionamentodenso,inparticolaresiriferisconoa:1. campionamento a griglia (Regular Grid): ssato un passo di campiona-mento, i punti descritti corrispondono ai nodi di una griglia sovrappostaallimmagine;2. campionamentocasuale(Random): unnumeropressatodi punti `esceltoinmodocasualetratuttiipixeldellimmagine.La gura 2.5 mette a confronto le diverse tecniche di campionamento. UsandoFigura2.5. Dasinistra: RegularGrid(passo10), Random(100punti),regular SIFTunatecnicadi campionamentodensononhasensoparlaredi scalacaratte-risticaassegnataadunpunto. Talevalorevieneimpostatoa=1incaso26CAPITOLO2. BAGOFWORDSsi desideri ottenereunadescrizionedellimmaginecos` com`e; considerandovalori in insiemi pi` u vasti, ad esempio 0.5, 1, 1.5, 2, equivale a utilizzareunnumerodipuntiquadruplorispettoalcasoprecedente,ognunodeiqualiverr` adescrittoadunascaladiversa.Esperimenti [11] hannomostratocheperapplicazioni di classicazioneba-satesubagof wordsdi scenenaturali letecnichedi campionamentodensobasatosuunagrigliaregolareoronoottimeprestazioni.2.3.2 DescrittoreSIFTFissataunascalacaratteristicaper unkeypoint, il calcolodel descrittoreSIFTsiarticolainduefasisuccessive:1. calcolodellorientazionecanonicadelkeypoint;2. calcolodelvettoredifeature.Primadi tuttosi determinalimmagineL(x, y, )allascalacorrispondenteaquellaassegnataal keypoint. Inquestaimmaginesi accumulanoinunistogrammaa8dimensioni ledirezioni del gradienteinunanestradi 4x4pixel intorno al keypoint. Il picco registrato nellistogramma corrisponde alladirezionedominantedelgradientelocaleperilpuntocorrente. Ladetermi-nazionedellorientazionecanonicarendeildescrittoreinvariantearotazioni.Il descrittore viene calcolato considerando una nestra di 16x16 locazioni nel-lintornodelkeypointallascalaadessoessegnata, prendendocomesistemadi riferimentoquelloindividuatodallorientazionecanonica. Tali locazionivengono raggruppate in sottoregioni 4x4, per ciascuna della quali `e calcolatoun istogramma a 8 dimensioni delle orientazioni del gradiente locale, sempreinriferimentoalladirezionedominante. Ivaloridiognibindellistogrammaequivalgono alla somma delle ampiezze dei vettori gradiente con direzione nelrangedel binconsiderato. Il risultatonale`eunvettorea128dimensioni:16(4x4)x8. (vedigura2.6)Ildescrittoredelkeypoint `enormalizzatoperrenderloinvarianteacambidiintensit` a27CAPITOLO2. BAGOFWORDSFigura 2.6. Descrittore SIFT2.3.3 DescrittoreColorSIFTIn [39], Van de Sande et al. presentano uno studio delle propriet` a di invarian-zaedelgradodidistintivit` adidescrittoribasatisuSIFTedestesiallarap-presentazionediinformazionidicolore. Lediversesoluzionisidierenzianoinbaseallospaziodicoloreutilizzatoperlarappresentazionedellimmagineedal tipodi approccioutilizzatoperladescrizioneSIFT. Lautoreharesodisponibileunsoftwareperladescrizionedi immagini secondounmodellodicampionamentodensocheconsentediutilizzaresialaversioneascaledigrigioclassicadi Lowechelepossibili varianti cheimpieganolimmagineacolori.HSV-SIFT: il descrittoreSIFTvienecalcolatosui trecanali dellospaziodi colore HSV(Hue SaturationValue, g. 2.7), che corrispondonosingolarmente adunimmagine ascaladi grigi dellimplementazioneoriginaria. Ilrisultato`eundescrittoredidimensionecomplessiva3 128 = 384;questasoluzione `estatautilizzataadesempioin[6].HueSIFT: introdottoin[40], derivadallaconcatenazionedellistogrammadi coloreHSVnormalizzatorispettoallatonalit` aconil corrisponden-tedescrittoreSIFT, calcolatosupatchlocali (g. 2.8); datochelohuehistogramvienerappresentatosu37bin, ladimensionenaledeldescrittore `e165.OpponentSIFT: Descrive tutti i canali dello spazio di colore opponentcon28CAPITOLO2. BAGOFWORDSFigura 2.7. Sistema di coordinate cilindriche HSVFigura 2.8. Creazione del descrittore HueSIFTSIFT:___O1O2O3___=____RG2R+G2B6R+G+B3____Il canale O3fornisce informazioni sulla luminanza, O1ed O2sul colore.Ancheinquestocasosiottieneundescrittorenaledidimensione3 128 = 384perognikeypoint.C-SIFT: datocheicanaliO1eO2dellospaziodicoloreopponentconten-gonocomunqueinformazioni di luminanza, vieneintrodottoancheundescrittoreadinvariantedi coloreC-SIFTcheconsistenel norma-lizzareiduecanalirispettoallaterzacomponente: O1/O3,O2/O3; ildescrittorerisultantehalestessedimensionidiOpponentSIFT(384).29CAPITOLO2. BAGOFWORDSrgSIFT: IlmodelloRGBnormalizzatovienecalcolatocomesegue:___rgb___=___RR+G+BGR+G+BBR+G+B___Nel descrittorergSIFTvengonoaggiunti al SIFTclassicoi descrittoriperlecomponenticromaticheregditalemodello(dim. 384).tcSIFT: la transformed color distributionderiva da RGB ma a dierenza diquestorisultainvarianteamodichediilluminazione:___R

G

B

___=___RRRGGGBBB___doveCeCrappresentanomediaedeviazionestandarddelladistri-buzionenel canaleCcalcolatenellareadi interesseperil descrittore(patchlocale). Il descrittoreSIFTvieneapplicatoai trecanali RGBnormalizzaticos`ottenuti(dim. 384).RGB-SIFT: descrittoreSIFTapplicatoadognunodeitrecanaliR,GeBseparatamente(dim. 384).2.4 CreazionedelvocabolarioLa costruzione del modello bag of words implica la creazione di un codebook, ilvocabolario visuale discreto. Un vocabolario nel dominio della classicazionedioggetti/scenepu`oesserecalcolatoseguendodueapprocci:annotazione: il vocabolario `e ottenuto assegnando etichette signicativeaporzionidellimmagine(es. cielo,acqua,vegetazione,. . . );data-driven: i termini del vocabolariosonocalcolati come centroidiottenutialterminediunprocessodiclusteringdellefeature.30CAPITOLO2. BAGOFWORDSIntecnichedi creazionedel codebookdata-driven`enecessarioeseguireunaquantizzazione di unelevatonumerodi vettori di feature, rappresentati ingenereinunospazioaelevatadimensionalit` a; perfarequestosi utilizzanotecniche di clustering che consentono di denire le parole visuali. Ad esempioingura2.9vienemostratounsempliceesempioincui si identicanodueparole visuali a partire dallinsieme delle patch individuate nelle immagini. LeFigura 2.9. Creazione di parole visuali tramite clusteringperformance di questo metodo dipendono dal metodo di quantizzazione sceltoedal numerodi parolevisuali checompongonoil codebook. Lapprocciodi quantizzazionepi` ucomunementeusato`eK-means, vistalasuarelativasemplicit` aelavelocit`adiconvergenza.2.4.1 AlgoritmodiclusteringK-meansLalgoritmoK-Means`eunalgoritmodi clusteringnonsupervisionatochepermettedisuddivideregruppidioggettiinKpartizionisullabasedeiloroattributi. Si assume che tali attributi possanoessere rappresentati comevettori,echequindiforminounospaziovettoriale.SianodatiNoggetticoniattributi,inunospaziovettorialei-dimensionale,31CAPITOLO2. BAGOFWORDSdeniamo:X= X1, X2, . . . , XNcomeinsiemedeglioggettisucuieseguireilclustering.Ilnostroscopo `eottenereuninsiemedicluster:P= P1, P2, . . . , PK1 K Ntaliche: K1Pi= X: tutti gli oggetti devono appartenere ad almeno un cluster; K1Pi= : ognioggettopu` oappartenereadunsolocluster; Pi X: nessuncluster pu`oesserevuotooconteneretutti glioggetti.LapartizionevieneindicataconunamatriceU NKxN,ilcuigenericoele-mentouij= 0, 1indicalappartenenzadelloggettojalclusteri. IndicatoconC= C1, C2, . . . , CKlinsiemedei Kcentroidi, unoperciascuncluster, lobiettivo`eminimizzarelafunzioneerrore:V (U, C) =K

i=1

XjPi|Xj Ci|2(2.7)In generale, il clustering k-means `e un problema NP-hard, quindi sono statiFigura 2.10. Esempio di esecuzione di K-means (K=3)sviluppati unaseriedi algoritmi euristici peril suocalcolo. Il pi` ucomune-menteusato `edettoalgoritmodiLloyd.32CAPITOLO2. BAGOFWORDSDatouninsiemeinizialedi Kcentroidi, C(1)1, . . . , C(1)K, scelti acasoinbaseal datasetfornito(g.2.10(1)), lalgoritmoprocedealternandoduepassi dielaborazione:Assegnazioneciascuno degli elementi da esaminare viene assegnato al clu-sterilcuicentroiderisultapi` uvicino(g.2.10(2)):P(t)i=_Xj: |Xj C(t)i| |Xj C(t)i | i = 1, . . . , K_(2.8)AggiornamentoCalcolo dei nuovi centroidi associati a ciascun cluster (g.2.10(3)):C(t+1)i=1[P(t)i[

XjP(t)iXj(2.9)Si dimostrachelalgoritmoconvergequandolassegnazionenoncambiapi` u(g.2.10(4)).Essendounalgoritmoeuristico, nonc`egaranziacheessoconvergaadunottimoglobaleedilrisultatonalepu` odipenderedallasceltadeiclusteriniziali. Datochelalgoritmo`eingeneremoltoveloce, si tendearipeterelasuaesecuzionepi` uvoltecondierenti condizioni di partenza.`Estatodimostratocheesistonocerti insiemi di punti peri quali k-meansconvergeintemposuperpolinomiale: 2(N).2.4.2 CreazionedidizionaritestualievisualiPercreareunbuonvocabolarioditerminiapartiredauninsiemedidocu-mentitestualisidevonoprendereinconsiderazioneduefattoriprincipali: laselezionedellefeatureeladimensionedel vocabolario.`Enecessarioutiliz-zaresoloterminichesianorealmenterilevantidalpuntodivistasemantico,basandosi adesempiosupunteggi calcolati utilizzandostatisticheadeguate(infogain, 2) e su tecniche di ltraggio come quelle gi` a illustrate nel paragra-fo2.1.1. Lapplicazionediquestetecnicheorebuonirisultatiperche,come`egi`astatodescrittoinprecedenza,ladistribuzionedeiterminiinuncorpusseguelaregoladiZipf.`Einteressanteprovareadapplicaretecnichesimili alleparolevisuali inun33CAPITOLO2. BAGOFWORDScorpusdi immagini, perstabilireselaregoladi Zipfrisultaancoravalidaesequindi siaconsigliabileapplicarestrategieanalogheal casotestualeperlaricercadei termini di maggiorrilevanza. Yangetal. [42] riportanounesperimento in cui rimuovere le parole pi` u frequenti porta ad una diminuzio-necostantenelleprestazionidiclassicazionesuduedatasetdiriferimento:PASCAL1eTRECVID2.Nellastessafontevieneinoltremostratochelusodi tf-idf invecedel solotf nonportasemprearisultati migliori; i risultatiottenutisonopresentatiingura2.11.Figura 2.11. Performance di classicazione (MAP) su TRECVIDePASCAL al variare degli schemi di pesatura e delle dimensioni delvocabolario2.5 DescrizioneInunmodelloditipobagofwordspuroapplicatoadocumentitestualinonsitienecontodellordineincuicompaionoleparole: ildocumentovienede-scritto tramite il vettore delle occorrenze dei termini del dizionario allinternodi esso. Analogamentenel casovisualeogni puntosalienteindividuatonel-limmaginevieneassegnatoal centrodel clusteradessopi` uvicinoinbaseal metodosceltoinfasedi creazionedel codebook. Propriograzieaquestoprocessononsi parlapi` udi punti salienti madi visual words. Il descrit-toredellimmagine`eunistogrammadi dimensionepari allacardinalit` adelcodebook,incuiognielementomostralafrequenzadellaparolavisualecor-1http://pascallin.ecs.soton.ac.uk/challenges/VOC/2http://www-nlpir.nist.gov/pro jects/trecvid/34CAPITOLO2. BAGOFWORDSrispondenteallinternodellimmagine, cio`equantevolteunpuntosaliente`estato etichettato con il cluster associato alla parola. Un esempio di creazionediunvettorediparolevisualidiquestotipo `epresentatoingura2.12.Comesi intuiscelaposizionerelativadei punti salienti nonvienepresainFigura 2.12. Assegnamento delle feature alle parole ottenute tramitequantizzazioneconsiderazione, inaccordoconlatipologiadi rappresentazionetramitebagof words. Questacaratteristicasemplicadi moltolacostruzionedel mo-dellodelleparolevisualimaalcontempopu` ocostituireunadelleprincipalidebolezze del metodo: `e evidente che gli oggetti complessi rappresentati nelleimmagini sono costituiti da parti che si trovano in speciche relazioni spazialitradi essi, caratteristicheperil tipodi oggetto. Si consideri adesempioilcasodi unvolto, comerappresentatoingura2.13. Ipotizzandochesianostateindividuateparolevisualicorrispondentiaocchiodestro,occhiosi-nistro, naso, bocca, in un modello BoW tutte le congurazioni spazialipresentateinguraverrebberoconsideratecomeequiprobabili, mentresololultimaidenticarealmenteunvoltoesarebbedaconsideraredi maggiorrilevanzasemantica.PiramidespazialeViste le considerazioni fatte al termine del precedente paragrafo sui possibilisvantaggi derivanti dallusodel bagofwords, esistonosoluzioni daessode-35CAPITOLO2. BAGOFWORDSFigura2.13. Letrecongurazioni spaziali sonotutteequiprobabili inunmodello BoW, ma solo la terza `e realisticarivatecheutilizzanoinformazioni di tipospaziale. Unodi essi `eil metododescritto da Lazebnik et al. in [37], che propone un sistema di riconoscimentodellescenebasatosucriteridicorrispondenzageometricaglobale. Latecni-ca adottata consiste nel partizionamento ricorsivo dellimmagine in regioni didimensionisemprepi` upiccole,perciascunadellequalivengonoviaviacal-colatigliistogrammidellefeaturelocali. Ladescrizionenaledellimmaginederiva dalla concatenazione degli istogrammi calcolati alle diverse risoluzioni,associando ad ognuno un peso opportuno in modo da dare maggiore rilevanzaallecorrispondenzeindividuatearisoluzionepi` une.La rappresentazione che si ottiene viene detta piramide spaziale, unesten-sionedelladescrizionesenzaordineoertadal metodoclassicodi bagofwords. UnarappresentazioneclassicaditipoBoW,secondogliautori,oreinfatti unlimitatopoteredescrittivoper lamancanzadi informazioni chedescrivanoillayoutspazialedellefeature. Unadescrizioneditipopiramida-le, invece, ore buone prestazioni dal punto di vista computazione e miglioririsultatiperquantoriguardaleoperazionidiclassicazione.Questotipodi descrizioneverr` aarontatainmanieradiusanel paragrafo4.2.3.2.6 ClassicazioneComenelcasodicategorizzazionedidocumentitestuali,perclassicareim-magini di test`enecessariocostruireunmodellomatematico checonsenta36CAPITOLO2. BAGOFWORDSdi rappresentareformalmentelepropriet`adelleimmagini usateperladde-stramento. Sononecessariedunquetecnichedi apprendimentoautomaticoche a partire dalle descrizioni ottenute sulle immagini note possano costruireunmodellodi classicazione che consentadi analizzarne di nuove. Que-sto processo viene generalmente compiuto usando tecniche di apprendimentosupervisionatoosemi-supervisionato: i dati di addestramentosonorappre-sentati comecoppiedi elementi (xi, ci)i=1, . . . N, doveconxisi indicaungenericovettoredescrittoredel datoi-esimo(adesempiolistogrammaBoWdellimmagine) econyilaclasseacui appartienetaleelemento. Ilrisultatodel processodi apprendimentoapartiredaquesti dati portaallaformulazionediunafunzionediclassicazionef: X C= c1, c2, . . . , cCcheconsentediassociareunaclassecqadogniimmagineditestxq.2.6.1 MetodiNearestNeighborLalgoritmoknearestneighbors(k-NN)`eunadellesoluzionipi` usemplicidiapprendimentoautomatico: aunoggettovieneassegnatalaclassepi` ufre-quentetraisuoikvicini(g. 2.14). Sek = 1,alloggettovieneassegnatalaclassedellelementoadessopi` uvicino. Questoalgoritmopu` oesseredenitodi tipo semi-supervisionato in quanto non fa uso delle etichette assegnate aglioggettidurantelaricercadeivicini,masolonellultimafasedivotazione.Lafasedi addestramentoconsistenel semplicesalvataggiodei vettori diFigura 2.14. Esempio di classicazione K-NN di un elemento non etichettato(in verde): ponendo k = 3 (cerchio continuo), la classe assegnata sar`a quelladei triangoli rossi; conk = 5 quella dei quadrati blu.37CAPITOLO2. BAGOFWORDSfeatureedelleetichetteper tutti gli elementi dellinsiemedi training. Laclassicazionedi unvettoredi featurenonetichettatoavvienecercandolaclassecheapparepi` uspessonellinsiemedei suoi kvicini. Per stimarelavicinanzatradueelementi `enecessariostabilirequalecriteriodi distan-zaimpiegare. Ingenerevieneimpiegataladistanzaeuclidea, dettaanchedistanzaL2inquantopariallanorma-2delvettoredierenza:dL2(x, y) =_n

i=1(xiyi)2= [[x y[[ (2.10)Unaformulaalternativaperilcalcolodelladistanza `elacosiddetta2(chi-square), unaformaparticolare di distanzaL2quadraticapesata: inessagli elementi del vettore devonorappresentare delle frequenze relative e ledierenze quadratiche tra gli elementi sono pesate da un parametro associatoallorovaloremedio. Informule:2(x, y) =n

i=112(xi + yi)(xiyi)2(2.11)x = [x1. . . xn] xi=xi

nk=1xk=xi[[x[[1conxadindicareivettorinormalizzatisecondolanorma-1.La scelta del valore di kdipende dai dati a disposizione per laddestramentoed il test: valori pi` u grandi riducono leetto del rumore nella classicazione,marendonoi conni traleclassi menodistinti. Unbuonvaloredi kpu` oessere scelto eseguendo pi` u prove modicando i dati di train-test, ad esempiousandounak-foldcross-validation.2.6.2 SupportVectorMachinesLeSVM(SupportVectorMachine)sonostatesviluppatenegli AT&TBellLaboratoriesprincipalmentedaVladimirNaumovichVapnik. Nateperap-plicazioni di OCR(Optical CharacterRecognition), impieganotecnichediapprendimentosupervisionatoperrisolvereproblemi di classicazioneere-gressione. Vistacomeclassicatorebinario,unaSVMhaloscopodiindivi-duareilconnetrapuntiappartenentiadueclassi: inuovipuntisaranno38CAPITOLO2. BAGOFWORDSclassicati inbaseallaloroposizionerispettoaquestoiperpianodi separa-zione, che massimizza la distanza dagli esempi di training pi` u vicini. Le SVMhannoalcuneinteressantipropriet`a:overttingaltamenteimprobabile;possibilit`a di gestione di dati multidimensionali e classicazione multi-classe;possibilit`adiindividuareunsottoinsiemediesempiditrainingeetti-vamentenecessariallaclassicazione,dettivettoridisupporto.LeSVMimplementanounatecnicadiapprendimentosupervisionatoperlaclassicazionemulticlasse. Persemplicarelesposizione,diseguitosar`afor-nitaunadescrizionedelfunzionamentodiSVMperunproblemadiclassi-cazionebinaria; nellapraticaquestametodologiavieneingenereimpiegataancheperlaclassicazionemulticlasse, applicandounatecnicadi tipoone-vs-all che prevede di considerare ogni volta una categoria come positiva, tuttelealtrecomenegative.Siadatouninsieme di esempi gi`aclassicati (xi, yi) i =1, . . . N, conxi RNeyi 1, +1. Obiettivodellapprendimento`edeterminarelaprobabilit` aP(Y [X=x)cheunesempioappartengaadunaclasse, ovveroindividuareliperpianodiseparazioneottimotraidueinsiemidiesempi:fC: RN +1, 1 [ xi yi= Txi +0(2.12)Posto in questi termini, lobiettivo diventa la ricerca delliperpiano a massimomargine (Maximal Margin Hyperplane - MMH) tra due insiemi di punti nellospazio RN, che pu` o essere generalizzato, per punti non linearmente separabili,inunSupportVectorClassier(C-SVC),mostratoingura2.15.Ilproblemadiottimizzazionepu` aessereformalizzatocomesegue:(P) min,0,12||2+CN

i=1i(2.13)conCdettoparametrodicosto. Dettopi` usemplicemente,larisoluzionedelproblema(P)consentedi trovareliperpianoamassimomarginechemini-mizzail numerodi punti classicati erroneamente. Il valoreottimotrovato39CAPITOLO2. BAGOFWORDShalaformaseguente:fC(x) =Tx +0=

iSV iyi_xTi x_+0(2.14)conSVinsiemedei vettori di supporto, ovveroinsiemedegli esempi chesitrovanoadistanzaMdalliperpianodiseparazioneochesonoerroneamenteclassicati (g. 2.15). Si dimostra la funzione cos` ottenuta minimizza lerroreempirico:E(C) =1nn

i=1[fC(xi) yi[ (2.15)Analizzandolaformula2.14sipossonotrarredueconclusionirilevanti:Figura 2.15. Support Vector Classier1. il problemadi ricercadel MMH, ovveroil problemadi classicazione,pu` o essere ridotto alla ricerca dei pesi ida assegnare a ciascun vettoredisupportoxi, i SV ;2. gliesempixiappaionosempresottoformadiprodottoscalare.Introducendounafunzione di feature mapping: x (x) possiamomappare idatiinizialiinuno spaziodidimensione superiore (anche innita,incasodispazidiHilbert),nelqualeidatisianolinearmenteseparabili. Laformulaperilcalcolodelliperpianodiseparazionediventa:f(x) =

iSV iyi(xi), (x)) +0(2.16)40CAPITOLO2. BAGOFWORDSViste le considerazioni fatte sullaformuladelliperpiano, possiamonotareche non c`e bisogno della conoscenza esplicita della funzione , ma solo dellacorrispondentefunzionekernel :k(xi, x) = (xi), (x)) (2.17)Per mezzodel cosiddettokernel trick, dunque, lafunzionedi separazioneottimaassumelaforma:f(x) =

iSV iyik(xi, x) + 0(2.18)Unafunzione k(xi, x) `e unkernel validose esiste unafunzione di featuremapping chesoddisfalarelazione2.17. ConsiderandolamatriceGramK: Ki,j= k(xi, xj),k`eunkernelvalidoseesoloseK`esimmetricaePSD(Semi-denitapositiva, condizioni di Mercer), ovveroseK`esimmetricaetuttiisuoiautovalorisonopositivi.41Capitolo3Modelliatopiclatenti3.1 Dal modellobagofwordsal modelloge-nerativoIlcapitoloprecedentehafornitounampiapanoramicadellusodelloschemabag of words per la descrizione e classicazione di collezioni di documenti te-stualiovisuali. Ilconteggiodellefrequenzeconcuiunaparolacodicatainunvocabolarioprecalcolatoappareneidocumentiosservati `eunodeicriteripi` uinusonelletecnichediInformationRetrieval(IR)evienespessoforma-lizzatoattraversoladenizionedeltf-idf : sceltounvocabolariodiparoleV , il termfrequencytf indicail numerodi occorrenzedi ogni parolaperciascundocumentodel corpus, dovepercorpussi intendeuninsiemedidocumenti M; linversedocumentfrequencyidf misurainvecelafrequenzadi ogni termine su tutto il set di documenti. Il risultato nale del calcolo dellefrequenze `e una matrice termine-documento X(V M) in cui le cui colonnecontengonoivaloriditf-idfperognidocumentodelcorpuseciascunariga `erelativaadunterminedelvocabolario.Loschematf-idf hail pregiodi individuareinsiemi di parolechesianodi-scriminantiperidocumentidelcorpusmaoreunalimitatariduzionedelladescrizionedeglistessienonpermettediinferireunastrutturastatisticain-tra/interclassesullacollezione[5]. Unodei metodi proposti persuperarequestalimitazione`eadesempioil latentsemanticindexing(LSI): LSI42CAPITOLO3. MODELLIATOPICLATENTIusa una decomposizione a valori singolari della matrice Xper identicare unsottospazio lineare di feature tf-idf che catturino la gran parte della varianzadellacollezione: questaprocedura, applicataalladescrizionedi documentitestuali, consentedi ricavareinformazioni di tipolinguisticocomesinoni-miaepolisemia. AncheselusodiLSIconsentediottenereunaconsistentecompressioneper larghecollezioni di documenti, rimanecomunqueapertoil problemacatturarelestatisticheinter-edintra-documento.`Enecessarioutilizzarequindiunqualchemodelloditipoprobabilistico.Unmodelloprobabilisticogenerativosibasasullassuntocheidatios-servabili di uninsiemesianogenerati daunqualcheprocessocasualepa-rametrizzato. Calcolatoil set di parametri chemegliosi adattaai dati adisposizione, si pu`outilizzareil modelloper predireosimularevalori pertuttelelevariabilidelmodello. Questa `eunadelledierenzeprincipalichedistinguonoi modelli generativi daquelli discriminativi, comeadesempioSVM, peri quali i valori assegnabili adunavariabilepossonoessereunica-mente campionati sulle quantit` a osservabili nel set di dati in input; i modelligenerativi inoltre possono catturare relazioni molto complesse tra le osserva-zionielevariabilidelmodello.Nei paragraseguenti verr` apropostaunadescrizionedei principali modelligenerativi utilizzati nellanalisi di immagini edi testi, ovveropLSA(pro-babilisticLatent SemanticAnalysis)edLDA(Latent Dirichlet Allocation),precedutadaunabreveintroduzionedellenotazioniedellenozioninecessa-rieadunaprimacomprensione. Primadi passarealladescrizioneformaleveraepropria `epossibileanticiparealcuniconcettidibasepropedeuticiallacomprensionedel modoincui pLSAedLDAsi adattanoalladescrizioneeclassicazionedidocumenti.Imodelli generativi aermanocheogni parolainundocumento`ecampio-nataapartiredaunmodelloamistura1, lecui componenti sonovariabilicasuali multinomiali che possono essere viste come rappresentazione dei to-1In statistica un modello a mistura `e un modello probabilistico per la rappresentazionedi sotto-popolazioni allinternodi unapopolazionegenerale; talerappresentazionenonrichiede di disporre di un dataset di osservazioni che identichi la sotto-popolazione a cuiuna data osservazione appartiene.43CAPITOLO3. MODELLIATOPICLATENTIpic,ovverolecategoriesemanticheoargomentidacuileparolevengonogenerate. Ogniparola `egeneratadauntopiceciascundocumentocontieneparolegeneratedadierenti topic. Ogni documento`equindi compostodauninsiemedi proporzioni relativeallecomponenti dellamisturaedinde-nitivapu`oessereespressointermini di distribuzionedi probabilit`asuunnumeropressatoditopic: questadistribuzionecorrispondealladescrizioneassociataaldocumentoallinternodeldataset.3.1.1 ModelligraciLarappresentazioneformaledei modelli generativi inesamefausodi unanotazionebasatasui modelli graci, pertantorisultautilefornireinquestoparagrafounadescrizione dei simboli utilizzati inquestoformalismo. Lagura 3.1 mostra la rappresentazione dei componenti che formano un modellograco.Figura 3.1. Componenti di un modello gracoIsimboliraguratinellagurahannoilseguentesignicato:inodirappresentanovariabilialeatorie;gliarchidenotanounapossibiledipendenza;inodiscurisiriferisconoavariabiliosservate;44CAPITOLO3. MODELLIATOPICLATENTIirettangoliindicanostrutturereplicate;lastrutturadelgrafodeniscelerelazionididipendenzacondizionatatralevariabilicasuali.In termini di distribuzione di probabilit` a il graco appena visto equivale allaformula:p(y, x1, . . . xN) = p(y)N

n=1p(xn[y)dovelexnsonotuttecondizionatamenteindipendentidatay.3.1.2 NotazionieterminologiaAnchesei modelli generativi inesame, adesempioLDA, sonostati utiliz-zati inizialmenteperdescriverecollezioni di testi, i principi sui cui poggia-nopossonoessereapplicati ingeneraleaqualsiasi problemacheriguardi laclassicazionedi collezioni di dati. Di seguitovieneriportataladenizioneformale di alcuni termini utilizzati nel paragrafo introduttivo quali parola,documentoecorpusperindicareleentit` acoinvoltenel prosieguodellatrattazione.Formalmente:parola: costituiscelunit` adi basedi dati discreti, denitacomeunelementodi unvocabolariodi Vtermini. Leparolevengonorappre-sentate con vettori che hanno un singolo componente ad uno e gli altriazero: lav-esimaparoladel vocabolariovienerappresentatadaunV-vettorewtalechewv= 1ewu= 0perogniu ,= v.documento: unasequenzadiNparole: w = (w1, w2, . . . , wN).corpus: unacollezioneD = (w1, w2, . . . , wM)diMdocumenti.topic: indicato con z,ogni parola viene generata da uno dei Ktopicdelmodello.45CAPITOLO3. MODELLIATOPICLATENTIQuesteentit`a, checorrispondonointermini statistici avariabiliosservabili,comeadesempioleparole,oavariabilinascoste,comeitopic,sonoinrela-zionetralorosecondofunzionididistribuzionediprobabilit` a. Appareutilequindi un breve richiamo ad alcuni concetti di statistica che verranno spessorichiamatineiparagracheseguono.3.1.3 DistribuzionemultinomialeIn teoria delle probabilit` a la distribuzione multinomiale `e una distribuzione diprobabilit` a discreta che generalizza la distribuzione binomiale in pi` u variabili.Inaltri termini, laddove ladistribuzione binomiale descrive il numerodisuccessi inunprocessodi Bernoulli, adesempioil lanciodi unamoneta,perilqualeognisingolaprovapu` ofornireduesolirisultati,ladistribuzionemultinomialedescriveilcasoincuiogniprovapossafornirediversirisultaticondiverseprobabilit`a.Dati k possibili risultati della prova, ciascuno dei quali ha probabilit`a p1, p2,. . . pkdi vericarsi (

ki=1pi=1), si eseguononproveindipendenti. Selevariabili casuali Xiindicanoil numerodi volteincui il risultatoi`estatoottenutosunprove, il vettoreX=(X1, . . . , Xk) segueunadistribuzionemultinomialeaparametri nep=(p1, . . . , pk). Lafunzionedi probabilit`arisultaesserepertanto:f(x1, . . . , xk; n, p1, . . . , pk) = Pr(X1= x1e . . . eXk= xk)=___n!x1!xk!px11 pxkk, se

ki=1xi= n0 altrimenti(3.1)3.2 pLSA(pLSI)Uno dei primi modelli generativi utilizzato per la classicazione di immagini`epLSA- probabilistic Latent Semantic Analysis, notoanchecomeprobabilisticLSI(pLSI).Secondoquestomodello,considerandoleosservazionicomeco-occorrenzedi46CAPITOLO3. MODELLIATOPICLATENTIparole e documenti, la probabilit` a di ciascuna co-occorrenza viene modellatada una mistura di distribuzionimultinomiali condizionatamenteindipenden-ti2. Ciascunaparoladel documento`equindi uncampionedi unmodelloamistura le cui componenti sono delle variabili casuali multinomiali corrispon-dentiaitopic. Pertanto,datountopiczi(nonosservabile),undocumentodedunaparolawnsonoinrelazionesecondolalegge:p(d, wn) = p(d)k

i=1p(wn[zi)p(zi[d) t.c.k

i=1p(zi[d) = 1La formula esprime la co-occorrenza della parola wne del documento d comeprodottotralaprobabilit` adi estrarreil documentoddal corpus, p(d), elasommadelleprobabilit` acheciascunodei topiczigeneri wn, p(wn[zi), con-dizionataallapresenzadeltopiczineldocumentod,ovverop(zi[d). Questaultimaquantit`a, p(zi[d), pu`oesserevistacomeil pesodel topici-esimoneldocumentod.Inunmodelloamisturadiunigrammiognidocumento `egeneratoapartiredaargomenti estratti daunsingolotopic. Il modellopLSIestendequestaassunzioneprevedendolapossibilit` acheundocumentopossacontenerepi` utopic, distribuiti secondounamisturadi probabilit` aregolatadal terminep(z[d)[5]. Vale lapena far notarechecondsiindicaundocumento apparte-nente al training set; lindice d diventa a sua volta una variabile multinomialecon tanti valori quanti sono i documenti del training set: il sistema apprendelemistureditopicp(z[d)unicamentesuglielementidiquestoset.Per questomotivo, pLSI non`eunmodellogenerativoinsensostretto: ledistribuzioni di topic P(z[d) sono speciche dei documenti di training da cuisono state empiricamente derivate e ci` o non consente, pertanto, di assegnarein maniera naturale dei valori di probabilit` a ad un documento non visto. Unaltrodifettodi pLSI`echeil numerodi parametri dastimarecrescelinear-menteconilnumerodidocumentideltrainingset. IparametriperunpLSIconk-topicsonodati dakdistribuzioni multinomiali di dimensioni V (nu-merodei termini del vocabolario)edaMmisture(numerodei documenti)2Due eventi A, B Fsono condizionatamente indipendenti se datoD F: (D) ,= 0si haP(A

B[D) = P(A[D)P(B[D)47CAPITOLO3. MODELLIATOPICLATENTIFigura 3.2. Modello graco di pLSI:d rappresenta uno degli M documentidel corpus,zun topic ew una parola osservata nel testo. P(z[d) indica ladistribuzione dei topic per il documento corrente, P(w[zi) la distribuzionedelle parole rispetto ali-esimo topic. d ewsono entit`a osservabili, i topiczi sono variabili latenti.su Ktopic nascosti. Si ottiene cos` un numero di parametri pari a kV+kM,ovverolinearenel numerodei documenti di training, chesuggerisceinoltreunatendenzadelmetodoadincorrereinovertting3sulsetdidati.3.3 LDAPrima di passare alla formulazione estesa di LDA `e utile fare un breve richia-moal concettodi scambiabilit`acheaccomunaquestomodellogenerativoaimodelliclassicibag-of-words.3In statistica, si parla di overtting,ovvero eccessivo adattamento,quando un mo-dellostatisticosi adattaai dati osservati, il campione, usandounnumeroeccessivodiparametri. Inalcunecircostanze, soprattuttoneicasiincuilapprendimento `estatoef-fettuatotroppoalungooconunoscarsonumerodi esempi di allenamento, il modellopotrebbe adattarsi a caratteristiche che sono speciche solo del training set, ma che nonhanno riscontro nel resto dei casi; per questo motivo, in presenza di overtting, le presta-zioni sui dati di training aumentano, mentre le prestazioni sui dati non visionati diventanopeggiori.48CAPITOLO3. MODELLIATOPICLATENTI3.3.1 Scambiabilit`aOgni documentodel corpuspu`oessereconsideratocomeunasortadibagofwords,ovverouninsiemedisordinatodiparolediunvocabolario: comeperleapplicazioni di IR, infatti, ancheperLDAlordineincui compaionoleparolenel documentononhaimportanza. Implicitamentesi assumecheanche lordine con il quale i topic ed i documenti compaiono rispettivamentenei documenti stessi enel corpussiairrilevante; questi concetti sonotuttiformalizzatinelladenizionediscambiabilit` a:Denizione3.3.1Un insieme nito di variabili casuali z1, z2, . . . , zN vie-nedettoscambiabileseladistribuzionecongiunta`einvarianteapermuta-zione. Se`eunapermutazionedegliinterida1aN:p(z1, z2, . . . , zN) = p(z(1), z(2), . . . , z(N))Unasequenzainnitadi variabili casuali`einnitamentescambiabileseognisottosequenzanita `escambiabile.Il teoremadi deFinetti (1990)stabiliscecheuninsiemedi variabili casualiinterscambiabilipossonoessererappresentateconunmodelloamistura-ingeneraleancheinnita.Teorema3.3.1(TeoremadellarappresentazionedideFinetti) Dellevariabili casuali innitamente scambiabili possonoessere considerate indi-pendenti edidenticamente distribuite, condizionatamente adunparametrocasualeottenutodaunaqualchedistribuzione.p(z1, z2, . . . , zN) =_p()_N

n=1p(zn[)_d (3.2)Il modelloLDAassumecheleparolesianogeneratedai topicsecondodel-leprobabilit`acondizionateechei topicsianoinnitamentescambiabili inciascundocumento;ilterminepresentenellequazionerappresentailpara-metro casuale di una distribuzione multinomiale sui topic, modellata in LDAconladistribuzionediDirichlet.49CAPITOLO3. MODELLIATOPICLATENTI3.3.2 LadistribuzionediDirichletLadistribuzionediDirichletappartieneallafamigliadellefunzioniesponen-zialidenitesulsimplesso. Ingeometriapersimplessosiintendeunage-neralizzazione del concetto di triangolo o tetraedro di dimensione arbitraria.Inparticolare, unn-simplessovienedenitocomepolitopo4n-dimensionaleottenutocomeinviluppocomplessodin + 1vertici.Formalmenteunn-simplessostandard `eunsubsetdi Rn+1datoda:n= (t0, . . . , tn) Rn+1[n

i=0ti= 1eti0 iLafunzionedi densit` adi probabilit` adi Dirichlet`edatadallaseguentefor-mula:p([ ) =(

ki=1k)

ki=1 (i)111 k1k(3.3)Si noti che nellaformulainesame `e unavariabile casuale di DirichletK-dimensionale che assume valori nel simplesso di dimensione k 1;il para-metro a valori positivi ha anchesso dimensione k; pu` o essere vista comeunestensioneavalori reali dellafunzionefattoriale. Il rapporto(Pki=1k)Qki=1 (i)assicurail rispettodel vincolopercui lintegraledellafunzionedeveessereugualead1.Nellateoriadi Bayes, laprobabilit`aaposteriori di uneventocasuale, osemplicemente posterior, `e la probabilit`a assegnata allevento dopo aver con-sideratolevidenzaottenutadallosservazionediunesperimento.Dataunaprobabilit` aapriorip(),unosservazioneXedunvaloredilikeli-hoodp(X[)5, larelazionetralaprobabilit`aaposteriori equellaapriori`eesprimibilecome:p([X) p()p(X[)4Denito nello spazio euclideo a pi` u di 3 dimensioni `e lanalogo di un poligono nel pianoe di un poliedro nello spazio.5La likelihood `e una funzione dei parametri di un modello statistico, denita come segue:la likelihood di un set di parametri, data losservazione dei risultati di un esperimento, `euguale alla probabilit`a di ottenere i risultati osservati dati i parametri del modello.50CAPITOLO3. MODELLIATOPICLATENTILadistribuzionediDirichletgodedellapropriet`adiesserelaconiugata6.delladistribuzionemultinomiale,ovverodataunosservazionemultinomiale,ladistribuzioneaposterioridi`eunaDirichlet.Il parametroinuenzalaformamedia(meanshape)di edil gradoincui essarisultaesseresparsa, ovveroil numerodi elementi nellospaziodidistribuzionechehannounvalorealtodiprobabilit`a.Lagura3.3mostraalcuniesempidelladistribuzioneinesame.Figura 3.3. Alcuni esempi della distribuzione di Dirichlet per k=3 per dif-ferenti combinazioni dei parametri. In senso orario partendo dallangolosinistro in alto: =(6, 2, 2), (3, 7, 5), (6, 2, 6), (2, 3, 4).Nel caso generico di una distribuzione con parametri Dir(a, b, c), im-maginando il triangolo avente come vertici gli elementi su cui la distribuzione`edenita, laprobabilit` adei punti suunlatodel triangoloavr` acontributiunicamente daidueelementiagliestremidellato(diventa difattiunadistri-buzionebinaria, conil verticenoninteressatoaventeprobabilit` augualea6Se la probabilit`a a priori `e nella stessa famiglia della probabilit`a posteriori, allora ledue distribuzioni si dicono coniugate.51CAPITOLO3. MODELLIATOPICLATENTI0), mentrelaprobabilit`adei punti interni avr` aunacomponentesututti e3gli elementi. Nel casoparticolare Dir(1, 1, 1)(1=2=3=1)sono unicamente deniti i punti allinterno del triangolo, con distribuzione diprobabilit` auniforme. Nel casodi Dir(5, 5, 5)ladistribuzionepresentaunpicconel centrodel simplesso. Ingeneraleil valoreattesodelli-esimocomponentedidatosiesprimecome:E[i[] =i

iiequindi inentrambi i casi visti il valoreattesoperciascunelementodelladistribuzione`eugualead1/3. Dierenziandoi valori checompongonoilvettore il piccodelladistribuzione si sposter` adal centrodel simplessoversounodei vertici; il valoremassimoelapendenzadel piccocambianoal variaredi

ii, cheassumeil signicatodi dispersionestatistica: unbassovaloredi

iidenotaunelevatadispersione.Leconsiderazioniappenafattevalgononelcasoincuiciascunisia1;seinvecetuttiivaloriisonoinferioriad1,comenelcasodellaExchangeableDirichlet ( Dir(, , , . . . , )),glielementidelladistribuzionerisultanosparsi esoltantoalcuni hannounaprobabilit` a 0: il numerodi elementiaventimassapositivadiminuisceconiltenderedia0.3.3.3 FormulazionediLDALideadibasesucuisifondaLDA `echeognidocumentocontieneunoopi` utopic [5]. A partire da un modello di tipo generativo, ogni documento `e con-siderato come una mistura casuale di topic, sui quali `e denita una distribu-zione di probabilit` a. I topic sono indipendenti dal documento e per ciascunodiessiesisteunadistribuzionediprobabilit`asulleparolediunvocabolario:ogni parolapu` oesseregeneratadai topicpermezzodi distribuzioni condi-zionatessate; ciascunargomento(otopic)contienediverseparole, ognunaconunpropriovaloredi probabilit` a. Persemplicarepossiamopensarealdocumentocomeaduninsiemedisordinatoditermini;itopicdeldocumen-tovengonoindividuatiosservandoleoccorrenzedeiterminialsuointernoeconfrontandoleconledistribuzioni dei termini perciascuntopic. Lagura52CAPITOLO3. MODELLIATOPICLATENTIFigura 3.4. Topic contenuti in un documento3.4mostracomeesempiountestoincui conunostessocolore(adesempioil coloreazzurro)sonoindividuati dei termini appartententi adunostessotopic(computer,numbers,computational).LDA ha lobiettivo di inferire la struttura dei topic, determinare linsieme deitopicassociati adundocumentoformalizzandounadistribuzionedi proba-bilit` ae,perogniparola,stabilireiltopicdacui `estataestratta: ilrisultato`euninsiemediprobabilit`acondizionatesullavariabilidelsistemadatalos-servazionedeiterminichecompaiononeldocumento.Lagura3.5mostraLDAnellasuarappresentazionemediantemodellograco.Sorvolando per il momento sul signicato di , che `e un vettore k-dimensionaleed, che`eunoscalare, analizziamonel dettagliolealtrecomponenti delmodello,muovendocidaquellepi` ugeneraliallepi` uspeciche,supponendo,comesuggeriscelanotazionedel modellograco, di avereuncorpusdi Ddocumenti contenenti parolepresedaunvocabolariodi dimensioneV edi53CAPITOLO3. MODELLIATOPICLATENTI Latent Dirichlet allocationdZd,nWd,nND KkDirichletparameterPer-documenttopic proportionsPer-wordtopic assignmentObservedword TopicsTopichyperparameterEach piece of the structure is a random variable.D. Blei Modeling Science 12 / 53Figura 3.5. LDA graphical modelvolerindividuareledistribuzionidiKtopic:kper ogni topic esiste un termine , ovvero un parametro della distribuzio-neDirichletaprioriper-corpus, aventedominiodenitosulsimplessodi dimensione V : inparticolare ciascunakassociaal topic k unadistribuzionediDirichletsuiterminidelvocabolario;dindicaleproporzioni concui ciascunodei Ktopic`epresentenel docu-mentod D, doveDrappresentail corpus; perciascundocumentovienedenitounvettoreddidimensioneK;Zd,nassegnazionediuntopicperlaparolanneldocumentod: dipendedadpoich`evieneestrattadallasuadistribuzionedi probabilit`aed`eunnumerocompresotra1eK;Wd,nlunicavariabilecasualeosservabiledelmodello: dipendedaZd,nedaedindicachelaparolan `epresenteneldocumentod.Supponendodi conoscere le variabili nascoste, laprobabilit` adi osservareunaparolainundocumentopu` oessereindividuataconsiderandolelemento54CAPITOLO3. MODELLIATOPICLATENTIWd,n-esimodeltermineZd,n-esimodai1...K.p(Wd,n[Zd,n, 1...K) = Zd,n,Wd,nSi pu` o rappresentare la relazione appena descritta sotto forma di matriceincuileparoledeldizionarioVsonodispostelungolerigheelinsiemedeitopic`edispostolungolecolonne. Lasommadeglielementolungociascunacolonna`eugualead1. ConsiderandoiltermineWd,nrelativoallaparolaedil termineZd,nriguardanteil topicdacui `eestrattalaparola, lelementodellamatricecherappresentalaprobabilit` adi osservarequellaparolaneldocumentovieneindividuatadalvaloredellacellaZd,n,Wd,n.Bisogna precisare che nel caso ideale di variabili note i termini Zd,n, piuttostocheesseremodellatedaunadistribuzionedi probabilit`a, assumerebberounsingolovalorecompresotra1, .., K; tuttavialevariabili inquestionesonoingenerenonosservabili esonopertantorappresentatedadistribuzioni; iltermined`einognicasounadistribuzionedi probabilit` a. Di seguitovieneriportatainformulelaprobabilit` acongiuntatralevariabilidelmodello:_K

k=1p(k[)_

_D

d=1p(d[)_N

n=1p(Zd,n[d)p(Wd,n[Zd,n, 1...K)__(3.4)La denizione delle variabili, nascoste ed osservate, in termini di distribuzionediprobabilit`a `elaseguente. Perquantoriguardiitopic:p(k[) rappresentanodistribuzioni di Dirichlet V-dimensionali, sonoindipendentiinquantoiparametriksonounicamentedipendentidache `eunparametrodelladistribuzione;mentreperquantoriguardaidocumenti:p(d[)sonodistribuzioni di DirichletK-dimensionali, dipendenti dalparametro, si trattaancheinquestocasodi distribuzioni denitealorovoltasualtredistribuzioni(dinquestocaso);inneallinternodiciascundocumento:p(Zd,n[d)rappresentail valoredi probabilit` aassegnatoal Zd,n-esimoindiceallinternodid;55CAPITOLO3. MODELLIATOPICLATENTIp(Wd,n[Zd,n, 1...K)denitainprecedenza.Sappiamo che d `e una distribuzione di probabilit` a che modella le proporzioniincuiiKtopicsonopresentineldocumentod: daquestaconsiderazionesipu` oquindidedurrechep(Zd,n[d)non `ealtrocheilvalorediprobabilit` aperiltopicZd,n-esimo. Possiamoscriverequindileseguentirelazione:p(Zd,n[d) = d,Zd,nLamatricedeitopicadimensioneV Kpu` oessererappresentataco-meunaconcatenazionedi colonnelungheV , ottenutedaunadistribuzioneDirichletscambiabileaparametro. Inrealt` aquestamodellazionedi `estataintrodottanellaversionesmootheddel modelloLDAacui il modellogracosiriferisce,incuisipermettelassegnazionediprobabilit` anonnullea tutti gli elementi del vocabolario, anche quelli che eventualmente non com-parirebberonel trainingsetdi u