presentazione hmms

34
Motivation Hidden Markov Model Text-To-Speech Hidden Markov Model Hidden Markov Model applicato al Text-To-Speech Vannutelli Sofien 1 1 Facoltà di Ingegneria dell’Informazione, Informatica e Statistica Sapienza - Università di Roma September 11, 2016 Vannutelli Sofien Relazione su Hidden Markov Model

Upload: vannutelli-sofien

Post on 13-Jan-2017

93 views

Category:

Education


0 download

TRANSCRIPT

MotivationHidden Markov Model

Text-To-Speech

Hidden Markov ModelHidden Markov Model applicato al Text-To-Speech

Vannutelli Sofien1

1Facoltà di Ingegneria dell’Informazione, Informatica e StatisticaSapienza - Università di Roma

September 11, 2016

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Outline

1 MotivationAbstractProblemi classici

2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione

3 Text-To-SpeechAbstractAcquisizione e Sintesi

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractProblemi classici

Outline

1 MotivationAbstractProblemi classici

2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione

3 Text-To-SpeechAbstractAcquisizione e Sintesi

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractProblemi classici

In breve . . .

Gli Hidden Markov Models sono un modello probabilisticomolto studiato in computer science, specialmente in ambito ditelecomunicazioni e ricerca operativa.

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractProblemi classici

Outline

1 MotivationAbstractProblemi classici

2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione

3 Text-To-SpeechAbstractAcquisizione e Sintesi

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractProblemi classici

IdeaLetteratura russa

In particolare:Analisi delle sequenze delle lettere nella letteratura Russa.

Esempio:La lettera th è piu lontana rispetto alla lettera te.

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractProblemi classici

Altri campiApprendimento automatico, linguistica computazionale, interazione multimodale . . .

Speech Recognition,Text-To-Speech,POS Tagging,etc.

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Outline

1 MotivationAbstractProblemi classici

2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione

3 Text-To-SpeechAbstractAcquisizione e Sintesi

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Probabilità di una sequenze di eventiEsempio

Assunzione (Catene di Markov di primo ordine):La probabilità di un evento dipende esclusivamente dalprecedente

Possiamo modellare i valori delle variabili aleatorie comeSTATI e etichettare le transizioni fra stati medianteprobabilità condizionate:

P(Xi = s′|Xi−1 = s) = p(s′|s) dove per ognis, s′ ∈ Σ

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Formalmente

Una Catena di Markov è una tripla (Q, (p(n1 = s)), A), dove:

i. Q = (1,2 . . . k) è un insieme finito di stati. Ogni stato è unsimbolo ottenuto da un alfabeto Σ.

ii. p rappresenta l’insieme delle probabilità iniziali.iii. A è l’insieme delle probabilità di transizione denotate da

as,s′ per ogni s,s’ in Q.Per ogni s,s’ in Q la probabilità di transizione è:as,s′ = P(πi = s′|πi−1 = s)

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Cosa cerchiamo?

Sia Π = (π1, π2 . . . πn) un processo random con memoria dilunghezza 1, si ha che:

Il valore di πi dipende solo da πi−1.Per ogni s1 . . . si P(πi = si |π1 = s1 . . . πi−1 = si−1) =P(πi = si |π1 = s1 . . . πi−1 = si−1)P(πi = si |πi−1 = si−1) = asi−1,si

Obiettivo: Dato Π, calcolare la probabilità P(π1 . . . πn)P(π1, π2 . . . πn) = P(π1)

∏i P(πi+1|πi)

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Outline

1 MotivationAbstractProblemi classici

2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione

3 Text-To-SpeechAbstractAcquisizione e Sintesi

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

In una catena di Markov c’è una corrispondenza biunivocatra i simboli emessi dall’automa e gli stati corrispondenti.In un HMM non è più così gli stati sono, appunto,"nascosti", e all’osservatore è accessibile soltanto unasequenza di simboli in base alla quale egli può inferiresoltanto la probabilità degli stati corrispondenti.

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Outline

1 MotivationAbstractProblemi classici

2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione

3 Text-To-SpeechAbstractAcquisizione e Sintesi

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Formalmente

Un HMM è una quintupla (s0,S,Y ,P,Q), doveS = 1,2 . . . k è un insieme di stati.s0 lo stato iniziale.Y un insieme di simboli di uscita y1 . . . yn.P è una distribuzione di probabilità delle transizioni, tra duestati qualsiasi s, s′ in S s → s′ : p(s′|s),as′,s = P(πi = s′|πi−1 = s).Q è una distribuzione di probabilità dei valori di emissioneper ogni stato, ovvero per ogni simbolo b e per ogni s in S,la probabilità di osservare b quando siamo nello stato s:et (b) = P(xi = b|πi = t).

In un HMM le transizioni fra stati sono nascoste,ciò che è visibile è solo la sequenza dei simboliemessi.

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Un esempio più correlatoParole e Part-Of-Speech (POS)

Si nota che da ogni stato può essere emesso un sottoinsiemedei simboli in Y (es "suona" non può essere emesso nelletransizioni da art agg: q(suona|art ,agg) = 0.In altri termini, "agg" non è un POS di "suona").

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Un esempio più correlato (2)Parole e Part-Of-Speech (POS)

Data una sequenza di simboli osservata, quale è lasequenza di stati più probabile che possa averla causata?Se osservo Il piano suona forte, le sequenze di POSpossibili sono: art agg verbo avv, art avv verbo agg, artnome verbo avv, art nome verbo agg . . . quale è la piùprobabile?

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Tre algoritmi risolutivi per le HMM

i. Forward-Backwardii. Viterbiiii. Baum-Welch

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Trellis (Reticolo)

Un trellis è un grafo i cui nodi sono ordinati in slices verticali (ditempo), e dove ciascun nodo, ogni volta, è collegato ad almenoun nodo precedente ed almeno un nodo successivo.

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Forward-Backward

Classe dei problemi di Valutazione.DATO un HMM M, ed una sequenza X = 〈x1, x2 · · · xn〉.TROVARE P(X |M).Complessità di tempo Θ(k2 · n), dove k # stati e nlunghezza sequenza.

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Viterbi (1)

Classe dei problemi di Decodifica.DATO un HMM M, ed una sequenza X = 〈x1, x2 · · · xn〉.TROVARE la sequenza π di stati che massimizzaP(X , π|M).Complessità di tempo O(k2 · n), dove k # stati e nlunghezza sequenza.Complessità di spazio O(k · n).

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Baum-Welch

Classe dei problemi di Learning.DATO un HMM M, con probabilità di transizione/emissionenon specificate, ed una sequenza X = 〈x1, x2 · · · xn〉.TROVARE parametri M = (bi(. . . ),ai,j) che massimizzanoP(X |M).Complessità di tempo # iterazioni per O(k2 · n).

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractAcquisizione e Sintesi

Outline

1 MotivationAbstractProblemi classici

2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione

3 Text-To-SpeechAbstractAcquisizione e Sintesi

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractAcquisizione e Sintesi

In breve . . .

I sistemi TTS noti anche come sistemi di sintesi vocaliconvertono il testo, inserito al loro interno, riproducendoloattraverso una voce umana artificiale. Alcune applicazioni:

Educazione linguistica.Aiuto alle persone con handicap visivi e motori.Intereazione Multimodale.Ricerca Sperimentale.etc.

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractAcquisizione e Sintesi

Outline

1 MotivationAbstractProblemi classici

2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione

3 Text-To-SpeechAbstractAcquisizione e Sintesi

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractAcquisizione e Sintesi

2 moduli

Naturale Language Processing (NLP).Digital Signal Processing (DSP).

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractAcquisizione e Sintesi

Natural Language Processing (1)

Pre-elaborazione (Regular Expression).Analisi morfologica (Propone le categorie vocali per ogniparola).Analisi contestuale (Considera le parole nel loro contesto).Parser sintattico-prosodico (Trova la struttura del testo).Letter-To-Sound (Responsabile della trascrizione foneticadel testo).Produzione della metrica (Processore prosodico).

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractAcquisizione e Sintesi

Natural Language Processing (2)Letter-To-Sound

Strategie adottate:fonetica basata su dizionario.fonetica basata sulle regole di trascrizione.

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractAcquisizione e Sintesi

Natural Language Processing (3)Produzione della metrica...

Per la Produzione della metrica ci si basa su di un processoreprosodico, il quale utilizza un HMM per determinare lasequenza più probabile dei valore di durata delle speech units,in cui ciascuno stato della HMM rappresenta un valore didurata e ciascuna uscita del HMM è uno speech unit. Perdeterminare la sequenza più probabile di valori di durata vieneeseguita utilizzando l’algoritmo di Viterbi.

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractAcquisizione e Sintesi

Natural Language Processing (3)...continua

F = 〈f1, f2, · · · , fn〉 e D = 〈d1,d2, · · · ,dn〉, il TTS osserverà ilfonema F per produrre la durata D, e calcolerà la probabilitàcondizionata P(D|F ) per ogni possibile sequenza di valori. Conil Teorema di Bayes questo può essere espanso come:

P(D|F ) =

(P(F |D) · P(D)

P(F )

)Ci interessa solo la migliore sequenza di durate il valore dimassima verosimiglianza della probabilità condizionata o

maxD{P(D|F )} .

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractAcquisizione e Sintesi

Modulo DSP

Il segnale d’uscita corrisponde ai requisiti d’ingresso. Duetecnologie principali:

Sintesi basata sulle regole (ricerca la voce basandosi su diun modello acustico).Sintensi concatenativa (concatenazione e combinazione diframmenti di voce).

Vannutelli Sofien Relazione su Hidden Markov Model

MotivationHidden Markov Model

Text-To-Speech

AbstractAcquisizione e Sintesi

Modulo DSP (2)Nella sintensi concatenativa

Due moduli:Speech Processing.Sound Processing.

Vannutelli Sofien Relazione su Hidden Markov Model

Appendix Bibliography

Bibliography I

M.R. Schroeder.Computer Speech - Recognition, Compression, Synthesis.Springer Series in Information Sciences.

Romano Scozzafava.Incertezza e Probabilità.Editore Zanichelli, quinta edizione 2005.

Prof.ssa Maria De Marsico.Multimodal Interaction Lesson 7.Corso di Interazione Multimodale, Università di Roma LaSapienza - Dipartimento di Informatica.

Thierry Dutoit.An introduction to text-to-speech synthesis.

Vannutelli Sofien Relazione su Hidden Markov Model

Appendix Bibliography

Bibliography II

Prof. Alfredo Pulvirenti.Analisi e Gestione dei Dati.Analisi e Gestione dei Dati, Università degli Studi diCatania - Dipartimento di Matematica e Informatica.

Vannutelli Sofien Relazione su Hidden Markov Model