presentazione hmms

MotivationHidden Markov Model

Text-To-Speech

Hidden Markov ModelHidden Markov Model applicato al Text-To-Speech

Vannutelli Sofien1

1Facoltà di Ingegneria dell’Informazione, Informatica e StatisticaSapienza - Università di Roma

September 11, 2016

Vannutelli Sofien Relazione su Hidden Markov Model


Text-To-Speech

Outline

1 MotivationAbstractProblemi classici

2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione

3 Text-To-SpeechAbstractAcquisizione e Sintesi



Text-To-Speech

AbstractProblemi classici

Outline






Text-To-Speech


In breve . . .

Gli Hidden Markov Models sono un modello probabilisticomolto studiato in computer science, specialmente in ambito ditelecomunicazioni e ricerca operativa.



Text-To-Speech


Outline






Text-To-Speech


IdeaLetteratura russa

In particolare:Analisi delle sequenze delle lettere nella letteratura Russa.

Esempio:La lettera th è piu lontana rispetto alla lettera te.



Text-To-Speech


Altri campiApprendimento automatico, linguistica computazionale, interazione multimodale . . .

Speech Recognition,Text-To-Speech,POS Tagging,etc.



Text-To-Speech

Catena di MarkovCatene di Markov vs HMMDefinizione

Outline






Text-To-Speech


Probabilità di una sequenze di eventiEsempio

Assunzione (Catene di Markov di primo ordine):La probabilità di un evento dipende esclusivamente dalprecedente

Possiamo modellare i valori delle variabili aleatorie comeSTATI e etichettare le transizioni fra stati medianteprobabilità condizionate:

P(Xi = s′|Xi−1 = s) = p(s′|s) dove per ognis, s′ ∈ Σ



Text-To-Speech


Formalmente

Una Catena di Markov è una tripla (Q, (p(n1 = s)), A), dove:

i. Q = (1,2 . . . k) è un insieme finito di stati. Ogni stato è unsimbolo ottenuto da un alfabeto Σ.

ii. p rappresenta l’insieme delle probabilità iniziali.iii. A è l’insieme delle probabilità di transizione denotate da

as,s′ per ogni s,s’ in Q.Per ogni s,s’ in Q la probabilità di transizione è:as,s′ = P(πi = s′|πi−1 = s)



Text-To-Speech


Cosa cerchiamo?

Sia Π = (π1, π2 . . . πn) un processo random con memoria dilunghezza 1, si ha che:

Il valore di πi dipende solo da πi−1.Per ogni s1 . . . si P(πi = si |π1 = s1 . . . πi−1 = si−1) =P(πi = si |π1 = s1 . . . πi−1 = si−1)P(πi = si |πi−1 = si−1) = asi−1,si

Obiettivo: Dato Π, calcolare la probabilità P(π1 . . . πn)P(π1, π2 . . . πn) = P(π1)

∏i P(πi+1|πi)



Text-To-Speech


Outline






Text-To-Speech


In una catena di Markov c’è una corrispondenza biunivocatra i simboli emessi dall’automa e gli stati corrispondenti.In un HMM non è più così gli stati sono, appunto,"nascosti", e all’osservatore è accessibile soltanto unasequenza di simboli in base alla quale egli può inferiresoltanto la probabilità degli stati corrispondenti.



Text-To-Speech


Outline






Text-To-Speech


Formalmente

Un HMM è una quintupla (s0,S,Y ,P,Q), doveS = 1,2 . . . k è un insieme di stati.s0 lo stato iniziale.Y un insieme di simboli di uscita y1 . . . yn.P è una distribuzione di probabilità delle transizioni, tra duestati qualsiasi s, s′ in S s → s′ : p(s′|s),as′,s = P(πi = s′|πi−1 = s).Q è una distribuzione di probabilità dei valori di emissioneper ogni stato, ovvero per ogni simbolo b e per ogni s in S,la probabilità di osservare b quando siamo nello stato s:et (b) = P(xi = b|πi = t).

In un HMM le transizioni fra stati sono nascoste,ciò che è visibile è solo la sequenza dei simboliemessi.



Text-To-Speech


Un esempio più correlatoParole e Part-Of-Speech (POS)

Si nota che da ogni stato può essere emesso un sottoinsiemedei simboli in Y (es "suona" non può essere emesso nelletransizioni da art agg: q(suona|art ,agg) = 0.In altri termini, "agg" non è un POS di "suona").



Text-To-Speech


Un esempio più correlato (2)Parole e Part-Of-Speech (POS)

Data una sequenza di simboli osservata, quale è lasequenza di stati più probabile che possa averla causata?Se osservo Il piano suona forte, le sequenze di POSpossibili sono: art agg verbo avv, art avv verbo agg, artnome verbo avv, art nome verbo agg . . . quale è la piùprobabile?



Text-To-Speech


Tre algoritmi risolutivi per le HMM

i. Forward-Backwardii. Viterbiiii. Baum-Welch



Text-To-Speech


Trellis (Reticolo)

Un trellis è un grafo i cui nodi sono ordinati in slices verticali (ditempo), e dove ciascun nodo, ogni volta, è collegato ad almenoun nodo precedente ed almeno un nodo successivo.



Text-To-Speech


Forward-Backward

Classe dei problemi di Valutazione.DATO un HMM M, ed una sequenza X = 〈x1, x2 · · · xn〉.TROVARE P(X |M).Complessità di tempo Θ(k2 · n), dove k # stati e nlunghezza sequenza.



Text-To-Speech


Viterbi (1)

Classe dei problemi di Decodifica.DATO un HMM M, ed una sequenza X = 〈x1, x2 · · · xn〉.TROVARE la sequenza π di stati che massimizzaP(X , π|M).Complessità di tempo O(k2 · n), dove k # stati e nlunghezza sequenza.Complessità di spazio O(k · n).



Text-To-Speech


Baum-Welch

Classe dei problemi di Learning.DATO un HMM M, con probabilità di transizione/emissionenon specificate, ed una sequenza X = 〈x1, x2 · · · xn〉.TROVARE parametri M = (bi(. . . ),ai,j) che massimizzanoP(X |M).Complessità di tempo # iterazioni per O(k2 · n).



Text-To-Speech

AbstractAcquisizione e Sintesi

Outline






Text-To-Speech


In breve . . .

I sistemi TTS noti anche come sistemi di sintesi vocaliconvertono il testo, inserito al loro interno, riproducendoloattraverso una voce umana artificiale. Alcune applicazioni:

Educazione linguistica.Aiuto alle persone con handicap visivi e motori.Intereazione Multimodale.Ricerca Sperimentale.etc.



Text-To-Speech


Outline






Text-To-Speech


2 moduli

Naturale Language Processing (NLP).Digital Signal Processing (DSP).



Text-To-Speech


Natural Language Processing (1)

Pre-elaborazione (Regular Expression).Analisi morfologica (Propone le categorie vocali per ogniparola).Analisi contestuale (Considera le parole nel loro contesto).Parser sintattico-prosodico (Trova la struttura del testo).Letter-To-Sound (Responsabile della trascrizione foneticadel testo).Produzione della metrica (Processore prosodico).



Text-To-Speech


Natural Language Processing (2)Letter-To-Sound

Strategie adottate:fonetica basata su dizionario.fonetica basata sulle regole di trascrizione.



Text-To-Speech


Natural Language Processing (3)Produzione della metrica...

Per la Produzione della metrica ci si basa su di un processoreprosodico, il quale utilizza un HMM per determinare lasequenza più probabile dei valore di durata delle speech units,in cui ciascuno stato della HMM rappresenta un valore didurata e ciascuna uscita del HMM è uno speech unit. Perdeterminare la sequenza più probabile di valori di durata vieneeseguita utilizzando l’algoritmo di Viterbi.



Text-To-Speech


Natural Language Processing (3)...continua

F = 〈f1, f2, · · · , fn〉 e D = 〈d1,d2, · · · ,dn〉, il TTS osserverà ilfonema F per produrre la durata D, e calcolerà la probabilitàcondizionata P(D|F ) per ogni possibile sequenza di valori. Conil Teorema di Bayes questo può essere espanso come:

P(D|F ) =

(P(F |D) · P(D)

P(F )

)Ci interessa solo la migliore sequenza di durate il valore dimassima verosimiglianza della probabilità condizionata o

maxD{P(D|F )} .



Text-To-Speech


Modulo DSP

Il segnale d’uscita corrisponde ai requisiti d’ingresso. Duetecnologie principali:

Sintesi basata sulle regole (ricerca la voce basandosi su diun modello acustico).Sintensi concatenativa (concatenazione e combinazione diframmenti di voce).



Text-To-Speech


Modulo DSP (2)Nella sintensi concatenativa

Due moduli:Speech Processing.Sound Processing.


Appendix Bibliography

Bibliography I

M.R. Schroeder.Computer Speech - Recognition, Compression, Synthesis.Springer Series in Information Sciences.

Romano Scozzafava.Incertezza e Probabilità.Editore Zanichelli, quinta edizione 2005.

Prof.ssa Maria De Marsico.Multimodal Interaction Lesson 7.Corso di Interazione Multimodale, Università di Roma LaSapienza - Dipartimento di Informatica.

Thierry Dutoit.An introduction to text-to-speech synthesis.


Appendix Bibliography

Bibliography II

Prof. Alfredo Pulvirenti.Analisi e Gestione dei Dati.Analisi e Gestione dei Dati, Università degli Studi diCatania - Dipartimento di Matematica e Informatica.


presentazione hmms

Education