las etapas en la conversión de texto en...
Post on 02-Jan-2021
0 Views
Preview:
TRANSCRIPT
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La conversión de texto en habla
Del texto… …al habla GTP-UPC
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
text-to-speech, TTS• Un sistema de conversión de texto en habla
(CTH) transformatransforma cualquier texto escrito ensu realización sonora
• La estructura de un conversor suele sermodularmodular
• Cada módulo se ocupa de un aspecto de latransformación de la cadena de caracteresinicial hasta llegar a la señal sonora
La conversión de texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Esquema general de unconversor de texto en habla
Pre-procesado y normalización
Análisis lingüístico Transcripción fonética
Asignación de prosodia Selección de unidades
Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Las etapas en la conversiónde texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Las etapas en la conversiónde texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
• El módulo de procesamiento previodel texto realiza las mismasoperaciones que un hablante leyendoen voz alta
• El objetivo es preparar el texto parala transcripción fonética automática
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
• Elementos que se convierten en texto'deletreado'• Abreviaturas (Sr. D., Exmo., pts...)• Siglas (UE, ONU...)• Cifras y ordinales (3, 1º, 2ª...)• Fechas (13.06.1959)• Horas (15.30h...)• Medidas (m., cm., Km....)• Números romanos (Pedro IV...)• Letras aisladas• Símbolos especiales ($...)
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Problemas en el preprocesado deltexto• Siglas y acrónimos
OTAN [otan] *[oteaene] PP [pepe] *[pp] PSOE [pesoe] *[peeseoe] *?[psoe]
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Problemas en el preprocesado del texto
• Abreviaturas
VO *[bo] versión original
CV “caballos” - “curriculum vitae”
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Problemas en el preprocesado del texto• Concordancia en expresiones numéricas
* trescientos sesenta y cinco líneas* quinientos pesetas
• Formas apocopadas100 casos: cien casos10%: diez por ciento
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Problemas en el preprocesado del texto
• Números de teléfono
93581686: * Noventa y tres millonesquinientos ochenta y uno mil seis cientosochenta y seis
• Horas
4.15: *cuatro punto quince
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Problemas en el preprocesado del texto• Códigos postales
28002 Madrid: *veintiocho mil dosMadrid
• Fechas13-11-98: *trece once noventa y ocho
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Problemas en el preprocesado del texto
• Lectura del correo electrónico
• Errores mecanográficos
• Errores ortográficos
• Falta de signos de puntuación
• Lectura de SMS
• “Abreviaturas” nuevas
stoy n ksa 2# y slgo xa MAD tq
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo de preprocesamiento del texto CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
• Módulo normalizador• Selecciona la frase como
unidad de trabajo• Normaliza la forma de
escritura sin perderinformación relevante
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo normalizadorCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Texto: El Sr. José Luis López tiene 201 viñas.Texto: El Sr. José Luis López tiene 201 viñas.
NORMALIZADORNORMALIZADOR
Frase normalizada: el Sr. josé luis lópez tiene 201Frase normalizada: el Sr. josé luis lópez tiene 201viñas.viñas.
Formato: mm abr Mm Mm Mm mm mm mm sig
Códigos: mm: palabra en minúscula, Mm: palabra con
inicial mayúscula, abr: abreviatura, sig: signo
ortográfico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo de preprocesamiento del textoCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
• Módulo de preproceso• Expande abreviaturas,
números, etc.• Incluye la silabificación y la
acentuación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo de preprocesoCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Frase normalizada: el Sr. josé luis lópez tiene 201viñas.
Formato: mm abr Mm Mm Mm mm mm mm sig
PREPROCESOPREPROCESO
Palabras: el se#or josPalabras: el se#or jos’’e luis le luis l’’opez tiene doscientas unaopez tiene doscientas unavi#as.vi#as.
Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez tio. pez ti’’e.ne dos.e.ne dos.cici’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversiónde texto en habla
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
• Creación de una cadena de unidades fonéticas -fonemas o alófonos- a partir del texto escritopreprocesado
• “Un sistema de transcripción fonéticaautomática es un algoritmo que transforma untexto de entrada representado en caracteresgrafemáticos en una representación expresadamediante símbolos fonéticos”
Ríos (1993:381)
Transcripción fonética automáticaObjetivos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Transcripción fonética automática
• Implica una decisión sobre el inventariode alófonos que condiciona el inventariode unidades de síntesis
• Decisiones ortológicas• Decisión sobre el “estándar”• Decisión sobre variedad geográfica• Decisión sobre registro
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
• Estrategias para la transcripción
• Diccionario ayudado por un analizador enlenguas con una correspondencia muyirregular entre grafía y sonido
• Reglas complementadas por un diccionariode excepciones en lenguas con unacorrespondencia regular entre sonido ygrafía
La transcripción fonética automática
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Tipos de reglas de transcripciónRÍOS, A. (1993) "La información lingüística en la transcripción fonética automática del español",
Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387.http://www.sepln.org/revistaSEPLN/revista/13/13-Pag381.pdf
• Reglas de fonemización• Reglas de transcripción grafía-fonema• Reglas de silabificación• Reglas de ajuste silábico aplicadas a
extranjerismos para adaptar su estructurasilábica a la fonotaxis del español
• Reglas de acentuación• Reglas de fonetización
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Características de las reglas de transcripciónRÍOS, A. (1993) "La información lingüística en la transcripción fonética automática del español",
Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387.http://www.sepln.org/revistaSEPLN/revista/13/13-Pag381.pdf
• Reglas dependientes del contexto• Reglas de substitución de un signo en otro
• p.ej.: regla de transcripción del grafema <g>como [x] ante <e,i>
• Reglas de elisión de un elemento• p.ej.: elisión de <u> en el dígrafo <gu> ante las
vocales <e,i>• Reglas de inserción de un elemento
• p. ej.: regla de inserción de [k] después delgrafema <x>
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Problemas de la transcripción fonéticaautomática
• Nombres propios y palabras extranjeras<#g> <#j> [dZ] [Z] [j] (George, jeans, Jordi, Jaume)
<#w> [w] [gw] (whisky)
<ph> [f] (Humphrey)<sh> [S] [tS] (show, squash)
<sch> [S] (Schiller)
<tg> [dZ] (Sitges)
<#sC> [#esC] (stop, squash)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Problemas de la transcripción fonéticaautomática
• Nombres propios de persona en españolEsther <th>: [t]Lourdes <ou>: [u]Feijoo <oo>: [o]Desacentuación del primer elemento de los
nombres compuestos (implica detectar elnombre compuesto)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Forma de las reglas de conversión de grafía a representación fonéticadependientes del contexto
SUBIRATS, C. - LLISTERRI, J. - POCH, D. (1988) "El diccionario electrónico del español con un conversor de texto a voz", in MARTÍN VIDE, C. (Ed.)Lenguajes naturales y Lenguajes Formales III.1. Actas del III Congreso de Lenguajes Naturales y Lenguajes Formales. Sitges, Barcelona, 28 de septiembre -
2 de octubre 1987. Barcelona: Promociones y Publicaciones Universitarias. pp. 341-356.http://liceu.uab.es/~joaquim/publicacions/Subirats_Llisterri_Poch_88_Diccionario_Conversor.pdf
<c> --> [k] / #_ [a], [o], [u]casa, cosa, cuna
<c> --> [T] / # _ [e], [i]cena, cine
<c> --> [k] / V _ [a], [o], [u]oca, acoso, acuna
<c> --> [T] / V _ [e], [i]hace, fácil
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Forma de las reglas de conversión de grafía a representación fonéticadependientes del contexto
SUBIRATS, C. - LLISTERRI, J. - POCH, D. (1988) "El diccionario electrónico del español con un conversor de texto a voz", in MARTÍN VIDE, C. (Ed.)Lenguajes naturales y Lenguajes Formales III.1. Actas del III Congreso de Lenguajes Naturales y Lenguajes Formales. Sitges, Barcelona, 28 de septiembre -
2 de octubre 1987. Barcelona: Promociones y Publicaciones Universitarias. pp. 341-356.http://liceu.uab.es/~joaquim/publicacions/Subirats_Llisterri_Poch_88_Diccionario_Conversor.pdf
<c> --> [k] / # (c) V_# Cacción, actor
<c> --> [k] / # _ [l], [r]Vtecla, crío
<c> --> [k] / _ #coñac, vivac
<c> --> [tS] / _htecho
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo conversor grafema-alófonoCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
• Transforma una secuencia degrafías en una secuencia dealófonos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo conversor grafema-alófonoCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Palab_silab: el se. #or jo. s’e luis l’o. pezti’e.ne dos. ci’en. tas ‘u. na v’i. #as.
CONVERSOR GRAFEMA-ALÓFONOCONVERSOR GRAFEMA-ALÓFONO
Alófonos: el se. N~or xo. sAlófonos: el se. N~or xo. s’’e luis le luis l’’o. peTo. peT[sil] tj[sil] tj’’e.ne Dos. Tje.ne Dos. Tj’’en. tas en. tas ‘‘u. na Bu. na B’’i. N~asi. N~as[sil][sil]
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
División silábica o silabificación
• Divide la cadena de alófonos ensílabas
• Puede realizarse como parte delpreprocesado del texto,partiendo de la representaciónortográfica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Asignación de acento
• Determina las sílabas tónicas y las sílabasátonas de la cadena de alófonos
• Requiere información sobre palabras que sonsiempre átonas y reglas de acentuación para laspalabras que no llevan acento gráfico
• Puede realizarse como parte del preprocesadode texto una vez se ha llevado a cabo la divisiónsilábica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversiónde texto en habla
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Análisis lingüístico
• Necesidad del análisis lingüístico en laconversión de texto a habla• Transcripción fonética
• Predicción de la representación fonética apartir de reglas morfológicas /morfofonológicas que implican elreconocimiento de morfemas en lenguascon una correspondencia irregular entregrafías y alófonos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Análisis lingüístico
• Necesidad del análisis lingüístico en laconversión de texto a habla• Asignación de elementos prosódicos
• La localización de las pausas no marcadasortográficamente, la asignación de acento yla determinación de las unidades melódicasrequieren un análisis sintáctico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Análisis morfológico
• Objetivos• Segmentación del texto en
morfemas• Asignación de etiquetas
correspondientes a las partes de laoración a las palabras (POStagging)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Conversión de texto en habla para el inglés en el sistema MITalkALLEN, J. - HUNNICUTT, M. S. - KLATT, D. H. (with R. C. ARMSTRONG and D. PISONI)
(1987) From Text to Speech: The MITalk System. Cambridge: Cambridge University Press
• Módulo DECOMP para la segmentacióndel texto de entrada en morfemas
• Diccionario de morfemas
• Gramática que predice las combinacionesposibles e imposibles de morfemas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo categorizadorCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
• Asigna categorías gramaticales alas palabras
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo categorizadorCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.
Palab_silab: el se. #or jo. s’e luis l’o. pez ti’e.ne dos.ci’en. tas ‘u. na v’i. #as.
CATEGORIZADORCATEGORIZADOR
Categorías: ART N NP NP NP V NUM NUM N SIGCategorías: ART N NP NP NP V NUM NUM N SIG
Códigos: ART: artículo, N: nombre, NP: nombre propio,
V: verbo, NUM: número, SIG: signo ortográfico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Análisis sintáctico
• Para una asignación de elementos prosódicosque tenga como resultado una síntesis con unalto grado de naturalidad es necesario unanálisis sintáctico, semántico y pragmático deltexto
• Segmentación del texto en unidades sintácticas
• Asignación de una estructura de constituyentes(parsing)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo de análisis sintácticoCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Palabras: el se#or jos’e luis l’opez tienedoscientas una vi#as.
Categorías: ART N NP NP NP V NUMNUM N SIG
ESTRUCTURADORESTRUCTURADOR
Árbol sintácticoÁrbol sintáctico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversiónde texto en habla
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Asignación de elementos prosódicosObjetivos
Conjunto de reglas que especifican
• Duración de los segmentos
• Intensidad de los segmentos / delenunciado
• Contorno melódico del enunciado
• Colocación y duración de las pausas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversiónde texto en habla
Asignación de duración
Asignación de intensidad
Asignación de pausas
Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversiónde texto en habla
Asignación de duración
Asignación de intensidad
Asignación de pausas
Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Asignación de duración segmental
• Requiere un modelo de duraciónsegmental que considere
• Duración intrínseca de cadasegmento
• Modificaciones contextuales
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Factores que determinan la duraciónsegmental
• Acento• Consonante que sigue al segmento• Vocal que sigue al segmento• Pausa después del segmento• Posición del segmento en el enunciado• Longitud de la palabra en la que se encuentra
el segmento• Velocidad de elocución
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelo de duración segmental para el inglésKLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English
Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication
Research. New York: Academic Press. pp. 287-300
DUR = [(INDUR-MINDUR)*PRCNT]/100+MINDUR
• INDUR: duración intrínseca del segmento (enms.) calculada a partir de un corpus en el quelos segmentos se analizan en frases marco
• MINDUR: duración mínima del segmento siestá acentuado
• PRCNT: porcentaje de reducción de laduración del segmento, determinado por regla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelo de duración segmental para el inglésKLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English
Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication
Research. New York: Academic Press. pp. 287-300
• Elementos que determinan el porcentaje de reducciónde los segmentos• Inserción de pausas• Alargamiento al final de una frase• Acortamiento de sílabas que no se encuentran al
final de una palabra• Alargamiento debido al énfasis• Modificación de la duración en función del contexto
postvocálico de las consonantes
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelo de duración segmental para el inglésKLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English
Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication
Research. New York: Academic Press. pp. 287-300
• Acortamiento de sílabas pertenecientesa palabras polisilábicas
• Acortamiento de consonantes enposición no inicial de palabra
• Acortamiento de segmentos noacentuados
• Acortamiento de los segmentospertenecientes a grupos consonánticos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelo de duración segmental para el inglésKLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English
Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication
Research. New York: Academic Press. pp. 287-300
• Alargamiento de vocales debido a lapresencia de una oclusiva sorda
• Acortamiento de sílabas que no seencuentran al final de una frase
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversiónde texto en habla
Asignación de duración
Asignación de intensidad
Asignación de pausas
Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Asignación de intensidad segmental
• Determina la intensidad de cadasegmento en función de las variablesque afectan a este parámetro
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelo de intensidad vocálica para el español y el catalánBLECUA FALGUERAS, B. - ACÍN, V. (1995) "Propuesta de un modelo de intensidad vocálica del castellano y elcatalán aplicable a un sistema de conversión de texto a habla", Procesamiento del Lenguaje Natural, Revista nº 17:
257-271. http://www.sepln.org/revistaSEPLN/revista/17/17-Pag257.pdf
• Basado en el análisis de intensidad vocálica enun corpus de frases leídas
• Modelo en árbol que introduce una serie defactores que modifican la intensidad vocálica• Posición prepausal o no prepausal• Aparición de la vocal en sílaba tónica o átona• Posición inicial, medial o final de la vocal en el
enunciado• Aparición de la vocal en un enunciado corto o largo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversiónde texto en habla
Asignación de duración
Asignación de intensidad
Asignación de pausas
Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Objetivos de la asignación de pausas
• Inserción de las pausas marcadasortográficamente en el texto
• Inserción las pausas no marcadasortográficamente en el texto
• Determinación de la duración de lapausa
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La contribución de las pausas
• Texto sintetizado con pausas(Telefónica I+D, Amigo v. 2.6)
• Texto sintetizado sin pausas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Marcado ortográfico de pausas en uncorpus real
• 1629 pausas en total
• 1260 pausas marcadas ortográficamente
•• 578 con punto; 527 con coma578 con punto; 527 con coma; 17 con punto ycoma; 51 con dos puntos; 63 con signo deinterrogación; 22 con signo de admiración; 2con puntos suspensivos
•• 369 pausas no marcadas ortográficamente369 pausas no marcadas ortográficamente
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelo de duración y asignación de pausas para el españolPUIGVÍ, D. - JIMÉNEZ, D. - FERNÁNDEZ, J. M. (1994) "Parametrización de las pausas ortográficas en castellano. Aplicación a un
conversor de texto a habla", Actas del X Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural, Córdoba, 20-22 dejulio de 1994.
http://liceu.uab.es/publicacions/Puigvi_Jimenez_Fernandez_94_Pausas_Sintesis_Castellano.pdf
• Basado en al análisis de un corpus de lectura
• Determinación de la duración de las pausasmarcadas mediante signos de puntuación
• Factores fonéticos y sintácticos que determinanla aparición de pausas no marcadas por signosde puntuación
• Determinación de la duración de las pausas nomarcadas por signos de puntuación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo pausadorCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
• Transforma en pausas laspalabras ortográficas
• Añade pausas no marcadasortográficamente
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo pausadorCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.
Categorías: ART N NP NP NP V NUM NUM N SIG
PAUSADORPAUSADOR
Palabras: el se#or josPalabras: el se#or jos’’e luis le luis l’’opez [pau_v] tiene doscientasopez [pau_v] tiene doscientasuna vi#as.una vi#as.
Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez [pau_v] tio. pez [pau_v] ti’’e.nee.nedos. cidos. ci’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.
Códigos: [pau_v]: pausa insertada ante el verbo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversiónde texto en habla
Asignación de duración
Asignación de intensidad
Asignación de pausas
Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La contribución de la curva melódica
• Texto sintetizado con variaciones deF0 (Telefónica I+D, Amigo v. 2.6)
• Texto sintetizado sin variación de F0
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Asignación de curva melódica
• En algunos sistemas laasignación de la curva melódicapuede utilizar un análisis previode la estructura entonativa de losenunciados (prosodic parsing)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelo de generación de patrones melódicos para el españolGARRIDO, J. M. (1996) Modelling Spanish Intonation for Text-to-Speech Applications. Ph.D. Thesis. Departament
de Filologia Espanyola, Facultat de Lletres, Universitat Autònoma de Barcelona. 2 vols.http://liceu.uab.es/juanma/tesis.html
• Desarrollado a partir del análisis de un corpus detextos leídos
• Modelo fonético por nivelesNivel global I: asignación de un patrón melódico al párrafo,situación de los puntos de reset y delimitación de gruposmelódicosNivel global II: asignación de patrones a cada grupo melódicoy superposición de los movimientos locales de F0 que marcanlímites sintácticos o modalidad oracionalNivel local: superposición de los movimientos de F0 asociadoscon el acento léxico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La estilización(Garrido 2001)
Reducción de la curvamelódica delenunciado ‘Ramón
llegó en avión’,pronunciado por unlocutor masculino, auna serie de puntos deinflexión relevantes
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La declinaciónGARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:
propuesta de modelización", Lingüística Española Actual 23, 2: 173-209
Tiempo
60
80
100
120
140
160
180
200
Línea superior
Línea inferior
F0
(Hz)
Contorno melódico correspondiente a la oración ‘La reina del
baile bailaba la rumba de moda.’ (locutor masculino),representado por medio de líneas de referencia. Ejemplo
extraído de Garrido et al. (1995)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Estructura jerárquicaGARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:
propuesta de modelización", Lingüística Española Actual 23, 2: 173-209
+
Descomposición enpatrones melódicossuperpuestos de lacurva melódica delenunciado ‘Ramónllegó en avión’,pronunciada por unlocutor masculino
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Árbol prosódico inicialGARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:
propuesta de modelización", Lingüística Española Actual 23, 2: 173-209
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Nivel globalGARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:
propuesta de modelización", Lingüística Española Actual 23, 2: 173-209
Líneas dereferencia: líneascontinuas de trazogruesocorrespondientes alos tres gruposfónicos de laoración.Líneas desupradeclinación:líneas discontinuasde distinto grosorCurva estilizadareal: puntos unidosmediante líneasrectas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Nivel localGARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:
propuesta de modelización", Lingüística Española Actual 23, 2: 173-209
Líneas de referencia:líneas continuasPuntos de inflexión dela curva estilizadareal: puntos de colorclaroPuntos de inflexión dela curva estilizadagenerada por elmodelo: puntos decolor oscuro
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelo entonativo del conversor de texto en habla Actor (Loquendo) en españolGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
• Las unidades de síntesis son fragmentos largosde señal extraída del contexto prosódicoapropiado
• La F0 de la señal original se mantieneinalterada
• Adecuado para “prosodia enunciativa neutra”representada en la base de datos acústica
• Necesidad de un módulo de cálculo de F0 paralos enunciados interrogativos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelo entonativo del conversor de texto en habla Actor (Loquendo) en españolGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
• Estilización de la curva melódica
• Cuatro niveles tonales
• P (pico)
• V (valle)
• M (medio)
• P+ (nivel por encima de un pico)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelo entonativo del conversor de texto en habla Actor (Loquendo) en españolGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
• Estructura jerárquica de los patronesmelódicos• Patrones locales
• En el ámbito del grupo acentual• Patrones globales
• En el ámbito del grupo entonativo• En el ámbito de la oración
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelo entonativo del conversor de texto en habla Actor (Loquendo) en españolGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
• Segmentación prosódica en• Grupo acentual
• Sílaba tónica + sílabas átonas• Grupo tónico
• Palabra tónica + átonas que la preceden• Marcado con etiquetas categoriales para la
asignación de pausas• Grupo entonativo
• Suele coincidir con el grupo fónico o con límitessintácticos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Estilización de la curva melódicaGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
Curva melódicadel enunciado‘¿Conoces elcontenido delartículo de laConstitución?’ enla que aparecenlos puntos deinflexiónconsideradosdurante elanálisis
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Asignación de niveles tonalesGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
M
P+
V
P
Curva melódica delsegmento ‘Sabescuando pasan…’perteneciente alenunciado '¿Sabescuándo pasan arecoger los mueblesviejos este mes?' enla que aparecenrepresentados lospuntos M, P+, V y P
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Patrones localesGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
1 2 3 4
Curva melódica delenunciado‘¿Conoces elcontenido delartículo de laConstitución?’ en elque aparecenestilizados el patróninicial (1), dosintermedios (2,3) yel patrón final (4)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Patrones globalesGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
Curva melódica delenunciado ‘El acto de lafirma transcurrió tal ycomo habían pactadoambas delegaciones lavíspera’, pronunciadapor un locutormasculino. Las líneasrectas representan las‘líneas de referencia’correspondientes a lospuntos P (superior) y V(inferior) de la curvamelódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Grupos entonativosGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
Curva melódicacorrespondiente alenunciado ‘El acto de lafirma transcurrió tal ycomo habían pactadoambas delegaciones lavíspera’ pronunciadopor un locutorfemenino. Sobre cadagrupo entonativo se handibujado las líneas dereferenciacorrespondientes
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Evaluación del modeloGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
• 24 pares formados por estímulo natural -estímulo sintetizado
• 10 jueces expertos y 20 no expertos
• Evaluación del grado de semejanza entrela curva melódica natural y la sintetizadaen una escala del 1 al 4
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Evaluación del modeloGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo de generación de parámetros prosódicosCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]
Categorías: ART N NP NP NP V NUM NUM N SIG
Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas
PROSOPROSO
Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60
Entonación (Hz):Entonación (Hz):
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto enhabla
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Conversión en parámetros acústicos
• Conjunto de reglas que tiene como objetivo:
• Asignar valores de parámetros acústicos acada segmento o a cada unidad de síntesis
• Especificar las transiciones entre segmentos
• Los valores de los parámetros acústicoscontrolan un sintetizador que produce laonda sonora correspondiente al mensaje
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Concatenación de unidades almacenadasmediante síntesis paramétrica
• Creación de un diccionario de unidades dediccionario de unidades desíntesissíntesis
•• ParametrizaciónParametrización de las unidades
•• Modelo del tracto vocalModelo del tracto vocal para la síntesis a partirde los parámetros utilizados
Síntesis por LPC (Linear Predictive Coding)
Síntesis por formantes
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulo de conversión en parámetros acústicosCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
• Módulo de síntesis
• Transforma la información dela secuencia de unidades desíntesis y de los parámetrosprosódicos en una onda sonora
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulos de conversión en parámetros acústicos para laconversión de texto a habla
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Unconversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]
Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60
Entonación (Hz):
PARLAPARLA Selección de unidades de síntesis en elSelección de unidades de síntesis en elinventarioinventario
Generación de tramas de síntesisGeneración de tramas de síntesis
SÍNTESISSÍNTESIS Conversión en una onda sonora mediante elConversión en una onda sonora mediante elsintetizadorsintetizador
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Módulos de un conversor de texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversiónde texto en habla
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
top related