tesis victoria libre
Post on 26-Jan-2016
33 Views
Preview:
DESCRIPTION
TRANSCRIPT
INSTITUTO TECNOLÓGICO
DE CD. MADERO
DEPARTAMENTO DE SISTEMAS Y COMPUTACIÓN
ANÁLISIS DE LOS ATRIBUTOS DEL PROCESO DE
CONVERSIÓN TEXTO A VOZ
TESIS
Para obtener el Titulo de
Ingeniero en Sistemas Computacionales
Presenta
Victoria Ruíz Martínez
Numero de Control
05070678
Director de Tesis
Dra. María Lucila Morales Rodríguez
CD. MADERO, TAMAULIPAS MAYO 2011
i
ii
Declaración de Originalidad
Declaro y prometo que éste documento de tesis es producto de mi trabajo original y
que no infringe los derechos de terceros, tales como derechos de publicación, derechos de
autor, patentes y similares.
Además, declaro que en las citas textuales que he incluido (las cuales aparecen entre
comillas) y en los resúmenes que he realizado de publicaciones ajenas, indico
explícitamente los datos de los autores y las publicaciones.
Además, en caso de infracción de los derechos de terceros derivados de éste
documento de tesis, acepto la responsabilidad de la infracción y relevo de ésta a mi director
y codirectores de tesis, así como al Instituto Tecnológico de Cd. Madero y sus autoridades.
Mayo 2011, Cd. Madero, Tamps.
C. Victoria Ruíz Martínez
iii
DEDICATORIA Y AGRADECIMIENTOS
Esta Tesis se la dedico a mi madre, que aunque ya no se encuentra
entre nosotros, se que me observa desde alguna parte,
y a quien en todo momento llevo conmigo.
A mi padre, que me ha
orientado en todas mis decisiones,
además de ser un gran apoyo siempre.
A mis hermanos Omar, Odeir y Guadalupe,
que siempre han estado para guiarme
y han sido una inspiración toda mi vida.
A mis maestros, por su disposición
y ayuda brindados.
A mi directora de Tesis, la Dra. Lucila Morales Rodríguez
por tener la paciencia y la disposición para trabajar conmigo.
Al comité tutorial M.C. Apolinar Ramírez Saldívar,
Dr. Arturo Hernández Ramírez y Rubén Basáñez Castro
gracias por su tiempo y apoyo.
También agradezco a mis amigos y compañeros de ingeniería,
que siempre me han acompañado en las buenas y
en las malas y que han sido una fuente de alegría.
Un agradecimiento especial a mis amigos Violeta, Jesús, Andrea, Dioni y Alejandro,
es un honor contar con su amistad
les agradezco enormemente el apoyo que me brindaron en los momentos más dificiles.
Y a ケuieミes ahoヴa escapaミ a マi マeマoヴia…Gracias a todos.
iv
RESUMEN
El desarrollo del presente trabajo de Tesis se realizó con el objetivo de contribuir en la línea de
investigación interesada en la generación de formas de interacción hombre-máquina por medio del
uso de Agentes Conversacionales animados que se desarrolla en la Maestría en Ciencias en Ciencias
de la Computación del ITCM, por lo cual se presenta la tecnología Text To Speech a fin de
incorporarse a un agente conversacional animado.
Un sintetizador de voz convierte el lenguaje escrito en habla (Text To Speech), el procedimiento
de síntesis de voz consiste de dos fases principales, la primera es el análisis del texto y la segunda es
la generación de formas de onda de voz, estas etapas producen información fonética y prosódica.
Se presentan las metodologías de síntesis de voz más empleadas actualmente, las cuales se
presentan en tres categorías, la primera es la síntesis concatenativa, dentro de la cual se encuentran la
síntesis por selección de unidades, la síntesis de dífonos y la síntesis de dominio especifico, otra
metodología existente es la síntesis de formantes, también existen otros métodos como la síntesis
articulatoria, la síntesis hibrida y la síntesis basada en HMM (Modelos ocultos de Markov).
La fonética y la fonología son disciplinas dentro de la lingüística, ambas se encargan de estudiar
los sonidos del lenguaje. La unidad de estudio de la fonología son los fonemas, los cuales son las
unidades más pequeñas de sonido del lenguaje.
Los fonemas de un lenguaje pueden ser clasificados en subgrupos basados en sus apariencias
visuales, a estos se subgrupos se les llama visemas, se les considera como la equivalencia visual del
los fonemas.
Para realizar el análisis de los atributos que intervienen en el proceso de conversión TTS se
utilizó el motor de voz Microsoft Speech SDK 5.1 y la librería pyTTS de Python para desarrollar las
pruebas. Los atributos de configuración a considerar involucraron el tono, el volumen y la velocidad,
así como las voces empleadas para conformar el análisis, estos parámetros arrojaron información
sobre los grafemas introducidos como entrada, la información de salida es interpretada como los
valores de fonemas y visemas asociados al texto introducido.
Las pruebas fueron diseñadas considerando los fonemas vocálicos y los consonánticos, a fin de
observar las variaciones entre los grafemas dependiendo del contexto y del idioma empleado para los
análisis.
v
TABLA DE CONTENIDO
Capítulo 1. Introducción ...................................................................................................................... 1
1.1 Objetivos ..................................................................................................................................... 2
1.1.1 Objetivo General .................................................................................................................. 2
1.1.2 Objetivos específicos ........................................................................................................... 2
1.2 Problemática ............................................................................................................................... 2
1.3 Justificación................................................................................................................................. 2
1.4 Hipótesis ..................................................................................................................................... 3
1.5 Alcances y Limitaciones .............................................................................................................. 3
1.6 Estructura del documento .......................................................................................................... 4
Capítulo 2. Síntesis de Voz ................................................................................................................... 5
2.1 Procesamiento de texto a voz .................................................................................................... 5
2.2 Análisis prosódico en TTS............................................................................................................ 8
2.3 Fonemas y visemas ..................................................................................................................... 9
2.4 Estado del arte de la síntesis de voz ......................................................................................... 12
2.5 Retos de la conversión de texto a voz ...................................................................................... 17
2.5.1 Representación Lingüística ................................................................................................ 17
2.5.2 Pronunciación .................................................................................................................... 18
2.6 Generación de Voz con Emoción .............................................................................................. 19
2.6.1 Teorías acerca de la emoción ............................................................................................ 19
2.6.2 Expresión de la emoción en la voz ..................................................................................... 20
Capítulo 3. Metodologías de la conversión de texto a voz ................................................................. 22
3.1 Tecnologías de síntesis de voz .................................................................................................. 22
3.2 Síntesis concatenativa .............................................................................................................. 24
3.2.1 Síntesis por selección de unidades .................................................................................... 25
3.2.2 Síntesis de dífono ............................................................................................................... 26
vi
3.2.3 Síntesis de dominio especifico ........................................................................................... 26
3.3 Síntesis formante ...................................................................................................................... 27
3.4 Otros métodos .......................................................................................................................... 28
3.4.1 Síntesis articulatoria .......................................................................................................... 28
3.4.2 Síntesis Híbrida .................................................................................................................. 28
3.4.3 Síntesis basada en HMM (Modelos ocultos de Markov) ................................................... 28
Capitulo 4. Herramientas Text To Speech ......................................................................................... 30
4.1 Estado del arte de los productos de síntesis de voz ................................................................. 30
4.1.1 Microsoft Speech API ......................................................................................................... 31
4.1.2 Cepstral .............................................................................................................................. 31
4.1.3 Festival ............................................................................................................................... 31
4.1.4 Loquendo ........................................................................................................................... 32
4.1.5 IBM Vía Voice ..................................................................................................................... 32
4.1.6 SVOX .................................................................................................................................. 32
4.1.7 IVONA TTS .......................................................................................................................... 33
4.2 Proceso de conversión de texto a voz de Microsoft Speech SDK 5.1 ...................................... 33
4.2.1 Arquitectura Microsoft Speech SDK 5.1 ............................................................................ 33
4.2.2 Atributos de configuración de Entrada .............................................................................. 34
4.2.3 Atributos de configuración de Salida ................................................................................. 35
4.3 Librería PyTTS ........................................................................................................................... 37
4.3.1 Clases de pyTTS .................................................................................................................. 38
Capitulo 5. Análisis de los parámetros disponibles en las herramientas Text to Speech................... 41
5.1 Parámetros de entrada de las herramientas ............................................................................ 41
5.2 Análisis de Fonemas Vocálicos y Consonánticos ...................................................................... 43
Capitulo 6. Conclusiones y trabajos futuros ....................................................................................... 54
6.1 Conclusiones ............................................................................................................................. 55
vii
6.2 Aportaciones ............................................................................................................................. 55
6.3 Trabajos Futuros ....................................................................................................................... 57
Glosario ............................................................................................................................................... 58
Bibliografía .......................................................................................................................................... 64
Anexos ................................................................................................................................................ 67
ANEXO A ............................................................................................................................................. 68
Aplicación Python Text To Speech .................................................................................................. 68
Aplicación Python Text To Speech .................................................................................................. 69
ANEXO B .............................................................................................................................................. 70
Tablas de resultados de los análisis ................................................................................................ 70
Tablas de análisis de cadenas de texto en español .................................................................... 71
Tablas de análisis de cadenas de texto en inglés ........................................................................ 83
viii
LISTA DE FIGURAS
Figura 1. Procedimiento de síntesis de voz. ......................................................................................... 6
Figura 2. Arquitectura común para los sistemas TTS [Furui, 1989]. ..................................................... 7
Figura 3. Arquitectura TTS. ................................................................................................................... 8
Figura 4. Dependencias prosódicas. ..................................................................................................... 9
Figura 5. Reconstrucción de Wheatstone de la máquina parlante de von Kempelen ....................... 13
Figura 6. Tecnologías de síntesis de voz. ............................................................................................ 24
Figura 7. Arquitectura Microsoft Speech SDK .................................................................................... 34
Figura 8. Identificación de atributos del motor de Microsoft Speech SDK 5.1................................... 35
Figura 9. Proceso TTS. ......................................................................................................................... 42
ix
LISTA DE TABLAS
Tabla 1. Fonemas vocálicos. ............................................................................................................... 10
Tabla 2. Fonemas consonánticos ........................................................................................................ 11
Tabla 3. Tabla de fonemas del inglés americano. ............................................................................... 36
Tabla 4. Tabla de visemas del inglés americano. ................................................................................ 37
Tabla 5. Clases de la librería pyTTS. .................................................................................................... 38
Tabla 6. Atributos de las clases OnPhoneme, OnViseme y OnWord.................................................. 39
Tabla 7. Voces empleadas en los análisis. .......................................................................................... 43
Tabla 8. Análisis de fonemas vocálicos. .............................................................................................. 43
Tabla 9. Resultado de análisis de unión de vocales, con voz de mujer mexicana y hombre español.44
Tabla 10. Análisis de las palabras con diptongos. .............................................................................. 46
Tabla 11. Análisis de fonemas de diptongos españoles. .................................................................... 47
Tabla 12. Análisis de palabras del español mexicano con uniones de 3 vocales. .............................. 47
Tabla 13. Pruebas fonemas vocalicos. ................................................................................................ 48
Tabla 14. Pruebas del fonema /c/. ..................................................................................................... 48
Tabla 15. Pruebas del fonema /s/. ...................................................................................................... 49
Tabla 16. Pruebas del fonema /b/. ..................................................................................................... 49
Tabla 17. Prueba del grafema <ou>. ................................................................................................... 49
Tabla 18. Análisis del español mexicano para casos con palabras separadas por espacios en blanco y
comas. ................................................................................................................................................. 49
Tabla 19. Análisis en ingles para las palabras separadas por espacios en blanco y comas. ............... 50
Tabla 20. Prueba grafema <wo>. ........................................................................................................ 50
Tabla 21. Análisis grafemas acompañados de signos del español mexicano. .................................... 51
Tabla 22. Análisis de grafemas del inglés con signos. ......................................................................... 51
Tabla 23. Análisis de grafemas para generar fonemas y visemas de voces españolas. ..................... 52
Tabla 24. Análisis cantidades numéricas sin separación con voz inglés. ............................................ 52
x
Tabla 25. Análisis cantidades numéricas con separación de punto con voz inglés. ........................... 53
Tabla 26. Análisis cantidades numéricas sin separación con voz español. ........................................ 53
Tabla 27. Análisis cantidades numéricas con separación de punto con voz español. ........................ 53
1
CAPÍTULO 1.
INTRODUCCIÓN
Los agentes son entidades capaces de percibir su entorno, los cuales pueden procesar lo que
perciben y tener una reacción, es decir una respuesta o actuar en su entorno de manera racional.
Actualmente el uso de agentes con capacidades de diálogo y una representación visual (Agentes
Conversacionales Animados) ha ido en aumento, ya que resultan ser una herramienta fácil de utilizar
que permite una mejor interacción con el usuario. Añadiendo a éstos la funcionalidad de conversión
de Texto a Voz (Text To Speech), éstos agentes animados pueden fungir como guías, maestros o
ayudantes, y pueden brindar ayuda en la búsqueda de información sobre un tema, pudiendo llegar a
mantener una conversación de cualquier tema en específico.
En esta tesis, se presenta el análisis de los atributos del proceso de conversión de texto a voz
(TTS - Text To Speech) y sus sub-productos, para incorporar esta tecnología a un agente
conversacional animado. Con los resultados de éste trabajo se podrá contribuir al proceso de
sincronizar la expresión verbal y no verbal de su diálogo, creando así un comportamiento creíble en
el personaje.
2
Este trabajo contribuye al desarrollo de la línea de investigación interesada en la generación de
formas de interacción hombre-máquina a través del uso de Agentes Conversacionales Animados que
se desarrolla en la Maestría en Ciencias en Ciencias de la Computación del ITCM. En particular, ésta
tesis complementa los trabajos realizados por Domínguez-Martínez [Domínguez Martínez, 2010] y
Florencia-Juárez [Florencia Juárez, 2010] para dotar a un agente conversacional con una base de
conocimiento AIML capaz de generar un diálogo escrito con expresiones emocionales.
1.1 Objetivos
1.1.1 Objetivo General
Analizar los parámetros y componentes de las herramientas Text To Speech para mejorar la
credibilidad de la prosodia generada y proporcionar información que sirva para la animación de
visemas.
1.1.2 Objetivos específicos
Identificar los parámetros disponibles en las herramientas Text To Speech, su funcionalidad
y efectos.
Identificar los efectos de la manipulación de los parámetros disponibles en la prosodia de la
voz generada.
Identificar que información se puede producir para facilitar la construcción de visemas.
1.2 Problemática
La problemática en el análisis de las tecnologías de Texto a Voz radica en que no se encuentran
documentos suficientes que aporten información sobre la configuración de las herramientas de
conversión TTS. Sólo existe documentación de desarrollos comerciales relacionada a la aplicación
de su tecnología, en los cuales no se aportan información suficiente sobre los atributos involucrados
en las técnicas del proceso de conversión de texto a voz.
1.3 Justificación
Esta tesis se desarrolla con la finalidad de que el análisis de los parámetros existentes en la
conversión TTS sirva en la creación de un prototipo de un agente virtual que proporcione
información sobre la Maestría en Ciencias en Ciencias de la Computación del ITCM.
3
Para lograr que el usuario del sistema experimente una interacción más natural con la
computadora por medio de asistentes virtuales es necesario que estos expresen emociones por medio
de la voz, así como una expresión no verbal acorde a la misma. Para lograrlo, es necesario
desarrollar con una herramienta capaz de producir habla emocional o que permita controlar los
parámetros asociados a la generación de la prosodia.
1.4 Hipótesis
En esta tesis se busca identificar los parámetros de entrada y salida existentes en un proceso de
conversión de texto a voz, con el fin de manipularlos para generar un asistente virtual más creíble
capaz de producir sincronización labial y expresar emociones a través del habla.
Basándose en el análisis de la información del análisis de los atributos de la conversión TTS, se
pretende determinar si es posible configurar y explotar las herramientas TTS evaluadas para crear un
personaje virtual con las capacidades antes mencionadas.
1.5 Alcances y Limitaciones
Este proyecto está limitado al análisis de los parámetros existentes en el proceso de conversión
TTS, que involucran la velocidad, el tono y el uso de voces sintetizadas, dichos atributos pueden ser
configurados de entrada y arrojan un conjunto de datos asociados a fonemas y visemas.
Debido a que este trabajo se pretende integrar al desarrollo de Juegos Serios y Personajes
Virtuales 3D usando el Motor de Juegos de Panda3D bajo Python, se eligió como tecnología de
conversión de texto a voz al motor de voz Microsoft Speech SDK 5.1 [Microsoft Speech SDK 5.1,
2010] en combinación con la librería PyTTS disponible para Python, la cual permite la manipulación
de los atributos del motor de voz.
4
1.6 Estructura del documento
Capítulo 1. Introducción. Se presentan los objetivos del trabajo de Tesis, la justificación, la
hipótesis, los alcances y las limitaciones del proyecto.
Capítulo 2. Síntesis de voz. En este capítulo se describe el procesamiento de Texto a Voz, la
arquitectura común de los sistemas que realizan este proceso y se presentan fundamentos de los
términos fonema y visema a partir de los cuales se desarrollan los análisis. También se presenta el
estado del arte del proceso TTS y los retos de dicho proceso.
Capítulo 3. Metodologías de la conversión de texto a voz. Se presentan una descripción de los
métodos de síntesis de voz más empleados.
Capítulo 4. Herramientas Text To Speech. Se presenta el estado del arte de algunos de los
productos de síntesis de voz existentes actualmente. Se incluye la arquitectura del motor de voz
Microsoft Speech SDK 5.1 y la librería pyTTS.
Capítulo 5. Análisis de los parámetros disponibles en las herramientas Text To Speech. Se
presenta un análisis de las pruebas realizadas con el motor de voz Microsoft Speech SDK 5.1.
Capítulo 6. Conclusiones y trabajos futuros. Se presenta una reflexión de las aportaciones y
conclusiones del proyecto.
5
CAPÍTULO 2.
SÍNTESIS DE VOZ
En este capítulo se introducen los conceptos relacionados al proceso de conversión de texto a
voz y los elementos presentes en la síntesis de voz, también se incluye el estado del arte acerca de
las herramientas desde los inicios de la implementación de este proceso, y algunos aspectos de la
generación de voz concernientes a las expresiones que implican emoción.
2.1 Procesamiento de texto a voz
El habla es el medio principal de comunicación entre las personas, la síntesis de voz es la
producción artificial del habla humana. Se han diseñado diferentes sistemas para este propósito
llamados sintetizadores de voz y pueden ser implementados tanto en hardware como en software.
Recientes progresos en la síntesis de voz han producido sintetizadores con mayor inteligibilidad,
pero el sonido y la naturalidad aún siguen siendo un problema mayor. Un elemento para juzgar la
calidad de la síntesis de voz es su parecido con la voz humana y su potencialidad para ser entendida.
Estos sistemas pueden lograr que personas con discapacidad visual, problemas de lectura o que se
encuentren en actividades en las cuales los ojos y manos están ocupados puedan escuchar
instrucciones.
6
Análisis de texto y
lingüística
Prosodia y
generación de voz
Nivel fonético
Voz Sintetizada
Texto de entrada
Un sintetizador de voz convierte el lenguaje escrito en habla, por esta característica también es
conocido como sistema TTS (Text To Speech). El habla sintetizada se genera concatenando
segmentos de grabaciones que se encuentran almacenados en una base de datos.
Los sistemas Text to Speech difieren en diversos aspectos, uno de ellos es el tamaño de las
unidades de habla almacenadas. Los sistemas que almacenen fonemas y difonemas proveen el rango
de salida más amplio, sin embargo es posible que su calidad sea baja. Para una salida de alta calidad,
se utiliza la técnica de dominios específicos, en esta técnica el almacenamiento de palabras u
oraciones pre-grabadas enteras permiten una salida de alta calidad.
De forma alternativa, un sintetizador puede incorporar un modelo del tracto vocal y otras
características de la voz humana para generar una voz completamente “sintética” o “electrónica”
[Birkholz – Kroger, 2007].
El procedimiento de síntesis de texto a voz consiste de dos fases principales. La primera fase es
el análisis del texto, donde la cadena de caracteres de entrada es transcrita en una fonética o algunas
otras representaciones lingüísticas, y la segunda etapa es la generación de formas de onda de voz,
donde la salida produce información fonética y prosódica.
Estas dos fases son usualmente llamadas síntesis de alto y bajo nivel. La Figura 1 muestra una
versión simplificada de este procedimiento, la entrada del texto puede ser por ejemplo de un
procesador de palabras. La cadena de caracteres es entonces procesada y analizada en una
representación fonética la cual es usualmente una cadena de fonemas con alguna información
adicional para la correcta entonación, duración y énfasis. Finalmente con el sintetizador de bajo nivel
el sonido de la voz es generado por la información de un sintetizador de alto nivel [Lemmetty, 1999].
Figura 1. Procedimiento de síntesis de voz.
En la Figura 2 se detalla el procesamiento de texto a voz de los sistemas TTS comunes, se puede
observar que existen dos bloques principales que forman el sistema: el bloque de Procesamiento de
Lenguaje Natural (Natural Language Processing o NLP) y el bloque de Proceso de Síntesis.
7
Procesamiento de
Lenguaje Natural
Proceso de Síntesis
Analizador de Texto
Texto a fonemas
Generador prosódico
Articulatorios
Concatenativos
Formantes
Prosodia
Fonema
s Texto
Voz
El bloque de NLP se encarga de producir una transcripción fonética del texto leído, además de la
entonación y el ritmo deseados para la voz de salida, después, el bloque de Proceso de Síntesis
transforma la información simbólica que recibe del bloque anterior, en una voz de salida. El proceso
de síntesis puede llevarse a cabo de diferentes formas, dependiendo de la tecnología empleada, puede
tratarse de una síntesis articulatoria, de formantes, concatenativa, etc., en el Capítulo 3 se describen
los tipos de síntesis de voz más empleados.
Figura 2. Arquitectura común para los sistemas TTS [Furui, 1989].
En el bloque NLP se llevan a cabo dos tareas importantes. La primera tarea es convertir el texto
en material manipulable, convirtiendo símbolos como números o abreviaciones en su equivalente en
palabras escritas. Esto es comúnmente llamado “normalización del texto”, “pre-procesamiento” o
“señalización” (tokenization), la segunda tarea que se realiza es asignar transcripciones fonéticas a
cada palabra y dividirlas en unidades prosódicas tales como frases, cláusulas y oraciones. El proceso
de asignar transcripciones fonéticas en palabras es llamado conversión “texto a fonema” o
conversión “grafema a fonema”. El bloque NLP tiene como salida una representación lingüística, la
cual está formada tanto por las transcripciones fonéticas así como por la información prosódica. El
bloque de Proceso de Síntesis es el sintetizador en sí, ahí es donde se transforma la representación de
la lógica lingüística en sonido [Moreno Azcona, 2008].
La Figura 3 muestra otra forma de explorar la arquitectura del proceso de conversión de texto a
voz, como entrada es admitido un texto sin formato, para que en el proceso pase por el análisis del
texto, análisis fonético y prosódico que forman una síntesis de forma de onda para dar como salida la
voz sintetizada.
8
2.2 Análisis prosódico en TTS
Solo la adecuada elección de los parámetros prosódicos dados por una duración de sonido y
contornos de entonación permite al TTS producir sonido natural, alta calidad y voz sintética. Uno de
los problemas más grandes en los sistemas de síntesis de texto a voz consiste en la generación
automática de la prosodia natural e inteligibilidad. Existen dos enfoques principales para la
predicción de la estructura prosódica, un enfoque basado en reglas y otro en estocástica.
Dentro de la fonética, la prosodia se define como el uso de tono, volumen, tiempo y ritmo en el
habla para transmitir información sobre la estructura y el significado de un enunciado.
La entonación se refiere al cambio en el patrón de campo o frecuencia fundamental durante la
voz. La prosodia del lenguaje continuo depende de muchos aspectos separados, tales como el
significado de la sentencia y las características del hablante y emociones.
Las dependencias prosódicas son mostradas en el Figura 4. Desafortunadamente, el texto escrito
usualmente contiene muy poca información de estas características y algunas de ellas cambian
dinámicamente durante la producción de la voz. Sin embargo, con algún control específico de los
caracteres de entrada esta información puede ser dada al sintetizador de voz.
Análisis del Texto Normalización del texto Etiquetamiento de la parte del habla Desambiguación homónima
Análisis Fonético Búsqueda en el diccionario Grafema a fonema (LTS)
Análisis prosódico Colocación de límites Campo de asignación de acento Duración de cómputo
Síntesis de forma de onda
Texto sin Formato
Voz de salida
Figura 3. Arquitectura TTS.
9
PROSODIA
Características del hablante
Género
Edad
Emociones
Enojo
Alegría
Tristeza
El significado de la oración:
Neutral
Imperativo
Pregunta
Frecuencia fundamental
Duración
Énfasis
Debido a que el la acentuación de las frases casi nunca es marcada y el parafraseo prosódico no
siempre es marcado en el texto, si no hay pausas de respiro en el lenguaje o si hay lugares
incorrectos, el lenguaje puede sonar muy poco natural o incluso el significado de la oración puede
ser malentendido.
Por ejemplo en inglés, la cadena de entrada "John says Peter is a liar" puede ser dicho de dos
diferentes formas dando dos diferentes significados como “John says: Peter is a liar” o "John, says
Peter, is a liar". En el primer enunciado la sentencia “Peter is a liar”, y en la segunda “the liar is
John”.
Los anteriores ejemplos indican que debido a errores ortográficos se puede dar una mala
interpretación del habla, algunas de estas consideraciones son tomadas en cuenta en el Capítulo 5 a
fin de ser ejemplificadas.
2.3 Fonemas y visemas
En el subtema anterior se trató la prosodia la cual se encuentra definida en términos de la
fonética; la fonética y la fonología son disciplinas de la lingüística que se encargan de estudiar los
sonidos del lenguaje, la fonética abarca un ámbito mayor que la fonología, en la primera hay una
base acústica mientras que en la segunda se tiende a considerar la imagen mental de lo que
percibimos [Frías Conde, 2001].
Figura 4. Dependencias prosódicas.
10
La unidad de estudio de la fonología son los fonemas, estos son las estructuras de unidades más
pequeñas de sonido que distinguen el significado para un lenguaje, tales como “oo, ee, ar, m, b, p”,
etc. Reemplazando un fonema con otro cambiará el significado de un enunciado.
Ya que se van a explorar algunas partes de la lingüística y la fonética, se introducen otros
conceptos relacionados con estas disciplinas y ejemplificaciones de sus notaciones; un grafema es la
unidad mínima de un sistema escrito, su notación está dada por los símbolos <n>, anteriormente se
definió lo que es un fonema el cual se representa por /n/, pero también existen los alófonos, son las
variantes que se dan en la pronunciación de un mismo fonema, la notación de estos es [n].
La clasificación de los fonemas está dada por dos grandes unidades: Vocales y Consonantes.
La descripción de los fonemas vocálicos está dada en la Tabla 1, que muestra la clasificación de
las vocales de acuerdo a la forma en que son pronunciadas, por ejemplo: /i/ es una vocal inicial
cerrada.
Iniciales Centrales Finales Cerradas i u Medias e o Abiertas a
Tabla 1. Fonemas vocálicos.
Además, las vocales /a/, /e/, y /o/ son las llamadas vocales fuertes, mientras que /i/ y /u/ son las
débiles. En el Capítulo 5 se incluye una revisión de los diptongos para observar los análisis de los
resultados obtenidos al evaluar estas estructuras.
La Tabla 2 describe los fonemas consonánticos existen en el español. En ésta tabla se incorporan
los siguientes símbolos, los cuáles se describen a continuación:
Es la <z>, en el español europeo este fonema no existe y en su lugar se usa /s/.
Es la <j> y la <g>.
Es la <y>.
Es la <ch>.
Es la <ñ>.
Es la <ll>, para la mayoría de los hablantes de español del mundo este fonema ha desaparecido y se ha sustituido por .
Es la <r> suave, hay que tener en cuenta que la /r/ representa el sonido fuerte.
11
Bilabial Labiodental Interdental Dental alveolar Palatal Velar
Oclusiva Sonora Sorda
Fricativa Sonora
Sorda Africada Sonora
Sorda
Nasal Sonora
Sorda
Lateral Sonora
Sorda
Vibrante Sonora
Sorda Tabla 2. Fonemas consonánticos
Existen dos elementos que se involucran en la clasificación de los fonemas, uno es el punto de
articulación (lugar en la cavidad bucal que se utiliza) y el modo de articulación (elementos que
participan en la pronunciación).
Para el punto de articulación se tienen en cuenta los siguientes criterios:
Bilabial: Participación de los dos labios
Labiodental: Labio inferior con dientes superiores.
Interdental: Lengua entre los dientes.
Dental: La lengua toca la parte trasera de los dientes superiores.
Alveolar: La lengua toca los alvéolos superiores.
Palatal: La lengua toca el paladar.
Velar: La lengua toca el velo.
Para el modo de articulación hay que distinguir entre plosivas y no plosivas. Las primeras son
aquellas en las que hay una mayor o menos obstaculización en la boca, mientras que las segundas se
pronuncian más directamente.
Las plosivas se dividen en: Oclusivas: Se produce una explosión.
Fricativas: Se produce un roce.
Africadas: Es la combinación de las dos anteriores.
Las no plosivas son: Nasales: Parte del aire sale por la nariz.
Laterales: La lengua sale por los laterales de la boca.
12
En el Capítulo 5 se incluye una revisión de estos fonemas, además del análisis de estos en la voz
de inglés americana.
Los fonemas de un lenguaje pueden ser clasificados en subgrupos basados en sus apariencias
visuales. Estos subgrupos son llamados visemas y pueden ser considerados como equivalencia visual
a los fonemas. Los visemas pueden además ser descritos como formas clave de la boca donde cada
forma vocal corresponde a uno o más fonemas [Engström, 2003].
Los fonemas que no son distinguibles de otros cuando son vistos en la cara son puestos en el
mismo subgrupo. Por lo tanto los fonemas son frecuentemente confundidos dentro de los subgrupos,
pero raramente entre ellos. Un visema describe las posiciones faciales particulares y orales y los
movimientos que ocurren del lado vocal de los fonemas. Los fonemas y visemas no siempre
comparten correspondencia de uno a uno, regularmente algunos fonemas comparten el mismo
visema.
El termino visema fue introducido por Fisher en 1968 como una abreviación del término visual
phoneme y denota grupos de consonantes que forman clases exclusivas mutuamente. Sin embargo, el
concepto fue creado mucho antes por Alexander Graham Bell entre otros. En un estudio Fisher
[Engström, 2003] probó como los fonemas en la palabra inicial y final son percibidos visualmente,
forzándolos a dar respuestas erróneas por eliminación de la respuesta correcta de la hoja de
respuestas. Cada estimulo tuvo un conjunto cerrado de posibles respuestas hechas de palabras de la
misma estructura silábica y patrón de énfasis como la palabra estímulo. También cada consonante en
las respuestas fue homotípica a la consonante de la prueba de estímulo. Los resultados mostraron que
los fonemas fueron confundidos por 5 grupos de consonantes iniciales y 5 grupos de consonantes
finales, apoyando al concepto de visemas.
2.4 Estado del arte de la síntesis de voz
La voz artificial ha sido un tema de gran interés a través de los años, para comprender como los
sistemas actuales funcionan y como se han desarrollado, aquí se presenta un resumen de la historia
del lenguaje sintetizado desde los primeros esfuerzos mecánicos hasta los sistemas sintetizadores de
hoy en día.
En 1791 von Kempelen en Mechanismus der menschlichen Sprache nebst Beschreibung einer
sprechnenden Maschine (Mecanismo del lenguaje humano con la descripción de una máquina
parlante), describe una máquina hablante consistente de un fuelle que simula los pulmones y un
contrapeso provisto por inhalación, una “caja de viento” funcional con palancas utilizando la mano
13
derecha , una “boca” hecha de goma y una “nariz” con orificios nasales (la nariz tenía que ser
cubierta con dos dedos para los no nasales), un cierre de la apertura de la boca que permitió producir
sonidos sordos, un pequeño fuelle auxiliar accionado por la cadena que provee de una bocanada de
liberación de sonidos sordos, propiedades de resonancia variada de la “boca” con la mano izquierda
que cubre la apertura, cuerdas vocales simuladas con una caña de marfil y silbatos pequeños que
controlaban las consonantes.
A mediados de 1800 Charles Wheatstone construyó su famosa versión de la máquina hablante de
von Kempelen la cual es mostrada en la Figura 5, con ella fue posible producir vocales y más
sonidos consonantes. Las vocales fueron producidas con caña vibrante y todos los pasajes estaban
cerrados. Las resonancias se efectúan por la deformación del resonador de cuero como en la máquina
de von Kempelen.
La conexión entre el sonido de la vocal especifica y la geometría del tracto vocal fue encontrado
por Willis en 1838, el sintetizó diferentes vocales con los resonadores del tubo como pipas de
órganos, también descubrió que la calidad vocal depende solo de la longitud del tubo y no de su
diámetro.
El primer dispositivo completo de síntesis eléctrica fue representado por Stewart en 1922, el
sintetizador tenía un timbre como excitación y dos circuitos resonantes para modelar las resonancias
acústicas del tracto vocal. La maquina fue capaz de generar un solo sonido vocal estático con dos
formantes más bajos, pero no cualquier consonante o enunciados conectados.
Figura 5. Reconstrucción de Wheatstone de la máquina parlante de von Kempelen
14
El mismo tipo de sintetizador fue hecho por Wagner. El dispositivo constaba de cuatro
resonadores electros conectados en paralelo y que estaba excitado por una especie de silbato fuente.
Las salidas de los cuatro resonadores eléctricos conectados se combinaron en las apropiadas
amplitudes para producir el espectro vocal.
En 1932 los investigadores japoneses Obata y Teshima descubrieron el tercer formante en
vocales. Los tres primeros formantes son generalmente considerados suficientes para la
inteligibilidad de la voz sintetizada.
El primer dispositivo para ser considerado como un sintetizador de voz fue VODER (Voice
Operating Demonstrator) introducido por Homer Dudley en la feria mundial de New York en 1939.
VODER fue inspirado por VOCODER (Voice Coder) desarrollado en los laboratorios Bell en los
años treinta.
Apple [Apple, 2010] desarrolló sistemas para la síntesis de voz de Macintosh Personal
Computers, dichos sistemas constan de diferente nivel de calidad en 1984 Apple Computers lanza el
MacinTalk que fue el primer sistema de síntesis de voz integrado a un sistema operativo.
Actualmente ha desarrollado el sistema VoiceOver para personas con problemas de la vista.
AmigaOS es el segundo sistema operativo en la historia con un sistema de síntesis de voz,
avanzado fue lanzado en 1985. Contenía un sistema de emulación completo, con voces tanto
masculinas o femeninas de énfasis [Softvoice, 2010].
CereVoice, es un sistema producido por Cereproc LTD, el sistema fue utilizado para construir
pequeñas bases de datos de unidades de selección utilizando información suministrada por el
Blizzard Challenge 2006 [Aylett-Pickock-Fraser, 2006].
El sistema Microsoft Windows utiliza los sistemas de voz SAPI4 y SAPI5. Estos incluyen un
motor de reconocimiento de voz llamado SRE. Todos los programas compatibles con Windows
pueden utilizar las funciones de síntesis de voz, disponibles a través de menús una vez instalados
dentro del sistema. Microsoft Speech Server es un paquete completo para reconocimiento y síntesis
de voz para aplicaciones comerciales como centros de llamado. Microsoft Speech SDK 5.1
[Microsoft Speech SDK 5.1, 2010] es la interfaz de programación de aplicaciones de voz o SAPI
(Speech Application Programming Interface) es una API desarrollada por Microsoft para permitir el
uso de reconocimiento de voz y síntesis de voz dentro de las aplicaciones de Windows.
Festival [Festival, 2010] es un software libre que ofrece un marco general para la construcción
de sistemas de síntesis de voz. En conjunto Festval integra la función de conversión del texto a voz a
través de una API: desde el nivel de núcleo, a través de un esquema intérprete de comandos, como
15
una librería de C++, de Java, y una interfaz de Emacs. Festival es multilingüe (actualmente Inglés
(británico y americano), y español), aunque el Inglés es el más avanzado. Otros grupos lanzaron
nuevos lenguajes para el sistema. Las herramientas y la documentación completa para construir
nuevas voces están disponibles a través del proyecto de Carnegie Mellon FestVox. El sistema está
escrito en C++ y utiliza la librería de Herramientas de Voz de Edimburgo para la arquitectura de bajo
nivel y tiene un esquema (SIOD) basado en el intérprete de comandos de control.
Loquendo TTS [Loquendo, 2010] es un programa informático que realiza una función de síntesis
del habla. Proporciona voces reales para los datos dinámicos y funciona en cualquier tipo de
aplicación de voz, ofrece voces naturales que pueden leer cualquier dato y comando. El TTS de
Loquendo tiene un algoritmo de alto rendimiento y garantiza una respuesta muy rápida. El motor de
habla de esta tecnología puede sintetizar idiomas y voces distintas simultáneamente, mezclándolas
entre ellas en cada momento y sobre cualquier canal.
Infovox [Infovox, 2010], el sintetizador de voz de la familia Telia Promotor AB es quizás uno
de los mejores productos de conversión de texto a voz multilingüe disponibles hoy en día. La
primera versión comercial Infovox SA-101, fue desarrollada en Suecia en el Royal Institute of
Technology en 1982. El sistema es originalmente del tipo de síntesis formante en cascada.
Digital Equipment Corporation (DEC) [DECtalk, 2010] tiene también gran tradición con los
sintetizadores de voz, el sistema DECTalk originalmente descendió de MITalk y Klattalk. En la
actualidad está disponible para el inglés americano, alemán y español, ofreciendo nueve diferentes
voces personalizadas. El actual sistema DECTalk está basado en la síntesis digital formante. La
entrada del sintetizador es derivada de los símbolos fonéticos incluidos consonantes, vocales,
diptongos, alófonos, y un silencio.
Los laboratorios Bell de AT&T (Lucent Technologies) han desarrollado también tecnología de
síntesis de voz desde la demostración de VODER en 1939. Su primer sistema TTS completo fue
lanzado en 1973. Estaba basado en un modelo articulatorio desarrollado por Cecil Coker. El
desarrollo del actual sistema utiliza síntesis concatenativa iniciada por Joseph Olive a mediados de
1970. El sistema actual está disponible para inglés, francés, español, italiano, alemán, ruso, rumano,
chino y japonés [AT&T, 2010].
ORATOR es un sistema TTS desarrollado por Bell Communications Research (Bellcore), su
síntesis está basada en concatenación demisílaba. La versión reciente de ORATOR es de las más
naturales disponibles hoy en día. Actualmente la versión del sintetizador de voz híbrido de Telcordia
ORATOR II también provee de herramientas de alta calidad, las cuales son altamente precisas para
16
el manejo de la los servicios de manejo de la base de datos a través de una síntesis de texto a voz
avanzada [Orator, 2010].
SoftVoice Inc. [SoftVoice, 2010] tiene más de 25 años de experiencia en la síntesis de voz, el
cual es conocido como SAM (Software Automatic Mouth) un sintetizador para Commodore C64
(SAM-synthetizer) y Amiga (Narrator), Apple (original MacinTalk), y computadoras Atari en los
pasados 1980s y fue probablemente el primer software comercial basado en sistemas para
computadoras personales caseras. La calidad de voz de SoftVoice probablemente no es la mejor de
los productos disponibles, pero con un gran número de control de caracteres y voces diferentes que
lo hacen muy útil para varios tipos de aplicaciones multimedia.
El proyecto MBROLA [Dutoit – Pagel – Pierret – Bataille – van der Vrecken, 1996] fue iniciado
por los laboratorios TCTS en la Faculté Polytechnique de Mons, Bélgica y su principal objetivo es el
desarrollo de síntesis de voz multilingüe para propósitos no comerciales y aumento de la
investigación académica, especialmente en la generación de prosodia.
SVOX [SVOX, 2010] es un sistema de síntesis de texto a voz alemán el cual ha sido
desarrollado en TIK/ETHZ (Instituto Federal de Tecnología de Zurich). El sistema SVOX consiste
de dos módulos principales. El módulo de transcripción incluye el análisis del texto y la generación
fonológica la cual es el hablante y la voz independiente. La representación fonológica es generada de
cada enunciado de entrada e incluye la cadena del fonema respectivo, el nivel del acento por silaba, y
los límites de la frase (posición, tipo, y longitud y fuerza. El modulo fonoacústico, incluye todos los
componentes dependientes del hablante que son requeridos para generar una apropiada señal de voz
de la representación fonológica.
IVONA Text to Speech [IVONA TTS, 2010] es un sistema de síntesis de voz en varios
idiomas desarrollado en Polish IT compañía de IVO software. IVONA utiliza las unidades
de selección con capacidad limitada, la síntesis de unidades de selección utiliza grandes bases de
datos de voz grabada, durante la creación las voces, cada frase grabada se segmenta en otras o en los
siguientes: tonos individuales, silabas, morfemas, palabras, frases y oraciones.
También se encuentran otros sistemas de voz tales como Expressivo Text Reader [Expressivo,
2010], Power Text To Speech Reader [Power TTS Reader, 2010] y TextAloud [Text Aloud, 2010]
que pueden leer mensajes directamente de un cliente de correo electrónico y páginas de Internet a
través de un navegador. RSS también puede ser leído con software especializado como el Google
gadget, RSS to Speech o Expressivo Text Reader.
17
El proyecto Pediaphon provee de text to Speech generado dinámicamente para escuchar todos
los artículos de Wikipedia en inglés, francés o alemán. Power Text To Speech Reader soporta voces
masculinas, femeninas y robóticas de 11 lenguajes, también puede monitorear el portapapeles de
Windows y procesar automáticamente su contenido.
2.5 Retos de la conversión de texto a voz
El problema en la síntesis de voz es muy amplio. Existen varios problemas en el
preprocesamiento del texto, tales como numeraciones, abreviaciones, y acrónimos. La correcta
prosodia y la pronunciación del análisis del texto escrito es también un gran problema actualmente.
El texto escrito contiene emociones no explicitas y la pronunciación de nombres propios y
extranjeros es algunas veces muy anómalo. En la síntesis de bajo nivel, la discontinuidad y los
efectos contextuales en los métodos de concatenación de onda son más problemáticos.
La síntesis de voz ha sido encontrada también más difícil con voces de mujeres y niños. Las
voces femeninas tienen un campo casi dos veces más grande que las voces masculinas y con las de
niños puede ser incluso más grande. La frecuencia fundamental hace más difícil estimar las
locuciones de frecuencia formante [Lemmetty, 1999].
2.5.1 Representación Lingüística
La primer tarea enfrentada por cualquier sistema TTS es la conversión de entrada del texto, en
algunos lenguajes, tales como el finlandés, la conversión es muy simple porque el texto escrito casi
corresponde a su pronunciación. Para el inglés y la mayoría de los demás lenguajes la conversión es
mucho más complicada. Un conjunto muy grande de reglas y sus excepciones es necesario para
producir la correcta pronunciación y la prosodia para la voz sintetizada.
El preprocesamiento del texto es usualmente una tarea muy compleja e incluye algunos
problemas dependientes del lenguaje. Los dígitos y numeraciones deben ser ampliados en palabras
completas. Por ejemplo en inglés, el número 243 seria ampliado como two hundred and forty-three y
1750 como seventeen-fifty (en número) o one-thousand seven-hundred and fifty (en medida).
Las fracciones y fechas son también problemáticas. 5/16 puede ser expandida como five-
sixteenths (si es fracción) o May sixteenth (si es fecha). Los números de expansión ordinarios han
sido encontrados también problemáticos. Los primeros tres ordinarios deben ser expandidos de
forma diferente que los otros, 1st como first, 2nd como second, and 3rd como third.
18
El mismo tipo de los problemas contextuales son enfrentados con los números romanos. Chapter
III debería ser ampliado como Chapter three y Henry III como Henry the third y I no puede ser
pronunciado como un pronombre o un número. Los números romanos pueden ser también
confundidos con algunas abreviaturas comunes tales como MCM. Los números pueden tener
también formas especiales de expresión tales como 22 es double two en los números de teléfono y 1
– 0 como one love en los deportes.
Las abreviaciones pueden ser ampliadas en palabras completas, pronunciadas como están
escritas, o pronunciadas letra por letra. Hay también algunos problemas contextuales. Por ejemplo kg
no puede ser kilogram o kilograms dependiendo de los números precedentes, St. Puede ser saint o
street, Dr. Doctor o drive y ft. Fort, foot o feet. En algunos casos, la información adyacente pude ser
suficiente para encontrar la salida correcta a la conversión, pero para evitar malas conversiones la
mejor solución en algunos casos puede ser el uso de la conversión de letra por letra. Innumerables
abreviaciones para nombres de compañías y otras cosas relacionadas que existentes y las que pueden
ser pronunciadas en muchas formas. Por ejemplo, N.A.T.O. o RAM son usualmente pronunciadas
como están escritas y SAS o ADP letra por letra. Algunas abreviaciones tal como MPEG como
empeg son pronunciadas irregularmente.
Los caracteres especiales y símbolos, tales como '$', '%', '&', '/', '-', '+ ', también causan tipos
especiales de problemas. En algunas situaciones el orden de las palabras puede ser cambiado. Por
ejemplo $71.50 deber ser ampliado como seventy-one dollars and fifty cents y $100 million as one
hundred million dollars, no como one hundred dollars million.
La expresión '1-2' puede ser ampliada como one minus two o one two, y el carácter „&‟ como et
o and. También caracteres especiales y cadenas de caracteres por ejemplo en los web-sites o
mensajes de correo electrónico deben ser ampliados con reglas especiales. Por ejemplo, el carácter
'@' es usualmente convertido como at y los mensajes de correo electrónico pueden contener cadenas
de caracteres, tales como información de cabecera, la cual puede ser omitida. Algunos lenguajes
también incluyen caracteres especiales no ASCII, tales como marcadores de acento o símbolos
especiales [Lemmetty, 1999].
2.5.2 Pronunciación
Las palabras llamadas homógrafas, pueden causar los problemas más difíciles en sistemas TTS.
Los homógrafos son deletreados de la misma manera pero difieren en significado y usualmente en
pronunciación. En inglés la palabra lives es por ejemplo pronunciado de forma diferente en los
enunciados "Three lives were lost" y "One lives to eat". Algunas palabras e.g. lead, tienen diferentes
19
pronunciaciones cuando las utilizamos como verbo o sustantivo, y entre dos sentidos de sustantivos
(He followed her lead / He covered the hull with lead). Con estos tipos de palabras alguna
información semántica es necesaria para lograr la correcta pronunciación.
La pronunciación de una cierta palabra puede también ser diferente debido a efectos
contextuales. Esto es fácil de ver cuando se comparan frases the end y the beginning. La
pronunciación de the depende del fonema inicial en la siguiente palabra. Las palabras compuestas
son también problemáticas, por ejemplo el carácter 'th' en mother y hothouse es pronunciado
diferente.
Encontrar la correcta pronunciación para los nombres propios, especialmente cuando son
tomados de otros lenguajes, usualmente es uno de las tareas más difíciles para cualquier sistema
TTS. Algunos nombres comunes, tales como Nice y Begin, son ambiguos en contextos capitalizados,
incluyendo sentencias de posición iniciales, títulos y textos simples. Por ejemplo, la sentencia Nice is
a nice place es muy problemática porque la palabra Nice puede ser pronunciada como /nis/ o /nais/.
2.6 Generación de Voz con Emoción
2.6.1 Teorías acerca de la emoción
Para entender el sentido de la generación de las emociones en el habla se exploran 4 teorías
existentes, donde sus precursores muestran los diferentes enfoques en los que puede ser abordado
este tema.
Charles Darwin propone en su publicación de 1872 “The Expression of Emotion in Man and
Animals” que las emociones son fenómenos con importantes funciones de supervivencia para las
especies. Una emoción ocurre si una de las caras es asociada al problema, en orden para ayudarnos a
resolverlo. La asignación del problema de emoción se ha desarrollado durante la evolución. Por lo
tanto la expresión emocional también sirve para la función de supervivencia, ayuda a resolver
problemas, la expresión más notable de la emoción es la expresión facial, Darwin describe estas
expresiones de emoción en detalle [Zotter, 2003], en los 80s y 90s los psicólogos contemporáneos
redujeron las expresiones de emoción a algunas universales (cruce cultural) y un conjunto
reconocible de emoción de arquetipos: alegría, tristeza, miedo, disgusto, enojo y sorpresa.
William James y Carl Lange (1884) afirmaron que las emociones ocurren después de los
cambios corporales. James estableció controversialmente: las emociones ocurren debido a los
cambios corporales:
20
“lo sentimos porque lloramos”
“nos enojamos porque golpeamos”
“tememos porque temblamos” o “tememos porque corremos”
Si no tengo cuerpo, tendría que ser “excluido de la vida por los afectos”
Magda Arnold en 1960, establece un enfoque cognitivo, en el que los eventos evaluados son
juzgados como buenos o malos para uno mismo, esto ocurre irreflexivamente y automáticamente.
Los cambios corporales y emociones son entonces el resultado de la evaluación. Las emociones
están asociadas a patrones característicos de estimación. Los siguientes juicios son supuestos para
ser hechos en las estimaciones concernientes, la situación es expuesta a: novedad, simpatía,
responsabilidad, esfuerzo, certeza y control.
James Averill en 1980, dice que la emoción no se ve biológicamente determinada, sino como
producto cultural que surge de las reglas sociales aprendidas. Por lo tanto son construcciones
sociales y solo pueden ser entendidas completamente en un nivel social de análisis. En esta vista el
enojo es un sentimiento muy sofisticado el cual es basado en un juicio de moral y se manifiesta si
algunos violan algunos estándares de comportamiento. Incluso la intención de otras personas juega
un papel importante en enojarse. También “perder el control” de uno mismo no es subjetivo
sino un juicio social. Es posible encontrar una explicación para cada emoción básica como una
construcción social.
2.6.2 Expresión de la emoción en la voz
En el marco de inducción del afecto, la función principal de señalización no es expresar emoción
sino influir los afectos de los escuchas y por lo tanto formar su comportamiento (afectar la excitación
de los oyentes). En resumen, la perspectiva de inducción del afecto sostiene que las expresiones
vocales de la emoción no son muestra de los estados del vocalizador, son herramientas de influencia
social [ ].
Los rangos de identificación de la emoción son usualmente mejores para el enojo, miedo y
tristeza. La identificación es pobre para el disgusto, quizás porque este estado no es típicamente
transmitido a través de la voz, sino a través de emblemas vocales o exclamaciones.
Las técnicas para sintetizar la emoción han sido estudiadas de cerca en desarrollos generales en
algoritmos de síntesis de voz. La “Primera generación” de técnicas incluyen el trabajo de Murray y
Cahn quienes utilizaron sintetizadores formantes los cuales eran capaces de variar cada parámetro
del sintetizador como fuera deseado. El paradigma experimental utilizado en estos sistemas fueron
versiones de síntesis múltiple de la misma sentencia cada una con diferente emoción, y luego realizar
21
una prueba de escucha donde el objetivo era hacer una elección forzada como que lo emociona a el o
que escucha ella. Los resultados de estos sistemas fueron bastante buenos siendo reconocidos con un
bajo grado de falla de precisión. Uno de los problemas con este enfoque, es que se pensó que la
síntesis formante llevaba al mismo a ser capaz de generar diferentes efectos lingüísticos, pero
denesta forma es capaz de crear voz donde la “distancia” entre dos categorías es artificialmente
grande [Taylor, 2009].
Las propuestas de “segunda generación” fueron típicamente una base de datos que contenía
etiquetas emocionales de voz que son analizados para determinar las características de cada emoción.
A menudo estos son llevados a las dimensiones prosódicas tradicionales de F0 (Frecuencia
Fundamental) y tiempo. Una vez conocidos estos patrones, el lenguaje normal puede ser convertido
en voz emocional por el uso de las señales de procesamientos de técnicas de señal.
Considerando que la emoción está relacionada con la acústica vocal, la acústica de la voz es
impregnada con señales indexadas o personales. Las cuales son aspectos no lingüísticos de la
producción de la voz que proveen de acústica correlacionada a variables como el sexo de la persona,
identidad individual, edad y estado emocional.
22
CAPÍTULO 3.
METODOLOGÍAS DE LA
CONVERSIÓN DE TEXTO A
VOZ
En este capítulo se presenta una clasificación de las metodologías existentes en el proceso de la
síntesis de voz o producción artificial de habla humana. La cual recibe también el nombre Text-To-
Speech (TTS) en referencia a su capacidad de convertir texto escrito en hablado.
3.1 Tecnologías de síntesis de voz
El proceso de síntesis de voz puede ser dividido en alto y bajo nivel de síntesis. Un sintetizador
de bajo nivel es el dispositivo que genera el sonido de salida de información suministrado por un
dispositivo de alto nivel en algún formato, por ejemplo en la representación fonética. Un sintetizador
de alto nivel es responsable por la generación de la información de entrada al dispositivo de bajo
23
nivel incluyendo el preprocesamiento correcto del texto, la pronunciación y la información
prosódica. La mayoría de los sintetizadores contienen ambos, sistema de alto y bajo nivel, pero
debido a los problemas específicos con los métodos, son algunas veces desarrollados separadamente.
La voz sintetizada puede ser creada concatenando los pedazos de lenguaje registrado que se
almacenan en una base de datos.
Los sistemas diferencian en el tamaño de las unidades almacenadas de voz, un sistema que
almacena tonos o dítonos, proporciona la gama más grande de texto de salida, pero puede carecer de
claridad.
Un sistema TTS (o el motor) se compone de dos partes: un front-end y un back-end. A grandes
rasgos, el front-end toma el texto de entrada y produce una representación lingüística fonética. El
back-end toma la representación lingüística fonética como entrada y hace salir la forma de onda
sintetizada de la voz. La naturalidad de un sintetizador de voz se refiere generalmente a que tanto la
salida suena como la voz de una persona verdadera.
El front-end tiene dos tareas importantes. Primero toma el texto crudo y convierte partes
problematicas como números y las abreviaturas en sus equivalentes escritos. Este proceso a menudo
se llama normalización del texto, preprocesamiento, o encadenamiento del texto. Entonces asignan
transcripciones fonéticas a cada palabra, y se divide y marca el texto en varias unidades prosódicas,
como frases, las cláusulas, y oraciones [Carnicero Sierra, 2003].
El proceso de asignar transcripciones fonéticas a las palabras se llama conversión del texto a
fonema (TTP) o grafema a fonema (GTP). La combinación transcripciones fonéticas e información
sobre unidades prosódicas del texto emite como la salida representación lingüística fonética.
La otra parte, el back-end, toma la representación lingüística simbólica y la convierte en sonido,
a menudo el back-end es referido como sintetizador.
Los dos aspectos más importantes de la síntesis de voz son la naturalidad y la inteligibilidad. La
naturalidad describe que tanto el sonido generado se asemeja al habla humana, mientras que la
inteligibilidad es la facilidad con la cual se entiende el significado del habla generada. Un
sintetizador de voz trata de maximizar ambas características [Barbosa, 1997].
Las dos tecnologías más empleadas para generar una voz sintética son la síntesis concatenativa y
la síntesis formante.
En la Figura 6 se muestra una clasificación de las metodologías de la síntesis de voz que es
posible generar a partir de un corpus lingüístico, se observa que dentro de la síntesis concatenativa se
24
desarrollan tres técnicas más, la síntesis de selección de unidades, la síntesis de difonos, y la
específica para un dominio, otras ramas de la clasificación incluyen a la síntesis de formantes, la
síntesis articulatoria, la hibrida y la síntesis basada en HMM, dichas técnicas se describen es los
siguientes subtemas.
3.2 Síntesis concatenativa
La síntesis de Concatenativa [Molina – García - Nuñez, 2006] se basa en el encadenamiento de
segmentos de la voz registrados. Generalmente, la síntesis concatenativa genera la voz sintetizada
que alcanza a sonar más natural. Sin embargo, en la variación natural de la voz grabada en
segmentos extraídos y las técnicas automatizadas para dividir las formas de onda en segmentos
algunas veces da lugar a interferencias audibles en la salida disminuyendo la naturalidad.
Corpus
lingüístico
TSS (Text to Speech) Tecnologías de
síntesis de voz
Síntesis de
formantes
Síntesis
concatenativa
Síntesis por selección de unidades
Síntesis
de
dífonos
Otros
métodos
Síntesis de
dominio
específico
Síntesis
articulatoria
Síntesis
híbrida
Síntesis
basada en
HMM
(Modelos
ocultos de
Markov)
Pueden ser creadas en base a
Metodologías
Figura 6. Tecnologías de síntesis de voz.
25
Hay tres subtipos principales de la síntesis concatenativa:
Síntesis por selección de unidades
Síntesis de dífonos
Síntesis específica para un dominio
3.2.1 Síntesis por selección de unidades
La síntesis de la selección de unidades propuesta por Hunt y Black [Hunt – Black, 1996] es la
base de la mayor parte de los sintetizadores comerciales actuales. Como su nombre lo indica consiste
en la selección de unidades fónicas de un corpus de mayor envergadura. En este caso las unidades no
tienen porque ser difonemas aunque en cualquier caso sigue siendo la unidad más utilizada. La
elaboración de este corpus reviste una mayor complejidad ya que debe ser fonéticamente balanceado
y completo. El algoritmo de síntesis elige las unidades a concatenar en base a factores como la
amplitud, la frecuencia, etc. En esta metodología existen también distintas aproximaciones y
algoritmos como Cluster-Uniys, Multisyn, HTS, Clustergen, etc.
La síntesis de la selección de unidades utiliza las bases de datos del lenguaje (donde más de una
hora de voz es registrada). Durante la creación de base de datos en cada elocución registrada se
divide en segmentos algunos de los siguientes componentes: tonos individuales, sílabas, morfemas,
palabras, frases, y oraciones.
La división en segmentos se puede hacer utilizando varias técnicas, como agrupar, usando un
reconocedor especialmente modificado del lenguaje, o con representaciones visuales tales como las
forma de onda y espectrograma. Un índice de unidades en la base de datos del lenguaje se crea
basado de la segmentación y los parámetros acústicos como la frecuencia fundamental.
Esta técnica da la naturalidad más grande debido al hecho de que no aplica técnicas de proceso
de la señal numérica al discurso registrado, que a menudo hace que el sonido registrado del lenguaje
sea menos natural. De hecho la salida de los mejores sistemas de la selección de unidad es a menudo
indistinguible de voces humanas verdaderas, especialmente en los contextos para los cuales se ha
probado el sistema de TTS. Sin embargo, la máxima naturalidad requiere a menudo bases de datos
del lenguaje tomado de la selección de unidades, en algunos sistemas que se extienden en los
gigabytes de datos registrados y que numeran en las docenas de horas del discurso registrado.
26
3.2.2 Síntesis de dífono
La síntesis basada en difonemas es la opción más implantada y conocida, se basa en la
utilización de difonemas, es decir, unidades formadas por fracciones de fonemas colindantes, la
segunda mitad del primer fonema y la primer mitad del fonema siguiente. Este método parte de la
grabación de un corpus con todos los difonemas existentes en el idioma a utilizar. Este corpus
consiste en una lista de aproximadamente 1000 palabras artificiales, vocablos sin sentido que
combinan apropiadamente todos los pares de fonemas necesarios en los contextos fonéticos
apropiados. El sintetizador genera la voz combinando dichos difonemas de acuerdo con la
transcripción generada a partir de las reglas “letter-to-sound”.
La síntesis de dífono utiliza una mínima parte de la base de datos del lenguaje que contiene todos
los dífonos (transiciones del sonido a sonido) que ocurre en una lengua dada. El número de dífonos
depende de la fonotáctica de la lengua, el español tiene cerca de 800 dífonos, el alemán cerca de
2500. En la síntesis de dífonos, solamente un ejemplo de cada dífono se almacena en la base de datos
del lenguaje. En el tiempo de ejecución, la prosodia objetivo de una oración se sobrepone en estas
unidades mínimas por medio de técnicas de proceso de la señal numérica tales como codificación
profética linear, PSOLA o MBROLA [MBROLA, 2010].
La calidad del discurso que resulta no es generalmente tan buena como la de la síntesis de
selección de unidades pero más natural comparada con la salida de los sintetizadores formantes. La
síntesis de dífono sufre de interferencias sónicas, la síntesis concatenativa y la naturaleza robótica
que emite de la síntesis del formante.
El uso de este tipo de sintesis en aplicaciones comerciales está declinando, aunque continúa
siendo utilizado en la investigación porque hay un gran número de aplicaciones libremente
disponibles.
3.2.3 Síntesis de dominio especifico
La síntesis de dominio específico concatena palabras previas y frases para crear elocuciones
completas [Lemmetty, 1999]. Esta técnica de síntesis se utiliza en las aplicaciones donde la variedad
de textos que el sistema hará salir se limita a un dominio particular. Esta tecnología es muy simple
de ejecutarse y ha estado en uso comercial durante mucho tiempo, ésta es la tecnología es utilizada
por ejemplo en relojes y en calculadoras. La naturalidad de estos sistemas puede ser potencialmente
muy alta porque la variedad de tipos de la oración es limitada, asocia la prosodia y entonación de los
registros originales. Sin embargo, estos sistemas son limitados ya que las palabras y las frases en su
27
base de datos no son de uso general y sintetiza solamente las combinaciones de palabras y las frases
que se han preprogramado.
3.3 Síntesis formante
La síntesis formante [Taylor, 2009] fue la primera técnica de síntesis genuina para ser
desarrollada y fue la técnica dominante desde 1980. La síntesis formante es a menudo llamada
síntesis por regla (synthesis-by-rule).
La síntesis formante adopta un enfoque modular, basado en modelos y fonética acústica para el
problema de síntesis. El sintetizador formante hace uso del modelo de tubo acústico, pero no en una
forma particular así que el control de los elementos del tubo son fácilmente relacionados a las
propiedades acústicas fonéticas que pueden ser fácilmente observadas. Una capa típica básica de un
sintetizador formante es mostrada en la Figura 7, en la cual se observa que el sonido es generado de
una fuente, la cual es periódica para los sonidos de la voz y el ruido blanco de sonidos obstruyentes.
Esta fuente básica de la señal entonces es alimentada en el tracto vocal. En virtud de que todos los
sintetizadores formantes, las cavidades orales y nasales son modeladas separadamente como
sistemas paralelos. Por lo tanto la señal pasa en el componente que modela vía oral la cavidad, pero
también puede pasar en el componente para el modelado de la cavidad nasal si es necesario para un
sonido nasalizado.
Finalmente, las salidas de estos componentes son combinados y pasan a través de un
componente de radiación el cual simula la carga y propagación de las características de los labios y
nariz.
Fuente
Cavidad nasal
Cavidad oral /faríngea
Radiación
Forma de onda de la
presión de la voz
Velocidad y volumen fuente
Velocidad y volumen
labio/nariz
Figura 7. Diagrama de bloques del sintetizador formante básico.
28
El lenguaje sintetizado de tipo formante puede ser muy inteligible, incluso a una velocidad muy
elevada, evitando las interferencias acústicas que pueden plagar a menudo a los sistemas
concatenativos. Los sintetizadores formantes son a menudo programas más pequeños que los
sistemas concatenativos porque no tienen una base de datos de las muestras de lenguaje. Pueden ser
utilizados así en situaciones que donde a menudo es escasa la memoria y la energía del procesador.
Los sistemas basados en la síntesis formante tienen control total sobre todos los aspectos del
lenguaje de la salida, una variedad amplia de prosodia o la entonación se puede hacer salir,
transportando no solo declaraciones, sino una variedad de emociones y tonos de la voz.
3.4 Otros métodos
3.4.1 Síntesis articulatoria
La síntesis articulatoria [Lemmetty, 1999] se refiere a las técnicas computacionales para la
síntesis de voz basada en modelos humanos del tracto vocal y los procesos de articulación ocurren
ahí. El primer sintetizador articulatorio regularmente utilizado para experimentos de laboratorio fue
desarrollado en los laboratorios Haskins a mediados de 1970 por Philip Rubin, Tom Baer y Paul
Mermelstein. Este sintetizador, conocido como ASY, estaba basado en modelos del tracto vocal
desarrollados en los Laboratorios Bell en 1960 y 1970 por Paul Mermelstein, Cecil Coker y colegas.
Recientemente los modelos de síntesis articularia no han sido incorporados en los sistemas de
síntesis de voz comerciales. Una excepción notable es NeXT. El sistema, comercializado por primera
vez en 1994, proporciona el texto articulatorio completo basado en texto a voz utilizando una
transmisión de línea analógica de los tractos oral y nasal humanos.
3.4.2 Síntesis Híbrida
La síntesis híbrida [Lemmetty, 1999] mezcla aspectos de la síntesis formante y concatenativa
para disminuir las interferencias acústicas de cuando se concatenan los segmentos del lenguaje, esta
técnica es utilizada en muchos sintetizadores digitales, aunque con diferentes variantes.
3.4.3 Síntesis basada en HMM (Modelos ocultos de Markov)
Tecnologías modernas de síntesis de voz involucran amplios y complicados métodos y
algoritmos. Uno de los métodos aplicados recientemente en la síntesis de voz es el basado en los
29
modelos ocultos de Markov (HMM) [Lemmetty, 1999]. HMM ha sido aplicado al reconocimiento de
voz desde 1970. Para los sistemas de síntesis de voz ha sido utilizado por cerca de dos décadas.
Un modelo oculto de Markov es una colección de estados conectados por transiciones con dos
conjuntos de probabilidades en las cuales: una transición de probabilidad la cual provee la
probabilidad para llevar esta transición, y una salida de función densidad de probabilidad (pdf) que
define la probabilidad que condiciona la emisión de cada símbolo de salida de un alfabeto finito
dado a la transición.
30
CAPITULO 4.
HERRAMIENTAS TEXT TO
SPEECH
En este capítulo se presenta una revisión de las herramientas más conocidas actualmente que
realizan la técnica de conversión texto a voz. Además, se presenta la arquitectura y parámetros
configurables del motor TTS que se emplea.
4.1 Estado del arte de los productos de síntesis de voz
En las siguientes secciones se introducen algunas herramientas de conversión de texto a voz
disponibles, ya sea comerciales o de libre distribución, es imposible incluir todas las aplicaciones o
productos existentes pero al menos se muestran los más conocidos.
31
4.1.1 Microsoft Speech API
La Interfaz de Programación de Aplicación de Voz o SAPI [Microsoft Speech SDK 5.1, 2010] es
una API desarrollada por Microsoft para permitir el uso del reconocimiento y síntesis de voz dentro
de aplicaciones de Windows. En general todas las versiones de la API han sido diseñadas de tal
forma que un desarrollador de software pueda escribir aplicaciones para ejecutar la síntesis y
reconocimiento de voz utilizando un conjunto de interfaces estándar, accesibles desde una variedad
de lenguajes de programación.
El sistema de Windows moderno utiliza los sistemas de voz SAPI4 y SAPI5 que incluyen un
motor de reconocimiento de voz.
4.1.2 Cepstral
Cepstral [Cepstral, 2010] proporciona tecnologías de voz y servicios para la reproducción oral de
la información. Emplea voces de alta calidad que se escuchan naturales para diversas aplicaciones.
Cepstral Text-To-Speech (TTS) los motores y las voces se pueden implementar en dispositivos
móviles o en varias instancias en las plataformas de servidor.
Cepstral también ha creado nuevas técnicas para que las voces de uso general y las "voces de
dominio", que permiten que el habla generada pueda adaptarse a una aplicación, de esta forma
Cepstral desarrolla un proceso simplificado para la creación de voces sintéticas.
4.1.3 Festival
Festival [Festival, 2010] es un software libre que ofrece un marco general para la construcción
de sistemas de síntesis de voz, así como también incluye ejemplos de varios módulos que han sido
implementados.
En conjunto ofrece el texto íntegro al discurso a través de una API: desde el nivel de capa, a
través de un intérprete de comandos de esquema, como una librería de C++, de Java, y una interfaz
de Emacs.
Festival es multilingüe (actualmente Inglés (británico y americano), y español), aunque el Inglés
es el más avanzado. Otros grupos lanzaron nuevos lenguajes para el sistema. Las herramientas y la
documentación completa para construir nuevas voces están disponibles a través del proyecto de
Carnegie Mellon FestVox.
32
El sistema está escrito en C++ y utiliza la librería de Herramientas de Voz de Edimburgo para la
arquitectura de bajo nivel y tiene un esquema (SIOD) basado en el intérprete de comandos de
control.
Festival en la actualidad cuenta con tres tecnologías de síntesis de voz, de difonemas, selección
de unidades y el método basado en los modelos ocultos de Márkov.
4.1.4 Loquendo
Loquendo TTS [Loquendo, 2010] es un programa informático que hace la función de síntesis del
habla. Proporciona voces reales para los datos dinámicos y funciona en diversas aplicaciones de voz,
también ofrece voces naturales con capacidades para aplicaciones multimodales de voz.
El TTS de Loquendo puede sintetizar idiomas y voces distintas simultáneamente, la existencia
de un léxico de usuario asegura que vocabularios especializados, abreviaciones, acrónimos e incluso
entonaciones regionales estén pronunciadas correctamente.
El User Dictionary asegura que los términos especializados de vocabulario, las abreviaciones, las
siglas y también las diferencias regionales en la pronunciación suenan en el justo modo en el
momento en el que el desarrollador las crea.
4.1.5 IBM Vía Voice
Con la tecnología ViaVoice [IBM Via Voice] detrás de pequeños dispositivos móviles de hoy y
los sistemas de telemática del automóvil, los desarrolladores pueden proporcionar a los
usuarios con acceso de voz a la información.
IBM ViaVoice es una herramienta que desarrolla aplicaciones avanzadas de voz para
dispositivos y sistemas a distancia, también reconoce listas de vocabulario de más de 200,000
palabras en tiempo real y a través de una amplia gama de idiomas, además incluye transferencia,
integración, pruebas y servicios de consultoría prestados por IBM.
4.1.6 SVOX
SVOX [SVOX, 2010] es un sistema de síntesis de texto a voz alemán el cual ha sido
desarrollado en TIK/ETHZ (Instituto Federal Suizo de Tecnología, Zurich). El sistema SVOX
consiste de dos módulos principales. El módulo de transcripción incluye el análisis del texto y la
generación fonológica la cual es el hablante y la voz independiente. La representación fonológica es
generada de cada enunciado de entrada e incluye la cadena del fonema respectivo, el nivel del acento
33
por silaba, y los límites de la frase (posición, tipo, y longitud y fuerza. El modulo fonoacústico,
incluye todos los componentes dependientes del hablante que son requeridos para generar una
apropiada señal de voz de la representación fonológica.
4.1.7 IVONA TTS
IVONA [IVONA TTS, 2010] es un sistema de síntesis de voz en varios idiomas desarrollado
en Polish IT compañía de IVO software. IVONA utiliza la técnica de unidades de selección, este tipo
de síntesis utiliza grandes bases de datos de voz grabada, durante la creación de las bases de datos
cada frase grabada se segmenta en otras como tonos individuales, sílabas, morfemas, palabras, frases
y oraciones.
La división en segmentos se realiza usando un reconocedor de voz especialmente modificado.
Un índice de las unidades de voz en la base de datos se crea sobre la base de la segmentación y los
parámetros acústicos como la frecuencia fundamental (tono) o la duración. En tiempo de ejecución,
la emisión objetivo deseada se crea mediante la determinación de la mejor cadena de unidades
candidato de la base de datos (selección de unidades).
4.2 Proceso de conversión de texto a voz de Microsoft Speech SDK 5.1
4.2.1 Arquitectura Microsoft Speech SDK 5.1
Microsoft Speech SDK 5.1 [Microsoft Speech, 2011] es una interfaz de programación de
aplicaciones de voz, también conocida en inglés como SAPI (Speech Application Programming
Interface). Es una API desarrollada por Microsoft para permitir el uso de reconocimiento de voz y
síntesis de voz dentro de las aplicaciones de Windows.
Las aplicaciones que utilizan SAPI incluyen Microsoft Office, Microsoft Agent y el servidor de
voz de Microsoft.
SAPI, reduce drásticamente la sobrecarga de código necesario que requiere una aplicación para
utilizar el reconocimiento de voz y texto a voz, haciendo la tecnología de voz más accesible y
robusta para una amplia gama de aplicaciones.
La API SAPI proporciona una interfaz de alto nivel entre una aplicación y los motores de voz.
SAPI implementa todos los detalles de bajo nivel necesarios para controlar y gestionar las
operaciones en tiempo real de los diferentes motores de voz. Los dos tipos básicos de motores SAPI
son de texto a voz (TTS) y sistemas de reconocimiento del habla. Los sistemas TTS sintetizan
34
cadenas de texto en archivos de audio hablado con voces sintéticas. Los reconocedores de voz
convierten audio de habla humana en cadenas de texto legible y archivos, la Figura 8 muestra la
arquitectura del motor Microsoft Speech SDK.
4.2.2 Atributos de configuración de Entrada
La interfaz principal de ésta SAPI es ISpVoice, que es una plataforma de Microsoft para
componentes de software (Component Object Model –COM–) que permite comunicación entre
procesos.
La interfaz ISpVoice permite que una aplicación realice operaciones de síntesis de texto de
forma sincrónica o asincrónica.
Es posible elegir una voz TTS específica utilizando el método ISpVoice::SetVoice. El estado de
la voz (por ejemplo, velocidad, tono y volumen), puede modificarse mediante etiquetas XML de
SAPI que están incrustadas en el texto hablado. Algunos atributos, como la velocidad y volumen,
pueden cambiarse en tiempo real utilizando ISpVoice::SetRate y ISpVoice::SetVolume.
Una vez que la aplicación ha creado un objeto ISpVoice, la aplicación solo necesita llamar a
ISpVoice::Speak para generar voz de salida, la Figura 9 muestra como operamos el motor de voz con
las propiedades de síntesis antes mencionadas.
El método IspVoice::Speak puede operar de forma síncrona (retorna solo cuando fue
completamente finalizada el habla) o asíncrona (retorna inmediatamente y habla como un proceso de
fondo). Cuando se habla de forma asíncrona (SPF_ASYNC), la información de estado en tiempo real
tal como la ubicación del habla y el estado actual del texto pueden ser consultados utilizando
Aplicación Aplicación
SAPI Runtime
Motor de reconocimiento
Motor TTS
API
DDI
Figura 7. Arquitectura Microsoft Speech SDK
35
ISpVoice::GetStatus. También al hablar de forma asíncrona, el nuevo texto se puede generar de
forma inmediata por la interrupción de la corriente de salida (SPF_PURGEBEFORESPEAK), o
automáticamente agregar el nuevo texto al final de corriente de salida.
4.2.3 Atributos de configuración de Salida
Los datos que se pueden obtener del proceso de síntesis de voz a partir de un texto dependen de
los métodos y parámetros de las librerías que se utilicen para acceder al SAPI. En nuestro caso, se
realizará a través de la librería de Python llamada PyTTS. En la sección 4.3 se presentan los
métodos y atributos que se utilizaron en este trabajo.
A continuación se presentan en 2 tablas el alfabeto de fonemas que se encuentra documentado en
el SAPI 5 y los identificadores del conjunto de visemas que se trabajan, éstos últimos están basados
en la propuesta de 13 Visemas de Disney.
Tecnología de síntesis de voz
(Loquendo)
Aplicación (Python)
Texto Voz
Fonemas Visemas Palabras
Arroja información de
Motor de voz Microsoft
Speech SDK5.1
Propiedades de síntesis del ISpVoice
ISpVoice::Speak
ISpVoice::SetRate
ISpVoice::SetVolume
ISpVoice::SetVoice
Figura 8. Identificación de atributos del motor de Microsoft Speech SDK 5.1.
36
TABLA DE FONEMAS ( Fonemas del Inglés Americano)
SIMBOLO EJEMPLO - Descripción
PhoneID SIMBOLO EJEMPLO - Descripción PhoneID
- guion 1 ng sing 34
! Signo admiración 2 ow go 35
& 3 oy toy 36
, Coma 4 p put 37
. Punto 5 r red 38
? Signo de interrogación
6 s sit 39
_ Silencio (raya) 7 sh she 40
1 Acento prosódico primario
8 t talk 41
2 Acento prosódico secundario
9 th thin 42
aa father 10 uh book 43
ae cat 11 uw too 44
ah cut 12 v vat 45
ao dog 13 w with 46
aw foul 14 y yard 47
ax ago 15 z zap 48
ay bite 16 zh pleasure 49
b big 17
ch chin 18
d dig 19
dh then 20
eh pet 21
er fur 22
ey ate 23
f fork 24
g gut 25
h help 26
ih fill 27
iy feel 28
jh joy 29
k cut 30
l lid 31
m mat 32
n no 33
Tabla 3. Tabla de fonemas del inglés americano.
37
TABLA DE VISEMAS
VISEME Fonemas descritos por SAPI
SP_VISEME_0 Silence
SP_VISEME_1 ae, ax, ah
SP_VISEME_2 aa
SP_VISEME_3 ao
SP_VISEME_4 ey, eh, uh
SP_VISEME_5 er
SP_VISEME_6 y, iy, ih, ix
SP_VISEME_7 w, uw
SP_VISEME_8 ow
SP_VISEME_9 aw
SP_VISEME_10 oy
SP_VISEME_11 ay
SP_VISEME_12 h
SP_VISEME_13 r
SP_VISEME_14 l
SP_VISEME_15 s, z
SP_VISEME_16 sh, ch, jh, zh
SP_VISEME_17 th, dh
SP_VISEME_18 f, v
SP_VISEME_19 d, t, n
SP_VISEME_20 k, g, ng
SP_VISEME_21 p, b, m
Tabla 4. Tabla de visemas del inglés americano.
4.3 Librería PyTTS
El módulo pyTTS es la librería para manejar los servicios Text-to-Speech de Microsoft Speech
API (SAPI) para su uso en Python. Se basa en la biblioteca win32com para la obtención y la
comunicación con las interfaces COM SAPI. Ejemplos de las tareas más comunes de texto a voz son
texto al habla, cambiar los parámetros de voz, hablar a o desde un archivo WAV, corregir
pronunciación, y controlar los eventos del habla.
Para utilizar el modulo pyTTS se necesitan los siguientes componentes:
Microsoft SAPI 5.1
Voces
Python
pyTTS 3.0 o superior
38
4.3.1 Clases de pyTTS
Esta librería está compuesta de 5 clases, las cuales se describen a continuación
CLASES DESCRIPCION
Base Clase padre para todas las interfases del sintetizador de habla
SynthAndOutput Define métodos para la voz de audio de salida.
SynthOnly Define un método para la voz sintetizada con eventos asociados a la memoria como mas rapido sea possible.
VoiceEvent Contiene información acerca de un evento TTS.
VoiceEventManager Distribuye eventos para los retorno de llamada registrados.
A continuación se presentan las 2 Clases principales que se utilizan de ésta librería y los métodos
más utilizados.
CLASE METODO DESCRIPCION
BASE SetRate(self, rate) Fija la tasa de velocidad de la voz
BASE SetVoice(self, obj)
BASE SetVoiceByName(self, voice_name) Fija una voz dada para activar la voz.
BASE SetVolume(self, vol) Fija el volumen de voz actual.
BASE Speak(self, text, *flags) Método virtual.
VoiceEventManager OnPhoneme(self, stream_number, stream_position, duration, next_phone_id, feature, current_phone_id)
Se activa cuando un fonema es encontrado en una secuencia del habla.
VoiceEventManager OnSentence(self, stream_number, stream_position, character_position, length)
Se activa cuando una sentencia es encontrada en un flujo de la voz.
VoiceEventManager OnViseme(self, stream_number, stream_position, duration, next_viseme_id, feature, current_viseme_id)
Se activa cuando un visema es encontrado en una secuencia del habla.
VoiceEventManager OnWord(self, stream_number, stream_position, character_position, length)
Fires when a phoneme is encountered in a speech stream. Se activa cuando un fonema es encontrado en un flujo de la voz.
VoiceEventManager OnEndStream(self, stream_number, stream_position) Se active cuando el flujo de voz termina.
Tabla 5. Clases de la librería pyTTS.
En Python, las propiedades de ISpVoice, ISpVoice::SetRate, ISpVoice::SetVolume,
ISpVoice::SetVoice son configuradas de la siguiente forma:
tts.SetRate = 0
tts.SetVolume = 100
39
tts.SetPitch = 0
Los rangos de valores de estos tres atributos, va desde 0 a 100. El atributo Pitch, aunque puede
asignársele valor en Python, su modificación no afecta los valores de la salida del audio, por lo cual
se definió con valor cero para el desarrollo de las pruebas. La propiedad ISpVoice::SetVoice es
configurada de la siguiente forma:
tts.SetVoiceByName('LQEsperanza')
Esto muestra la configuración de voz para el idioma latino mexicano de género femenino, que
corresponde al identificador „LQEsperanza‟.
El método IspVoice::Speak es llamado en Python de la siguiente forma:
tts.Speak("él!", 1) #1: Significa ASÍNCRONO
La Tabla 6 muestra los atributos a los cuales se les puede configurar desde Python,
pertenecientes a las clases OnWord, OnPhoneme y OnViseme en Python.
Clases Parámetros Descripción Tipo
OnPhoneme
Stream_number Posición del flujo de la cola de secuencias del habla
Entero
Stream_position Desplazamiento de bytes en el que se produjo el evento
Entero
Duration Duración del fonema en milisegundos Entero
Next_phone_id ID del siguiente fonema Entero
Feature Indica si el fonema es normal, acentuado o con énfasis
Entero (0, 1, 2)
Current_phone_id ID del fonema actual Entero
OnViseme Stream_number Posición del flujo de la cola de secuencias del habla
Entero
Stream_position Desplazamiento de bytes en el que se produjo el evento
Entero
Duration Duración del visema en milisegundos Entero
Next_viseme_id ID del siguiente visema Entero
Feature Indica si el visema es normal, acentuado o con énfasis
Entero (0, 1, 2)
Current_viseme_id ID del visema actual Entero
OnWord Stream_number Posición del flujo en la cola de flujos para el habla
Entero
Stream_position Desplazamiento de bytes en el cuál el evento ocurrió
Entero
Character_position Posición del inicio de la sentencia en el flujo Entero
Length Longitud de la palabra en caracteres Entero
Tabla 6. Atributos de las clases OnPhoneme, OnViseme y OnWord.
40
Durante el desarrollo de las pruebas se encontró que el atributo duration tanto para fonema para
visema resulto con valores iguales, el atributo feature para todas las pruebas en los diversos casos,
siempre arrojó el valor de „1‟. Los atributos que se utilizaron en nuestro análisis son los siguientes:
duration, next_viseme_id, next_phoneme_id y current_viseme_id.
41
CAPITULO 5.
ANÁLISIS DE LOS
PARÁMETROS DISPONIBLES
EN LAS HERRAMIENTAS TEXT
TO SPEECH
En este capítulo se presenta el análisis detallado de las pruebas realizadas, incluyendo una
descripción de los resultados obtenidos a partir del conjunto de parámetros configurados de entrada
en el proceso de conversión de texto a voz a fin de obtener información de fonemas y visemas
asociados a los textos de entrada.
5.1 Parámetros de entrada de las herramientas
Como se vio en el Capítulo 2, en la conversión de Texto a Voz el sintetizador es ejecutado en el
programa para generar la voz.
42
En el análisis se recibe una cadena de caracteres, es el cuerpo textual el que es tomado como
entrada para el proceso de conversión. En la Figura 9, en el proceso de análisis del texto se
identifican los atributos que intervienen en la conversión de texto a voz, los cuales son los fonemas y
otros elementos relacionados con la fonética, además de los visemas.
Los fonemas y visemas generan una estructura lingüística que permite la generación de voz, que
arroja como producto una voz sintetizada que reproduce el texto de entrada en conjunto con los
atributos configurables como lo son el tono, la velocidad y el volumen, es importante mencionar que
al modificar el tono no se presenta alteración de los resultados.
Los atributos que son arrojados del proceso son los fonemas y visemas, en el Capítulo 2 se
presenta una revisión teórica de estos conceptos. Además de estos parámetros, en relación con la
cadena de texto a procesar, también se observa el idioma, siendo considerados el inglés y el español.
Se incluyen voces sintetizadas tanto en español como en inglés con la finalidad de observar la
variación en la generación de fonemas y la aparición de visemas relacionados a estos.
Para tener una guía de apoyo en el desarrollo de las pruebas se hace uso de algunas
consideraciones referentes la lingüística, si bien no es posible incluir una revisión lo suficientemente
general debido a lo extenso de esta ciencia, se integran ejemplos que permiten explorar ciertas partes
del lenguaje oral y escrito para así determinar qué elementos de la prosodia son identificados en los
valores de los fonemas producidos.
La Tabla 7 muestra la descripción de las voces empleadas en las pruebas, como se puede
observar no se introdujo una voz masculina del español mexicano debido a que los fonemas y
visemas que genera la voz contemplada para este propósito resultan imprecisos de comprender, a
diferencia de los otros idiomas.
Es importante mencionar que tampoco es posible incluir una revisión de la totalidad de la
gramática de los idiomas, se ha optado por considerar partes del lenguaje oral y escrito, a lo que
antes se hizo referencia.
Estructura Lingüística
Cuerpo Textual Entrada del
Texto Análisis
del texto
Generación
de voz
Voz Sintetizada
Figura 9. Proceso TTS.
43
Voces Género Origen Idioma Tecnología
Esperanza Femenino México Español Loquendo
Jorge Masculino España Español Loquendo
Carmen Femenino España Español Loquendo
Susan Femenino USA Inglés Loquendo
Dave Masculino USA Inglés Loquendo
Tabla 7. Voces empleadas en los análisis.
Se integran ciertas contemplaciones como la aparición de acentos y la fonética esperada, añadir
signos de puntuación, interrogación y admiración y las diferencias sonoras generadas en adición con
los valores de los fonemas que se identifiquen, la aparición de espacios en blanco, la distinción de
algunos grafemas y el análisis de los fonemas vocálicos y consonánticos ya sea en forma singular o
dentro de palabras.
5.2 Análisis de Fonemas Vocálicos y Consonánticos
En la Tabla 1 del Capítulo 2 se muestran los fonemas vocálicos, cabe mencionar que en los
ejemplos que siguen existen variaciones en algunas combinaciones de vocales, en las siguientes
secciones se referirán estas alteraciones encontradas en los fonemas, la mayoría de las variaciones
son interpretadas en el contexto de las palabras.
Aunque en la Tabla 1 del Capítulo 2 aparece la clasificación de vocal media, en general suele
considerarse a las vocales a, e y o como abiertas y a i y u como cerradas.
Antes de revisar las uniones de vocales, se presenta la Tabla 8 que contiene el análisis
comparativo entre la voz española y mexicana de las vocales cuando no se encuentran dentro de otra
palabra o en unión con otra letra.
Vocal Idioma ID Fonema ID Visema Duración (ms)
a Mexicano 97 10 227
Español 10 2 222
e Mexicano 101 4 222
Español 11 4 195
i Mexicano 105 6 218
Español 12 6 239
o Mexicano 111 3 215
Español 13 8 217
u Mexicano 117 7 254
Español 14 7 231
Tabla 8. Análisis de fonemas vocálicos.
44
El idioma mexicano empleado en esta comparativa corresponde a una mujer, mientras que el del
español es de un hombre, más adelante se revisará el análisis desde otras perspectivas y se incluirán
observaciones de los fonemas y visemas generados por las voces en inglés.
En la Tabla 9 se pueden observar las similitudes de los identificadores de visemas para cada
idioma. Se puede observar que no existe diferencia para las letras e, i y u.
También se observa que no existe relación alguna entre los identificadores de los fonemas para
ambos idiomas.
Para entender el sentido de las pruebas con los fonemas vocálicos que se presentan en esta
sección, hay que tener en cuenta que el diptongo se define como la unión de dos vocales en la misma
sílaba, un diptongo es conformado por dos vocales cerradas, una abierta y una cerrada o una cerrada
y una abierta, dos vocales abiertas no constituyen un diptongo sino un hiato y deben separarse en
distintas sílabas.
Vocales VOZ MUJER - MEXICANA VOZ HOMBRE - ESPAÑOL
Id Fonema Id Visema Duración (ms) Id Fonema Id Visema Duración (ms)
ae 97|101 10|4 108|166 10|11 2|4 117|100
ai 97|105 10|6 174|56 10|12 2|6 94|112
ao 97|111 10|3 179|148 10|13 2|8 95|98
au 111 3 215 13 8 217
ea 101|97 4|10 94|108 11|10 4|2 96|162
ei 101|105 4|6 196|119 11|12 4|6 56|151
eo 101|111 4|3 144|121 11|13 4|8 99|97
eu 101|117 4|7 103|114 11|14 4|7 96|154
ia 105|97 6|10 185|124 12|10 6|2 115|99
ie 106|101 6|4 115|181 33|11 6|4 85|197
io 106|111 6|3 100|217 33|13 6|8 65|147
iu 106|117 6|7 161|197 33|14 6|7 85|213
oa 111|97 3|10 126|134 13|10 8|2 133|149
oe 111|101 3|4 184|114 13|11 8|4 133|99
oi 111|105 3|6 165|200 13|12 8|6 118|192
ou 111|117 3|7 135|142 13|14 8|7 137|154
ua 117|97 7|10 174|191 14|10 7|2 58|194
ue 117|101 7|4 152|198 14|11 7|4 81|184
ui 117|105 7|6 152|200 14|12 7|6 81|158
uo 117|111 7|3 147|158 14|13 7|8 81|106
aa 97|97 10|10 164|124 10|10 2|2 108|124
ee 101|101 4|4 113|105 11|11 4|4 103|111
ii 105|105 6|6 148|128 12|12 6|6 88|134
oo 111|111 3|3 151|158 13|13 8|8 125|124
uu 117|117 7|7 147|142 14|14 7|7 81|134
Tabla 9. Resultado de análisis de unión de vocales, con voz de mujer mexicana y hombre español.
45
Existe también una clasificación para los diptongos, estos son los crecientes y los decrecientes,
los crecientes son los que se conforman por uniones de vocales donde la primera es cerrada y la
segunda abierta, siendo el caso contrario para los diptongos decrecientes, aunque también existen los
casos especiales donde la unión de las vocales son dos cerradas.
En la Tabla 10 se muestra el análisis completo de las combinaciones donde interviene la unión
de 2 vocales. Es importante mencionar que en el análisis de la voz en español mexicana, la duración
de los fonemas se ve afectada dependiendo de la ubicación de la vocal, sin embargo los visemas
conservan el mismo identificador, se ha añadido el diptongo ou aunque no es genuinamente
castellano, debido a que en el idioma español existen nombres propios o palabras adaptadas del
inglés que lo contienen.
Del análisis, se observa que de los fonemas vocálicos se puede deducir que para casos como la
secuencia de vocales „au‟, solo se identifica un fonema medible, resultado de la asociación de ambas
vocales, el resto de las uniones de las vocales implican dos fonemas.
Analizando las vocales „ia‟, se encuentran dos fonemas correspondientes a cada vocal es decir /i/
y /a/, lo que significa que la unión de estas vocales resultan en dos sonidos, a diferencia de la
secuencia de vocales „au‟ las cuales solo registran un fonema.
Cabe mencionar que para las voces españolas también es encontrado un solo fonema y visema
para tal secuencia de vocales „au‟, pero los identificadores de estos visemas son diferentes a los del
español mexicano, esto se muestra en la Tabla 5.
Para el análisis de los fonemas consonánticos nos encontramos con la asociación de varios
fonemas para construir la lectura de las consonantes, ya que las letras son leídas como en el español
las escuchamos.
Las consonantes se escuchan en el contexto donde se encuentren, al encontrar letras solas como
en el caso particular de „t‟ al cual se le asocia el mismo fonema en contexto y además el fonema
asociado a la vocal „e‟, estos constituyen la lectura completa de la letra, su sonido especifica „te‟ y no
„t‟ como era de esperarse, lo cual nos lleva a la prueba de la palabra „te‟ la cuál experimenta la
misma duración y fonemas asociados, al igual que los valores de los visemas, algunas observaciones
son mostradas en la Tabla 6, las tablas del análisis completo de estas consideraciones está incluido
en los Anexos.
En la Tabla 6 se muestra una comparación de los fonemas y visemas entre el español mexicano y
el español de España. La mayoría de los visemas encontrados entre ambos idiomas resultan con el
46
mismo identificador, esto se puede observar de forma más clara en la Tabla X, en la cual se muestra
la lista de símbolos.
Palabra Idioma Fonema Visema Duración (ms)
Tierra Mexicano 116|106|101|114|97 19|6|4|13|10 87|69|131|109|114
Español 15|33|11|32|10 19|6|4|13|2 68|59|56|109|101
Paisaje Mexicano 112|97|105|97|120|101 21|10|6|15|10|12|4 57|76|46|135|147|102|85
Español 17|10|12|24|10|25|11 21|2|6|15|2|12|4 63|47|61|93|81|119|78
Veinte Mexicano 98|101|105|110|116|101 21|4|6|19|19|4 63|108|58|62|73|116
Español 18|11|12|27|15|11 21|4|6|19|19|4 64|85|35|73|81|137
Adeudo Mexicano 97|240|101|117|240|111 10|17|4|7|17|3 122|75|30|201|64|139
Español 10|7|11|14|7|13 2|0|4|7|0|8 75|44|59|87|76|112
Piano Mexicano 112|106|97|110|111 21|6|10|19|3 98|77|156|70|93
Español 17|33|10|27|13 21|6|2|19|8 59|66|89|52|96
Fuego Mexicano 102|119|101|624|111 18|7|4|21|3 102|77|114|63|97
Español 23|34|11|7|13 18|7|4|0|8 82|48|58|60|116
Inicio Mexicano 105|110|105|115|106|111 6|19|6|15|6|3 108|78|126|130|73|62
Español 12|27|12|35|33|13 6|19|6|17|6|8 93|62|67|105|89|77
Mensual Mexicano 109|101|110|115|117|97|108 21|4|19|15|7|10|14 60|75|76|114|62|137|131
Español 26|11|27|24|14|10|29 21|4|19|15|7|2|14 66|66|63|106|68|87|133
Residuo Mexicano 114|101|115|105|240|119|111 13|4|15|6|17|7|3 67|53|119|127|73|64|132
Español 32|11|24|12|7|34|13 13|4|15|6|0|7|8 98|40|103|84|82|55|133
Androide Mexicano 97|110|100|638|111|105|240|101 10|19|19|13|3|6|17|4 87|81|56|57|104|89|64|84
Español 10|27|16|31|13|12|7|11 2|19|19|13|8|6|0|4 70|86|53|47|79|59|38|119
Lourdes Mexicano 108|117|638|240|101|115 14|7|13|17|4|15 63|147|75|70|96|150
Español 29|13|14|31|7|11|24 14|8|7|13|0|4|15 75|95|82|49|60|99|150
Autor Mexicano 97|117|116|111|633 10|7|19|3|13 106|60|108|166|199
Español 10|14|15|13|31 2|7|19|8|13 98|95|55|108|118
Deuda Mexicano 100|101|117|240|97 19|4|7|17|10 109|92|118|53|180
Español 16|11|14|7|10 19|4|7|0|2 62|81|96|91|160
Ciudad Mexicano 115|106|117|240|97|240 15|6|7|17|10|17 110|33|60|44|179|178
Español 35|33|14|7|10|7 17|6|7|0|2|0 89|40|47|40|116|73
Ruido Mexicano 114|119|105|240|111 13|7|6|17|3 130|64|158|78|89
Español 32|34|12|7|13 13|7|6|0|8 80|85|76|87|78
Tabla 10. Análisis de las palabras con diptongos.
47
En España nos encontramos con la aparición de triptongos que son la combinación de 3 vocales
en una sola palabra. Los triptongos se conforman por una vocal cerrada seguida de una abierta y otra
cerrada. Algunos ejemplos de palabras encontradas en el idioma español de España donde aparecen
triptongos son mostrados en la Tabla 11, estos son „iái‟, „iéi‟, „uái‟ y „uéi‟, los cuales se incluyen a
fin de observar el comportamiento de los fonemas generados.
Ejemplos Fonemas Visemas Duración (ms)
Aliviáis 10|29|12|7|12|10|12|24 2|14|6|0|6|2|6|15 83|61|82|74|79|63|101|180
Limpiéis 29|12|26|17|33|11|12|24 14|6|21|21|6|4|6|15 72|73|56|80|64|74|113|188
Atestiguáis 10|15|11|24|15|12|7|34|10|12|24
2|19|4|15|19|6|0|7|2|6|15
78|68|66|56|67|43|77|64|79| 107|197
Situéis 24|12|15|34|11|12|24 15|6|19|7|4|6|15 110|54|85|92|124|98|214
Tabla 11. Análisis de fonemas de diptongos españoles.
En la Tabla anterior se puede observar que los triptongos contienen por regla acento en la vocal
de en medio, y de los triptongos antes mencionados todas las vocales involucradas en estas uniones
tienen fonemas asociados a cada una, al igual que sus visemas.
En el español mexicano también existen uniones de 3 vocales que aunque no todas corresponden
a un triptongo por su estructura, son también ejemplos para revisar (ver Tabla 12).
Ejemplos Fonemas Visemas Duración (ms)
Quien 107|106|101|110 20|6|4|19 104|65|115|195
Semiautomático 115|101|109|106|97|117|
116|111|109|97|116|105|
107|111
15|4|21|6|10|7|
19|3|21|10|19|6
| 20|3
94|79|70|66|22|54|109|45|86|
107|95|60|100|113
Guión 103|106|111|110 20|6|3|19 91|118|130|135
Tabla 12. Análisis de palabras del español mexicano con uniones de 3 vocales.
Se observa que las palabras „quien‟ y „guión‟ las uniones de las letras „qu‟ „gu‟ generan un solo
fonema y visema.
La Tabla 12 es muestra las palabras que se analizaron para determinar cómo afecta a los fonemas
y visemas generados dependiendo de la ubicación de la vocal. Algunos ejemplos de la Tabla 12,
fueron tomados considerando la posición de la sílabas de énfasis, aunque para el ejemplo de la vocal
48
„o‟, encontrada en las palabras „otro‟ o „coco‟, en el análisis, para ambos idiomas la entonación tiene
la misma sílaba de énfasis.
Fonema / Ubicación
Palabra Idioma Fonemas Visemas Duración
/a/
Inicial ave Español 10|7|11 2|0|4 104|47|109
Mexicano 97|946|101 10|21|4 125|78|129
Media acata Español 10|19|10|15|10 2|20|2|19|2 119|62|83|77|132
Mexicano 97|107|97|116|97 10|20|10|19|10 97|114|144|109|115
Final ala Español 10|29|10 2|14|2 110|69|105
Mexicano 97|108|97 10|14|10 165|77|106
/e/
Inicial eco Español 11|19|13 4|20|8 77|109|102
Mexicano 101|107|111 4|20|3 135|119|106
Media abeja Español 10|7|11|25|10 2|0|4|12|2 62|51|86|109|117
Mexicano 97|946|101|120|97 10|21|4|12|10 90|62|145|107|195
Final sale Español 24|10|29|11 15|2|14|4 111|89|65|57
Mexicano 115|97|108|101 15|10|14|4 77|154|81|95
/i/
Inicial imán Español 12|26|10|27 6|21|2|19 75|85|52|159
Mexicano 105|109|97|110 6|21|10|19 98|89|118|121
Media asilo Español 10|24|12|29|13 2|15|6|14|8 99|112|83|72|65
Mexicano 97|115|105|108|111 10|15|6|14|3 82|119|135|90|163
Final salí Español 24|10|29|12 15|2|14|6 105|68|44|142
Mexicano 115|97|108|105 15|10|14|6 122|89|71|163
/o/
Inicial otro Español 13|15|31|13 8|19|13|8 125|65|43|78
Mexicano 111|116|638|111 3|19|13|3 190|111|61|116
Media dos Español 16|13|24 19|8|15 29|136|244
Mexicano 100|111|115 19|3|15 93|179|207
Final coco Español 19|13|19|13 20|8|20|8 57|66|127|77
Mexicano 107|111|107|111 20|3|20|3 79|143|113|117
/u/
Inicial uso Español 14|24|13 7|15|8 117|100|137
Mexicano 117|115|111 7|15|3 165|135|100
Media abuso Español 10|7|14|24|13 2|0|7|15|8 62|51|85|114|137
Mexicano 97|946|117|115|111 10|21|7|15|3 90|60|141|120|100
Final ímpetu Español 12|26|17|11|15|14 6|21|21|4|19|7 88|71|76|55|100|110
Mexicano 105|109|112|101|116|117 6|21|21|4|19|7 148|72|85|67|100|145
Tabla 13. Pruebas fonemas vocalicos.
Fonemas Consonánticos /c/, /z/ y /s/
Ahora se revisaran algunas pruebas con fonemas consonánticos, la Tabla 14 muestra palabras
con el uso del fonema /c/, las características del idioma para estos análisis es mexicano y mujer.
Casos ID Fonema ID Visema Duración (milisegundos)
Casa 107|97|115|97 20|10|15|10 54|168|105|111
Caza 107|97|115|97 20|10|15|10 54|168|105|111
Kimono 107|105|109|111|110|111 20|6|21|3|19|3 68|63|78|155|110|122
Tabla 14. Pruebas del fonema /c/.
De las palabras anteriores „casa‟ y „caza‟, además de la palabra „kimono‟ también se observa que
los grafemas <c> y <k> en este contexto corresponden al fonema /k/, al encontrarse acompañados de
la vocal a.
49
De las palabras homófonas anteriores „casa‟ y „caza‟, se deduce que al igual que fonéticamente
son iguales, su análisis reconoce los mismos fonemas y visemas para cada grafema, lo mismo sucede
para las palabras „vos‟ y „voz‟ de la Tabla 16.
En la Tabla 15, palabras como „sapo‟, „zapato‟, „cerro‟, „ciclo‟ y „ciudad‟ han sido incluidas en
el análisis a fin de observar el fonema concerniente a los grafemas <s>, <z> y <c>, se reconoce al
fonema /s/ al encontrarse el grafema <s>, y <z> , para el caso de <c> se asocia con el fonema /s/
debido a la vocal que lo acompaña.
Casos ID Fonema ID Visema Duración (milisegundos)
Sapo 115|97|112|111 15|10|21|3 90|118|121|140
Zapato 115|97|112|97|116|111 15|10|21|10|19|3 89|71|100|157|109|116
Cerro 115|101|114|111 15|4|13|3 157|164|77|157
Serapio 115|101|638|97|112|106|111
15|4|13|10|21|6|3 88|88|39|158|108|63|140
Ciclo 115|105|107|108|111 15|6|20|14|3 124|126|127|81|98
Tabla 15. Pruebas del fonema /s/.
Fonema Consonántico /b/
Casos ID Fonema ID Visema Duración (milisegundos)
Voz 98|111|115 21|3|15 91|173|207
Vos 98|111|115 21|3|15 91|173|207
Tabla 16. Pruebas del fonema /b/.
Para la palabra Lourdes, si bien cuando se mencionaron los análisis para los diptongos y uniones
de vocales, no se considero algún ejemplo con „ou‟ dentro de alguna palabra, para lo cual se observa
que es generado un solo fonema para este grafema tal como se observa en la Tabla 17.
Casos ID Fonema ID Visema Duración (milisegundos)
Lourdes 108|117|638|240|101|115 14|7|13|17|4|15 63|147|75|70|96|150
Tabla 17. Prueba del grafema <ou>.
Voz Mexicana Mujer
Palabras Uno dos Uno,dos
Uno dos uno dos
Posición del flujo 0 7832 0 17432
Posición del carácter 0 4 0 5
Longitud 3 3 3 3
ID Fonemas 117|110|111 240|111|115 117|110|111|4 100|111|115
ID siguiente fonema 110|111|240 111|115|4 110|111|4|97 111|115|4
ID Visemas 7|19|3 17|3|15 7|19|3|0 19|3|15
ID siguiente visema 19|3|17 3|15|0 19|3|0|10 3|15|0
Duración (ms) 124|51|69 48|146|251 189|61|173|121 93|179|207
Tabla 18. Análisis del español mexicano para casos con palabras separadas por espacios en blanco y comas.
50
En la Tabla 18, se puede observar que cuando solo se escribe un espacio en blanco como
separación de las palabras, los identificadores tanto de fonemas como de visemas tienen
identificadores relacionados.
Cuando se indica la separación de las palabras por una coma además de perderse la secuencia
después de este signo de puntuación, se identifica un fonema y visema asociados a este, lo que se
interpreta como el silencio o los identificadores de este signo.
La consecuencia de emplear comas implica que el atributo ID siguiente fonema e ID siguiente
visema no coincidan con los fonemas y visemas encontrados subsecuentes, , es decir, hacen
referencia a un espacio en blanco o la ausencia de palabras, determinándose un nuevo inicio para
cuando se encuentre la siguiente palabra, tal como se muestra en la Tabla 19.
Voz Inglés Hombre
Palabras One Two One, Two
One Two One Two
Posición del flujo 0 8476 0 17554
Posición del carácter 0 4 0 5
Longitud 3 3 3 3
ID Fonemas 46|12|33 41|44 46|12|33|7 41|44
ID siguiente fonema 12|33|41 44|7 12|33|716 41|44
ID Visemas 7|1|19 19|7 7|1|19|0 44|7
ID siguiente visema 1|19|19 7|0 1|19|0|11 19|7
Duración (ms) 81|82|101 76|217 104|157|165|121 7|0
Tabla 19. Análisis en ingles para las palabras separadas por espacios en blanco y comas.
Como se puede observar de la Tabla 19, del análisis resultante usando la voz en inglés de U.S.A
sucede lo mismo con la comparación del espacio en blanco y la coma, claro cabe señalar que en la
palabra „two‟ solo se identifica un fonema para el grafema <t> y otro para el grafema <wo> como se
muestra en la Tabla 20.
Voz Inglés Hombre
Palabras Two
Posición del flujo 0
Posición del carácter 0
Longitud 3
ID Fonemas 41|44
ID siguiente fonema 44|7
ID Visemas 19|7
ID siguiente visema 7|0
Duración (ms) 93|352
Tabla 20. Prueba grafema <wo>.
51
. Voz Mexicana Mujer
Palabras Quién ¿Quién?
Posición del flujo 0 0
Posición del carácter 0 0
Longitud 5 7
ID Fonemas 107|106|101|110 107|106|101|110|4
ID siguiente fonema 106|101|110|4 106|101|110|4|97
ID Visemas 20|6|4|19 20|6|4|19|0
ID siguiente visema 6|4|19|0 6|4|19|0|10
Duración (ms) 104|65|115|195 110|76|239|103|593
Tabla 21. Análisis grafemas acompañados de signos del español mexicano.
De la Tabla 21, se observa que para la secuencia de caracteres Quién y ¿Quién?, la diferencia
de forma sonora existe, hay una entonación que diferencia ambas palabras, el análisis arroja que solo
se añade un fonema y visema asociados al signo „?‟.
Voz Inglés Hombre
Palabras Who Who?
Posición del flujo 0 0
Posición del carácter 0 0
Longitud 3 4
ID Fonemas 26|44 26|44|7
ID siguiente fonema 44|7 44|7|16
ID Visemas 12|7 12|7|0
ID siguiente visema 7|0 7|0|11
Duración (ms) 82|323 82|323|593
Tabla 22. Análisis de grafemas del inglés con signos.
En el análisis en ingles de las palabras who y who? Mostrado en la Tabla 22, se determinó que
de forma sonora no existe una diferencia en la entonación. Se observa que al igual que en el ejemplo
de los grafemas en español, solo se añade un identificador de fonema y visema para el signo „?‟.
Solo se reconocen dos fonemas y visemas para cada análisis asociado a los grafemas <who>.
La Tabla 23 muestra el análisis de los grafemas entre voces españolas, a fin de determinar si
existen variaciones en los fonemas y visemas con ejemplos que involucran tendencias ya vistas con
anterioridad, se determino que el único atributo de salida que presentó cambios, fue la duración.
52
Casos ID Fonema ID Visema Duración (milisegundos) Voz
Hola 13|29|10 8|14|2 61|74|130 Jorge (España)
13|29|10 8|14|2 118|66|96 Juan (España)
Quieto 19|33|11|15|13 20|6|4|19|8 81|51|82|71|142 Jorge (España)
19|33|11|15|13 20|6|4|19|8 66|65|67|68|141 Juan (España)
Auto 10|14|15|13 2|7|19|8 64|94|103|117 Jorge (España)
10|14|15|13 2|7|19|8 82|87|115|178 Juan (España)
Lourdes 29|13|14|31|7|11|24 14|8|7|13|0|4|15 75|95|82|49|60|99|150 Jorge (España)
29|13|14|31|7|11|24 14|8|7|13|0|4|15 113|83|80|58|48|150|149 Juan (España)
México 26|11|25|12|19|13 21|4|12|6|20|8 87|88|110|57|84|117 Jorge (España)
26|11|25|12|19|13 21|4|12|6|20|8 60|84|134|55|94|146 Juan (España)
Xilófono 7|12|29|13|23|13|27|13 0|6|14|8|18|8|19|8 110|58|60|55|93|44|52|66 Jorge (España)
7|12|29|13|23|13|27|13 0|6|14|8|18|8|19|8 172|95|31|118|129|46|48|146 Juan (España)
Asfixia 10|24|23|12|19|24|33|10 2|15|18|6|20|15|6|2 89|86|73|64|91|94|69|115 Jorge (España)
10|24|23|12|19|24|33|10 2|15|18|6|20|15|6|2 98|83|73|69|54|128|73|183 Juan (España)
Taxi 15|10|19|24|12 19|2|20|15|6 44|91|79|114|134 Jorge (España)
15|10|19|24|12 19|2|20|15|6 75|75|65|137|124 Juan (España)
Trae 15|31|10|11 19|13|2|4 44|49|64|78 Jorge (España)
15|31|10|11 19|13|2|4 55|62|122|176 Juan (España)
Tabla 23. Análisis de grafemas para generar fonemas y visemas de voces españolas.
Por último se analizan cantidades numéricas para observar como son interpretadas, se concluyó
que en el español mexicano y en el inglés no son leídas las cantidades como se esperaba, es decir al
introducir cantidades mayores de 5 dígitos por ejemplo „400047‟, el intérprete comienza a leer los
números por pares o como dígitos individuales.
La forma de introducir las cantidades, a fin de que sean interpretados correctamente es
añadiendo un „.‟ entre la cifra de esta forma „400.047‟, estas pruebas se muestran en las Tablas 24 y
25 para el idioma inglés y en las Tablas 26 y 27 para el idioma español.
Voz Inglés Hombre
Palabras 400047
Posición
del flujo
0
Posición
del carácter
0
Longitud 6
ID
Fonemas
24|13|7|35|7|35|7|35|7|24|13|7|7|39|21|45|15|33
ID Visemas 18|3|0|0|8|0|8|0|8|0|18|3|0|0|15|4|18|1|19
Duración
(ms)
157|228|182|105|545|105|545|105|545|105|157|228|182|105|210|130|65|65|212
Tabla 24. Análisis cantidades numéricas sin separación con voz inglés.
53
Voz Inglés Hombre
Palabras 400.047
Posición
del flujo
0
Posición
del carácter
0
Longitud 7
ID
Fonemas
24|13|7|26|12|33|19|7|15|19|37|36|33|41|35|24|13|7|39|21|45|15|33
ID Visemas 18|3|0|12|1|19|19|0|1|19|21|10|19|19|8|18|3|0|15|4|18|1|19
Duración
(ms)
122|71|71|32|84|25|25|25|54|48|35|26|100|118|21|48|157|125|97|40|111|100|71|65|212
Tabla 25. Análisis cantidades numéricas con separación de punto con voz inglés.
Voz Mexicana Mujer
Palabras 400047
Posición del
flujo
0
Posición del
carácter
0
Longitud 6
ID Fonemas 107|119|97|638|101|110|116|97|4|115|638|111|115|101|638|111|4|107|119|97|638|101|110|1
16|97|105|115|106|101|116|101
ID Visemas 20|7|10|13|4|19|19|10|0|15|4|13|3|15|4|13|3|0|20|7|10|13|4|19|19|10|6|15|6|4|19|4
Duración
(ms)
55|67|62|49|130|68|86|186|105|138|101|47|64|92|167|45|127|105|57|72|56|56|107|45|45|67|
54|132|66|83|111|128
Tabla 26. Análisis cantidades numéricas sin separación con voz español.
Voz Mexicana Mujer
Palabras 400047
Posición del
flujo
0
Posición del
carácter
0
Longitud 7
ID Fonemas 107|119|97|116|638|111|115|106|101|110|116|111|115|109|105|108|4|107|119|97|638|101
|110|116|97|105|115|106|101|116|101
ID Visemas 20|7|10|19|13|3|15|6|4|19|19|3|15|21|6|14|0|20|7|10|13|4|19|19|10|6|15|6|4|19|4
Duración
(ms)
55|33|59|71|52|47|84|35|61|58|56|84|62|74|130|65|105|57|72|56|56|107|45|45|67|54|132|
66|83|111|128
Tabla 27. Análisis cantidades numéricas con separación de punto con voz español.
54
CAPITULO 6.
CONCLUSIONES Y TRABAJOS
FUTUROS
55
6.1 Conclusiones
Como parte de la investigación, se describieron algunas de las metodologías más empleadas en
la síntesis de voz, también se presentó una revisión de las tecnologías existentes que desarrollan este
proceso, de las cuáles se eligió como motor de voz a Microsoft Speech SDK 5.1 en conjunto con la
librería pyTTS de Python para realizar la conversión de texto a voz de las pruebas a fin de observar
los fonemas y visemas generados.
Los atributos considerados en las configuraciones de las pruebas implicaron modificaciones al
tono, volumen, velocidad, así como la asignación de voz. En la librería pyTTS fue posible modificar
estos parámetros para observar los fonemas y visemas resultantes. Es posible asociar estos fonemas y
visemas ya que la librería pyTTS contiene métodos que permiten conocer la secuencia de los eventos
de estos atributos.
Las pruebas realizadas a los grafemas se presentaron de acuerdo a dos enfoques, los fonemas
vocálicos y los fonemas consonánticos, de los cuáles se observa que los identificadores de ciertos
fonemas encontrados en algunos grafemas, específicamente de los vocálicos, difieren dependiendo
del contexto.
Para los fonemas consonánticos se presentan pruebas tanto en inglés como en español para
observar las variaciones, también se incluyen pruebas en sentencias como la presencia o ausencia de
signos de puntuación en oraciones, así como análisis de cantidades numéricas.
6.2 Aportaciones
Se determinó que resultan precisos los análisis de los grafemas, ya que el motor de voz
Microsoft Speech SDK 5.1 toma en cuenta consideraciones como la identificación de un solo
fonema para casos como el grafema <au> en el idioma español, o <wo> para el el idioma inglés.
Otras de las observaciones son que el motor de voz identifica asociaciones como <qu> con su
correcto fonema /k/, o dependiendo del contexto otros grafemas como <c>, <s>, <z>, <x> se asocian
al fonema /s/ correctamente, también existen fonemas y visemas asociados a los símbolos “-”, “!”,
“&”, “,”, “.” y “!”.
56
De la entonación identificada en los análisis de la frases acompañadas del signo “?”, se identifico
que al encontrarse tal signo si existe un cambio en el tono de la voz en español.
Se presenta una revisión de los identificadores encontrados de los fonemas y visemas asociados
a los grafemas de las voces en español, los cuales no se especifican en la documentación del motor
de voz Microsoft Speech SDK, se observa que la mayoría de los visemas asociados a los fonemas de
ambas voces son los mismos, salvo algunas excepciones donde se registran visemas diferentes, esto
podría explicarse debido al acento del idioma español hablado en España, esto se muestra en la Tabla
de abajo.
TABLA IDENTIFICADORES DE FONEMAS Y VISEMAS DEL ESPAÑOL Español Mexicano
(Voz mujer Esperanza) Español de España (Voz mujer Carmen)
Símbolo Fonema Visema Fonema Visema
- 4 0 7 0
! 4 0 7 0
& 105 6 12 6
, 4 0 7 0
. 4 0 7 0
? 4 0 7 0
A 97 10 10 2
B 98 21 18 21
C 115 15 35 17
D 100 19 16 19
E 101 4 11 4
F 102 18 23 18
G 120 12 25 12
H 116 19 21 16
I 105 6 12 6
J 120 12 25 12
K 107 20 19 20
L 108 14 29 14
M 109 21 26 21
N 110 19 27 19
Ñ 626 19 28 19
O 111 3 13 8
P 112 21 17 21
Q 107 20 19 20
R 114 13 32 13
S 115 15 24 15
T 116 19 15 19
U 117 7 14 7
V 98 21 18 21
w 119 7 34 7
X 107 20 7 0
Y 607 6 7 0
Z 115 15 35 17
57
Se observó que la lectura de números para el idioma tanto español como inglés debe realizarse
considerando la separación de cada tres dígitos con el signo de puntuación “.”, debido a que el habla
generada a partir de cantidades numéricas sin esta consideración resulta en una lectura errónea.
6.3 Trabajos Futuros
Los resultados de los análisis de los visemas proporcionan información útil para explorar la
construcción de visemas, lo cual dará como resultado la naturalidad de las correspondencias faciales
en la ejecución del habla de agentes inteligentes.
58
GLOSARIO Acústica:
Parte de la física que estudia la naturaleza, forma de propagación y percepción del sonido.
Alófono:
En fonética, se llama alófono a cada uno de los fonos o sonidos que en un idioma dado se reconoce como un determinado fonema, sin que las variaciones entre ellos tengan valor diferenciativo.
Articulación:
Se refiere a la forma en que se produce la transición de un sonido a otro, o sobre la misma nota.
Bitonal:
En el caso de dos voces de diferente tonalidad al mismo tiempo recibe el nombre de bitonalidad.
Cláusula:
Conjunto de palabras que encierran una sola proposición, o varias muy relacionadas con un sentido cabal.
Conmutador:
Aparato electrónico que se conecta a una sola línea telefónica para dar servicio a una cantidad grande de usuarios de teléfono.
Contorno de tono:
El contorno de tono de un sonido es una función o una curva que sigue la percepción de tono del sonido a través del tiempo.
Corpus:
Conjunto lo más extenso y ordenado posible de datos que pueden servir de base a una investigación.
Corpus lingüístico:
Es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas).
59
Difonemas:
Estos consisten en la unión de la parte estable de un fonema (mitad del fonema) con la parte estable del siguiente fonema. Existen 232 posibles difonemas y a pesar de métodos para suavizar las fronteras este tipo de síntesis todavía no suena natural.
Disfluencia:
Trastorno del ritmo usualmente caracterizado por la repetición de un sonido, una palabra o frase.
Elocución:
Manera de hacer uso de la palabra para expresar los conceptos.
Entonación:
Conjunto de los tonos de todas las sílabas de un enunciado. Son las variaciones de la altura del sonido (frecuencia fundamental Fo) que resultan de los cambios de tensión a nivel de las cuerdas vocales.
Estocástico:
Sistema que funciona, sobre todo, por el azar.
Fonema:
Son unidades naturales que dotan de gran flexibilidad a los sistemas de voz y que resultan económicas desde el punto de vista del número de unidades (en el Español existen 23 fonemas); sin embargo, constituyen una unidad abstracta que está sometida a muchas variaciones contextuales, que originan una baja calidad en la voz sintetizada.
Fonética:
Conjunto y estudio de los sonidos de un idioma.
Fonología:
Subcampo de la lingüística. Mientras que la fonética estudia la naturaleza acústica y fisiológica de los sonidos o alófonos, la fonología describe el modo en que los sonidos funcionan (en una lengua en particular o en las lenguas en general) en un nivel abstracto o mental.
Formante:
Frecuencia que participa junto a otras en un sonido y le otorga unas particularidades que lo identifican.
60
Frase:
Cadena de palabras conectadas sintáctica y gramaticalmente.
Grafema:
En Lingüística, mínima unidad significativa en el plano de la lengua escrita.
Gramática:
Es el estudio de las reglas y principios que regulan el uso de las lenguas y la organización de las palabras dentro de una oración. También se denomina así al conjunto de reglas y principios que gobiernan el uso de un lenguaje muy determinado; así, cada lenguaje tiene su propia gramática.
Habla:
Es la utilización individual del sistema de signos de la lengua mediante actos de comunicación oral.
Inteligibilidad:
Toda aseveración capaz de comunicar al que oye o lee un significado explícito, de modo que pueda juzgar que dicho significado está o no libre de contradicción.
Lengua:
Es un sistema de signos orales y escritos que son utilizados por los seres humanos para comunicarse entre si en determinada región o país. La lengua como código de comunicación es un instrumento común que el hablante debe utilizar correctamente para facilitar su comprensión.
Lenguaje:
Conjunto de sonidos y palabras con que se expresa el pensamiento. Toda forma de comunicar el pensamiento.
Modelo acústico:
Parte del modelo visual que contiene la información relativa a la sincronía entre la apariencia visual de un objeto y la información auditiva existente.
Modelo Visual:
Contenedor de la información visual esencial que se extrae a partir del corpus audiovisual.
Norma:
Es la realización colectiva de la lengua o el conjunto de usos sociales que deriva en los distintos tipos de lenguaje familiar, literario, científico, etc.
61
Normalización del texto:
Es un proceso por el cual texto se transforma de cierta manera para hacerlo constante de una manera que pudo no haber sido antes.
Oración:
Unidad gramatical que es sintácticamente independiente y tiene un sujeto expreso o tácito y un predicado que contiene al menos un verbo conjugado.
Orofacial:
Relativo a la parte bucal de la cara humana.
Palabras:
Cada uno de los segmentos limitados por pausas o espacios en la cadena hablada o escrita, que puede aparecer en otras posiciones, y que está dotado de una función.
Politonalidad:
Es el uso musical de más de una tonalidad simultáneamente.
Pragmática:
También llamada pragmalingüística es un subcampo de la lingüística, también estudiado por la filosofía del lenguaje y la psicolingüística o psicología del lenguaje, que se interesa por el modo en que el contexto influye en la interpretación del significado.
Prosodia:
Es una rama de la lingüística que analiza y representa formalmente aquellos elementos de la expresión oral, tales como el acento, los tonos y la entonación.
Ritmo:
Orden, proporción y movimiento con que se agrupan los sonidos en el tiempo.
Semántica:
Rama de la Lingüística que se ocupa del sentido o el significado de los signos, así como de la relación entre los mismos, tanto desde un punto de vista sincrónico como diacrónico.
Significante:
En Lingüística, forma exterior o aspecto perceptible de un signo.
Signo:
En Lingüística, cualquier unidad lingüística que posee significación, inclusive los radicales o los afijos.
62
Sílabas:
Cada una de las divisiones fonológicas en las que se divide una palabra.
Sintagma:
En Lingüística, cualquier combinación seriada de elementos morfológicos, que adquieren determinada unidad, e incluso estabilidad, cuando la combinación se estereotipa por el uso.
Sintaxis:
La sintaxis es la parte de la gramática que estudia las reglas que gobiernan la combinatoria de constituyentes sintácticos y la formación de unidades superiores a estos, como los sintagmas y oraciones gramaticales. La sintaxis, por tanto, estudia las formas en que se combinan las palabras, así como las relaciones sintagmáticas y paradigmáticas existentes entre ellas.
Síntesis:
Composición de un todo por la reunión de sus partes.
Sintetizador:
Instrumento electrónico que permite generar sonidos musicales determinando todos sus parámetros (altura, intensidad, timbre) para simular el sonido de instrumentos acústicos o crear otros nuevos.
Suprasegmental:
También conocido como prosódica, es una característica del habla que afecta a un segmento más largo que el fonema, tales como el acento, la entonación, el ritmo, la duración y otros. El término suprasegmental implica la existencia de elementos que recaen sobre más de un segmento a la vez.
Tono:
Variación fonética en la frecuencia acústica de una sílaba, esto es, un tono en el sentido lingüístico provee distinción semántica. Las lenguas que usan tonos de esta manera se conocen como lenguas tonales.
Transcripción fonética:
También llamada notación fonética es un sistema de símbolos gráficos para representar los sonidos del habla de una persona. Típicamente se usa como convención para superar las peculiaridades alfabéticas usadas en cada lengua escrita y también para representar lenguas sin tradición escrita.
Trivisemas:
Visemas correspondientes a una serie de tres alófonos consecutivos.
63
Unidad prosódica:
A menudo llamado unidad de la entonación, es un segmento del discurso que ocurre con un solo contorno prosódico.
Visema:
Representación visual de un fonema, visualmente distinguible de otras.
Visemas clave:
Visemas asociados a conjuntos de alófonos de apariencia visual similar a partir de los cuales se generan transiciones entre ellos. Son las apariencias clave de las regiones orofaciales del modelo visual.
Voz:
Sonido que el aire produce en la faringe.
64
BIBLIOGRAFIA
[Apple, 2010] Apple in Education. Text to Speech Synthesis. Retrieved November 20, 2010.From:http://developer.apple.com/library/mac/#documentation/Carbon/Reference/Speech_Synthesis_Manager/Reference/reference.
[AT&T, 2010] AT&T Labs Natural Voices – Text to Speech Demo. Retrieved December 26, 2010 From: http://www2.research.att.com/~ttsweb/tts/demo.php.
[Aylett-Pickock-Fraser, 2006] Matthew P.Aylett, Cristopher J. Pidcock, Mark E. Fraser (2006). The Cerevoice Blizzard Entry 2006: A Prototype Small Database Unit Selection Engine.
[Barbosa, 1997] Barbosa A. (1997). Desarrollo de una nueva voz en Español Mexicano para el Sistema de Texto a Voz Festival. Tesis de Maestría, Universidad de las Américas-Puebla, México.
[Birkholz – Kroger, 2007] Peter Birkholz, Bernard Kroger (2007). Simulation of vocal tract growth for articulatory speech synthesis. In Proceedings of the 16th International Congress of Phonetic Sciences, pp. 377–380. Institute for Computer Science, Saarbrücken, Germany. University of Rostock, Rostock, Germany.
[Carnicero Sierra, 2003] Carnicero Sierra M. J.(2003). Desarrollo de un componente para PDa (Un reproductor de sonido).
[Cepstral, 2010] Cepstral text-to-speech. Retrieved November 20, 2010. From: http://cepstral.com/.
[DECtalk, 2010] DECtalk Speech Synthesis. Retrieved December 26, 2010. From: http://www.speech.cs.cmu.edu/comp.speech/Section5/Synth/dectalk.html
[Domínguez Martínez, 2010] Jesús Raymundo Domínguez Martínez (2010) Creación de una base de conocimientos en AIML para un agente conversacional.
[Dutoit – Pagel – Pierret – Bataille – van der Vrecken, 1996]
T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. Vrecken (1996). The MBROLA Project: Towards a Set of High Quality Speech Synthesizers Free of Use for Non Commercial Purposes.
[Engström, 2003] Charlotta Engström (2003). Articulatory Analysis of Swedish Visemes. Centrum för talteknologi. Institutionen för tal, musik och hörsel. Stockholm
65
[Expressivo, 2010] Expressivo Text Reader. Retrieved December 27, 2010. From: http://www.expressivo.com/.
[Festival, 2010] The Festival Speech Synthesis System. Retrieved November 20, 2010. From: http://www.cstr.ed.ac.uk/projects/festival/.
[Florencia Juárez, 2010] Rogelio Florencia Juárez (2010) Agente conversacional corpóreo que utiliza AIML para integrar procesos de personalidad.
[Frías Conde, 2001] Xavier Frías Conde (2001). Introducción a la fonética y fonología del español. Ianua, Revista Philologica Romanica, Suplemento 04.
[Furui, 1989] Sadaoki Furui (1989). Digital Speech Processing, Synthesis, and Recognition. Ed. Dekker.
[Hunt – Black, 1996] A. Hunt, A. Black (1996), Unit selection in a concatenative speech synthesis system using a large speech database. In Proceedings of ICASSP 1996, pages 373-376, Atlanta, Georgia.
[IBM Via Voice, 2010] IBM. Embedded Via Voice. Retrieved November 20, 2010. From: http://www01.ibm.com/software/pervasive/embedded_viavoice/.
[Infovox, 2010] Text To Speech and Voice Solutions. Retrieved December 26, 2010. From: http://www.acapela-group.com/.
[IVONA TTS, 2010] IVONA Text To Speech. Retrieved December 27, 2010. From: http://www.ivona.com/.
[Lemmetty, 1999] Sami Lemmetty (1999). Review of Speech Synthesis Technology. Helsinki University of Technology.
[Loquendo, 2010] Loquendo, (2001-2009), Loquendo TTS, Retrieved October 23, 2010. From http://www.loquendo.com/es/technology/TTS.htm (Loquendo TTS)
[MBROLA, 2010] The MBROLA Project (2010). Retrieved October 20, 2010. From http://tcts.fpms.ac.be/synthesis/
[Microsoft Speech SDK 5.1, 2010] Microsoft Speech SDK 5.1, Retrieved October 23, 2010. From http://www.microsoft.com/downloads/en/details.aspx?FamilyID=5e86ec97-40a7-453f-b0ee-6583171b4530&displaylang=en (Speech SDK 5.1).
[Microsoft Speech, 2011] Microsoft Speech SDK. Retrieved April 20, 2011. From http://www.nextup.com/sapi5doc/.
[Molina – García - Nuñez, 2006] Molina A., García N., Nuñez J (2006). NETtalk en español. Capítulo 1. Universidad Autónoma Metropolitana.
[Moreno Azcona, 2008] Gabriel Alejandro Moreno Azcona (2008) Nueva Voz Concatenativa de Difonemas para el Español Mexicano en Festival, Universidad de las Américas, Puebla.
66
[Orator, 2010] Telcordia‟s Hybrid ORATOR II speech synthesizers and Name Pronunciation Software. Retrieved December 27, 2010. From: http://www.argreenhouse.com/ORATOR/.
[Power TTS Reader, 2010] Power Text to Speech Reader. Retrieved December 27, 2010. From: http://www.1speechsoft.com/.
[SoftVoice, 2010] Softvoice, Inc. Text-to-Speech Synthesis. Retrieved November 20, 2010. From: http://www.text2speech.com/.
[SVOX, 2010] SVOX. Embedded Text-to-Speech. Retrieved November 20, 2010. From: http://www.svox.com/.
[Taylor, 2009] Paul Taylor (2009). Text to Speech Synthesis. University of Cambridge.
[Text Aloud, 2010] Text Aloud 3. Retrieved December 27, 2010. From: http://www.nextup.com/TextAloud/index.html.
[Zotter, 2003] Franz Zotter (2003). Emotional Speech.
.
67
ANEXOS
68
ANEXO A
Aplicación Python Text To Speech
Se presenta el código en Python de la utilización de la librería pyTTS.
69
Aplicación Python Text To Speech import pyTTS import time import win32com.client import pythoncom finished = False class VisemeEvents: def OnPhoneme(self, StreamNumber, StreamPosition, Duration,
NextPhoneId, Feature, CurrentPhoneId): print "ON PHONEME: StreamNumber: " + str(StreamNumber) + ",
StreamPosition: " + str(StreamPosition) + ", Duration: " + str(Duration) + ", NextPhoneId: " + str(NextPhoneId) + ", Feature: " + str(Feature) + ", CurrentPhoneId: " + str(CurrentPhoneId)
return def OnWord(self, StreamNumber, StreamPosition, CharacterPosition,
Length): print "ON WORD: StreamNumber: " + str(StreamNumber) + ",
StreamPosition: " + str(StreamPosition) + ", CharacterPosition: " + str(CharacterPosition) + ", Length: " + str(Length)
return def OnViseme(self, StreamNumber, StreamPosition, Duration,
NextVisemeId, Feature, CurrentVisemeId): print "ON VISEME: StreamNumber: " + str(StreamNumber) + ",
StreamPosition: " + str(StreamPosition) + ", Duration: " + str(Duration) + ", NextVisemeId: " + str(NextVisemeId) + ", Feature: " + str(Feature) + ", CurrentVisemeId: " + str(CurrentVisemeId)
print " " pythoncom.PumpWaitingMessages() return def OnEndStream(StreamNumber, StreamPosition, StreamReleased): global finished print "ON END STREAM: StreamNumber: " + str(StreamNumber) + ",
StreamPosition: " + str(StreamPosition) + ", StreamReleased: " + str(StreamReleased)
finished = True return #[inc]end your include tts = win32com.client.DispatchWithEvents("SAPI.SpVoice", VisemeEvents) tts.SetRate = 0 tts.SetVolume = 100 #0-100 tts.SetPitch = 0 tts.Speak("cadena de texto", 1) #1: Significa ASINCRONO while not finished: pythoncom.PumpWaitingMessages()
70
ANEXO B
Tablas de resultados de los análisis
Aquí se presentan algunos de los análisis realizados a las cadenas de texto en la aplicación de
Pyhton con el uso de la librería pyTTS, a partir de los cuáles se fundamentó el contenido del
Capítulo 5.
71
Tablas de análisis de cadenas de texto en español
Texto de prueba para el idioma español (México) Voz: Esperanza (Mujer)
PARÁMETROS
PALABRA DE
PRUEBA: BIEN
Longitud: 4
B I E N
FIN DEL
FLUJO
FO
NE
MA
Número de secuencia
1 1 1 1
Posición de secuencia
0 1796 4958 7440
Duración 56 99 77 109
ID del siguiente fonema
106 101 110 4
ID del fonema actual
98 106 101 110
VI
SE
MA
Número de secuencia
1 1 1 1
Posición de secuencia
0 1796 4958 7440
Duración 56 99 77 109
ID del siguiente visema
6 4 19 0
ID del visema actual
21 6 4 19
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 10928
72
Texto de prueba para el idioma español (México) Voz: Esperanza (Mujer)
PARÁMETROS
PALABRA DE
PRUEBA: DOS
Longitud: 3
D O S FIN DEL FLUJO
FO
NE
MA
Número de secuencia
1 1 1
Posición de secuencia
0 2974 8724
Duración 93 179 207
ID del siguiente fonema
111 115 4
ID del fonema actual
100 111 115
VI
SE
MA
Número de secuencia
1 1 1
Posición de secuencia
0 2974 8724
Duración 93 179 207
ID del siguiente visema
3 15 0
ID del visema actual
19 3 15
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 15348
73
Texto de prueba para el idioma español (México) Voz: Esperanza (Mujer)
PARÁMETROS
PALABRA DE
PRUEBA: JUGO
Longitud: 4
J U G O
FIN DEL
FLUJO
FO
NE
MA
Número de secuencia
1 1 1 1
Posición de secuencia
0 2470 5258 7990
Duración 77 87 85 173
ID del siguiente fonema
117 624 111 4
ID del fonema actual
120 117 624 111
VI
SE
MA
Número de secuencia
1 1 1 1
Posición de secuencia
0 2470 5258 7990
Duración 77 87 85 173
ID del siguiente visema
7 21 3 0
ID del visema actual
12 7 21 3
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 13526
74
Texto de prueba para el idioma español (México) Voz: Esperanza (Mujer)
PARÁMETROS
PALABRA DE
PRUEBA:
LUCRO
Longitud: 5
L U C R O
FIN DEL
FLUJO
FO
NE
MA
Número de secuencia
1 1 1 1 1
Posición de secuencia
0 2028 6604 8658 10426
Duración 63 143 64 55 91
ID del siguiente fonema
117 107 638 111 4
ID del fonema actual
108 117 107 638 111
VI
SE
MA
Número de secuencia
1 1 1 1 1
Posición de secuencia
0 2028 6604 8658 10426
Duración 63 143 64 55 91
ID del siguiente visema
7 20 13 3 0
ID del visema actual
14 7 20 13 3
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 13342
75
Texto de prueba para el idioma español (México) Voz: Esperanza (Mujer)
PALABRA DE PRUEBA: CUATROCIENTOS Longitud: 13
PA
RÁ
MET
RO
S
CU
ATR
OC
IEN
TOS
(13
)
C U A T R O C I E N T O S
FIN
DEL
FLU
JO
FO
NE
MA
Número secuencia
1 1 1 1 1 1 1 1 1 1 1 1 1
Posición secuencia
0 1762 3336 4884 7282 9620 10698 14848 16970 19972 22458 24584 26879
Duración 55 49 48 75 73 33 129 66 94 77 66 71 173
ID del siguiente fonema
119 97 116 638 111 115 106 101 110 116 111 115 4
ID del fonema actual
107 119 97 116 638 111 115 106 101 110 116 111 115
VI
SE
MA
Número secuencia
1 1 1 1 1 1 1 1 1 1 1 1 1
Posición secuencia
0 1762 3336 4884 7282 9620 10698 14848 16970 19972 22458 24584 26870
Duración 55 49 48 75 73 33 129 66 94 77 66 71 173
ID del siguiente visema
7 10 19 13 3 15 6 4 19 19 3 15 0
ID del visema actual
20 7 10 19 13 3 15 6 4 19 19 3 15
PA
LA
BR
A
Número secuencia
1
Posición en el flujo
0
Posición carácter
0
Posición en el flujo
1
Flujo liberado
32428
76
Texto de prueba para el idioma español (México) Voz: Esperanza (Mujer)
PALABRA DE PRUEBA: ¿QUIÉN ERES? Longitud: 13
PA
RÁ
MET
RO
S
¿QU
IÉN
(6
)
¿ Q U I É N
ERES
?(5
)
E R E S ?
FIN
DEL
FLU
JO
FO
NE
MA
Número secuencia
1 1 1 1 1 1 1 1 1
Posición secuencia
0 1762 2856 4824
7016 11856 13146 17010 21588
Duración 55 34 61 68 151 40 121 143 593
ID del siguiente fonema
106 101 110 101
638 101 115 4 97
ID del fonema actual
107 106 101 110
101 638 101 115 4
VI
SE
MA
Número secuencia
1 1 1 1 1 1 1 1 1
Posición secuencia
0 1762 2856 4824
7016 11856 13146 17010 21588
Duración 55 34 61 68 151 40 121 143 593
ID del siguiente visema
6 4 19 4 13 4 15 0 10
ID del visema actual
20 6 4 19 4 13 4 15 0
PA
LA
BR
A
Número secuencia
1 1
Posición en el flujo
0 7016
Posición carácter
0 7
Posición en el flujo
1
Flujo liberado
50574
77
Texto de prueba para el idioma español (España) Voz: Jorge (Hombre)
PARÁMETROS
PALABRA DE
PRUEBA: BIEN
Longitud: 4
B I E N
FIN DEL
FLUJO
FO
NE
MA
Número de secuencia
1 1 1 1
Posición de secuencia
0 1896 4208 6228
Duración 59 72 63 96
ID del siguiente fonema
33 11 27 7
ID del fonema actual
18 33 11 27
VI
SE
MA
Número de secuencia
1 1 1 1
Posición de secuencia
0 1896 4208 6228
Duración 59 72 63 96
ID del siguiente visema
6 4 19 0
ID del visema actual
21 6 4 19
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 9314
78
Texto de prueba para el idioma español (España) Voz: Jorge (Hombre)
PARÁMETROS
PALABRA DE
PRUEBA: DOS
Longitud: 3
D O S FIN DEL FLUJO
FO
NE
MA
Número de secuencia
1 1 1
Posición de secuencia
0 948 5304
Duración 29 136 244
ID del siguiente fonema
13 24 7
ID del fonema actual
16 13 24
VI
SE
MA
Número de secuencia
1 1 1
Posición de secuencia
0 948 5304
Duración 29 136 144
ID del siguiente visema
8 15 0
ID del visema actual
19 8 15
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 13120
79
Texto de prueba para el idioma español (España) Voz: Jorge (Hombre)
PARÁMETROS
PALABRA DE
PRUEBA: JUGO
Longitud: 4
J U G O
FIN DEL
FLUJO
FO
NE
MA
Número de secuencia
1 1 1 1
Posición de secuencia
0 1856 3612 6102
Duración 58 55 78 182
ID del siguiente fonema
14 7 13 7
ID del fonema actual
25 14 7 13
VI
SE
MA
Número de secuencia
1 1 1 1
Posición de secuencia
0 1856 3612 6102
Duración 58 55 78 182
ID del siguiente visema
7 0 8 0
ID del visema actual
12 7 0 8
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 11936
80
Texto de prueba para el idioma español (España) Voz: Jorge (Hombre)
PARÁMETROS
PALABRA DE
PRUEBA:
LUCRO
Longitud: 5
L U C R O
FIN DEL
FLUJO
FO
NE
MA
Número de secuencia
1 1 1 1 1
Posición de secuencia
0 2118 4064 6818 8398
Duración 66 61 86 49 83
ID del siguiente fonema
14 19 31 13 7
ID del fonema actual
29 14 19 31 13
VI
SE
MA
Número de secuencia
1 1 1 1 1
Posición de secuencia
0 2118 4064 6818 8398
Duración 66 61 86 49 83
ID del siguiente visema
7 20 13 8 0
ID del visema actual
14 7 20 13 8
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 11074
81
Texto de prueba para el idioma español (España) Voz: Jorge (Hombre)
PALABRA DE PRUEBA: CUATROCIENTOS Longitud: 13
PA
RÁ
MET
RO
S
CU
ATR
OC
IEN
TOS
(13
)
C U A T R O C I E N T O S
FIN
DEL
FLU
JO
FO
NE
MA
Número secuencia
1 1 1 1 1 1 1 1 1 1 1 1 1
Posición secuencia
0 2206 3048 4890 6848 8348 9586 12118 13852 15310 18318 20012 21794
Duración 69 26 57 61 47 38 79 54 45 94 53 55 142
ID del siguiente fonema
34 10 15 31 13 35 33 11 27 15 13 24 7
ID del fonema actual
19 34 10 15 31 13 35 33 11 27 15 13 24
VI
SE
MA
Número secuencia
1 1 1 1 1 1 1 1 1 1 1 1 1
Posición secuencia
0 2206 3048 4890 6848 8348 9586 12118 13852 15310 18318 20012 21794
Duración 69 26 57 61 47 38 79 54 45 94 53 55 142
ID del siguiente visema
7 2 19 13 8 17 6 4 19 19 8 15 0
ID del visema actual
20 7 2 19 13 8 17 6 4 19 19 8 15
PA
LA
BR
A
Número secuencia
1
Posición en el flujo
0
Posición carácter
0
Posición en el flujo
1
Flujo liberado
26358
82
Texto de prueba para el idioma español (España) Voz: Jorge (Hombre)
PALABRA DE PRUEBA: ¿QUIÉN ERES? Longitud: 13
PA
RÁ
MET
RO
S
¿QU
IÉN
(6
)
¿ Q U I É N
ERES
?(5
)
E R E S ?
FIN
DEL
FLU
JO
FO
NE
MA
Número secuencia
1 1 1 1 1 1 1 1 1
Posición secuencia
0 2072 4334 6966
9100 11822 13238 16244 20960
Duración 65 70 82 66 85 44 94 147 593
ID del siguiente fonema
33 11 27 11 31 11 24 7 10
ID del fonema actual
19 33 11 27 11 31 11 24 7
VI
SE
MA
Número secuencia
1 1 1 1 1 1 1 1 1
Posición secuencia
0 2072 4224 6966
9100 11822 13238 16244 20960
Duración 65 70 82 66 85 44 94 147 593
ID del siguiente visema
6 4 19 4 13 4 15 0 2
ID del visema actual
20 6 4 19 4 13 4 15 0
PA
LA
BR
A
Número secuencia
1 1
Posición en el flujo
0 9100
Posición carácter
0 7
Posición en el flujo
1
Flujo liberado
39946
83
Tablas de análisis de cadenas de texto en inglés
Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre)
PARÁMETROS
PALABRA DE
PRUEBA: DOGS
Longitud: 4
D O G S FIN DEL
FLUJO
FO
NE
MA
Número de secuencia
1 1 1 1
Posición de secuencia
0 2068 6058 7892
Duración 64 124 57 156
ID del siguiente fonema
10 25 48 7
ID del fonema actual
19 10 25 48
VI
SE
MA
Número de secuencia
1 1 1 1
Posición de secuencia
0 2068 6058 7892
Duración 64 124 57 156
ID del siguiente visema
2 20 15 0
ID del visema actual
19 2 20 15
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 12894
84
Texto de prueba para el idioma inglés (USA) Voz: Susan (Mujer)
PARÁMETROS
PALABRA DE
PRUEBA: CATS
Longitud: 4
C A T S FIN DEL
FLUJO
FO
NE
MA
Número de secuencia
1 1 1
Posición de secuencia
0 2870 10178
Duración 89 228 170
ID del siguiente fonema
11 41 7
ID del fonema actual
30 11 41
VI
SE
MA
Número de secuencia
1 1 1
Posición de secuencia
0 2870 10178
Duración 89 228 170
ID del siguiente visema
1 19 0
ID del visema actual
20 1 19
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 15616
85
Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre)
PARÁMETROS
PALABRA DE
PRUEBA: CATS
Longitud: 4
C A T S FIN DEL
FLUJO
FO
NE
MA
Número de secuencia
1 1 0
Posición de secuencia
0 3284 8920
Duración 102 176 239
ID del siguiente fonema
11 41 7
ID del fonema actual
30 11 41
VI
SE
MA
Número de secuencia
1 1 1
Posición de secuencia
0 3284 8920
Duración 102 176 239
ID del siguiente visema
1 19 0
ID del visema actual
20 1 19
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 16572
86
Texto de prueba para el idioma inglés (USA) Voz: Susan (Mujer)
PARÁMETROS
PALABRA DE
PRUEBA: FREE
Longitud: 4
F R E E FIN DEL
FLUJO
FO
NE
MA
Número de secuencia
1 1 1
Posición de secuencia
0 3344 5814
Duración 104 77 219
ID del siguiente fonema
7 28 7
ID del fonema actual
24 7 28
VI
SE
MA
Número de secuencia
1 1 1
Posición de secuencia
0 3344 5814
Duración 104 77 219
ID del siguiente visema
0 6 0
ID del visema actual
18 0 6
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 12830
87
Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre)
PARÁMETROS
PALABRA DE
PRUEBA: FREE
Longitud: 4
F R E E FIN DEL
FLUJO
FO
NE
MA
Número de secuencia
1 1 1
Posición de secuencia
0 2340 5130
Duración 73 87 255
ID del siguiente fonema
7 28 7
ID del fonema actual
24 7 28
VI
SE
MA
Número de secuencia
1 1 1
Posición de secuencia
0 2340 5130
Duración 73 87 255
ID del siguiente visema
0 6 0
ID del visema actual
18 0 6
PA
LA
BR
A
Número de secuencia
1
Posición en el flujo
0
Posición del carácter
0
Posición en el flujo
1
Flujo liberado 13304
88
Texto de prueba para el idioma inglés (USA) Voz: Susan (Mujer)
PALABRA DE PRUEBA: ONE THOUSAND Longitud: 11
PA
RÁ
MET
RO
S
ON
E (3
)
O N E
THO
USA
ND
(8)
T H O U S A N D
FIN
DEL
FLU
JO
FO
NE
MA
Número secuencia
1 1 1 1 1 1 1 1 1
Posición secuencia
0 2874 5584 7968 9942 15808 18316 20444 22694
Duración 90 84 74 61 183 78 66 70 79
ID del siguiente fonema
12 33 42 16 48 15 33 19 7
ID del fonema actual
46 12 33 42 16 48 15 33 19
VI
SE
MA
Número secuencia
1 1 1 1 1 1 1 1 1
Posición secuencia
0 2874 5584 7968 9942 15808 18316 20444 22694
Duración 90 84 74 61 183 78 66 70 79
ID del siguiente visema
1 19 17 11 15 1 19 19 0
ID del visema actual
7 1 19 17 11 15 1 19 19
PA
LA
BR
A
Número secuencia
1 1
Posición en el flujo
0 7968
Posición carácter
0 4
Posición en el flujo
1
Flujo liberado
25222
89
Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre)
PALABRA DE PRUEBA: ONE THOUSAND Longitud: 11
PA
RÁ
MET
RO
S
ON
E (3
)
O N E
THO
USA
ND
(8)
T H O U S A N D
FIN
DEL
FLU
JO
FO
NE
MA
Número secuencia
1 1 1 1 1 1 1 1 1
Posición secuencia
0 1688 3442 5942 8870 15166 17482
19064 22566
Duración 53 55 78 91 197 72 49 109 72
ID del siguiente fonema
12 33 42 16 48 15 33 19 7
ID del fonema actual
46 12 33 42 16 48 15 33 19
VI
SE
MA
Número secuencia
1 1 1 1 1 1 1 1 1
Posición secuencia
0 1688 3442 5942 8870 15166 17482
19064 22566
Duración 53 55 78 91 197 72 49 109 72
ID del siguiente visema
1 19 17 11 15 1 19 19 0
ID del visema actual
7 1 19 17 11 15 1 19 19
PA
LA
BR
A
Número secuencia
1 1
Posición en el flujo
0 5942
Posición carácter
0 4
Posición en el flujo
1
Flujo liberado
24884
90
Texto de prueba para el idioma inglés (USA) Voz: Susan (Mujer)
PALABRA DE PRUEBA: WHO ARE YOU? Longitud: 10
PA
RÁ
MET
RO
S
WH
O (
3)
W H O
AR
E(3
)
A R E
YO
U?(
4)
Y O U ?
FIN
DEL
FLU
JO
FO
NE
MA
Número secuencia
1 1 1 1 1 1
Posición secuencia
0 2216 6414 10168 14186 17538
Duración 69 131 117 125 105 593
ID del siguiente fonema
44 7 47 44 7 16
ID del fonema actual
26 44 7 47 44 7
VI
SE
MA
Número secuencia
1 1 1 1 1 1
Posición secuencia
0 2216 6414 10168 14186 17538
Duración 69 131 117 125 105 593
ID del siguiente visema
7 0 6 7 0 11
ID del visema actual
12 7 0 6 7 0
PA
LA
BR
A
Número secuencia
1 1 1
Posición en el flujo
0 6414 10168
Posición carácter
0 4 8
Posición en el flujo
1
Flujo liberado
36524
91
Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre)
PALABRA DE PRUEBA: WHO ARE YOU? Longitud: 10
PA
RÁ
MET
RO
S
WH
O (
3)
W H O
AR
E(3
)
A R E
YO
U?(
4)
Y O U ?
FIN
DEL
FLU
JO
FO
NE
MA
Número secuencia
1 1 1 1 1 1
Posición secuencia
0 1840 6130 9426 11554 16730
Duración 57 134 103 66 162 593
ID del siguiente fonema
44 7 47 44 7 16
ID del fonema actual
26 44 7 47 44 7
VI
SE
MA
Número secuencia
1 1 1 1 1 1
Posición secuencia
0 1840 6130 9426 11554 16730
Duración 57 134 103 66 162 593
ID del siguiente visema
7 0 6 7 0 11
ID del visema actual
12 7 0 6 7 0
PA
LA
BR
A
Número secuencia
1 1 1
Posición en el flujo
0 6130 9426
Posición carácter
0 4 8
Posición en el flujo
1
Flujo liberado
35716
top related