tesis victoria libre

INSTITUTO TECNOLÓGICO

DE CD. MADERO

DEPARTAMENTO DE SISTEMAS Y COMPUTACIÓN

ANÁLISIS DE LOS ATRIBUTOS DEL PROCESO DE

CONVERSIÓN TEXTO A VOZ

Para obtener el Titulo de

Ingeniero en Sistemas Computacionales

Presenta

Victoria Ruíz Martínez

Numero de Control

05070678

Director de Tesis

Dra. María Lucila Morales Rodríguez

CD. MADERO, TAMAULIPAS MAYO 2011

Declaración de Originalidad

Declaro y prometo que éste documento de tesis es producto de mi trabajo original y

que no infringe los derechos de terceros, tales como derechos de publicación, derechos de

autor, patentes y similares.

Además, declaro que en las citas textuales que he incluido (las cuales aparecen entre

comillas) y en los resúmenes que he realizado de publicaciones ajenas, indico

explícitamente los datos de los autores y las publicaciones.

Además, en caso de infracción de los derechos de terceros derivados de éste

documento de tesis, acepto la responsabilidad de la infracción y relevo de ésta a mi director

y codirectores de tesis, así como al Instituto Tecnológico de Cd. Madero y sus autoridades.

Mayo 2011, Cd. Madero, Tamps.

C. Victoria Ruíz Martínez

DEDICATORIA Y AGRADECIMIENTOS

Esta Tesis se la dedico a mi madre, que aunque ya no se encuentra

entre nosotros, se que me observa desde alguna parte,

y a quien en todo momento llevo conmigo.

A mi padre, que me ha

orientado en todas mis decisiones,

además de ser un gran apoyo siempre.

A mis hermanos Omar, Odeir y Guadalupe,

que siempre han estado para guiarme

y han sido una inspiración toda mi vida.

A mis maestros, por su disposición

y ayuda brindados.

A mi directora de Tesis, la Dra. Lucila Morales Rodríguez

por tener la paciencia y la disposición para trabajar conmigo.

Al comité tutorial M.C. Apolinar Ramírez Saldívar,

Dr. Arturo Hernández Ramírez y Rubén Basáñez Castro

gracias por su tiempo y apoyo.

También agradezco a mis amigos y compañeros de ingeniería,

que siempre me han acompañado en las buenas y

en las malas y que han sido una fuente de alegría.

Un agradecimiento especial a mis amigos Violeta, Jesús, Andrea, Dioni y Alejandro,

es un honor contar con su amistad

les agradezco enormemente el apoyo que me brindaron en los momentos más dificiles.

Y a ケuieﾐes ahoヴa escapaﾐ a ﾏi ﾏeﾏoヴia…Gracias a todos.

RESUMEN

El desarrollo del presente trabajo de Tesis se realizó con el objetivo de contribuir en la línea de

investigación interesada en la generación de formas de interacción hombre-máquina por medio del

uso de Agentes Conversacionales animados que se desarrolla en la Maestría en Ciencias en Ciencias

de la Computación del ITCM, por lo cual se presenta la tecnología Text To Speech a fin de

incorporarse a un agente conversacional animado.

Un sintetizador de voz convierte el lenguaje escrito en habla (Text To Speech), el procedimiento

de síntesis de voz consiste de dos fases principales, la primera es el análisis del texto y la segunda es

la generación de formas de onda de voz, estas etapas producen información fonética y prosódica.

Se presentan las metodologías de síntesis de voz más empleadas actualmente, las cuales se

presentan en tres categorías, la primera es la síntesis concatenativa, dentro de la cual se encuentran la

síntesis por selección de unidades, la síntesis de dífonos y la síntesis de dominio especifico, otra

metodología existente es la síntesis de formantes, también existen otros métodos como la síntesis

articulatoria, la síntesis hibrida y la síntesis basada en HMM (Modelos ocultos de Markov).

La fonética y la fonología son disciplinas dentro de la lingüística, ambas se encargan de estudiar

los sonidos del lenguaje. La unidad de estudio de la fonología son los fonemas, los cuales son las

unidades más pequeñas de sonido del lenguaje.

Los fonemas de un lenguaje pueden ser clasificados en subgrupos basados en sus apariencias

visuales, a estos se subgrupos se les llama visemas, se les considera como la equivalencia visual del

los fonemas.

Para realizar el análisis de los atributos que intervienen en el proceso de conversión TTS se

utilizó el motor de voz Microsoft Speech SDK 5.1 y la librería pyTTS de Python para desarrollar las

pruebas. Los atributos de configuración a considerar involucraron el tono, el volumen y la velocidad,

así como las voces empleadas para conformar el análisis, estos parámetros arrojaron información

sobre los grafemas introducidos como entrada, la información de salida es interpretada como los

valores de fonemas y visemas asociados al texto introducido.

Las pruebas fueron diseñadas considerando los fonemas vocálicos y los consonánticos, a fin de

observar las variaciones entre los grafemas dependiendo del contexto y del idioma empleado para los

análisis.

TABLA DE CONTENIDO

Capítulo 1. Introducción ...................................................................................................................... 1

1.1 Objetivos ..................................................................................................................................... 2

1.1.1 Objetivo General .................................................................................................................. 2

1.1.2 Objetivos específicos ........................................................................................................... 2

1.2 Problemática ............................................................................................................................... 2

1.3 Justificación................................................................................................................................. 2

1.4 Hipótesis ..................................................................................................................................... 3

1.5 Alcances y Limitaciones .............................................................................................................. 3

1.6 Estructura del documento .......................................................................................................... 4

Capítulo 2. Síntesis de Voz ................................................................................................................... 5

2.1 Procesamiento de texto a voz .................................................................................................... 5

2.2 Análisis prosódico en TTS............................................................................................................ 8

2.3 Fonemas y visemas ..................................................................................................................... 9

2.4 Estado del arte de la síntesis de voz ......................................................................................... 12

2.5 Retos de la conversión de texto a voz ...................................................................................... 17

2.5.1 Representación Lingüística ................................................................................................ 17

2.5.2 Pronunciación .................................................................................................................... 18

2.6 Generación de Voz con Emoción .............................................................................................. 19

2.6.1 Teorías acerca de la emoción ............................................................................................ 19

2.6.2 Expresión de la emoción en la voz ..................................................................................... 20

Capítulo 3. Metodologías de la conversión de texto a voz ................................................................. 22

3.1 Tecnologías de síntesis de voz .................................................................................................. 22

3.2 Síntesis concatenativa .............................................................................................................. 24

3.2.1 Síntesis por selección de unidades .................................................................................... 25

3.2.2 Síntesis de dífono ............................................................................................................... 26

3.2.3 Síntesis de dominio especifico ........................................................................................... 26

3.3 Síntesis formante ...................................................................................................................... 27

3.4 Otros métodos .......................................................................................................................... 28

3.4.1 Síntesis articulatoria .......................................................................................................... 28

3.4.2 Síntesis Híbrida .................................................................................................................. 28

3.4.3 Síntesis basada en HMM (Modelos ocultos de Markov) ................................................... 28

Capitulo 4. Herramientas Text To Speech ......................................................................................... 30

4.1 Estado del arte de los productos de síntesis de voz ................................................................. 30

4.1.1 Microsoft Speech API ......................................................................................................... 31

4.1.2 Cepstral .............................................................................................................................. 31

4.1.3 Festival ............................................................................................................................... 31

4.1.4 Loquendo ........................................................................................................................... 32

4.1.5 IBM Vía Voice ..................................................................................................................... 32

4.1.6 SVOX .................................................................................................................................. 32

4.1.7 IVONA TTS .......................................................................................................................... 33

4.2 Proceso de conversión de texto a voz de Microsoft Speech SDK 5.1 ...................................... 33

4.2.1 Arquitectura Microsoft Speech SDK 5.1 ............................................................................ 33

4.2.2 Atributos de configuración de Entrada .............................................................................. 34

4.2.3 Atributos de configuración de Salida ................................................................................. 35

4.3 Librería PyTTS ........................................................................................................................... 37

4.3.1 Clases de pyTTS .................................................................................................................. 38

Capitulo 5. Análisis de los parámetros disponibles en las herramientas Text to Speech................... 41

5.1 Parámetros de entrada de las herramientas ............................................................................ 41

5.2 Análisis de Fonemas Vocálicos y Consonánticos ...................................................................... 43

Capitulo 6. Conclusiones y trabajos futuros ....................................................................................... 54

6.1 Conclusiones ............................................................................................................................. 55

6.2 Aportaciones ............................................................................................................................. 55

6.3 Trabajos Futuros ....................................................................................................................... 57

Glosario ............................................................................................................................................... 58

Bibliografía .......................................................................................................................................... 64

Anexos ................................................................................................................................................ 67

ANEXO A ............................................................................................................................................. 68

Aplicación Python Text To Speech .................................................................................................. 68

Aplicación Python Text To Speech .................................................................................................. 69

ANEXO B .............................................................................................................................................. 70

Tablas de resultados de los análisis ................................................................................................ 70

Tablas de análisis de cadenas de texto en español .................................................................... 71

Tablas de análisis de cadenas de texto en inglés ........................................................................ 83

LISTA DE FIGURAS

Figura 1. Procedimiento de síntesis de voz. ......................................................................................... 6

Figura 2. Arquitectura común para los sistemas TTS [Furui, 1989]. ..................................................... 7

Figura 3. Arquitectura TTS. ................................................................................................................... 8

Figura 4. Dependencias prosódicas. ..................................................................................................... 9

Figura 5. Reconstrucción de Wheatstone de la máquina parlante de von Kempelen ....................... 13

Figura 6. Tecnologías de síntesis de voz. ............................................................................................ 24

Figura 7. Arquitectura Microsoft Speech SDK .................................................................................... 34

Figura 8. Identificación de atributos del motor de Microsoft Speech SDK 5.1................................... 35

Figura 9. Proceso TTS. ......................................................................................................................... 42

LISTA DE TABLAS

Tabla 1. Fonemas vocálicos. ............................................................................................................... 10

Tabla 2. Fonemas consonánticos ........................................................................................................ 11

Tabla 3. Tabla de fonemas del inglés americano. ............................................................................... 36

Tabla 4. Tabla de visemas del inglés americano. ................................................................................ 37

Tabla 5. Clases de la librería pyTTS. .................................................................................................... 38

Tabla 6. Atributos de las clases OnPhoneme, OnViseme y OnWord.................................................. 39

Tabla 7. Voces empleadas en los análisis. .......................................................................................... 43

Tabla 8. Análisis de fonemas vocálicos. .............................................................................................. 43

Tabla 9. Resultado de análisis de unión de vocales, con voz de mujer mexicana y hombre español.44

Tabla 10. Análisis de las palabras con diptongos. .............................................................................. 46

Tabla 11. Análisis de fonemas de diptongos españoles. .................................................................... 47

Tabla 12. Análisis de palabras del español mexicano con uniones de 3 vocales. .............................. 47

Tabla 13. Pruebas fonemas vocalicos. ................................................................................................ 48

Tabla 14. Pruebas del fonema /c/. ..................................................................................................... 48

Tabla 15. Pruebas del fonema /s/. ...................................................................................................... 49

Tabla 16. Pruebas del fonema /b/. ..................................................................................................... 49

Tabla 17. Prueba del grafema <ou>. ................................................................................................... 49

Tabla 18. Análisis del español mexicano para casos con palabras separadas por espacios en blanco y

comas. ................................................................................................................................................. 49

Tabla 19. Análisis en ingles para las palabras separadas por espacios en blanco y comas. ............... 50

Tabla 20. Prueba grafema <wo>. ........................................................................................................ 50

Tabla 21. Análisis grafemas acompañados de signos del español mexicano. .................................... 51

Tabla 22. Análisis de grafemas del inglés con signos. ......................................................................... 51

Tabla 23. Análisis de grafemas para generar fonemas y visemas de voces españolas. ..................... 52

Tabla 24. Análisis cantidades numéricas sin separación con voz inglés. ............................................ 52

Tabla 25. Análisis cantidades numéricas con separación de punto con voz inglés. ........................... 53

Tabla 26. Análisis cantidades numéricas sin separación con voz español. ........................................ 53

Tabla 27. Análisis cantidades numéricas con separación de punto con voz español. ........................ 53

CAPÍTULO 1.

INTRODUCCIÓN

Los agentes son entidades capaces de percibir su entorno, los cuales pueden procesar lo que

perciben y tener una reacción, es decir una respuesta o actuar en su entorno de manera racional.

Actualmente el uso de agentes con capacidades de diálogo y una representación visual (Agentes

Conversacionales Animados) ha ido en aumento, ya que resultan ser una herramienta fácil de utilizar

que permite una mejor interacción con el usuario. Añadiendo a éstos la funcionalidad de conversión

de Texto a Voz (Text To Speech), éstos agentes animados pueden fungir como guías, maestros o

ayudantes, y pueden brindar ayuda en la búsqueda de información sobre un tema, pudiendo llegar a

mantener una conversación de cualquier tema en específico.

En esta tesis, se presenta el análisis de los atributos del proceso de conversión de texto a voz

(TTS - Text To Speech) y sus sub-productos, para incorporar esta tecnología a un agente

conversacional animado. Con los resultados de éste trabajo se podrá contribuir al proceso de

sincronizar la expresión verbal y no verbal de su diálogo, creando así un comportamiento creíble en

el personaje.

Este trabajo contribuye al desarrollo de la línea de investigación interesada en la generación de

formas de interacción hombre-máquina a través del uso de Agentes Conversacionales Animados que

se desarrolla en la Maestría en Ciencias en Ciencias de la Computación del ITCM. En particular, ésta

tesis complementa los trabajos realizados por Domínguez-Martínez [Domínguez Martínez, 2010] y

Florencia-Juárez [Florencia Juárez, 2010] para dotar a un agente conversacional con una base de

conocimiento AIML capaz de generar un diálogo escrito con expresiones emocionales.

1.1 Objetivos

1.1.1 Objetivo General

Analizar los parámetros y componentes de las herramientas Text To Speech para mejorar la

credibilidad de la prosodia generada y proporcionar información que sirva para la animación de

visemas.

1.1.2 Objetivos específicos

Identificar los parámetros disponibles en las herramientas Text To Speech, su funcionalidad

y efectos.

Identificar los efectos de la manipulación de los parámetros disponibles en la prosodia de la

voz generada.

Identificar que información se puede producir para facilitar la construcción de visemas.

1.2 Problemática

La problemática en el análisis de las tecnologías de Texto a Voz radica en que no se encuentran

documentos suficientes que aporten información sobre la configuración de las herramientas de

conversión TTS. Sólo existe documentación de desarrollos comerciales relacionada a la aplicación

de su tecnología, en los cuales no se aportan información suficiente sobre los atributos involucrados

en las técnicas del proceso de conversión de texto a voz.

1.3 Justificación

Esta tesis se desarrolla con la finalidad de que el análisis de los parámetros existentes en la

conversión TTS sirva en la creación de un prototipo de un agente virtual que proporcione

información sobre la Maestría en Ciencias en Ciencias de la Computación del ITCM.

Para lograr que el usuario del sistema experimente una interacción más natural con la

computadora por medio de asistentes virtuales es necesario que estos expresen emociones por medio

de la voz, así como una expresión no verbal acorde a la misma. Para lograrlo, es necesario

desarrollar con una herramienta capaz de producir habla emocional o que permita controlar los

parámetros asociados a la generación de la prosodia.

1.4 Hipótesis

En esta tesis se busca identificar los parámetros de entrada y salida existentes en un proceso de

conversión de texto a voz, con el fin de manipularlos para generar un asistente virtual más creíble

capaz de producir sincronización labial y expresar emociones a través del habla.

Basándose en el análisis de la información del análisis de los atributos de la conversión TTS, se

pretende determinar si es posible configurar y explotar las herramientas TTS evaluadas para crear un

personaje virtual con las capacidades antes mencionadas.

1.5 Alcances y Limitaciones

Este proyecto está limitado al análisis de los parámetros existentes en el proceso de conversión

TTS, que involucran la velocidad, el tono y el uso de voces sintetizadas, dichos atributos pueden ser

configurados de entrada y arrojan un conjunto de datos asociados a fonemas y visemas.

Debido a que este trabajo se pretende integrar al desarrollo de Juegos Serios y Personajes

Virtuales 3D usando el Motor de Juegos de Panda3D bajo Python, se eligió como tecnología de

conversión de texto a voz al motor de voz Microsoft Speech SDK 5.1 [Microsoft Speech SDK 5.1,

2010] en combinación con la librería PyTTS disponible para Python, la cual permite la manipulación

de los atributos del motor de voz.

1.6 Estructura del documento

Capítulo 1. Introducción. Se presentan los objetivos del trabajo de Tesis, la justificación, la

hipótesis, los alcances y las limitaciones del proyecto.

Capítulo 2. Síntesis de voz. En este capítulo se describe el procesamiento de Texto a Voz, la

arquitectura común de los sistemas que realizan este proceso y se presentan fundamentos de los

términos fonema y visema a partir de los cuales se desarrollan los análisis. También se presenta el

estado del arte del proceso TTS y los retos de dicho proceso.

Capítulo 3. Metodologías de la conversión de texto a voz. Se presentan una descripción de los

métodos de síntesis de voz más empleados.

Capítulo 4. Herramientas Text To Speech. Se presenta el estado del arte de algunos de los

productos de síntesis de voz existentes actualmente. Se incluye la arquitectura del motor de voz

Microsoft Speech SDK 5.1 y la librería pyTTS.

Capítulo 5. Análisis de los parámetros disponibles en las herramientas Text To Speech. Se

presenta un análisis de las pruebas realizadas con el motor de voz Microsoft Speech SDK 5.1.

Capítulo 6. Conclusiones y trabajos futuros. Se presenta una reflexión de las aportaciones y

conclusiones del proyecto.

CAPÍTULO 2.

SÍNTESIS DE VOZ

En este capítulo se introducen los conceptos relacionados al proceso de conversión de texto a

voz y los elementos presentes en la síntesis de voz, también se incluye el estado del arte acerca de

las herramientas desde los inicios de la implementación de este proceso, y algunos aspectos de la

generación de voz concernientes a las expresiones que implican emoción.

2.1 Procesamiento de texto a voz

El habla es el medio principal de comunicación entre las personas, la síntesis de voz es la

producción artificial del habla humana. Se han diseñado diferentes sistemas para este propósito

llamados sintetizadores de voz y pueden ser implementados tanto en hardware como en software.

Recientes progresos en la síntesis de voz han producido sintetizadores con mayor inteligibilidad,

pero el sonido y la naturalidad aún siguen siendo un problema mayor. Un elemento para juzgar la

calidad de la síntesis de voz es su parecido con la voz humana y su potencialidad para ser entendida.

Estos sistemas pueden lograr que personas con discapacidad visual, problemas de lectura o que se

encuentren en actividades en las cuales los ojos y manos están ocupados puedan escuchar

instrucciones.

Análisis de texto y

lingüística

Prosodia y

generación de voz

Nivel fonético

Voz Sintetizada

Texto de entrada

Un sintetizador de voz convierte el lenguaje escrito en habla, por esta característica también es

conocido como sistema TTS (Text To Speech). El habla sintetizada se genera concatenando

segmentos de grabaciones que se encuentran almacenados en una base de datos.

Los sistemas Text to Speech difieren en diversos aspectos, uno de ellos es el tamaño de las

unidades de habla almacenadas. Los sistemas que almacenen fonemas y difonemas proveen el rango

de salida más amplio, sin embargo es posible que su calidad sea baja. Para una salida de alta calidad,

se utiliza la técnica de dominios específicos, en esta técnica el almacenamiento de palabras u

oraciones pre-grabadas enteras permiten una salida de alta calidad.

De forma alternativa, un sintetizador puede incorporar un modelo del tracto vocal y otras

características de la voz humana para generar una voz completamente “sintética” o “electrónica”

[Birkholz – Kroger, 2007].

El procedimiento de síntesis de texto a voz consiste de dos fases principales. La primera fase es

el análisis del texto, donde la cadena de caracteres de entrada es transcrita en una fonética o algunas

otras representaciones lingüísticas, y la segunda etapa es la generación de formas de onda de voz,

donde la salida produce información fonética y prosódica.

Estas dos fases son usualmente llamadas síntesis de alto y bajo nivel. La Figura 1 muestra una

versión simplificada de este procedimiento, la entrada del texto puede ser por ejemplo de un

procesador de palabras. La cadena de caracteres es entonces procesada y analizada en una

representación fonética la cual es usualmente una cadena de fonemas con alguna información

adicional para la correcta entonación, duración y énfasis. Finalmente con el sintetizador de bajo nivel

el sonido de la voz es generado por la información de un sintetizador de alto nivel [Lemmetty, 1999].

Figura 1. Procedimiento de síntesis de voz.

En la Figura 2 se detalla el procesamiento de texto a voz de los sistemas TTS comunes, se puede

observar que existen dos bloques principales que forman el sistema: el bloque de Procesamiento de

Lenguaje Natural (Natural Language Processing o NLP) y el bloque de Proceso de Síntesis.

Procesamiento de

Lenguaje Natural

Proceso de Síntesis

Analizador de Texto

Texto a fonemas

Generador prosódico

Articulatorios

Concatenativos

Formantes

Prosodia

Fonema

s Texto

El bloque de NLP se encarga de producir una transcripción fonética del texto leído, además de la

entonación y el ritmo deseados para la voz de salida, después, el bloque de Proceso de Síntesis

transforma la información simbólica que recibe del bloque anterior, en una voz de salida. El proceso

de síntesis puede llevarse a cabo de diferentes formas, dependiendo de la tecnología empleada, puede

tratarse de una síntesis articulatoria, de formantes, concatenativa, etc., en el Capítulo 3 se describen

los tipos de síntesis de voz más empleados.

Figura 2. Arquitectura común para los sistemas TTS [Furui, 1989].

En el bloque NLP se llevan a cabo dos tareas importantes. La primera tarea es convertir el texto

en material manipulable, convirtiendo símbolos como números o abreviaciones en su equivalente en

palabras escritas. Esto es comúnmente llamado “normalización del texto”, “pre-procesamiento” o

“señalización” (tokenization), la segunda tarea que se realiza es asignar transcripciones fonéticas a

cada palabra y dividirlas en unidades prosódicas tales como frases, cláusulas y oraciones. El proceso

de asignar transcripciones fonéticas en palabras es llamado conversión “texto a fonema” o

conversión “grafema a fonema”. El bloque NLP tiene como salida una representación lingüística, la

cual está formada tanto por las transcripciones fonéticas así como por la información prosódica. El

bloque de Proceso de Síntesis es el sintetizador en sí, ahí es donde se transforma la representación de

la lógica lingüística en sonido [Moreno Azcona, 2008].

La Figura 3 muestra otra forma de explorar la arquitectura del proceso de conversión de texto a

voz, como entrada es admitido un texto sin formato, para que en el proceso pase por el análisis del

texto, análisis fonético y prosódico que forman una síntesis de forma de onda para dar como salida la

voz sintetizada.

2.2 Análisis prosódico en TTS

Solo la adecuada elección de los parámetros prosódicos dados por una duración de sonido y

contornos de entonación permite al TTS producir sonido natural, alta calidad y voz sintética. Uno de

los problemas más grandes en los sistemas de síntesis de texto a voz consiste en la generación

automática de la prosodia natural e inteligibilidad. Existen dos enfoques principales para la

predicción de la estructura prosódica, un enfoque basado en reglas y otro en estocástica.

Dentro de la fonética, la prosodia se define como el uso de tono, volumen, tiempo y ritmo en el

habla para transmitir información sobre la estructura y el significado de un enunciado.

La entonación se refiere al cambio en el patrón de campo o frecuencia fundamental durante la

voz. La prosodia del lenguaje continuo depende de muchos aspectos separados, tales como el

significado de la sentencia y las características del hablante y emociones.

Las dependencias prosódicas son mostradas en el Figura 4. Desafortunadamente, el texto escrito

usualmente contiene muy poca información de estas características y algunas de ellas cambian

dinámicamente durante la producción de la voz. Sin embargo, con algún control específico de los

caracteres de entrada esta información puede ser dada al sintetizador de voz.

Análisis del Texto Normalización del texto Etiquetamiento de la parte del habla Desambiguación homónima

Análisis Fonético Búsqueda en el diccionario Grafema a fonema (LTS)

Análisis prosódico Colocación de límites Campo de asignación de acento Duración de cómputo

Síntesis de forma de onda

Texto sin Formato

Voz de salida

Figura 3. Arquitectura TTS.

PROSODIA

Características del hablante

Género

Emociones

Alegría

Tristeza

El significado de la oración:

Neutral

Imperativo

Pregunta

Frecuencia fundamental

Duración

Énfasis

Debido a que el la acentuación de las frases casi nunca es marcada y el parafraseo prosódico no

siempre es marcado en el texto, si no hay pausas de respiro en el lenguaje o si hay lugares

incorrectos, el lenguaje puede sonar muy poco natural o incluso el significado de la oración puede

ser malentendido.

Por ejemplo en inglés, la cadena de entrada "John says Peter is a liar" puede ser dicho de dos

diferentes formas dando dos diferentes significados como “John says: Peter is a liar” o "John, says

Peter, is a liar". En el primer enunciado la sentencia “Peter is a liar”, y en la segunda “the liar is

John”.

Los anteriores ejemplos indican que debido a errores ortográficos se puede dar una mala

interpretación del habla, algunas de estas consideraciones son tomadas en cuenta en el Capítulo 5 a

fin de ser ejemplificadas.

2.3 Fonemas y visemas

En el subtema anterior se trató la prosodia la cual se encuentra definida en términos de la

fonética; la fonética y la fonología son disciplinas de la lingüística que se encargan de estudiar los

sonidos del lenguaje, la fonética abarca un ámbito mayor que la fonología, en la primera hay una

base acústica mientras que en la segunda se tiende a considerar la imagen mental de lo que

percibimos [Frías Conde, 2001].

Figura 4. Dependencias prosódicas.

La unidad de estudio de la fonología son los fonemas, estos son las estructuras de unidades más

pequeñas de sonido que distinguen el significado para un lenguaje, tales como “oo, ee, ar, m, b, p”,

etc. Reemplazando un fonema con otro cambiará el significado de un enunciado.

Ya que se van a explorar algunas partes de la lingüística y la fonética, se introducen otros

conceptos relacionados con estas disciplinas y ejemplificaciones de sus notaciones; un grafema es la

unidad mínima de un sistema escrito, su notación está dada por los símbolos <n>, anteriormente se

definió lo que es un fonema el cual se representa por /n/, pero también existen los alófonos, son las

variantes que se dan en la pronunciación de un mismo fonema, la notación de estos es [n].

La clasificación de los fonemas está dada por dos grandes unidades: Vocales y Consonantes.

La descripción de los fonemas vocálicos está dada en la Tabla 1, que muestra la clasificación de

las vocales de acuerdo a la forma en que son pronunciadas, por ejemplo: /i/ es una vocal inicial

cerrada.

Iniciales Centrales Finales Cerradas i u Medias e o Abiertas a

Tabla 1. Fonemas vocálicos.

Además, las vocales /a/, /e/, y /o/ son las llamadas vocales fuertes, mientras que /i/ y /u/ son las

débiles. En el Capítulo 5 se incluye una revisión de los diptongos para observar los análisis de los

resultados obtenidos al evaluar estas estructuras.

La Tabla 2 describe los fonemas consonánticos existen en el español. En ésta tabla se incorporan

los siguientes símbolos, los cuáles se describen a continuación:

Es la <z>, en el español europeo este fonema no existe y en su lugar se usa /s/.

Es la <j> y la <g>.

Es la <y>.

Es la <ch>.

Es la <ñ>.

Es la <ll>, para la mayoría de los hablantes de español del mundo este fonema ha desaparecido y se ha sustituido por .

Es la <r> suave, hay que tener en cuenta que la /r/ representa el sonido fuerte.

Bilabial Labiodental Interdental Dental alveolar Palatal Velar

Oclusiva Sonora Sorda

Fricativa Sonora

Sorda Africada Sonora

Nasal Sonora

Lateral Sonora

Vibrante Sonora

Sorda Tabla 2. Fonemas consonánticos

Existen dos elementos que se involucran en la clasificación de los fonemas, uno es el punto de

articulación (lugar en la cavidad bucal que se utiliza) y el modo de articulación (elementos que

participan en la pronunciación).

Para el punto de articulación se tienen en cuenta los siguientes criterios:

Bilabial: Participación de los dos labios

Labiodental: Labio inferior con dientes superiores.

Interdental: Lengua entre los dientes.

Dental: La lengua toca la parte trasera de los dientes superiores.

Alveolar: La lengua toca los alvéolos superiores.

Palatal: La lengua toca el paladar.

Velar: La lengua toca el velo.

Para el modo de articulación hay que distinguir entre plosivas y no plosivas. Las primeras son

aquellas en las que hay una mayor o menos obstaculización en la boca, mientras que las segundas se

pronuncian más directamente.

Las plosivas se dividen en: Oclusivas: Se produce una explosión.

Fricativas: Se produce un roce.

Africadas: Es la combinación de las dos anteriores.

Las no plosivas son: Nasales: Parte del aire sale por la nariz.

Laterales: La lengua sale por los laterales de la boca.

En el Capítulo 5 se incluye una revisión de estos fonemas, además del análisis de estos en la voz

de inglés americana.

Los fonemas de un lenguaje pueden ser clasificados en subgrupos basados en sus apariencias

visuales. Estos subgrupos son llamados visemas y pueden ser considerados como equivalencia visual

a los fonemas. Los visemas pueden además ser descritos como formas clave de la boca donde cada

forma vocal corresponde a uno o más fonemas [Engström, 2003].

Los fonemas que no son distinguibles de otros cuando son vistos en la cara son puestos en el

mismo subgrupo. Por lo tanto los fonemas son frecuentemente confundidos dentro de los subgrupos,

pero raramente entre ellos. Un visema describe las posiciones faciales particulares y orales y los

movimientos que ocurren del lado vocal de los fonemas. Los fonemas y visemas no siempre

comparten correspondencia de uno a uno, regularmente algunos fonemas comparten el mismo

visema.

El termino visema fue introducido por Fisher en 1968 como una abreviación del término visual

phoneme y denota grupos de consonantes que forman clases exclusivas mutuamente. Sin embargo, el

concepto fue creado mucho antes por Alexander Graham Bell entre otros. En un estudio Fisher

[Engström, 2003] probó como los fonemas en la palabra inicial y final son percibidos visualmente,

forzándolos a dar respuestas erróneas por eliminación de la respuesta correcta de la hoja de

respuestas. Cada estimulo tuvo un conjunto cerrado de posibles respuestas hechas de palabras de la

misma estructura silábica y patrón de énfasis como la palabra estímulo. También cada consonante en

las respuestas fue homotípica a la consonante de la prueba de estímulo. Los resultados mostraron que

los fonemas fueron confundidos por 5 grupos de consonantes iniciales y 5 grupos de consonantes

finales, apoyando al concepto de visemas.

2.4 Estado del arte de la síntesis de voz

La voz artificial ha sido un tema de gran interés a través de los años, para comprender como los

sistemas actuales funcionan y como se han desarrollado, aquí se presenta un resumen de la historia

del lenguaje sintetizado desde los primeros esfuerzos mecánicos hasta los sistemas sintetizadores de

hoy en día.

En 1791 von Kempelen en Mechanismus der menschlichen Sprache nebst Beschreibung einer

sprechnenden Maschine (Mecanismo del lenguaje humano con la descripción de una máquina

parlante), describe una máquina hablante consistente de un fuelle que simula los pulmones y un

contrapeso provisto por inhalación, una “caja de viento” funcional con palancas utilizando la mano

derecha , una “boca” hecha de goma y una “nariz” con orificios nasales (la nariz tenía que ser

cubierta con dos dedos para los no nasales), un cierre de la apertura de la boca que permitió producir

sonidos sordos, un pequeño fuelle auxiliar accionado por la cadena que provee de una bocanada de

liberación de sonidos sordos, propiedades de resonancia variada de la “boca” con la mano izquierda

que cubre la apertura, cuerdas vocales simuladas con una caña de marfil y silbatos pequeños que

controlaban las consonantes.

A mediados de 1800 Charles Wheatstone construyó su famosa versión de la máquina hablante de

von Kempelen la cual es mostrada en la Figura 5, con ella fue posible producir vocales y más

sonidos consonantes. Las vocales fueron producidas con caña vibrante y todos los pasajes estaban

cerrados. Las resonancias se efectúan por la deformación del resonador de cuero como en la máquina

de von Kempelen.

La conexión entre el sonido de la vocal especifica y la geometría del tracto vocal fue encontrado

por Willis en 1838, el sintetizó diferentes vocales con los resonadores del tubo como pipas de

órganos, también descubrió que la calidad vocal depende solo de la longitud del tubo y no de su

diámetro.

El primer dispositivo completo de síntesis eléctrica fue representado por Stewart en 1922, el

sintetizador tenía un timbre como excitación y dos circuitos resonantes para modelar las resonancias

acústicas del tracto vocal. La maquina fue capaz de generar un solo sonido vocal estático con dos

formantes más bajos, pero no cualquier consonante o enunciados conectados.

Figura 5. Reconstrucción de Wheatstone de la máquina parlante de von Kempelen

El mismo tipo de sintetizador fue hecho por Wagner. El dispositivo constaba de cuatro

resonadores electros conectados en paralelo y que estaba excitado por una especie de silbato fuente.

Las salidas de los cuatro resonadores eléctricos conectados se combinaron en las apropiadas

amplitudes para producir el espectro vocal.

En 1932 los investigadores japoneses Obata y Teshima descubrieron el tercer formante en

vocales. Los tres primeros formantes son generalmente considerados suficientes para la

inteligibilidad de la voz sintetizada.

El primer dispositivo para ser considerado como un sintetizador de voz fue VODER (Voice

Operating Demonstrator) introducido por Homer Dudley en la feria mundial de New York en 1939.

VODER fue inspirado por VOCODER (Voice Coder) desarrollado en los laboratorios Bell en los

años treinta.

Apple [Apple, 2010] desarrolló sistemas para la síntesis de voz de Macintosh Personal

Computers, dichos sistemas constan de diferente nivel de calidad en 1984 Apple Computers lanza el

MacinTalk que fue el primer sistema de síntesis de voz integrado a un sistema operativo.

Actualmente ha desarrollado el sistema VoiceOver para personas con problemas de la vista.

AmigaOS es el segundo sistema operativo en la historia con un sistema de síntesis de voz,

avanzado fue lanzado en 1985. Contenía un sistema de emulación completo, con voces tanto

masculinas o femeninas de énfasis [Softvoice, 2010].

CereVoice, es un sistema producido por Cereproc LTD, el sistema fue utilizado para construir

pequeñas bases de datos de unidades de selección utilizando información suministrada por el

Blizzard Challenge 2006 [Aylett-Pickock-Fraser, 2006].

El sistema Microsoft Windows utiliza los sistemas de voz SAPI4 y SAPI5. Estos incluyen un

motor de reconocimiento de voz llamado SRE. Todos los programas compatibles con Windows

pueden utilizar las funciones de síntesis de voz, disponibles a través de menús una vez instalados

dentro del sistema. Microsoft Speech Server es un paquete completo para reconocimiento y síntesis

de voz para aplicaciones comerciales como centros de llamado. Microsoft Speech SDK 5.1

[Microsoft Speech SDK 5.1, 2010] es la interfaz de programación de aplicaciones de voz o SAPI

(Speech Application Programming Interface) es una API desarrollada por Microsoft para permitir el

uso de reconocimiento de voz y síntesis de voz dentro de las aplicaciones de Windows.

Festival [Festival, 2010] es un software libre que ofrece un marco general para la construcción

de sistemas de síntesis de voz. En conjunto Festval integra la función de conversión del texto a voz a

través de una API: desde el nivel de núcleo, a través de un esquema intérprete de comandos, como

una librería de C++, de Java, y una interfaz de Emacs. Festival es multilingüe (actualmente Inglés

(británico y americano), y español), aunque el Inglés es el más avanzado. Otros grupos lanzaron

nuevos lenguajes para el sistema. Las herramientas y la documentación completa para construir

nuevas voces están disponibles a través del proyecto de Carnegie Mellon FestVox. El sistema está

escrito en C++ y utiliza la librería de Herramientas de Voz de Edimburgo para la arquitectura de bajo

nivel y tiene un esquema (SIOD) basado en el intérprete de comandos de control.

Loquendo TTS [Loquendo, 2010] es un programa informático que realiza una función de síntesis

del habla. Proporciona voces reales para los datos dinámicos y funciona en cualquier tipo de

aplicación de voz, ofrece voces naturales que pueden leer cualquier dato y comando. El TTS de

Loquendo tiene un algoritmo de alto rendimiento y garantiza una respuesta muy rápida. El motor de

habla de esta tecnología puede sintetizar idiomas y voces distintas simultáneamente, mezclándolas

entre ellas en cada momento y sobre cualquier canal.

Infovox [Infovox, 2010], el sintetizador de voz de la familia Telia Promotor AB es quizás uno

de los mejores productos de conversión de texto a voz multilingüe disponibles hoy en día. La

primera versión comercial Infovox SA-101, fue desarrollada en Suecia en el Royal Institute of

Technology en 1982. El sistema es originalmente del tipo de síntesis formante en cascada.

Digital Equipment Corporation (DEC) [DECtalk, 2010] tiene también gran tradición con los

sintetizadores de voz, el sistema DECTalk originalmente descendió de MITalk y Klattalk. En la

actualidad está disponible para el inglés americano, alemán y español, ofreciendo nueve diferentes

voces personalizadas. El actual sistema DECTalk está basado en la síntesis digital formante. La

entrada del sintetizador es derivada de los símbolos fonéticos incluidos consonantes, vocales,

diptongos, alófonos, y un silencio.

Los laboratorios Bell de AT&T (Lucent Technologies) han desarrollado también tecnología de

síntesis de voz desde la demostración de VODER en 1939. Su primer sistema TTS completo fue

lanzado en 1973. Estaba basado en un modelo articulatorio desarrollado por Cecil Coker. El

desarrollo del actual sistema utiliza síntesis concatenativa iniciada por Joseph Olive a mediados de

1970. El sistema actual está disponible para inglés, francés, español, italiano, alemán, ruso, rumano,

chino y japonés [AT&T, 2010].

ORATOR es un sistema TTS desarrollado por Bell Communications Research (Bellcore), su

síntesis está basada en concatenación demisílaba. La versión reciente de ORATOR es de las más

naturales disponibles hoy en día. Actualmente la versión del sintetizador de voz híbrido de Telcordia

ORATOR II también provee de herramientas de alta calidad, las cuales son altamente precisas para

el manejo de la los servicios de manejo de la base de datos a través de una síntesis de texto a voz

avanzada [Orator, 2010].

SoftVoice Inc. [SoftVoice, 2010] tiene más de 25 años de experiencia en la síntesis de voz, el

cual es conocido como SAM (Software Automatic Mouth) un sintetizador para Commodore C64

(SAM-synthetizer) y Amiga (Narrator), Apple (original MacinTalk), y computadoras Atari en los

pasados 1980s y fue probablemente el primer software comercial basado en sistemas para

computadoras personales caseras. La calidad de voz de SoftVoice probablemente no es la mejor de

los productos disponibles, pero con un gran número de control de caracteres y voces diferentes que

lo hacen muy útil para varios tipos de aplicaciones multimedia.

El proyecto MBROLA [Dutoit – Pagel – Pierret – Bataille – van der Vrecken, 1996] fue iniciado

por los laboratorios TCTS en la Faculté Polytechnique de Mons, Bélgica y su principal objetivo es el

desarrollo de síntesis de voz multilingüe para propósitos no comerciales y aumento de la

investigación académica, especialmente en la generación de prosodia.

SVOX [SVOX, 2010] es un sistema de síntesis de texto a voz alemán el cual ha sido

desarrollado en TIK/ETHZ (Instituto Federal de Tecnología de Zurich). El sistema SVOX consiste

de dos módulos principales. El módulo de transcripción incluye el análisis del texto y la generación

fonológica la cual es el hablante y la voz independiente. La representación fonológica es generada de

cada enunciado de entrada e incluye la cadena del fonema respectivo, el nivel del acento por silaba, y

los límites de la frase (posición, tipo, y longitud y fuerza. El modulo fonoacústico, incluye todos los

componentes dependientes del hablante que son requeridos para generar una apropiada señal de voz

de la representación fonológica.

IVONA Text to Speech [IVONA TTS, 2010] es un sistema de síntesis de voz en varios

idiomas desarrollado en Polish IT compañía de IVO software. IVONA utiliza las unidades

de selección con capacidad limitada, la síntesis de unidades de selección utiliza grandes bases de

datos de voz grabada, durante la creación las voces, cada frase grabada se segmenta en otras o en los

siguientes: tonos individuales, silabas, morfemas, palabras, frases y oraciones.

También se encuentran otros sistemas de voz tales como Expressivo Text Reader [Expressivo,

2010], Power Text To Speech Reader [Power TTS Reader, 2010] y TextAloud [Text Aloud, 2010]

que pueden leer mensajes directamente de un cliente de correo electrónico y páginas de Internet a

través de un navegador. RSS también puede ser leído con software especializado como el Google

gadget, RSS to Speech o Expressivo Text Reader.

El proyecto Pediaphon provee de text to Speech generado dinámicamente para escuchar todos

los artículos de Wikipedia en inglés, francés o alemán. Power Text To Speech Reader soporta voces

masculinas, femeninas y robóticas de 11 lenguajes, también puede monitorear el portapapeles de

Windows y procesar automáticamente su contenido.

2.5 Retos de la conversión de texto a voz

El problema en la síntesis de voz es muy amplio. Existen varios problemas en el

preprocesamiento del texto, tales como numeraciones, abreviaciones, y acrónimos. La correcta

prosodia y la pronunciación del análisis del texto escrito es también un gran problema actualmente.

El texto escrito contiene emociones no explicitas y la pronunciación de nombres propios y

extranjeros es algunas veces muy anómalo. En la síntesis de bajo nivel, la discontinuidad y los

efectos contextuales en los métodos de concatenación de onda son más problemáticos.

La síntesis de voz ha sido encontrada también más difícil con voces de mujeres y niños. Las

voces femeninas tienen un campo casi dos veces más grande que las voces masculinas y con las de

niños puede ser incluso más grande. La frecuencia fundamental hace más difícil estimar las

locuciones de frecuencia formante [Lemmetty, 1999].

2.5.1 Representación Lingüística

La primer tarea enfrentada por cualquier sistema TTS es la conversión de entrada del texto, en

algunos lenguajes, tales como el finlandés, la conversión es muy simple porque el texto escrito casi

corresponde a su pronunciación. Para el inglés y la mayoría de los demás lenguajes la conversión es

mucho más complicada. Un conjunto muy grande de reglas y sus excepciones es necesario para

producir la correcta pronunciación y la prosodia para la voz sintetizada.

El preprocesamiento del texto es usualmente una tarea muy compleja e incluye algunos

problemas dependientes del lenguaje. Los dígitos y numeraciones deben ser ampliados en palabras

completas. Por ejemplo en inglés, el número 243 seria ampliado como two hundred and forty-three y

1750 como seventeen-fifty (en número) o one-thousand seven-hundred and fifty (en medida).

Las fracciones y fechas son también problemáticas. 5/16 puede ser expandida como five-

sixteenths (si es fracción) o May sixteenth (si es fecha). Los números de expansión ordinarios han

sido encontrados también problemáticos. Los primeros tres ordinarios deben ser expandidos de

forma diferente que los otros, 1st como first, 2nd como second, and 3rd como third.

El mismo tipo de los problemas contextuales son enfrentados con los números romanos. Chapter

III debería ser ampliado como Chapter three y Henry III como Henry the third y I no puede ser

pronunciado como un pronombre o un número. Los números romanos pueden ser también

confundidos con algunas abreviaturas comunes tales como MCM. Los números pueden tener

también formas especiales de expresión tales como 22 es double two en los números de teléfono y 1

– 0 como one love en los deportes.

Las abreviaciones pueden ser ampliadas en palabras completas, pronunciadas como están

escritas, o pronunciadas letra por letra. Hay también algunos problemas contextuales. Por ejemplo kg

no puede ser kilogram o kilograms dependiendo de los números precedentes, St. Puede ser saint o

street, Dr. Doctor o drive y ft. Fort, foot o feet. En algunos casos, la información adyacente pude ser

suficiente para encontrar la salida correcta a la conversión, pero para evitar malas conversiones la

mejor solución en algunos casos puede ser el uso de la conversión de letra por letra. Innumerables

abreviaciones para nombres de compañías y otras cosas relacionadas que existentes y las que pueden

ser pronunciadas en muchas formas. Por ejemplo, N.A.T.O. o RAM son usualmente pronunciadas

como están escritas y SAS o ADP letra por letra. Algunas abreviaciones tal como MPEG como

empeg son pronunciadas irregularmente.

Los caracteres especiales y símbolos, tales como '$', '%', '&', '/', '-', '+ ', también causan tipos

especiales de problemas. En algunas situaciones el orden de las palabras puede ser cambiado. Por

ejemplo $71.50 deber ser ampliado como seventy-one dollars and fifty cents y $100 million as one

hundred million dollars, no como one hundred dollars million.

La expresión '1-2' puede ser ampliada como one minus two o one two, y el carácter „&‟ como et

o and. También caracteres especiales y cadenas de caracteres por ejemplo en los web-sites o

mensajes de correo electrónico deben ser ampliados con reglas especiales. Por ejemplo, el carácter

'@' es usualmente convertido como at y los mensajes de correo electrónico pueden contener cadenas

de caracteres, tales como información de cabecera, la cual puede ser omitida. Algunos lenguajes

también incluyen caracteres especiales no ASCII, tales como marcadores de acento o símbolos

especiales [Lemmetty, 1999].

2.5.2 Pronunciación

Las palabras llamadas homógrafas, pueden causar los problemas más difíciles en sistemas TTS.

Los homógrafos son deletreados de la misma manera pero difieren en significado y usualmente en

pronunciación. En inglés la palabra lives es por ejemplo pronunciado de forma diferente en los

enunciados "Three lives were lost" y "One lives to eat". Algunas palabras e.g. lead, tienen diferentes

pronunciaciones cuando las utilizamos como verbo o sustantivo, y entre dos sentidos de sustantivos

(He followed her lead / He covered the hull with lead). Con estos tipos de palabras alguna

información semántica es necesaria para lograr la correcta pronunciación.

La pronunciación de una cierta palabra puede también ser diferente debido a efectos

contextuales. Esto es fácil de ver cuando se comparan frases the end y the beginning. La

pronunciación de the depende del fonema inicial en la siguiente palabra. Las palabras compuestas

son también problemáticas, por ejemplo el carácter 'th' en mother y hothouse es pronunciado

diferente.

Encontrar la correcta pronunciación para los nombres propios, especialmente cuando son

tomados de otros lenguajes, usualmente es uno de las tareas más difíciles para cualquier sistema

TTS. Algunos nombres comunes, tales como Nice y Begin, son ambiguos en contextos capitalizados,

incluyendo sentencias de posición iniciales, títulos y textos simples. Por ejemplo, la sentencia Nice is

a nice place es muy problemática porque la palabra Nice puede ser pronunciada como /nis/ o /nais/.

2.6 Generación de Voz con Emoción

2.6.1 Teorías acerca de la emoción

Para entender el sentido de la generación de las emociones en el habla se exploran 4 teorías

existentes, donde sus precursores muestran los diferentes enfoques en los que puede ser abordado

este tema.

Charles Darwin propone en su publicación de 1872 “The Expression of Emotion in Man and

Animals” que las emociones son fenómenos con importantes funciones de supervivencia para las

especies. Una emoción ocurre si una de las caras es asociada al problema, en orden para ayudarnos a

resolverlo. La asignación del problema de emoción se ha desarrollado durante la evolución. Por lo

tanto la expresión emocional también sirve para la función de supervivencia, ayuda a resolver

problemas, la expresión más notable de la emoción es la expresión facial, Darwin describe estas

expresiones de emoción en detalle [Zotter, 2003], en los 80s y 90s los psicólogos contemporáneos

redujeron las expresiones de emoción a algunas universales (cruce cultural) y un conjunto

reconocible de emoción de arquetipos: alegría, tristeza, miedo, disgusto, enojo y sorpresa.

William James y Carl Lange (1884) afirmaron que las emociones ocurren después de los

cambios corporales. James estableció controversialmente: las emociones ocurren debido a los

cambios corporales:

“lo sentimos porque lloramos”

“nos enojamos porque golpeamos”

“tememos porque temblamos” o “tememos porque corremos”

Si no tengo cuerpo, tendría que ser “excluido de la vida por los afectos”

Magda Arnold en 1960, establece un enfoque cognitivo, en el que los eventos evaluados son

juzgados como buenos o malos para uno mismo, esto ocurre irreflexivamente y automáticamente.

Los cambios corporales y emociones son entonces el resultado de la evaluación. Las emociones

están asociadas a patrones característicos de estimación. Los siguientes juicios son supuestos para

ser hechos en las estimaciones concernientes, la situación es expuesta a: novedad, simpatía,

responsabilidad, esfuerzo, certeza y control.

James Averill en 1980, dice que la emoción no se ve biológicamente determinada, sino como

producto cultural que surge de las reglas sociales aprendidas. Por lo tanto son construcciones

sociales y solo pueden ser entendidas completamente en un nivel social de análisis. En esta vista el

enojo es un sentimiento muy sofisticado el cual es basado en un juicio de moral y se manifiesta si

algunos violan algunos estándares de comportamiento. Incluso la intención de otras personas juega

un papel importante en enojarse. También “perder el control” de uno mismo no es subjetivo

sino un juicio social. Es posible encontrar una explicación para cada emoción básica como una

construcción social.

2.6.2 Expresión de la emoción en la voz

En el marco de inducción del afecto, la función principal de señalización no es expresar emoción

sino influir los afectos de los escuchas y por lo tanto formar su comportamiento (afectar la excitación

de los oyentes). En resumen, la perspectiva de inducción del afecto sostiene que las expresiones

vocales de la emoción no son muestra de los estados del vocalizador, son herramientas de influencia

social [ ].

Los rangos de identificación de la emoción son usualmente mejores para el enojo, miedo y

tristeza. La identificación es pobre para el disgusto, quizás porque este estado no es típicamente

transmitido a través de la voz, sino a través de emblemas vocales o exclamaciones.

Las técnicas para sintetizar la emoción han sido estudiadas de cerca en desarrollos generales en

algoritmos de síntesis de voz. La “Primera generación” de técnicas incluyen el trabajo de Murray y

Cahn quienes utilizaron sintetizadores formantes los cuales eran capaces de variar cada parámetro

del sintetizador como fuera deseado. El paradigma experimental utilizado en estos sistemas fueron

versiones de síntesis múltiple de la misma sentencia cada una con diferente emoción, y luego realizar

una prueba de escucha donde el objetivo era hacer una elección forzada como que lo emociona a el o

que escucha ella. Los resultados de estos sistemas fueron bastante buenos siendo reconocidos con un

bajo grado de falla de precisión. Uno de los problemas con este enfoque, es que se pensó que la

síntesis formante llevaba al mismo a ser capaz de generar diferentes efectos lingüísticos, pero

denesta forma es capaz de crear voz donde la “distancia” entre dos categorías es artificialmente

grande [Taylor, 2009].

Las propuestas de “segunda generación” fueron típicamente una base de datos que contenía

etiquetas emocionales de voz que son analizados para determinar las características de cada emoción.

A menudo estos son llevados a las dimensiones prosódicas tradicionales de F0 (Frecuencia

Fundamental) y tiempo. Una vez conocidos estos patrones, el lenguaje normal puede ser convertido

en voz emocional por el uso de las señales de procesamientos de técnicas de señal.

Considerando que la emoción está relacionada con la acústica vocal, la acústica de la voz es

impregnada con señales indexadas o personales. Las cuales son aspectos no lingüísticos de la

producción de la voz que proveen de acústica correlacionada a variables como el sexo de la persona,

identidad individual, edad y estado emocional.

CAPÍTULO 3.

METODOLOGÍAS DE LA

CONVERSIÓN DE TEXTO A

En este capítulo se presenta una clasificación de las metodologías existentes en el proceso de la

síntesis de voz o producción artificial de habla humana. La cual recibe también el nombre Text-To-

Speech (TTS) en referencia a su capacidad de convertir texto escrito en hablado.

3.1 Tecnologías de síntesis de voz

El proceso de síntesis de voz puede ser dividido en alto y bajo nivel de síntesis. Un sintetizador

de bajo nivel es el dispositivo que genera el sonido de salida de información suministrado por un

dispositivo de alto nivel en algún formato, por ejemplo en la representación fonética. Un sintetizador

de alto nivel es responsable por la generación de la información de entrada al dispositivo de bajo

nivel incluyendo el preprocesamiento correcto del texto, la pronunciación y la información

prosódica. La mayoría de los sintetizadores contienen ambos, sistema de alto y bajo nivel, pero

debido a los problemas específicos con los métodos, son algunas veces desarrollados separadamente.

La voz sintetizada puede ser creada concatenando los pedazos de lenguaje registrado que se

almacenan en una base de datos.

Los sistemas diferencian en el tamaño de las unidades almacenadas de voz, un sistema que

almacena tonos o dítonos, proporciona la gama más grande de texto de salida, pero puede carecer de

claridad.

Un sistema TTS (o el motor) se compone de dos partes: un front-end y un back-end. A grandes

rasgos, el front-end toma el texto de entrada y produce una representación lingüística fonética. El

back-end toma la representación lingüística fonética como entrada y hace salir la forma de onda

sintetizada de la voz. La naturalidad de un sintetizador de voz se refiere generalmente a que tanto la

salida suena como la voz de una persona verdadera.

El front-end tiene dos tareas importantes. Primero toma el texto crudo y convierte partes

problematicas como números y las abreviaturas en sus equivalentes escritos. Este proceso a menudo

se llama normalización del texto, preprocesamiento, o encadenamiento del texto. Entonces asignan

transcripciones fonéticas a cada palabra, y se divide y marca el texto en varias unidades prosódicas,

como frases, las cláusulas, y oraciones [Carnicero Sierra, 2003].

El proceso de asignar transcripciones fonéticas a las palabras se llama conversión del texto a

fonema (TTP) o grafema a fonema (GTP). La combinación transcripciones fonéticas e información

sobre unidades prosódicas del texto emite como la salida representación lingüística fonética.

La otra parte, el back-end, toma la representación lingüística simbólica y la convierte en sonido,

a menudo el back-end es referido como sintetizador.

Los dos aspectos más importantes de la síntesis de voz son la naturalidad y la inteligibilidad. La

naturalidad describe que tanto el sonido generado se asemeja al habla humana, mientras que la

inteligibilidad es la facilidad con la cual se entiende el significado del habla generada. Un

sintetizador de voz trata de maximizar ambas características [Barbosa, 1997].

Las dos tecnologías más empleadas para generar una voz sintética son la síntesis concatenativa y

la síntesis formante.

En la Figura 6 se muestra una clasificación de las metodologías de la síntesis de voz que es

posible generar a partir de un corpus lingüístico, se observa que dentro de la síntesis concatenativa se

desarrollan tres técnicas más, la síntesis de selección de unidades, la síntesis de difonos, y la

específica para un dominio, otras ramas de la clasificación incluyen a la síntesis de formantes, la

síntesis articulatoria, la hibrida y la síntesis basada en HMM, dichas técnicas se describen es los

siguientes subtemas.

3.2 Síntesis concatenativa

La síntesis de Concatenativa [Molina – García - Nuñez, 2006] se basa en el encadenamiento de

segmentos de la voz registrados. Generalmente, la síntesis concatenativa genera la voz sintetizada

que alcanza a sonar más natural. Sin embargo, en la variación natural de la voz grabada en

segmentos extraídos y las técnicas automatizadas para dividir las formas de onda en segmentos

algunas veces da lugar a interferencias audibles en la salida disminuyendo la naturalidad.

Corpus

lingüístico

TSS (Text to Speech) Tecnologías de

síntesis de voz

Síntesis de

formantes

Síntesis

concatenativa

Síntesis por selección de unidades

Síntesis

dífonos

métodos

Síntesis de

dominio

específico

Síntesis

articulatoria

Síntesis

híbrida

Síntesis

basada en

(Modelos

ocultos de

Markov)

Pueden ser creadas en base a

Metodologías

Figura 6. Tecnologías de síntesis de voz.

Hay tres subtipos principales de la síntesis concatenativa:

Síntesis por selección de unidades

Síntesis de dífonos

Síntesis específica para un dominio

3.2.1 Síntesis por selección de unidades

La síntesis de la selección de unidades propuesta por Hunt y Black [Hunt – Black, 1996] es la

base de la mayor parte de los sintetizadores comerciales actuales. Como su nombre lo indica consiste

en la selección de unidades fónicas de un corpus de mayor envergadura. En este caso las unidades no

tienen porque ser difonemas aunque en cualquier caso sigue siendo la unidad más utilizada. La

elaboración de este corpus reviste una mayor complejidad ya que debe ser fonéticamente balanceado

y completo. El algoritmo de síntesis elige las unidades a concatenar en base a factores como la

amplitud, la frecuencia, etc. En esta metodología existen también distintas aproximaciones y

algoritmos como Cluster-Uniys, Multisyn, HTS, Clustergen, etc.

La síntesis de la selección de unidades utiliza las bases de datos del lenguaje (donde más de una

hora de voz es registrada). Durante la creación de base de datos en cada elocución registrada se

divide en segmentos algunos de los siguientes componentes: tonos individuales, sílabas, morfemas,

palabras, frases, y oraciones.

La división en segmentos se puede hacer utilizando varias técnicas, como agrupar, usando un

reconocedor especialmente modificado del lenguaje, o con representaciones visuales tales como las

forma de onda y espectrograma. Un índice de unidades en la base de datos del lenguaje se crea

basado de la segmentación y los parámetros acústicos como la frecuencia fundamental.

Esta técnica da la naturalidad más grande debido al hecho de que no aplica técnicas de proceso

de la señal numérica al discurso registrado, que a menudo hace que el sonido registrado del lenguaje

sea menos natural. De hecho la salida de los mejores sistemas de la selección de unidad es a menudo

indistinguible de voces humanas verdaderas, especialmente en los contextos para los cuales se ha

probado el sistema de TTS. Sin embargo, la máxima naturalidad requiere a menudo bases de datos

del lenguaje tomado de la selección de unidades, en algunos sistemas que se extienden en los

gigabytes de datos registrados y que numeran en las docenas de horas del discurso registrado.

3.2.2 Síntesis de dífono

La síntesis basada en difonemas es la opción más implantada y conocida, se basa en la

utilización de difonemas, es decir, unidades formadas por fracciones de fonemas colindantes, la

segunda mitad del primer fonema y la primer mitad del fonema siguiente. Este método parte de la

grabación de un corpus con todos los difonemas existentes en el idioma a utilizar. Este corpus

consiste en una lista de aproximadamente 1000 palabras artificiales, vocablos sin sentido que

combinan apropiadamente todos los pares de fonemas necesarios en los contextos fonéticos

apropiados. El sintetizador genera la voz combinando dichos difonemas de acuerdo con la

transcripción generada a partir de las reglas “letter-to-sound”.

La síntesis de dífono utiliza una mínima parte de la base de datos del lenguaje que contiene todos

los dífonos (transiciones del sonido a sonido) que ocurre en una lengua dada. El número de dífonos

depende de la fonotáctica de la lengua, el español tiene cerca de 800 dífonos, el alemán cerca de

2500. En la síntesis de dífonos, solamente un ejemplo de cada dífono se almacena en la base de datos

del lenguaje. En el tiempo de ejecución, la prosodia objetivo de una oración se sobrepone en estas

unidades mínimas por medio de técnicas de proceso de la señal numérica tales como codificación

profética linear, PSOLA o MBROLA [MBROLA, 2010].

La calidad del discurso que resulta no es generalmente tan buena como la de la síntesis de

selección de unidades pero más natural comparada con la salida de los sintetizadores formantes. La

síntesis de dífono sufre de interferencias sónicas, la síntesis concatenativa y la naturaleza robótica

que emite de la síntesis del formante.

El uso de este tipo de sintesis en aplicaciones comerciales está declinando, aunque continúa

siendo utilizado en la investigación porque hay un gran número de aplicaciones libremente

disponibles.

3.2.3 Síntesis de dominio especifico

La síntesis de dominio específico concatena palabras previas y frases para crear elocuciones

completas [Lemmetty, 1999]. Esta técnica de síntesis se utiliza en las aplicaciones donde la variedad

de textos que el sistema hará salir se limita a un dominio particular. Esta tecnología es muy simple

de ejecutarse y ha estado en uso comercial durante mucho tiempo, ésta es la tecnología es utilizada

por ejemplo en relojes y en calculadoras. La naturalidad de estos sistemas puede ser potencialmente

muy alta porque la variedad de tipos de la oración es limitada, asocia la prosodia y entonación de los

registros originales. Sin embargo, estos sistemas son limitados ya que las palabras y las frases en su

base de datos no son de uso general y sintetiza solamente las combinaciones de palabras y las frases

que se han preprogramado.

3.3 Síntesis formante

La síntesis formante [Taylor, 2009] fue la primera técnica de síntesis genuina para ser

desarrollada y fue la técnica dominante desde 1980. La síntesis formante es a menudo llamada

síntesis por regla (synthesis-by-rule).

La síntesis formante adopta un enfoque modular, basado en modelos y fonética acústica para el

problema de síntesis. El sintetizador formante hace uso del modelo de tubo acústico, pero no en una

forma particular así que el control de los elementos del tubo son fácilmente relacionados a las

propiedades acústicas fonéticas que pueden ser fácilmente observadas. Una capa típica básica de un

sintetizador formante es mostrada en la Figura 7, en la cual se observa que el sonido es generado de

una fuente, la cual es periódica para los sonidos de la voz y el ruido blanco de sonidos obstruyentes.

Esta fuente básica de la señal entonces es alimentada en el tracto vocal. En virtud de que todos los

sintetizadores formantes, las cavidades orales y nasales son modeladas separadamente como

sistemas paralelos. Por lo tanto la señal pasa en el componente que modela vía oral la cavidad, pero

también puede pasar en el componente para el modelado de la cavidad nasal si es necesario para un

sonido nasalizado.

Finalmente, las salidas de estos componentes son combinados y pasan a través de un

componente de radiación el cual simula la carga y propagación de las características de los labios y

nariz.

Fuente

Cavidad nasal

Cavidad oral /faríngea

Radiación

Forma de onda de la

presión de la voz

Velocidad y volumen fuente

Velocidad y volumen

labio/nariz

Figura 7. Diagrama de bloques del sintetizador formante básico.

El lenguaje sintetizado de tipo formante puede ser muy inteligible, incluso a una velocidad muy

elevada, evitando las interferencias acústicas que pueden plagar a menudo a los sistemas

concatenativos. Los sintetizadores formantes son a menudo programas más pequeños que los

sistemas concatenativos porque no tienen una base de datos de las muestras de lenguaje. Pueden ser

utilizados así en situaciones que donde a menudo es escasa la memoria y la energía del procesador.

Los sistemas basados en la síntesis formante tienen control total sobre todos los aspectos del

lenguaje de la salida, una variedad amplia de prosodia o la entonación se puede hacer salir,

transportando no solo declaraciones, sino una variedad de emociones y tonos de la voz.

3.4 Otros métodos

3.4.1 Síntesis articulatoria

La síntesis articulatoria [Lemmetty, 1999] se refiere a las técnicas computacionales para la

síntesis de voz basada en modelos humanos del tracto vocal y los procesos de articulación ocurren

ahí. El primer sintetizador articulatorio regularmente utilizado para experimentos de laboratorio fue

desarrollado en los laboratorios Haskins a mediados de 1970 por Philip Rubin, Tom Baer y Paul

Mermelstein. Este sintetizador, conocido como ASY, estaba basado en modelos del tracto vocal

desarrollados en los Laboratorios Bell en 1960 y 1970 por Paul Mermelstein, Cecil Coker y colegas.

Recientemente los modelos de síntesis articularia no han sido incorporados en los sistemas de

síntesis de voz comerciales. Una excepción notable es NeXT. El sistema, comercializado por primera

vez en 1994, proporciona el texto articulatorio completo basado en texto a voz utilizando una

transmisión de línea analógica de los tractos oral y nasal humanos.

3.4.2 Síntesis Híbrida

La síntesis híbrida [Lemmetty, 1999] mezcla aspectos de la síntesis formante y concatenativa

para disminuir las interferencias acústicas de cuando se concatenan los segmentos del lenguaje, esta

técnica es utilizada en muchos sintetizadores digitales, aunque con diferentes variantes.

3.4.3 Síntesis basada en HMM (Modelos ocultos de Markov)

Tecnologías modernas de síntesis de voz involucran amplios y complicados métodos y

algoritmos. Uno de los métodos aplicados recientemente en la síntesis de voz es el basado en los

modelos ocultos de Markov (HMM) [Lemmetty, 1999]. HMM ha sido aplicado al reconocimiento de

voz desde 1970. Para los sistemas de síntesis de voz ha sido utilizado por cerca de dos décadas.

Un modelo oculto de Markov es una colección de estados conectados por transiciones con dos

conjuntos de probabilidades en las cuales: una transición de probabilidad la cual provee la

probabilidad para llevar esta transición, y una salida de función densidad de probabilidad (pdf) que

define la probabilidad que condiciona la emisión de cada símbolo de salida de un alfabeto finito

dado a la transición.

CAPITULO 4.

HERRAMIENTAS TEXT TO

SPEECH

En este capítulo se presenta una revisión de las herramientas más conocidas actualmente que

realizan la técnica de conversión texto a voz. Además, se presenta la arquitectura y parámetros

configurables del motor TTS que se emplea.

4.1 Estado del arte de los productos de síntesis de voz

En las siguientes secciones se introducen algunas herramientas de conversión de texto a voz

disponibles, ya sea comerciales o de libre distribución, es imposible incluir todas las aplicaciones o

productos existentes pero al menos se muestran los más conocidos.

4.1.1 Microsoft Speech API

La Interfaz de Programación de Aplicación de Voz o SAPI [Microsoft Speech SDK 5.1, 2010] es

una API desarrollada por Microsoft para permitir el uso del reconocimiento y síntesis de voz dentro

de aplicaciones de Windows. En general todas las versiones de la API han sido diseñadas de tal

forma que un desarrollador de software pueda escribir aplicaciones para ejecutar la síntesis y

reconocimiento de voz utilizando un conjunto de interfaces estándar, accesibles desde una variedad

de lenguajes de programación.

El sistema de Windows moderno utiliza los sistemas de voz SAPI4 y SAPI5 que incluyen un

motor de reconocimiento de voz.

4.1.2 Cepstral

Cepstral [Cepstral, 2010] proporciona tecnologías de voz y servicios para la reproducción oral de

la información. Emplea voces de alta calidad que se escuchan naturales para diversas aplicaciones.

Cepstral Text-To-Speech (TTS) los motores y las voces se pueden implementar en dispositivos

móviles o en varias instancias en las plataformas de servidor.

Cepstral también ha creado nuevas técnicas para que las voces de uso general y las "voces de

dominio", que permiten que el habla generada pueda adaptarse a una aplicación, de esta forma

Cepstral desarrolla un proceso simplificado para la creación de voces sintéticas.

4.1.3 Festival

Festival [Festival, 2010] es un software libre que ofrece un marco general para la construcción

de sistemas de síntesis de voz, así como también incluye ejemplos de varios módulos que han sido

implementados.

En conjunto ofrece el texto íntegro al discurso a través de una API: desde el nivel de capa, a

través de un intérprete de comandos de esquema, como una librería de C++, de Java, y una interfaz

de Emacs.

Festival es multilingüe (actualmente Inglés (británico y americano), y español), aunque el Inglés

es el más avanzado. Otros grupos lanzaron nuevos lenguajes para el sistema. Las herramientas y la

documentación completa para construir nuevas voces están disponibles a través del proyecto de

Carnegie Mellon FestVox.

El sistema está escrito en C++ y utiliza la librería de Herramientas de Voz de Edimburgo para la

arquitectura de bajo nivel y tiene un esquema (SIOD) basado en el intérprete de comandos de

control.

Festival en la actualidad cuenta con tres tecnologías de síntesis de voz, de difonemas, selección

de unidades y el método basado en los modelos ocultos de Márkov.

4.1.4 Loquendo

Loquendo TTS [Loquendo, 2010] es un programa informático que hace la función de síntesis del

habla. Proporciona voces reales para los datos dinámicos y funciona en diversas aplicaciones de voz,

también ofrece voces naturales con capacidades para aplicaciones multimodales de voz.

El TTS de Loquendo puede sintetizar idiomas y voces distintas simultáneamente, la existencia

de un léxico de usuario asegura que vocabularios especializados, abreviaciones, acrónimos e incluso

entonaciones regionales estén pronunciadas correctamente.

El User Dictionary asegura que los términos especializados de vocabulario, las abreviaciones, las

siglas y también las diferencias regionales en la pronunciación suenan en el justo modo en el

momento en el que el desarrollador las crea.

4.1.5 IBM Vía Voice

Con la tecnología ViaVoice [IBM Via Voice] detrás de pequeños dispositivos móviles de hoy y

los sistemas de telemática del automóvil, los desarrolladores pueden proporcionar a los

usuarios con acceso de voz a la información.

IBM ViaVoice es una herramienta que desarrolla aplicaciones avanzadas de voz para

dispositivos y sistemas a distancia, también reconoce listas de vocabulario de más de 200,000

palabras en tiempo real y a través de una amplia gama de idiomas, además incluye transferencia,

integración, pruebas y servicios de consultoría prestados por IBM.

4.1.6 SVOX

SVOX [SVOX, 2010] es un sistema de síntesis de texto a voz alemán el cual ha sido

desarrollado en TIK/ETHZ (Instituto Federal Suizo de Tecnología, Zurich). El sistema SVOX

consiste de dos módulos principales. El módulo de transcripción incluye el análisis del texto y la

generación fonológica la cual es el hablante y la voz independiente. La representación fonológica es

generada de cada enunciado de entrada e incluye la cadena del fonema respectivo, el nivel del acento

por silaba, y los límites de la frase (posición, tipo, y longitud y fuerza. El modulo fonoacústico,

incluye todos los componentes dependientes del hablante que son requeridos para generar una

apropiada señal de voz de la representación fonológica.

4.1.7 IVONA TTS

IVONA [IVONA TTS, 2010] es un sistema de síntesis de voz en varios idiomas desarrollado

en Polish IT compañía de IVO software. IVONA utiliza la técnica de unidades de selección, este tipo

de síntesis utiliza grandes bases de datos de voz grabada, durante la creación de las bases de datos

cada frase grabada se segmenta en otras como tonos individuales, sílabas, morfemas, palabras, frases

y oraciones.

La división en segmentos se realiza usando un reconocedor de voz especialmente modificado.

Un índice de las unidades de voz en la base de datos se crea sobre la base de la segmentación y los

parámetros acústicos como la frecuencia fundamental (tono) o la duración. En tiempo de ejecución,

la emisión objetivo deseada se crea mediante la determinación de la mejor cadena de unidades

candidato de la base de datos (selección de unidades).

4.2 Proceso de conversión de texto a voz de Microsoft Speech SDK 5.1

4.2.1 Arquitectura Microsoft Speech SDK 5.1

Microsoft Speech SDK 5.1 [Microsoft Speech, 2011] es una interfaz de programación de

aplicaciones de voz, también conocida en inglés como SAPI (Speech Application Programming

Interface). Es una API desarrollada por Microsoft para permitir el uso de reconocimiento de voz y

síntesis de voz dentro de las aplicaciones de Windows.

Las aplicaciones que utilizan SAPI incluyen Microsoft Office, Microsoft Agent y el servidor de

voz de Microsoft.

SAPI, reduce drásticamente la sobrecarga de código necesario que requiere una aplicación para

utilizar el reconocimiento de voz y texto a voz, haciendo la tecnología de voz más accesible y

robusta para una amplia gama de aplicaciones.

La API SAPI proporciona una interfaz de alto nivel entre una aplicación y los motores de voz.

SAPI implementa todos los detalles de bajo nivel necesarios para controlar y gestionar las

operaciones en tiempo real de los diferentes motores de voz. Los dos tipos básicos de motores SAPI

son de texto a voz (TTS) y sistemas de reconocimiento del habla. Los sistemas TTS sintetizan

cadenas de texto en archivos de audio hablado con voces sintéticas. Los reconocedores de voz

convierten audio de habla humana en cadenas de texto legible y archivos, la Figura 8 muestra la

arquitectura del motor Microsoft Speech SDK.

4.2.2 Atributos de configuración de Entrada

La interfaz principal de ésta SAPI es ISpVoice, que es una plataforma de Microsoft para

componentes de software (Component Object Model –COM–) que permite comunicación entre

procesos.

La interfaz ISpVoice permite que una aplicación realice operaciones de síntesis de texto de

forma sincrónica o asincrónica.

Es posible elegir una voz TTS específica utilizando el método ISpVoice::SetVoice. El estado de

la voz (por ejemplo, velocidad, tono y volumen), puede modificarse mediante etiquetas XML de

SAPI que están incrustadas en el texto hablado. Algunos atributos, como la velocidad y volumen,

pueden cambiarse en tiempo real utilizando ISpVoice::SetRate y ISpVoice::SetVolume.

Una vez que la aplicación ha creado un objeto ISpVoice, la aplicación solo necesita llamar a

ISpVoice::Speak para generar voz de salida, la Figura 9 muestra como operamos el motor de voz con

las propiedades de síntesis antes mencionadas.

El método IspVoice::Speak puede operar de forma síncrona (retorna solo cuando fue

completamente finalizada el habla) o asíncrona (retorna inmediatamente y habla como un proceso de

fondo). Cuando se habla de forma asíncrona (SPF_ASYNC), la información de estado en tiempo real

tal como la ubicación del habla y el estado actual del texto pueden ser consultados utilizando

Aplicación Aplicación

SAPI Runtime

Motor de reconocimiento

Motor TTS

Figura 7. Arquitectura Microsoft Speech SDK

ISpVoice::GetStatus. También al hablar de forma asíncrona, el nuevo texto se puede generar de

forma inmediata por la interrupción de la corriente de salida (SPF_PURGEBEFORESPEAK), o

automáticamente agregar el nuevo texto al final de corriente de salida.

4.2.3 Atributos de configuración de Salida

Los datos que se pueden obtener del proceso de síntesis de voz a partir de un texto dependen de

los métodos y parámetros de las librerías que se utilicen para acceder al SAPI. En nuestro caso, se

realizará a través de la librería de Python llamada PyTTS. En la sección 4.3 se presentan los

métodos y atributos que se utilizaron en este trabajo.

A continuación se presentan en 2 tablas el alfabeto de fonemas que se encuentra documentado en

el SAPI 5 y los identificadores del conjunto de visemas que se trabajan, éstos últimos están basados

en la propuesta de 13 Visemas de Disney.

Tecnología de síntesis de voz

(Loquendo)

Aplicación (Python)

Texto Voz

Fonemas Visemas Palabras

Arroja información de

Motor de voz Microsoft

Speech SDK5.1

Propiedades de síntesis del ISpVoice

ISpVoice::Speak

ISpVoice::SetRate

ISpVoice::SetVolume

ISpVoice::SetVoice

Figura 8. Identificación de atributos del motor de Microsoft Speech SDK 5.1.

TABLA DE FONEMAS ( Fonemas del Inglés Americano)

SIMBOLO EJEMPLO - Descripción

PhoneID SIMBOLO EJEMPLO - Descripción PhoneID

- guion 1 ng sing 34

! Signo admiración 2 ow go 35

& 3 oy toy 36

, Coma 4 p put 37

. Punto 5 r red 38

? Signo de interrogación

6 s sit 39

_ Silencio (raya) 7 sh she 40

1 Acento prosódico primario

8 t talk 41

2 Acento prosódico secundario

9 th thin 42

aa father 10 uh book 43

ae cat 11 uw too 44

ah cut 12 v vat 45

ao dog 13 w with 46

aw foul 14 y yard 47

ax ago 15 z zap 48

ay bite 16 zh pleasure 49

b big 17

ch chin 18

d dig 19

dh then 20

eh pet 21

er fur 22

ey ate 23

f fork 24

g gut 25

h help 26

ih fill 27

iy feel 28

jh joy 29

k cut 30

l lid 31

m mat 32

n no 33

Tabla 3. Tabla de fonemas del inglés americano.

TABLA DE VISEMAS

VISEME Fonemas descritos por SAPI

SP_VISEME_0 Silence

SP_VISEME_1 ae, ax, ah

SP_VISEME_2 aa

SP_VISEME_3 ao

SP_VISEME_4 ey, eh, uh

SP_VISEME_5 er

SP_VISEME_6 y, iy, ih, ix

SP_VISEME_7 w, uw

SP_VISEME_8 ow

SP_VISEME_9 aw

SP_VISEME_10 oy

SP_VISEME_11 ay

SP_VISEME_12 h

SP_VISEME_13 r

SP_VISEME_14 l

SP_VISEME_15 s, z

SP_VISEME_16 sh, ch, jh, zh

SP_VISEME_17 th, dh

SP_VISEME_18 f, v

SP_VISEME_19 d, t, n

SP_VISEME_20 k, g, ng

SP_VISEME_21 p, b, m

Tabla 4. Tabla de visemas del inglés americano.

4.3 Librería PyTTS

El módulo pyTTS es la librería para manejar los servicios Text-to-Speech de Microsoft Speech

API (SAPI) para su uso en Python. Se basa en la biblioteca win32com para la obtención y la

comunicación con las interfaces COM SAPI. Ejemplos de las tareas más comunes de texto a voz son

texto al habla, cambiar los parámetros de voz, hablar a o desde un archivo WAV, corregir

pronunciación, y controlar los eventos del habla.

Para utilizar el modulo pyTTS se necesitan los siguientes componentes:

Microsoft SAPI 5.1

Python

pyTTS 3.0 o superior

4.3.1 Clases de pyTTS

Esta librería está compuesta de 5 clases, las cuales se describen a continuación

CLASES DESCRIPCION

Base Clase padre para todas las interfases del sintetizador de habla

SynthAndOutput Define métodos para la voz de audio de salida.

SynthOnly Define un método para la voz sintetizada con eventos asociados a la memoria como mas rapido sea possible.

VoiceEvent Contiene información acerca de un evento TTS.

VoiceEventManager Distribuye eventos para los retorno de llamada registrados.

A continuación se presentan las 2 Clases principales que se utilizan de ésta librería y los métodos

más utilizados.

CLASE METODO DESCRIPCION

BASE SetRate(self, rate) Fija la tasa de velocidad de la voz

BASE SetVoice(self, obj)

BASE SetVoiceByName(self, voice_name) Fija una voz dada para activar la voz.

BASE SetVolume(self, vol) Fija el volumen de voz actual.

BASE Speak(self, text, *flags) Método virtual.

VoiceEventManager OnPhoneme(self, stream_number, stream_position, duration, next_phone_id, feature, current_phone_id)

Se activa cuando un fonema es encontrado en una secuencia del habla.

VoiceEventManager OnSentence(self, stream_number, stream_position, character_position, length)

Se activa cuando una sentencia es encontrada en un flujo de la voz.

VoiceEventManager OnViseme(self, stream_number, stream_position, duration, next_viseme_id, feature, current_viseme_id)

Se activa cuando un visema es encontrado en una secuencia del habla.

VoiceEventManager OnWord(self, stream_number, stream_position, character_position, length)

Fires when a phoneme is encountered in a speech stream. Se activa cuando un fonema es encontrado en un flujo de la voz.

VoiceEventManager OnEndStream(self, stream_number, stream_position) Se active cuando el flujo de voz termina.

Tabla 5. Clases de la librería pyTTS.

En Python, las propiedades de ISpVoice, ISpVoice::SetRate, ISpVoice::SetVolume,

ISpVoice::SetVoice son configuradas de la siguiente forma:

tts.SetRate = 0

tts.SetVolume = 100

tts.SetPitch = 0

Los rangos de valores de estos tres atributos, va desde 0 a 100. El atributo Pitch, aunque puede

asignársele valor en Python, su modificación no afecta los valores de la salida del audio, por lo cual

se definió con valor cero para el desarrollo de las pruebas. La propiedad ISpVoice::SetVoice es

configurada de la siguiente forma:

tts.SetVoiceByName('LQEsperanza')

Esto muestra la configuración de voz para el idioma latino mexicano de género femenino, que

corresponde al identificador „LQEsperanza‟.

El método IspVoice::Speak es llamado en Python de la siguiente forma:

tts.Speak("él!", 1) #1: Significa ASÍNCRONO

La Tabla 6 muestra los atributos a los cuales se les puede configurar desde Python,

pertenecientes a las clases OnWord, OnPhoneme y OnViseme en Python.

Clases Parámetros Descripción Tipo

OnPhoneme

Stream_number Posición del flujo de la cola de secuencias del habla

Entero

Stream_position Desplazamiento de bytes en el que se produjo el evento

Entero

Duration Duración del fonema en milisegundos Entero

Next_phone_id ID del siguiente fonema Entero

Feature Indica si el fonema es normal, acentuado o con énfasis

Entero (0, 1, 2)

Current_phone_id ID del fonema actual Entero

OnViseme Stream_number Posición del flujo de la cola de secuencias del habla

Entero

Stream_position Desplazamiento de bytes en el que se produjo el evento

Entero

Duration Duración del visema en milisegundos Entero

Next_viseme_id ID del siguiente visema Entero

Feature Indica si el visema es normal, acentuado o con énfasis

Entero (0, 1, 2)

Current_viseme_id ID del visema actual Entero

OnWord Stream_number Posición del flujo en la cola de flujos para el habla

Entero

Stream_position Desplazamiento de bytes en el cuál el evento ocurrió

Entero

Character_position Posición del inicio de la sentencia en el flujo Entero

Length Longitud de la palabra en caracteres Entero

Tabla 6. Atributos de las clases OnPhoneme, OnViseme y OnWord.

Durante el desarrollo de las pruebas se encontró que el atributo duration tanto para fonema para

visema resulto con valores iguales, el atributo feature para todas las pruebas en los diversos casos,

siempre arrojó el valor de „1‟. Los atributos que se utilizaron en nuestro análisis son los siguientes:

duration, next_viseme_id, next_phoneme_id y current_viseme_id.

CAPITULO 5.

ANÁLISIS DE LOS

PARÁMETROS DISPONIBLES

EN LAS HERRAMIENTAS TEXT

TO SPEECH

En este capítulo se presenta el análisis detallado de las pruebas realizadas, incluyendo una

descripción de los resultados obtenidos a partir del conjunto de parámetros configurados de entrada

en el proceso de conversión de texto a voz a fin de obtener información de fonemas y visemas

asociados a los textos de entrada.

5.1 Parámetros de entrada de las herramientas

Como se vio en el Capítulo 2, en la conversión de Texto a Voz el sintetizador es ejecutado en el

programa para generar la voz.

En el análisis se recibe una cadena de caracteres, es el cuerpo textual el que es tomado como

entrada para el proceso de conversión. En la Figura 9, en el proceso de análisis del texto se

identifican los atributos que intervienen en la conversión de texto a voz, los cuales son los fonemas y

otros elementos relacionados con la fonética, además de los visemas.

Los fonemas y visemas generan una estructura lingüística que permite la generación de voz, que

arroja como producto una voz sintetizada que reproduce el texto de entrada en conjunto con los

atributos configurables como lo son el tono, la velocidad y el volumen, es importante mencionar que

al modificar el tono no se presenta alteración de los resultados.

Los atributos que son arrojados del proceso son los fonemas y visemas, en el Capítulo 2 se

presenta una revisión teórica de estos conceptos. Además de estos parámetros, en relación con la

cadena de texto a procesar, también se observa el idioma, siendo considerados el inglés y el español.

Se incluyen voces sintetizadas tanto en español como en inglés con la finalidad de observar la

variación en la generación de fonemas y la aparición de visemas relacionados a estos.

Para tener una guía de apoyo en el desarrollo de las pruebas se hace uso de algunas

consideraciones referentes la lingüística, si bien no es posible incluir una revisión lo suficientemente

general debido a lo extenso de esta ciencia, se integran ejemplos que permiten explorar ciertas partes

del lenguaje oral y escrito para así determinar qué elementos de la prosodia son identificados en los

valores de los fonemas producidos.

La Tabla 7 muestra la descripción de las voces empleadas en las pruebas, como se puede

observar no se introdujo una voz masculina del español mexicano debido a que los fonemas y

visemas que genera la voz contemplada para este propósito resultan imprecisos de comprender, a

diferencia de los otros idiomas.

Es importante mencionar que tampoco es posible incluir una revisión de la totalidad de la

gramática de los idiomas, se ha optado por considerar partes del lenguaje oral y escrito, a lo que

antes se hizo referencia.

Estructura Lingüística

Cuerpo Textual Entrada del

Texto Análisis

del texto

Generación

de voz

Voz Sintetizada

Figura 9. Proceso TTS.

Voces Género Origen Idioma Tecnología

Esperanza Femenino México Español Loquendo

Jorge Masculino España Español Loquendo

Carmen Femenino España Español Loquendo

Susan Femenino USA Inglés Loquendo

Dave Masculino USA Inglés Loquendo

Tabla 7. Voces empleadas en los análisis.

Se integran ciertas contemplaciones como la aparición de acentos y la fonética esperada, añadir

signos de puntuación, interrogación y admiración y las diferencias sonoras generadas en adición con

los valores de los fonemas que se identifiquen, la aparición de espacios en blanco, la distinción de

algunos grafemas y el análisis de los fonemas vocálicos y consonánticos ya sea en forma singular o

dentro de palabras.

5.2 Análisis de Fonemas Vocálicos y Consonánticos

En la Tabla 1 del Capítulo 2 se muestran los fonemas vocálicos, cabe mencionar que en los

ejemplos que siguen existen variaciones en algunas combinaciones de vocales, en las siguientes

secciones se referirán estas alteraciones encontradas en los fonemas, la mayoría de las variaciones

son interpretadas en el contexto de las palabras.

Aunque en la Tabla 1 del Capítulo 2 aparece la clasificación de vocal media, en general suele

considerarse a las vocales a, e y o como abiertas y a i y u como cerradas.

Antes de revisar las uniones de vocales, se presenta la Tabla 8 que contiene el análisis

comparativo entre la voz española y mexicana de las vocales cuando no se encuentran dentro de otra

palabra o en unión con otra letra.

Vocal Idioma ID Fonema ID Visema Duración (ms)

a Mexicano 97 10 227

Español 10 2 222

e Mexicano 101 4 222

Español 11 4 195

i Mexicano 105 6 218

Español 12 6 239

o Mexicano 111 3 215

Español 13 8 217

u Mexicano 117 7 254

Español 14 7 231

Tabla 8. Análisis de fonemas vocálicos.

El idioma mexicano empleado en esta comparativa corresponde a una mujer, mientras que el del

español es de un hombre, más adelante se revisará el análisis desde otras perspectivas y se incluirán

observaciones de los fonemas y visemas generados por las voces en inglés.

En la Tabla 9 se pueden observar las similitudes de los identificadores de visemas para cada

idioma. Se puede observar que no existe diferencia para las letras e, i y u.

También se observa que no existe relación alguna entre los identificadores de los fonemas para

ambos idiomas.

Para entender el sentido de las pruebas con los fonemas vocálicos que se presentan en esta

sección, hay que tener en cuenta que el diptongo se define como la unión de dos vocales en la misma

sílaba, un diptongo es conformado por dos vocales cerradas, una abierta y una cerrada o una cerrada

y una abierta, dos vocales abiertas no constituyen un diptongo sino un hiato y deben separarse en

distintas sílabas.

Vocales VOZ MUJER - MEXICANA VOZ HOMBRE - ESPAÑOL

Id Fonema Id Visema Duración (ms) Id Fonema Id Visema Duración (ms)

ae 97|101 10|4 108|166 10|11 2|4 117|100

ai 97|105 10|6 174|56 10|12 2|6 94|112

ao 97|111 10|3 179|148 10|13 2|8 95|98

au 111 3 215 13 8 217

ea 101|97 4|10 94|108 11|10 4|2 96|162

ei 101|105 4|6 196|119 11|12 4|6 56|151

eo 101|111 4|3 144|121 11|13 4|8 99|97

eu 101|117 4|7 103|114 11|14 4|7 96|154

ia 105|97 6|10 185|124 12|10 6|2 115|99

ie 106|101 6|4 115|181 33|11 6|4 85|197

io 106|111 6|3 100|217 33|13 6|8 65|147

iu 106|117 6|7 161|197 33|14 6|7 85|213

oa 111|97 3|10 126|134 13|10 8|2 133|149

oe 111|101 3|4 184|114 13|11 8|4 133|99

oi 111|105 3|6 165|200 13|12 8|6 118|192

ou 111|117 3|7 135|142 13|14 8|7 137|154

ua 117|97 7|10 174|191 14|10 7|2 58|194

ue 117|101 7|4 152|198 14|11 7|4 81|184

ui 117|105 7|6 152|200 14|12 7|6 81|158

uo 117|111 7|3 147|158 14|13 7|8 81|106

aa 97|97 10|10 164|124 10|10 2|2 108|124

ee 101|101 4|4 113|105 11|11 4|4 103|111

ii 105|105 6|6 148|128 12|12 6|6 88|134

oo 111|111 3|3 151|158 13|13 8|8 125|124

uu 117|117 7|7 147|142 14|14 7|7 81|134

Tabla 9. Resultado de análisis de unión de vocales, con voz de mujer mexicana y hombre español.

Existe también una clasificación para los diptongos, estos son los crecientes y los decrecientes,

los crecientes son los que se conforman por uniones de vocales donde la primera es cerrada y la

segunda abierta, siendo el caso contrario para los diptongos decrecientes, aunque también existen los

casos especiales donde la unión de las vocales son dos cerradas.

En la Tabla 10 se muestra el análisis completo de las combinaciones donde interviene la unión

de 2 vocales. Es importante mencionar que en el análisis de la voz en español mexicana, la duración

de los fonemas se ve afectada dependiendo de la ubicación de la vocal, sin embargo los visemas

conservan el mismo identificador, se ha añadido el diptongo ou aunque no es genuinamente

castellano, debido a que en el idioma español existen nombres propios o palabras adaptadas del

inglés que lo contienen.

Del análisis, se observa que de los fonemas vocálicos se puede deducir que para casos como la

secuencia de vocales „au‟, solo se identifica un fonema medible, resultado de la asociación de ambas

vocales, el resto de las uniones de las vocales implican dos fonemas.

Analizando las vocales „ia‟, se encuentran dos fonemas correspondientes a cada vocal es decir /i/

y /a/, lo que significa que la unión de estas vocales resultan en dos sonidos, a diferencia de la

secuencia de vocales „au‟ las cuales solo registran un fonema.

Cabe mencionar que para las voces españolas también es encontrado un solo fonema y visema

para tal secuencia de vocales „au‟, pero los identificadores de estos visemas son diferentes a los del

español mexicano, esto se muestra en la Tabla 5.

Para el análisis de los fonemas consonánticos nos encontramos con la asociación de varios

fonemas para construir la lectura de las consonantes, ya que las letras son leídas como en el español

las escuchamos.

Las consonantes se escuchan en el contexto donde se encuentren, al encontrar letras solas como

en el caso particular de „t‟ al cual se le asocia el mismo fonema en contexto y además el fonema

asociado a la vocal „e‟, estos constituyen la lectura completa de la letra, su sonido especifica „te‟ y no

„t‟ como era de esperarse, lo cual nos lleva a la prueba de la palabra „te‟ la cuál experimenta la

misma duración y fonemas asociados, al igual que los valores de los visemas, algunas observaciones

son mostradas en la Tabla 6, las tablas del análisis completo de estas consideraciones está incluido

en los Anexos.

En la Tabla 6 se muestra una comparación de los fonemas y visemas entre el español mexicano y

el español de España. La mayoría de los visemas encontrados entre ambos idiomas resultan con el

mismo identificador, esto se puede observar de forma más clara en la Tabla X, en la cual se muestra

la lista de símbolos.

Palabra Idioma Fonema Visema Duración (ms)

Tierra Mexicano 116|106|101|114|97 19|6|4|13|10 87|69|131|109|114

Español 15|33|11|32|10 19|6|4|13|2 68|59|56|109|101

Paisaje Mexicano 112|97|105|97|120|101 21|10|6|15|10|12|4 57|76|46|135|147|102|85

Español 17|10|12|24|10|25|11 21|2|6|15|2|12|4 63|47|61|93|81|119|78

Veinte Mexicano 98|101|105|110|116|101 21|4|6|19|19|4 63|108|58|62|73|116

Español 18|11|12|27|15|11 21|4|6|19|19|4 64|85|35|73|81|137

Adeudo Mexicano 97|240|101|117|240|111 10|17|4|7|17|3 122|75|30|201|64|139

Español 10|7|11|14|7|13 2|0|4|7|0|8 75|44|59|87|76|112

Piano Mexicano 112|106|97|110|111 21|6|10|19|3 98|77|156|70|93

Español 17|33|10|27|13 21|6|2|19|8 59|66|89|52|96

Fuego Mexicano 102|119|101|624|111 18|7|4|21|3 102|77|114|63|97

Español 23|34|11|7|13 18|7|4|0|8 82|48|58|60|116

Inicio Mexicano 105|110|105|115|106|111 6|19|6|15|6|3 108|78|126|130|73|62

Español 12|27|12|35|33|13 6|19|6|17|6|8 93|62|67|105|89|77

Mensual Mexicano 109|101|110|115|117|97|108 21|4|19|15|7|10|14 60|75|76|114|62|137|131

Español 26|11|27|24|14|10|29 21|4|19|15|7|2|14 66|66|63|106|68|87|133

Residuo Mexicano 114|101|115|105|240|119|111 13|4|15|6|17|7|3 67|53|119|127|73|64|132

Español 32|11|24|12|7|34|13 13|4|15|6|0|7|8 98|40|103|84|82|55|133

Androide Mexicano 97|110|100|638|111|105|240|101 10|19|19|13|3|6|17|4 87|81|56|57|104|89|64|84

Español 10|27|16|31|13|12|7|11 2|19|19|13|8|6|0|4 70|86|53|47|79|59|38|119

Lourdes Mexicano 108|117|638|240|101|115 14|7|13|17|4|15 63|147|75|70|96|150

Español 29|13|14|31|7|11|24 14|8|7|13|0|4|15 75|95|82|49|60|99|150

Autor Mexicano 97|117|116|111|633 10|7|19|3|13 106|60|108|166|199

Español 10|14|15|13|31 2|7|19|8|13 98|95|55|108|118

Deuda Mexicano 100|101|117|240|97 19|4|7|17|10 109|92|118|53|180

Español 16|11|14|7|10 19|4|7|0|2 62|81|96|91|160

Ciudad Mexicano 115|106|117|240|97|240 15|6|7|17|10|17 110|33|60|44|179|178

Español 35|33|14|7|10|7 17|6|7|0|2|0 89|40|47|40|116|73

Ruido Mexicano 114|119|105|240|111 13|7|6|17|3 130|64|158|78|89

Español 32|34|12|7|13 13|7|6|0|8 80|85|76|87|78

Tabla 10. Análisis de las palabras con diptongos.

En España nos encontramos con la aparición de triptongos que son la combinación de 3 vocales

en una sola palabra. Los triptongos se conforman por una vocal cerrada seguida de una abierta y otra

cerrada. Algunos ejemplos de palabras encontradas en el idioma español de España donde aparecen

triptongos son mostrados en la Tabla 11, estos son „iái‟, „iéi‟, „uái‟ y „uéi‟, los cuales se incluyen a

fin de observar el comportamiento de los fonemas generados.

Ejemplos Fonemas Visemas Duración (ms)

Aliviáis 10|29|12|7|12|10|12|24 2|14|6|0|6|2|6|15 83|61|82|74|79|63|101|180

Limpiéis 29|12|26|17|33|11|12|24 14|6|21|21|6|4|6|15 72|73|56|80|64|74|113|188

Atestiguáis 10|15|11|24|15|12|7|34|10|12|24

2|19|4|15|19|6|0|7|2|6|15

78|68|66|56|67|43|77|64|79| 107|197

Situéis 24|12|15|34|11|12|24 15|6|19|7|4|6|15 110|54|85|92|124|98|214

Tabla 11. Análisis de fonemas de diptongos españoles.

En la Tabla anterior se puede observar que los triptongos contienen por regla acento en la vocal

de en medio, y de los triptongos antes mencionados todas las vocales involucradas en estas uniones

tienen fonemas asociados a cada una, al igual que sus visemas.

En el español mexicano también existen uniones de 3 vocales que aunque no todas corresponden

a un triptongo por su estructura, son también ejemplos para revisar (ver Tabla 12).

Ejemplos Fonemas Visemas Duración (ms)

Quien 107|106|101|110 20|6|4|19 104|65|115|195

Semiautomático 115|101|109|106|97|117|

116|111|109|97|116|105|

107|111

15|4|21|6|10|7|

19|3|21|10|19|6

| 20|3

94|79|70|66|22|54|109|45|86|

107|95|60|100|113

Guión 103|106|111|110 20|6|3|19 91|118|130|135

Tabla 12. Análisis de palabras del español mexicano con uniones de 3 vocales.

Se observa que las palabras „quien‟ y „guión‟ las uniones de las letras „qu‟ „gu‟ generan un solo

fonema y visema.

La Tabla 12 es muestra las palabras que se analizaron para determinar cómo afecta a los fonemas

y visemas generados dependiendo de la ubicación de la vocal. Algunos ejemplos de la Tabla 12,

fueron tomados considerando la posición de la sílabas de énfasis, aunque para el ejemplo de la vocal

„o‟, encontrada en las palabras „otro‟ o „coco‟, en el análisis, para ambos idiomas la entonación tiene

la misma sílaba de énfasis.

Fonema / Ubicación

Palabra Idioma Fonemas Visemas Duración

Inicial ave Español 10|7|11 2|0|4 104|47|109

Mexicano 97|946|101 10|21|4 125|78|129

Media acata Español 10|19|10|15|10 2|20|2|19|2 119|62|83|77|132

Mexicano 97|107|97|116|97 10|20|10|19|10 97|114|144|109|115

Final ala Español 10|29|10 2|14|2 110|69|105

Mexicano 97|108|97 10|14|10 165|77|106

Inicial eco Español 11|19|13 4|20|8 77|109|102

Mexicano 101|107|111 4|20|3 135|119|106

Media abeja Español 10|7|11|25|10 2|0|4|12|2 62|51|86|109|117

Mexicano 97|946|101|120|97 10|21|4|12|10 90|62|145|107|195

Final sale Español 24|10|29|11 15|2|14|4 111|89|65|57

Mexicano 115|97|108|101 15|10|14|4 77|154|81|95

Inicial imán Español 12|26|10|27 6|21|2|19 75|85|52|159

Mexicano 105|109|97|110 6|21|10|19 98|89|118|121

Media asilo Español 10|24|12|29|13 2|15|6|14|8 99|112|83|72|65

Mexicano 97|115|105|108|111 10|15|6|14|3 82|119|135|90|163

Final salí Español 24|10|29|12 15|2|14|6 105|68|44|142

Mexicano 115|97|108|105 15|10|14|6 122|89|71|163

Inicial otro Español 13|15|31|13 8|19|13|8 125|65|43|78

Mexicano 111|116|638|111 3|19|13|3 190|111|61|116

Media dos Español 16|13|24 19|8|15 29|136|244

Mexicano 100|111|115 19|3|15 93|179|207

Final coco Español 19|13|19|13 20|8|20|8 57|66|127|77

Mexicano 107|111|107|111 20|3|20|3 79|143|113|117

Inicial uso Español 14|24|13 7|15|8 117|100|137

Mexicano 117|115|111 7|15|3 165|135|100

Media abuso Español 10|7|14|24|13 2|0|7|15|8 62|51|85|114|137

Mexicano 97|946|117|115|111 10|21|7|15|3 90|60|141|120|100

Final ímpetu Español 12|26|17|11|15|14 6|21|21|4|19|7 88|71|76|55|100|110

Mexicano 105|109|112|101|116|117 6|21|21|4|19|7 148|72|85|67|100|145

Tabla 13. Pruebas fonemas vocalicos.

Fonemas Consonánticos /c/, /z/ y /s/

Ahora se revisaran algunas pruebas con fonemas consonánticos, la Tabla 14 muestra palabras

con el uso del fonema /c/, las características del idioma para estos análisis es mexicano y mujer.

Casos ID Fonema ID Visema Duración (milisegundos)

Casa 107|97|115|97 20|10|15|10 54|168|105|111

Caza 107|97|115|97 20|10|15|10 54|168|105|111

Kimono 107|105|109|111|110|111 20|6|21|3|19|3 68|63|78|155|110|122

Tabla 14. Pruebas del fonema /c/.

De las palabras anteriores „casa‟ y „caza‟, además de la palabra „kimono‟ también se observa que

los grafemas <c> y <k> en este contexto corresponden al fonema /k/, al encontrarse acompañados de

la vocal a.

De las palabras homófonas anteriores „casa‟ y „caza‟, se deduce que al igual que fonéticamente

son iguales, su análisis reconoce los mismos fonemas y visemas para cada grafema, lo mismo sucede

para las palabras „vos‟ y „voz‟ de la Tabla 16.

En la Tabla 15, palabras como „sapo‟, „zapato‟, „cerro‟, „ciclo‟ y „ciudad‟ han sido incluidas en

el análisis a fin de observar el fonema concerniente a los grafemas <s>, <z> y <c>, se reconoce al

fonema /s/ al encontrarse el grafema <s>, y <z> , para el caso de <c> se asocia con el fonema /s/

debido a la vocal que lo acompaña.

Sapo 115|97|112|111 15|10|21|3 90|118|121|140

Zapato 115|97|112|97|116|111 15|10|21|10|19|3 89|71|100|157|109|116

Cerro 115|101|114|111 15|4|13|3 157|164|77|157

Serapio 115|101|638|97|112|106|111

15|4|13|10|21|6|3 88|88|39|158|108|63|140

Ciclo 115|105|107|108|111 15|6|20|14|3 124|126|127|81|98

Tabla 15. Pruebas del fonema /s/.

Fonema Consonántico /b/

Voz 98|111|115 21|3|15 91|173|207

Vos 98|111|115 21|3|15 91|173|207

Tabla 16. Pruebas del fonema /b/.

Para la palabra Lourdes, si bien cuando se mencionaron los análisis para los diptongos y uniones

de vocales, no se considero algún ejemplo con „ou‟ dentro de alguna palabra, para lo cual se observa

que es generado un solo fonema para este grafema tal como se observa en la Tabla 17.

Lourdes 108|117|638|240|101|115 14|7|13|17|4|15 63|147|75|70|96|150

Tabla 17. Prueba del grafema <ou>.

Voz Mexicana Mujer

Palabras Uno dos Uno,dos

Uno dos uno dos

Posición del flujo 0 7832 0 17432

Posición del carácter 0 4 0 5

Longitud 3 3 3 3

ID Fonemas 117|110|111 240|111|115 117|110|111|4 100|111|115

ID siguiente fonema 110|111|240 111|115|4 110|111|4|97 111|115|4

ID Visemas 7|19|3 17|3|15 7|19|3|0 19|3|15

ID siguiente visema 19|3|17 3|15|0 19|3|0|10 3|15|0

Duración (ms) 124|51|69 48|146|251 189|61|173|121 93|179|207

Tabla 18. Análisis del español mexicano para casos con palabras separadas por espacios en blanco y comas.

En la Tabla 18, se puede observar que cuando solo se escribe un espacio en blanco como

separación de las palabras, los identificadores tanto de fonemas como de visemas tienen

identificadores relacionados.

Cuando se indica la separación de las palabras por una coma además de perderse la secuencia

después de este signo de puntuación, se identifica un fonema y visema asociados a este, lo que se

interpreta como el silencio o los identificadores de este signo.

La consecuencia de emplear comas implica que el atributo ID siguiente fonema e ID siguiente

visema no coincidan con los fonemas y visemas encontrados subsecuentes, , es decir, hacen

referencia a un espacio en blanco o la ausencia de palabras, determinándose un nuevo inicio para

cuando se encuentre la siguiente palabra, tal como se muestra en la Tabla 19.

Voz Inglés Hombre

Palabras One Two One, Two

One Two One Two

Posición del flujo 0 8476 0 17554

Posición del carácter 0 4 0 5

Longitud 3 3 3 3

ID Fonemas 46|12|33 41|44 46|12|33|7 41|44

ID siguiente fonema 12|33|41 44|7 12|33|716 41|44

ID Visemas 7|1|19 19|7 7|1|19|0 44|7

ID siguiente visema 1|19|19 7|0 1|19|0|11 19|7

Duración (ms) 81|82|101 76|217 104|157|165|121 7|0

Tabla 19. Análisis en ingles para las palabras separadas por espacios en blanco y comas.

Como se puede observar de la Tabla 19, del análisis resultante usando la voz en inglés de U.S.A

sucede lo mismo con la comparación del espacio en blanco y la coma, claro cabe señalar que en la

palabra „two‟ solo se identifica un fonema para el grafema <t> y otro para el grafema <wo> como se

muestra en la Tabla 20.

Voz Inglés Hombre

Palabras Two

Posición del flujo 0

Posición del carácter 0

Longitud 3

ID Fonemas 41|44

ID siguiente fonema 44|7

ID Visemas 19|7

ID siguiente visema 7|0

Duración (ms) 93|352

Tabla 20. Prueba grafema <wo>.

. Voz Mexicana Mujer

Palabras Quién ¿Quién?

Posición del flujo 0 0

Posición del carácter 0 0

Longitud 5 7

ID Fonemas 107|106|101|110 107|106|101|110|4

ID siguiente fonema 106|101|110|4 106|101|110|4|97

ID Visemas 20|6|4|19 20|6|4|19|0

ID siguiente visema 6|4|19|0 6|4|19|0|10

Duración (ms) 104|65|115|195 110|76|239|103|593

Tabla 21. Análisis grafemas acompañados de signos del español mexicano.

De la Tabla 21, se observa que para la secuencia de caracteres Quién y ¿Quién?, la diferencia

de forma sonora existe, hay una entonación que diferencia ambas palabras, el análisis arroja que solo

se añade un fonema y visema asociados al signo „?‟.

Voz Inglés Hombre

Palabras Who Who?

Posición del flujo 0 0

Posición del carácter 0 0

Longitud 3 4

ID Fonemas 26|44 26|44|7

ID siguiente fonema 44|7 44|7|16

ID Visemas 12|7 12|7|0

ID siguiente visema 7|0 7|0|11

Duración (ms) 82|323 82|323|593

Tabla 22. Análisis de grafemas del inglés con signos.

En el análisis en ingles de las palabras who y who? Mostrado en la Tabla 22, se determinó que

de forma sonora no existe una diferencia en la entonación. Se observa que al igual que en el ejemplo

de los grafemas en español, solo se añade un identificador de fonema y visema para el signo „?‟.

Solo se reconocen dos fonemas y visemas para cada análisis asociado a los grafemas <who>.

La Tabla 23 muestra el análisis de los grafemas entre voces españolas, a fin de determinar si

existen variaciones en los fonemas y visemas con ejemplos que involucran tendencias ya vistas con

anterioridad, se determino que el único atributo de salida que presentó cambios, fue la duración.

Casos ID Fonema ID Visema Duración (milisegundos) Voz

Hola 13|29|10 8|14|2 61|74|130 Jorge (España)

13|29|10 8|14|2 118|66|96 Juan (España)

Quieto 19|33|11|15|13 20|6|4|19|8 81|51|82|71|142 Jorge (España)

19|33|11|15|13 20|6|4|19|8 66|65|67|68|141 Juan (España)

Auto 10|14|15|13 2|7|19|8 64|94|103|117 Jorge (España)

10|14|15|13 2|7|19|8 82|87|115|178 Juan (España)

Lourdes 29|13|14|31|7|11|24 14|8|7|13|0|4|15 75|95|82|49|60|99|150 Jorge (España)

29|13|14|31|7|11|24 14|8|7|13|0|4|15 113|83|80|58|48|150|149 Juan (España)

México 26|11|25|12|19|13 21|4|12|6|20|8 87|88|110|57|84|117 Jorge (España)

26|11|25|12|19|13 21|4|12|6|20|8 60|84|134|55|94|146 Juan (España)

Xilófono 7|12|29|13|23|13|27|13 0|6|14|8|18|8|19|8 110|58|60|55|93|44|52|66 Jorge (España)

7|12|29|13|23|13|27|13 0|6|14|8|18|8|19|8 172|95|31|118|129|46|48|146 Juan (España)

Asfixia 10|24|23|12|19|24|33|10 2|15|18|6|20|15|6|2 89|86|73|64|91|94|69|115 Jorge (España)

10|24|23|12|19|24|33|10 2|15|18|6|20|15|6|2 98|83|73|69|54|128|73|183 Juan (España)

Taxi 15|10|19|24|12 19|2|20|15|6 44|91|79|114|134 Jorge (España)

15|10|19|24|12 19|2|20|15|6 75|75|65|137|124 Juan (España)

Trae 15|31|10|11 19|13|2|4 44|49|64|78 Jorge (España)

15|31|10|11 19|13|2|4 55|62|122|176 Juan (España)

Tabla 23. Análisis de grafemas para generar fonemas y visemas de voces españolas.

Por último se analizan cantidades numéricas para observar como son interpretadas, se concluyó

que en el español mexicano y en el inglés no son leídas las cantidades como se esperaba, es decir al

introducir cantidades mayores de 5 dígitos por ejemplo „400047‟, el intérprete comienza a leer los

números por pares o como dígitos individuales.

La forma de introducir las cantidades, a fin de que sean interpretados correctamente es

añadiendo un „.‟ entre la cifra de esta forma „400.047‟, estas pruebas se muestran en las Tablas 24 y

25 para el idioma inglés y en las Tablas 26 y 27 para el idioma español.

Voz Inglés Hombre

Palabras 400047

Posición

del flujo

Posición

del carácter

Longitud 6

Fonemas

24|13|7|35|7|35|7|35|7|24|13|7|7|39|21|45|15|33

ID Visemas 18|3|0|0|8|0|8|0|8|0|18|3|0|0|15|4|18|1|19

Duración

157|228|182|105|545|105|545|105|545|105|157|228|182|105|210|130|65|65|212

Tabla 24. Análisis cantidades numéricas sin separación con voz inglés.

Voz Inglés Hombre

Palabras 400.047

Posición

del flujo

Posición

del carácter

Longitud 7

Fonemas

24|13|7|26|12|33|19|7|15|19|37|36|33|41|35|24|13|7|39|21|45|15|33

ID Visemas 18|3|0|12|1|19|19|0|1|19|21|10|19|19|8|18|3|0|15|4|18|1|19

Duración

122|71|71|32|84|25|25|25|54|48|35|26|100|118|21|48|157|125|97|40|111|100|71|65|212

Tabla 25. Análisis cantidades numéricas con separación de punto con voz inglés.

Voz Mexicana Mujer

Palabras 400047

Posición del

carácter

Longitud 6

ID Fonemas 107|119|97|638|101|110|116|97|4|115|638|111|115|101|638|111|4|107|119|97|638|101|110|1

16|97|105|115|106|101|116|101

ID Visemas 20|7|10|13|4|19|19|10|0|15|4|13|3|15|4|13|3|0|20|7|10|13|4|19|19|10|6|15|6|4|19|4

Duración

55|67|62|49|130|68|86|186|105|138|101|47|64|92|167|45|127|105|57|72|56|56|107|45|45|67|

54|132|66|83|111|128

Tabla 26. Análisis cantidades numéricas sin separación con voz español.

Voz Mexicana Mujer

Palabras 400047

Posición del

carácter

Longitud 7

ID Fonemas 107|119|97|116|638|111|115|106|101|110|116|111|115|109|105|108|4|107|119|97|638|101

|110|116|97|105|115|106|101|116|101

ID Visemas 20|7|10|19|13|3|15|6|4|19|19|3|15|21|6|14|0|20|7|10|13|4|19|19|10|6|15|6|4|19|4

Duración

55|33|59|71|52|47|84|35|61|58|56|84|62|74|130|65|105|57|72|56|56|107|45|45|67|54|132|

66|83|111|128

Tabla 27. Análisis cantidades numéricas con separación de punto con voz español.

CAPITULO 6.

CONCLUSIONES Y TRABAJOS

FUTUROS

6.1 Conclusiones

Como parte de la investigación, se describieron algunas de las metodologías más empleadas en

la síntesis de voz, también se presentó una revisión de las tecnologías existentes que desarrollan este

proceso, de las cuáles se eligió como motor de voz a Microsoft Speech SDK 5.1 en conjunto con la

librería pyTTS de Python para realizar la conversión de texto a voz de las pruebas a fin de observar

los fonemas y visemas generados.

Los atributos considerados en las configuraciones de las pruebas implicaron modificaciones al

tono, volumen, velocidad, así como la asignación de voz. En la librería pyTTS fue posible modificar

estos parámetros para observar los fonemas y visemas resultantes. Es posible asociar estos fonemas y

visemas ya que la librería pyTTS contiene métodos que permiten conocer la secuencia de los eventos

de estos atributos.

Las pruebas realizadas a los grafemas se presentaron de acuerdo a dos enfoques, los fonemas

vocálicos y los fonemas consonánticos, de los cuáles se observa que los identificadores de ciertos

fonemas encontrados en algunos grafemas, específicamente de los vocálicos, difieren dependiendo

del contexto.

Para los fonemas consonánticos se presentan pruebas tanto en inglés como en español para

observar las variaciones, también se incluyen pruebas en sentencias como la presencia o ausencia de

signos de puntuación en oraciones, así como análisis de cantidades numéricas.

6.2 Aportaciones

Se determinó que resultan precisos los análisis de los grafemas, ya que el motor de voz

Microsoft Speech SDK 5.1 toma en cuenta consideraciones como la identificación de un solo

fonema para casos como el grafema <au> en el idioma español, o <wo> para el el idioma inglés.

Otras de las observaciones son que el motor de voz identifica asociaciones como <qu> con su

correcto fonema /k/, o dependiendo del contexto otros grafemas como <c>, <s>, <z>, <x> se asocian

al fonema /s/ correctamente, también existen fonemas y visemas asociados a los símbolos “-”, “!”,

“&”, “,”, “.” y “!”.

De la entonación identificada en los análisis de la frases acompañadas del signo “?”, se identifico

que al encontrarse tal signo si existe un cambio en el tono de la voz en español.

Se presenta una revisión de los identificadores encontrados de los fonemas y visemas asociados

a los grafemas de las voces en español, los cuales no se especifican en la documentación del motor

de voz Microsoft Speech SDK, se observa que la mayoría de los visemas asociados a los fonemas de

ambas voces son los mismos, salvo algunas excepciones donde se registran visemas diferentes, esto

podría explicarse debido al acento del idioma español hablado en España, esto se muestra en la Tabla

de abajo.

TABLA IDENTIFICADORES DE FONEMAS Y VISEMAS DEL ESPAÑOL Español Mexicano

(Voz mujer Esperanza) Español de España (Voz mujer Carmen)

Símbolo Fonema Visema Fonema Visema

- 4 0 7 0

! 4 0 7 0

& 105 6 12 6

, 4 0 7 0

. 4 0 7 0

? 4 0 7 0

A 97 10 10 2

B 98 21 18 21

C 115 15 35 17

D 100 19 16 19

E 101 4 11 4

F 102 18 23 18

G 120 12 25 12

H 116 19 21 16

I 105 6 12 6

J 120 12 25 12

K 107 20 19 20

L 108 14 29 14

M 109 21 26 21

N 110 19 27 19

Ñ 626 19 28 19

O 111 3 13 8

P 112 21 17 21

Q 107 20 19 20

R 114 13 32 13

S 115 15 24 15

T 116 19 15 19

U 117 7 14 7

V 98 21 18 21

w 119 7 34 7

X 107 20 7 0

Y 607 6 7 0

Z 115 15 35 17

Se observó que la lectura de números para el idioma tanto español como inglés debe realizarse

considerando la separación de cada tres dígitos con el signo de puntuación “.”, debido a que el habla

generada a partir de cantidades numéricas sin esta consideración resulta en una lectura errónea.

6.3 Trabajos Futuros

Los resultados de los análisis de los visemas proporcionan información útil para explorar la

construcción de visemas, lo cual dará como resultado la naturalidad de las correspondencias faciales

en la ejecución del habla de agentes inteligentes.

GLOSARIO Acústica:

Parte de la física que estudia la naturaleza, forma de propagación y percepción del sonido.

Alófono:

En fonética, se llama alófono a cada uno de los fonos o sonidos que en un idioma dado se reconoce como un determinado fonema, sin que las variaciones entre ellos tengan valor diferenciativo.

Articulación:

Se refiere a la forma en que se produce la transición de un sonido a otro, o sobre la misma nota.

Bitonal:

En el caso de dos voces de diferente tonalidad al mismo tiempo recibe el nombre de bitonalidad.

Cláusula:

Conjunto de palabras que encierran una sola proposición, o varias muy relacionadas con un sentido cabal.

Conmutador:

Aparato electrónico que se conecta a una sola línea telefónica para dar servicio a una cantidad grande de usuarios de teléfono.

Contorno de tono:

El contorno de tono de un sonido es una función o una curva que sigue la percepción de tono del sonido a través del tiempo.

Corpus:

Conjunto lo más extenso y ordenado posible de datos que pueden servir de base a una investigación.

Corpus lingüístico:

Es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas).

Difonemas:

Estos consisten en la unión de la parte estable de un fonema (mitad del fonema) con la parte estable del siguiente fonema. Existen 232 posibles difonemas y a pesar de métodos para suavizar las fronteras este tipo de síntesis todavía no suena natural.

Disfluencia:

Trastorno del ritmo usualmente caracterizado por la repetición de un sonido, una palabra o frase.

Elocución:

Manera de hacer uso de la palabra para expresar los conceptos.

Entonación:

Conjunto de los tonos de todas las sílabas de un enunciado. Son las variaciones de la altura del sonido (frecuencia fundamental Fo) que resultan de los cambios de tensión a nivel de las cuerdas vocales.

Estocástico:

Sistema que funciona, sobre todo, por el azar.

Fonema:

Son unidades naturales que dotan de gran flexibilidad a los sistemas de voz y que resultan económicas desde el punto de vista del número de unidades (en el Español existen 23 fonemas); sin embargo, constituyen una unidad abstracta que está sometida a muchas variaciones contextuales, que originan una baja calidad en la voz sintetizada.

Fonética:

Conjunto y estudio de los sonidos de un idioma.

Fonología:

Subcampo de la lingüística. Mientras que la fonética estudia la naturaleza acústica y fisiológica de los sonidos o alófonos, la fonología describe el modo en que los sonidos funcionan (en una lengua en particular o en las lenguas en general) en un nivel abstracto o mental.

Formante:

Frecuencia que participa junto a otras en un sonido y le otorga unas particularidades que lo identifican.

Frase:

Cadena de palabras conectadas sintáctica y gramaticalmente.

Grafema:

En Lingüística, mínima unidad significativa en el plano de la lengua escrita.

Gramática:

Es el estudio de las reglas y principios que regulan el uso de las lenguas y la organización de las palabras dentro de una oración. También se denomina así al conjunto de reglas y principios que gobiernan el uso de un lenguaje muy determinado; así, cada lenguaje tiene su propia gramática.

Habla:

Es la utilización individual del sistema de signos de la lengua mediante actos de comunicación oral.

Inteligibilidad:

Toda aseveración capaz de comunicar al que oye o lee un significado explícito, de modo que pueda juzgar que dicho significado está o no libre de contradicción.

Lengua:

Es un sistema de signos orales y escritos que son utilizados por los seres humanos para comunicarse entre si en determinada región o país. La lengua como código de comunicación es un instrumento común que el hablante debe utilizar correctamente para facilitar su comprensión.

Lenguaje:

Conjunto de sonidos y palabras con que se expresa el pensamiento. Toda forma de comunicar el pensamiento.

Modelo acústico:

Parte del modelo visual que contiene la información relativa a la sincronía entre la apariencia visual de un objeto y la información auditiva existente.

Modelo Visual:

Contenedor de la información visual esencial que se extrae a partir del corpus audiovisual.

Norma:

Es la realización colectiva de la lengua o el conjunto de usos sociales que deriva en los distintos tipos de lenguaje familiar, literario, científico, etc.

Normalización del texto:

Es un proceso por el cual texto se transforma de cierta manera para hacerlo constante de una manera que pudo no haber sido antes.

Oración:

Unidad gramatical que es sintácticamente independiente y tiene un sujeto expreso o tácito y un predicado que contiene al menos un verbo conjugado.

Orofacial:

Relativo a la parte bucal de la cara humana.

Palabras:

Cada uno de los segmentos limitados por pausas o espacios en la cadena hablada o escrita, que puede aparecer en otras posiciones, y que está dotado de una función.

Politonalidad:

Es el uso musical de más de una tonalidad simultáneamente.

Pragmática:

También llamada pragmalingüística es un subcampo de la lingüística, también estudiado por la filosofía del lenguaje y la psicolingüística o psicología del lenguaje, que se interesa por el modo en que el contexto influye en la interpretación del significado.

Prosodia:

Es una rama de la lingüística que analiza y representa formalmente aquellos elementos de la expresión oral, tales como el acento, los tonos y la entonación.

Ritmo:

Orden, proporción y movimiento con que se agrupan los sonidos en el tiempo.

Semántica:

Rama de la Lingüística que se ocupa del sentido o el significado de los signos, así como de la relación entre los mismos, tanto desde un punto de vista sincrónico como diacrónico.

Significante:

En Lingüística, forma exterior o aspecto perceptible de un signo.

Signo:

En Lingüística, cualquier unidad lingüística que posee significación, inclusive los radicales o los afijos.

Sílabas:

Cada una de las divisiones fonológicas en las que se divide una palabra.

Sintagma:

En Lingüística, cualquier combinación seriada de elementos morfológicos, que adquieren determinada unidad, e incluso estabilidad, cuando la combinación se estereotipa por el uso.

Sintaxis:

La sintaxis es la parte de la gramática que estudia las reglas que gobiernan la combinatoria de constituyentes sintácticos y la formación de unidades superiores a estos, como los sintagmas y oraciones gramaticales. La sintaxis, por tanto, estudia las formas en que se combinan las palabras, así como las relaciones sintagmáticas y paradigmáticas existentes entre ellas.

Síntesis:

Composición de un todo por la reunión de sus partes.

Sintetizador:

Instrumento electrónico que permite generar sonidos musicales determinando todos sus parámetros (altura, intensidad, timbre) para simular el sonido de instrumentos acústicos o crear otros nuevos.

Suprasegmental:

También conocido como prosódica, es una característica del habla que afecta a un segmento más largo que el fonema, tales como el acento, la entonación, el ritmo, la duración y otros. El término suprasegmental implica la existencia de elementos que recaen sobre más de un segmento a la vez.

Variación fonética en la frecuencia acústica de una sílaba, esto es, un tono en el sentido lingüístico provee distinción semántica. Las lenguas que usan tonos de esta manera se conocen como lenguas tonales.

Transcripción fonética:

También llamada notación fonética es un sistema de símbolos gráficos para representar los sonidos del habla de una persona. Típicamente se usa como convención para superar las peculiaridades alfabéticas usadas en cada lengua escrita y también para representar lenguas sin tradición escrita.

Trivisemas:

Visemas correspondientes a una serie de tres alófonos consecutivos.

Unidad prosódica:

A menudo llamado unidad de la entonación, es un segmento del discurso que ocurre con un solo contorno prosódico.

Visema:

Representación visual de un fonema, visualmente distinguible de otras.

Visemas clave:

Visemas asociados a conjuntos de alófonos de apariencia visual similar a partir de los cuales se generan transiciones entre ellos. Son las apariencias clave de las regiones orofaciales del modelo visual.

Sonido que el aire produce en la faringe.

BIBLIOGRAFIA

[Apple, 2010] Apple in Education. Text to Speech Synthesis. Retrieved November 20, 2010.From:http://developer.apple.com/library/mac/#documentation/Carbon/Reference/Speech_Synthesis_Manager/Reference/reference.

[AT&T, 2010] AT&T Labs Natural Voices – Text to Speech Demo. Retrieved December 26, 2010 From: http://www2.research.att.com/~ttsweb/tts/demo.php.

[Aylett-Pickock-Fraser, 2006] Matthew P.Aylett, Cristopher J. Pidcock, Mark E. Fraser (2006). The Cerevoice Blizzard Entry 2006: A Prototype Small Database Unit Selection Engine.

[Barbosa, 1997] Barbosa A. (1997). Desarrollo de una nueva voz en Español Mexicano para el Sistema de Texto a Voz Festival. Tesis de Maestría, Universidad de las Américas-Puebla, México.

[Birkholz – Kroger, 2007] Peter Birkholz, Bernard Kroger (2007). Simulation of vocal tract growth for articulatory speech synthesis. In Proceedings of the 16th International Congress of Phonetic Sciences, pp. 377–380. Institute for Computer Science, Saarbrücken, Germany. University of Rostock, Rostock, Germany.

[Carnicero Sierra, 2003] Carnicero Sierra M. J.(2003). Desarrollo de un componente para PDa (Un reproductor de sonido).

[Cepstral, 2010] Cepstral text-to-speech. Retrieved November 20, 2010. From: http://cepstral.com/.

[DECtalk, 2010] DECtalk Speech Synthesis. Retrieved December 26, 2010. From: http://www.speech.cs.cmu.edu/comp.speech/Section5/Synth/dectalk.html

[Domínguez Martínez, 2010] Jesús Raymundo Domínguez Martínez (2010) Creación de una base de conocimientos en AIML para un agente conversacional.

[Dutoit – Pagel – Pierret – Bataille – van der Vrecken, 1996]

T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. Vrecken (1996). The MBROLA Project: Towards a Set of High Quality Speech Synthesizers Free of Use for Non Commercial Purposes.

[Engström, 2003] Charlotta Engström (2003). Articulatory Analysis of Swedish Visemes. Centrum för talteknologi. Institutionen för tal, musik och hörsel. Stockholm

[Expressivo, 2010] Expressivo Text Reader. Retrieved December 27, 2010. From: http://www.expressivo.com/.

[Festival, 2010] The Festival Speech Synthesis System. Retrieved November 20, 2010. From: http://www.cstr.ed.ac.uk/projects/festival/.

[Florencia Juárez, 2010] Rogelio Florencia Juárez (2010) Agente conversacional corpóreo que utiliza AIML para integrar procesos de personalidad.

[Frías Conde, 2001] Xavier Frías Conde (2001). Introducción a la fonética y fonología del español. Ianua, Revista Philologica Romanica, Suplemento 04.

[Furui, 1989] Sadaoki Furui (1989). Digital Speech Processing, Synthesis, and Recognition. Ed. Dekker.

[Hunt – Black, 1996] A. Hunt, A. Black (1996), Unit selection in a concatenative speech synthesis system using a large speech database. In Proceedings of ICASSP 1996, pages 373-376, Atlanta, Georgia.

[IBM Via Voice, 2010] IBM. Embedded Via Voice. Retrieved November 20, 2010. From: http://www01.ibm.com/software/pervasive/embedded_viavoice/.

[Infovox, 2010] Text To Speech and Voice Solutions. Retrieved December 26, 2010. From: http://www.acapela-group.com/.

[IVONA TTS, 2010] IVONA Text To Speech. Retrieved December 27, 2010. From: http://www.ivona.com/.

[Lemmetty, 1999] Sami Lemmetty (1999). Review of Speech Synthesis Technology. Helsinki University of Technology.

[Loquendo, 2010] Loquendo, (2001-2009), Loquendo TTS, Retrieved October 23, 2010. From http://www.loquendo.com/es/technology/TTS.htm (Loquendo TTS)

[MBROLA, 2010] The MBROLA Project (2010). Retrieved October 20, 2010. From http://tcts.fpms.ac.be/synthesis/

[Microsoft Speech SDK 5.1, 2010] Microsoft Speech SDK 5.1, Retrieved October 23, 2010. From http://www.microsoft.com/downloads/en/details.aspx?FamilyID=5e86ec97-40a7-453f-b0ee-6583171b4530&displaylang=en (Speech SDK 5.1).

[Microsoft Speech, 2011] Microsoft Speech SDK. Retrieved April 20, 2011. From http://www.nextup.com/sapi5doc/.

[Molina – García - Nuñez, 2006] Molina A., García N., Nuñez J (2006). NETtalk en español. Capítulo 1. Universidad Autónoma Metropolitana.

[Moreno Azcona, 2008] Gabriel Alejandro Moreno Azcona (2008) Nueva Voz Concatenativa de Difonemas para el Español Mexicano en Festival, Universidad de las Américas, Puebla.

[Orator, 2010] Telcordia‟s Hybrid ORATOR II speech synthesizers and Name Pronunciation Software. Retrieved December 27, 2010. From: http://www.argreenhouse.com/ORATOR/.

[Power TTS Reader, 2010] Power Text to Speech Reader. Retrieved December 27, 2010. From: http://www.1speechsoft.com/.

[SoftVoice, 2010] Softvoice, Inc. Text-to-Speech Synthesis. Retrieved November 20, 2010. From: http://www.text2speech.com/.

[SVOX, 2010] SVOX. Embedded Text-to-Speech. Retrieved November 20, 2010. From: http://www.svox.com/.

[Taylor, 2009] Paul Taylor (2009). Text to Speech Synthesis. University of Cambridge.

[Text Aloud, 2010] Text Aloud 3. Retrieved December 27, 2010. From: http://www.nextup.com/TextAloud/index.html.

[Zotter, 2003] Franz Zotter (2003). Emotional Speech.

ANEXOS

ANEXO A

Aplicación Python Text To Speech

Se presenta el código en Python de la utilización de la librería pyTTS.

Aplicación Python Text To Speech import pyTTS import time import win32com.client import pythoncom finished = False class VisemeEvents: def OnPhoneme(self, StreamNumber, StreamPosition, Duration,

NextPhoneId, Feature, CurrentPhoneId): print "ON PHONEME: StreamNumber: " + str(StreamNumber) + ",

StreamPosition: " + str(StreamPosition) + ", Duration: " + str(Duration) + ", NextPhoneId: " + str(NextPhoneId) + ", Feature: " + str(Feature) + ", CurrentPhoneId: " + str(CurrentPhoneId)

return def OnWord(self, StreamNumber, StreamPosition, CharacterPosition,

Length): print "ON WORD: StreamNumber: " + str(StreamNumber) + ",

StreamPosition: " + str(StreamPosition) + ", CharacterPosition: " + str(CharacterPosition) + ", Length: " + str(Length)

return def OnViseme(self, StreamNumber, StreamPosition, Duration,

NextVisemeId, Feature, CurrentVisemeId): print "ON VISEME: StreamNumber: " + str(StreamNumber) + ",

StreamPosition: " + str(StreamPosition) + ", Duration: " + str(Duration) + ", NextVisemeId: " + str(NextVisemeId) + ", Feature: " + str(Feature) + ", CurrentVisemeId: " + str(CurrentVisemeId)

print " " pythoncom.PumpWaitingMessages() return def OnEndStream(StreamNumber, StreamPosition, StreamReleased): global finished print "ON END STREAM: StreamNumber: " + str(StreamNumber) + ",

StreamPosition: " + str(StreamPosition) + ", StreamReleased: " + str(StreamReleased)

finished = True return #[inc]end your include tts = win32com.client.DispatchWithEvents("SAPI.SpVoice", VisemeEvents) tts.SetRate = 0 tts.SetVolume = 100 #0-100 tts.SetPitch = 0 tts.Speak("cadena de texto", 1) #1: Significa ASINCRONO while not finished: pythoncom.PumpWaitingMessages()

ANEXO B

Tablas de resultados de los análisis

Aquí se presentan algunos de los análisis realizados a las cadenas de texto en la aplicación de

Pyhton con el uso de la librería pyTTS, a partir de los cuáles se fundamentó el contenido del

Capítulo 5.

Tablas de análisis de cadenas de texto en español

Texto de prueba para el idioma español (México) Voz: Esperanza (Mujer)

PARÁMETROS

PALABRA DE

PRUEBA: BIEN

Longitud: 4

B I E N

FIN DEL

Número de secuencia

1 1 1 1

Posición de secuencia

0 1796 4958 7440

Duración 56 99 77 109

ID del siguiente fonema

106 101 110 4

ID del fonema actual

98 106 101 110

1 1 1 1

0 1796 4958 7440

Duración 56 99 77 109

ID del siguiente visema

6 4 19 0

ID del visema actual

21 6 4 19

Posición en el flujo

Posición del carácter

Flujo liberado 10928

PARÁMETROS

PALABRA DE

PRUEBA: DOS

Longitud: 3

D O S FIN DEL FLUJO

0 2974 8724

Duración 93 179 207

111 115 4

100 111 115

0 2974 8724

3 15 0

19 3 15

PARÁMETROS

PALABRA DE

PRUEBA: JUGO

Longitud: 4

J U G O

FIN DEL

1 1 1 1

0 2470 5258 7990

Duración 77 87 85 173

117 624 111 4

120 117 624 111

1 1 1 1

0 2470 5258 7990

Duración 77 87 85 173

7 21 3 0

12 7 21 3

PARÁMETROS

PALABRA DE

PRUEBA:

Longitud: 5

L U C R O

FIN DEL

1 1 1 1 1

0 2028 6604 8658 10426

Duración 63 143 64 55 91

117 107 638 111 4

108 117 107 638 111

1 1 1 1 1

0 2028 6604 8658 10426

Duración 63 143 64 55 91

7 20 13 3 0

14 7 20 13 3

PALABRA DE PRUEBA: CUATROCIENTOS Longitud: 13

C U A T R O C I E N T O S

Número secuencia

1 1 1 1 1 1 1 1 1 1 1 1 1

Posición secuencia

0 1762 3336 4884 7282 9620 10698 14848 16970 19972 22458 24584 26879

Duración 55 49 48 75 73 33 129 66 94 77 66 71 173

119 97 116 638 111 115 106 101 110 116 111 115 4

107 119 97 116 638 111 115 106 101 110 116 111 115

Número secuencia

1 1 1 1 1 1 1 1 1 1 1 1 1

Posición secuencia

0 1762 3336 4884 7282 9620 10698 14848 16970 19972 22458 24584 26870

Duración 55 49 48 75 73 33 129 66 94 77 66 71 173

7 10 19 13 3 15 6 4 19 19 3 15 0

20 7 10 19 13 3 15 6 4 19 19 3 15

Número secuencia

Posición carácter

Flujo liberado

PALABRA DE PRUEBA: ¿QUIÉN ERES? Longitud: 13

¿ Q U I É N

E R E S ?

Número secuencia

1 1 1 1 1 1 1 1 1

Posición secuencia

0 1762 2856 4824

7016 11856 13146 17010 21588

Duración 55 34 61 68 151 40 121 143 593

106 101 110 101

638 101 115 4 97

107 106 101 110

101 638 101 115 4

Número secuencia

1 1 1 1 1 1 1 1 1

Posición secuencia

0 1762 2856 4824

7016 11856 13146 17010 21588

Duración 55 34 61 68 151 40 121 143 593

6 4 19 4 13 4 15 0 10

20 6 4 19 4 13 4 15 0

Número secuencia

0 7016

Posición carácter

Flujo liberado

Texto de prueba para el idioma español (España) Voz: Jorge (Hombre)

PARÁMETROS

PALABRA DE

PRUEBA: BIEN

Longitud: 4

B I E N

FIN DEL

1 1 1 1

0 1896 4208 6228

Duración 59 72 63 96

33 11 27 7

18 33 11 27

1 1 1 1

0 1896 4208 6228

Duración 59 72 63 96

6 4 19 0

21 6 4 19

Flujo liberado 9314

PARÁMETROS

PALABRA DE

PRUEBA: DOS

Longitud: 3

D O S FIN DEL FLUJO

0 948 5304

13 24 7

16 13 24

0 948 5304

8 15 0

19 8 15

PARÁMETROS

PALABRA DE

PRUEBA: JUGO

Longitud: 4

J U G O

FIN DEL

1 1 1 1

0 1856 3612 6102

Duración 58 55 78 182

14 7 13 7

25 14 7 13

1 1 1 1

0 1856 3612 6102

Duración 58 55 78 182

7 0 8 0

12 7 0 8

PARÁMETROS

PALABRA DE

PRUEBA:

Longitud: 5

L U C R O

FIN DEL

1 1 1 1 1

0 2118 4064 6818 8398

Duración 66 61 86 49 83

14 19 31 13 7

29 14 19 31 13

1 1 1 1 1

0 2118 4064 6818 8398

Duración 66 61 86 49 83

7 20 13 8 0

14 7 20 13 8

PALABRA DE PRUEBA: CUATROCIENTOS Longitud: 13

C U A T R O C I E N T O S

Número secuencia

1 1 1 1 1 1 1 1 1 1 1 1 1

Posición secuencia

0 2206 3048 4890 6848 8348 9586 12118 13852 15310 18318 20012 21794

Duración 69 26 57 61 47 38 79 54 45 94 53 55 142

34 10 15 31 13 35 33 11 27 15 13 24 7

19 34 10 15 31 13 35 33 11 27 15 13 24

Número secuencia

1 1 1 1 1 1 1 1 1 1 1 1 1

Posición secuencia

0 2206 3048 4890 6848 8348 9586 12118 13852 15310 18318 20012 21794

Duración 69 26 57 61 47 38 79 54 45 94 53 55 142

7 2 19 13 8 17 6 4 19 19 8 15 0

20 7 2 19 13 8 17 6 4 19 19 8 15

Número secuencia

Posición carácter

Flujo liberado

PALABRA DE PRUEBA: ¿QUIÉN ERES? Longitud: 13

¿ Q U I É N

E R E S ?

Número secuencia

1 1 1 1 1 1 1 1 1

Posición secuencia

0 2072 4334 6966

9100 11822 13238 16244 20960

Duración 65 70 82 66 85 44 94 147 593

33 11 27 11 31 11 24 7 10

19 33 11 27 11 31 11 24 7

Número secuencia

1 1 1 1 1 1 1 1 1

Posición secuencia

0 2072 4224 6966

9100 11822 13238 16244 20960

Duración 65 70 82 66 85 44 94 147 593

6 4 19 4 13 4 15 0 2

20 6 4 19 4 13 4 15 0

Número secuencia

0 9100

Posición carácter

Flujo liberado

Tablas de análisis de cadenas de texto en inglés

Texto de prueba para el idioma inglés (USA) Voz: Dave (Hombre)

PARÁMETROS

PALABRA DE

PRUEBA: DOGS

Longitud: 4

D O G S FIN DEL

1 1 1 1

0 2068 6058 7892

Duración 64 124 57 156

10 25 48 7

19 10 25 48

1 1 1 1

0 2068 6058 7892

Duración 64 124 57 156

2 20 15 0

19 2 20 15

Texto de prueba para el idioma inglés (USA) Voz: Susan (Mujer)

PARÁMETROS

PALABRA DE

PRUEBA: CATS

Longitud: 4

C A T S FIN DEL

0 2870 10178

11 41 7

30 11 41

0 2870 10178

1 19 0

20 1 19

PARÁMETROS

PALABRA DE

PRUEBA: CATS

Longitud: 4

C A T S FIN DEL

0 3284 8920

11 41 7

30 11 41

0 3284 8920

1 19 0

20 1 19

PARÁMETROS

PALABRA DE

PRUEBA: FREE

Longitud: 4

F R E E FIN DEL

0 3344 5814

7 28 7

24 7 28

0 3344 5814

18 0 6

PARÁMETROS

PALABRA DE

PRUEBA: FREE

Longitud: 4

F R E E FIN DEL

0 2340 5130

Duración 73 87 255

7 28 7

24 7 28

0 2340 5130

Duración 73 87 255

18 0 6

PALABRA DE PRUEBA: ONE THOUSAND Longitud: 11

T H O U S A N D

Número secuencia

1 1 1 1 1 1 1 1 1

Posición secuencia

0 2874 5584 7968 9942 15808 18316 20444 22694

Duración 90 84 74 61 183 78 66 70 79

12 33 42 16 48 15 33 19 7

46 12 33 42 16 48 15 33 19

Número secuencia

1 1 1 1 1 1 1 1 1

Posición secuencia

0 2874 5584 7968 9942 15808 18316 20444 22694

Duración 90 84 74 61 183 78 66 70 79

1 19 17 11 15 1 19 19 0

7 1 19 17 11 15 1 19 19

Número secuencia

0 7968

Posición carácter

Flujo liberado

PALABRA DE PRUEBA: ONE THOUSAND Longitud: 11

T H O U S A N D

Número secuencia

1 1 1 1 1 1 1 1 1

Posición secuencia

0 1688 3442 5942 8870 15166 17482

19064 22566

Duración 53 55 78 91 197 72 49 109 72

12 33 42 16 48 15 33 19 7

46 12 33 42 16 48 15 33 19

Número secuencia

1 1 1 1 1 1 1 1 1

Posición secuencia

0 1688 3442 5942 8870 15166 17482

19064 22566

Duración 53 55 78 91 197 72 49 109 72

1 19 17 11 15 1 19 19 0

7 1 19 17 11 15 1 19 19

Número secuencia

0 5942

Posición carácter

Flujo liberado

PALABRA DE PRUEBA: WHO ARE YOU? Longitud: 10

Y O U ?

Número secuencia

1 1 1 1 1 1

Posición secuencia

0 2216 6414 10168 14186 17538

Duración 69 131 117 125 105 593

44 7 47 44 7 16

26 44 7 47 44 7

Número secuencia

1 1 1 1 1 1

Posición secuencia

0 2216 6414 10168 14186 17538

Duración 69 131 117 125 105 593

7 0 6 7 0 11

12 7 0 6 7 0

Número secuencia

0 6414 10168

Posición carácter

Flujo liberado

PALABRA DE PRUEBA: WHO ARE YOU? Longitud: 10

Y O U ?

Número secuencia

1 1 1 1 1 1

Posición secuencia

0 1840 6130 9426 11554 16730

Duración 57 134 103 66 162 593

44 7 47 44 7 16

26 44 7 47 44 7

Número secuencia

1 1 1 1 1 1

Posición secuencia

0 1840 6130 9426 11554 16730

Duración 57 134 103 66 162 593

7 0 6 7 0 11

12 7 0 6 7 0

Número secuencia

0 6130 9426

Posición carácter

Flujo liberado

tesis victoria libre

Documents

software libre reunión nacional de geografía 2008 victoria...

tesis la aportacion de los estudios de villa lobos-libre

tesis maestría en software libre

tesis martin camilo perez-libre

empleopublico.castillalamancha.esempleopublico.castillalamancha.es/...selec/...terapia_ocupacional.pdf ·...

tesis doctoral presentada por victoria dalila palacios

tesis corregida oscar victoria 26 ... - universidad de chile

resoluciÓn provisional del tribunal ......borja sanchez ana...

antin yohana. tesis kepuasan pasien pdf-libre

tesis doctoral controversias por la libre navegacion …

pfi tesis iuna micheli victoria 36011858

tesis arte prof. victoria andrea muñoz serra

tesis ingenieria en sistemas, software libre y pymes

tesis final victoria cochachin 11set

tesis ocupacion del tiempo libre

tesis - marÍa victoria laddaga

tesis victoria espinoza 30

tesis master victoria aguila higuero

libre office - configuracion para tesis

tesis saldi final-libre