DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN
HABLADA EN ENTORNOS INTELIGENTES
Autor: Rosario Alcázar PriorTutor: Juan Manuel Montero Martínez
INTRODUCCIÓNINTRODUCCIÓN
Proyecto ROBINT:Proyecto ROBINT: Humanizar al robotHumanizar al robot Facilitar la comunicación con losFacilitar la comunicación con los
visitantes del museovisitantes del museo
Objetivo en el Módulo T2S:Objetivo en el Módulo T2S:Síntesis de habla con emocionesSíntesis de habla con emociones
Objetivos del proyecto:Objetivos del proyecto: Mejor implementación de ALEGRÍA y TRISTEZAMejor implementación de ALEGRÍA y TRISTEZA Implementación de la emoción SORPRESA Implementación de la emoción SORPRESA Implementación de la emoción ENFADO Implementación de la emoción ENFADO
DEFINICIÓN DE EMOCIÓNDEFINICIÓN DE EMOCIÓN Emoción:Emoción:
Estado complejo del organismo Estado complejo del organismo Respuesta a eventos que se reciben del entornoRespuesta a eventos que se reciben del entorno Percepción de cambio Percepción de cambio Evaluación Evaluación Predispone a dar una respuesta organizada. Predispone a dar una respuesta organizada.
¿Para qué sirven las emociones?¿Para qué sirven las emociones?Función adaptativa:Función adaptativa:
Miedo, ascoMiedo, asco Función social:Función social:
Tristeza, enfadoTristeza, enfado
CLASIFICACIÓN DE LAS CLASIFICACIÓN DE LAS EMOCIONES (I)EMOCIONES (I)
Modelo de RussellModelo de RussellCada emoción se sitúa en el interior de un Cada emoción se sitúa en el interior de un
círculo definido en un espacio bidimensionalcírculo definido en un espacio bidimensional Dimensión Valencia: evaluaciónDimensión Valencia: evaluación
NegativasNegativas Enfado Enfado
PositivasPositivas AlegríaAlegría
Dimensión Activación: nivel de excitaciónDimensión Activación: nivel de excitación Pasivas Pasivas
Tristeza Tristeza ActivasActivas
SorpresaSorpresa
CLASIFICACIÓN DE LAS CLASIFICACIÓN DE LAS EMOCIONES (II)EMOCIONES (II)
VALENCIA
ACTIVIDAD
PositivoNegativo
Pasivo
Activo
ALEGRÍA
Euforia
SORPRESA
Asombro
ENFADO EN CALIENTE
ENFADO EN FRÍO
NEUTRO
TRISTEZA
Depresión
BASE DE DATOS (S.E.S.)BASE DE DATOS (S.E.S.) Grabaciones de un actor simulando estado neutro Grabaciones de un actor simulando estado neutro
y:y: TRISTEZA: más prosódica que segmentalTRISTEZA: más prosódica que segmental ALEGRÍA: tan segmental como prosódicaALEGRÍA: tan segmental como prosódica SORPRESA: prosódicaSORPRESA: prosódica ENFADO: segmentalENFADO: segmental
Para cada emociónPara cada emoción 3 sesiones de 15 frases 3 sesiones de 15 frases Patrones más identificables Patrones más identificables 3 sesiones de 4 párrafos3 sesiones de 4 párrafos
Contenido semántico y sintáctico neutroContenido semántico y sintáctico neutro
Etiquetada manualmenteEtiquetada manualmente Ficheros .par que contienen la prosodiaFicheros .par que contienen la prosodia
ESTRUCTURA DEL CONVERSORESTRUCTURA DEL CONVERSOR
TEXTOTEXTO
• Análisis de textoAnálisis de texto
• Procesado Procesado de de etiquetas etiquetas•Conversión de Conversión de texto a fonemastexto a fonemas
• Generación Generación de de prosodiaprosodia
FONEMASFONEMAS
PROSODIAPROSODIA
Sintetizador Sintetizador
dede
KlattKlatt
VOZVOZ
PROCESADO DE PROCESADO DE TEXTOTEXTO
SÍNTESIS DE VOZSÍNTESIS DE VOZ
SINTETIZADOR DE KLATTSINTETIZADOR DE KLATT
ESTUDIO DE LA FUENTE ESTUDIO DE LA FUENTE GLOTALGLOTAL OBJETIVOOBJETIVO: efectos segmentales enfado: efectos segmentales enfado
Señal a la salida de la fuente glotal:Señal a la salida de la fuente glotal:
¼ del periodo glotal:¼ del periodo glotal:
¾ del periodo glotal:¾ del periodo glotal:
Filtro paso bandaFiltro paso banda
Suma de ruido síncrono en pitchSuma de ruido síncrono en pitch
)_(1
xaglotAGLOTFACTORxaglotaglot
onda
0onda
VARIACIONES EN EL BW (I)VARIACIONES EN EL BW (I) OBJETIVOOBJETIVO: Aumentar el BW para ALEGRÍA: Aumentar el BW para ALEGRÍA
Incrementar la frecuencia de muestreo: 10 kHz Incrementar la frecuencia de muestreo: 10 kHz 16 16 kHzkHz
Paradójica disminución del BW efectivoParadójica disminución del BW efectivo Formante de 4,5 KHz pierde ganancia al pasar a 16 KHzFormante de 4,5 KHz pierde ganancia al pasar a 16 KHz
211
)(
zCzB
AzH
Filtros adicionales en la rama serieFiltros adicionales en la rama serie Apenas percibidosApenas percibidos
Misma causaMisma causa
s
s
TBW
sresonanciaTBW
eC
TfeB
CBA
2
)2cos(2
1
VARIACIONES EN EL BW (II)VARIACIONES EN EL BW (II)
Diseño de filtros Diseño de filtros para el caso de para el caso de ffmuestreo muestreo 16000 Hz16000 Hz
Filtros en paralelo Filtros en paralelo
a la rama seriea la rama serie
Filtros de 2º orden de ganancia Filtros de 2º orden de ganancia constanteconstante
TRISTEZA (I)TRISTEZA (I)
VALENCIA
ACTIVIDAD
PositivoNegativo
Pasivo
Activo
ALEGRÍA
SORPRESA
ENFADO EN FRÍO
NEUTRO
TRISTEZA
TRISTEZA (II)TRISTEZA (II)
Modelo utilizado por el actorModelo utilizado por el actorTono bajo y homogéneoTono bajo y homogéneoMonotonía: poca varianzaMonotonía: poca varianzaBaja intensidad de la vozBaja intensidad de la voz
Disminución progresivaDisminución progresiva
Ralentización de la velocidad de Ralentización de la velocidad de locuciónlocución
Aumento del número y duración de las pausasAumento del número y duración de las pausas
Introducción de suspirosIntroducción de suspiros
Contraste con el estado neutroContraste con el estado neutro PROSODIAPROSODIA
Reducción del valor medio de F0Reducción del valor medio de F0 120 Hz 120 Hz 100 Hz 100 Hz
Disminución de la velocidad de locuciónDisminución de la velocidad de locución 156 sil/min 156 sil/min 135 sil/min 135 sil/min
Alargamiento de pausasAlargamiento de pausas SEGMENTALSEGMENTAL
Reducción del BW efectivoReducción del BW efectivo 6500 Hz 6500 Hz 4500 Hz 4500 Hz
Introducción de jitter en F0 a nivel de Introducción de jitter en F0 a nivel de fonemafonema Simula voz temblorosaSimula voz temblorosa
TRISTEZA (III)TRISTEZA (III)
ALEGRÍA (I)ALEGRÍA (I)
VALENCIA
ACTIVIDAD
PositivoNegativo
Pasivo
Activo
ALEGRÍA
SORPRESA
ENFADO EN FRÍO
NEUTRO
TRISTEZA
ALEGRÍA (II)ALEGRÍA (II) Modelo utilizado por el actorModelo utilizado por el actor
Gran variedad de patrones entonativosGran variedad de patrones entonativosAumento del valor del tono medioAumento del valor del tono medioAumento del rango de F0Aumento del rango de F0Aumento de la velocidad de locuciónAumento de la velocidad de locución
Disminución en la duración de las pausasDisminución en la duración de las pausas
Voz sonrienteVoz sonriente Más rica en altas frecuenciasMás rica en altas frecuencias
ALEGRÍA (III)ALEGRÍA (III)Contraste con el estado neutroContraste con el estado neutro PROSODIAPROSODIA
Aumento del valor medio de F0Aumento del valor medio de F0 120 Hz 120 Hz 190 Hz 190 Hz
Aumento del rango de variación de F0Aumento del rango de variación de F0 20 Hz 20 Hz 60 Hz 60 Hz
Subida de F0 en el último picoSubida de F0 en el último pico Elección del patrón más identificableElección del patrón más identificable
Aumento de la velocidad de locuciónAumento de la velocidad de locución 156 sil/min 156 sil/min 165 sil/min 165 sil/min
SEGMENTALSEGMENTAL Aumento del BW efectivoAumento del BW efectivo
6500 Hz 6500 Hz 8000 Hz8000 Hz Mayor diferenciación con la sorpresaMayor diferenciación con la sorpresa
SORPRESA (I)SORPRESA (I)
VALENCIA
ACTIVIDAD
PositivoNegativo
Pasivo
Activo
ALEGRÍA
SORPRESA
ENFADO EN FRÍO
NEUTRO
TRISTEZA
SORPRESA (II)SORPRESA (II)
Emoción transitoriaEmoción transitoriaFase inicial de evaluaciónFase inicial de evaluación
Gritos, retrocesos, movimientos bruscos,…Gritos, retrocesos, movimientos bruscos,…
Fase de confirmaciónFase de confirmación Progresiva evolución hacia otra emociónProgresiva evolución hacia otra emoción
Modelo vocal utilizado por el actorModelo vocal utilizado por el actorAumento del valor medio de F0Aumento del valor medio de F0Aumento del rango de F0Aumento del rango de F0
Tendencia ascendente a lo largo del grupo fónicoTendencia ascendente a lo largo del grupo fónico
Alargamiento de las sílabas tónicasAlargamiento de las sílabas tónicasAlargamiento de la última palabraAlargamiento de la última palabra
SORPRESA (III)SORPRESA (III)
Contraste con alegríaContraste con alegría PROSODIAPROSODIA
Aumento en el valor medio de F0Aumento en el valor medio de F0 190 Hz 190 Hz 200 Hz 200 Hz
Aumento del rango de variación de F0Aumento del rango de variación de F0 60 Hz 60 Hz 140 Hz 140 Hz
Pendiente de F0 ascendentePendiente de F0 ascendente Progresión hacia una emoción positivaProgresión hacia una emoción positiva
Alargamiento de sílabas tónicas, palabra Alargamiento de sílabas tónicas, palabra final y último fonemafinal y último fonema
Patrón final que comunica a los demás la sorpresaPatrón final que comunica a los demás la sorpresa
ENFADO (I)ENFADO (I)
VALENCIA
ACTIVIDAD
PositivoNegativo
Pasivo
Activo
ALEGRÍA
SORPRESA
ENFADO EN FRÍO
NEUTRO
TRISTEZA
ENFADO (II)ENFADO (II)
Expresión no vocalExpresión no vocalTensión muscularTensión muscularGestos amenazantesGestos amenazantes
Manos, mirada, cara,…Manos, mirada, cara,…
Modelo vocal utilizado por el actorModelo vocal utilizado por el actor Irregularidad glotalIrregularidad glotalBaja apertura bucalBaja apertura bucalAumento del nivel de amplitudAumento del nivel de amplitud
Especial énfasis en la última palabraEspecial énfasis en la última palabra
ENFADO (III)ENFADO (III)Contraste con estado neutroContraste con estado neutro PROSODIA: Progresión hacia enfado en calientePROSODIA: Progresión hacia enfado en caliente
Aumento del rango de variación de F0Aumento del rango de variación de F0 20 Hz 20 Hz 70 Hz 70 Hz
Reducción en la duración de los fonemas finalesReducción en la duración de los fonemas finales Aumento del nivel de amplitud Aumento del nivel de amplitud
Nivel de actividad medio pero con énfasis finalNivel de actividad medio pero con énfasis final Introducción de jitter en F0 a nivel de fonemaIntroducción de jitter en F0 a nivel de fonema
Irregularidad en la vozIrregularidad en la voz SEGMENTALSEGMENTAL
Introducción de ruido en la fuente glotalIntroducción de ruido en la fuente glotal Irregularidad en la fuente glotalIrregularidad en la fuente glotal
Evaluación de Resultados (I)Evaluación de Resultados (I) 23 personas23 personas 5 frases semánticamente neutras x 5 emociones5 frases semánticamente neutras x 5 emociones25 grabaciones25 grabaciones Orden aleatorioOrden aleatorio Sin realimentaciónSin realimentación Tasa de reconocimiento global: 74,78 % (>57,6% en VAESS)Tasa de reconocimiento global: 74,78 % (>57,6% en VAESS) Precisión global: 76,7 % (>64,7% en VAESS)Precisión global: 76,7 % (>64,7% en VAESS)
EMOCIÓN EMOCIÓN IDENTIFICADAIDENTIFICADA
EMOCIÓN SINTETIZADAEMOCIÓN SINTETIZADA
GRADO DE GRADO DE PRECISIÓNPRECISIÓN
NEUTRONEUTRO TRISTEZATRISTEZA ALEGRÍAALEGRÍA SORPRESASORPRESA ENFADOENFADO
NEUTRONEUTRO 83,5 %83,5 % 10,4 % 7,8 % 0 % 3,5 % 79,3 %
TRISTEZATRISTEZA 7,8 % 87 %87 % 0 % 0 % 2,6 % 89,3 %
ALEGRÍAALEGRÍA 1,7 % 0 % 53,9 %53,9 % 17,4 % 7 % 67,4 %
SORPRESASORPRESA 2,6 % 0 % 20,9 % 79,1 %79,1 % 14,8 % 67,4 %
ENFADOENFADO 3,5 % 1,7 % 9,6 % 2,6 % 70,4 %70,4 % 80,2 %
OTRAOTRA 0,9 % 0,9 % 7,8 % 0,9 % 1,7 % ---
Evaluación de Resultados (II)Evaluación de Resultados (II)TASA DE TASA DE
RECONOCIMIENTORECONOCIMIENTOEMOCIÓN SIMULADAEMOCIÓN SIMULADA
NEUTRONEUTRO TRISTEZATRISTEZA ALEGRÍAALEGRÍA SORPRESASORPRESA ENFADOENFADO
12 primeras pruebas12 primeras pruebas 82,61 %82,61 % 89,86 %89,86 % 36,96 %36,96 % 68,12 %68,12 % 69,56 %69,56 %13 últimas pruebas13 últimas pruebas 84,06 %84,06 % 82,61 %82,61 % 65,22 %65,22 % 95,65 %95,65 % 71,74 %71,74 %
TASA DE TASA DE RECONOCIMIENTORECONOCIMIENTO
EMOCIÓN SIMULADAEMOCIÓN SIMULADA
NEUTRONEUTRO TRISTEZATRISTEZA ALEGRÍAALEGRÍA SORPRESASORPRESA ENFADOENFADO
Voz NaturalVoz Natural 89,3 %89,3 % 90,3 %90,3 % 74,6 %74,6 % -------- 89,3 %89,3 %VAESSVAESS 58,6 %58,6 % 82,6 %82,6 % 46,6 %46,6 % -------- 42,6 %42,6 %
Re-síntesis + Re-síntesis + prosodia autom.prosodia autom.
72,9 %72,9 % 84,3 %84,3 % 65,7 %65,7 % 52,9 %52,9 % 95,7 %95,7 %
Resultados ActualesResultados Actuales 83.5 %83.5 % 87%87% 53,9 %53,9 % 79,1 %79,1 % 70,4 %70,4 %
OTRAS MODIFICACIONESOTRAS MODIFICACIONES Introducción de grados en las emocionesIntroducción de grados en las emociones
Nueva etiquetaNueva etiqueta 30% tristeza 30% tristeza 100 % tristeza 100 % tristeza
Silabicador de fonemasSilabicador de fonemas
Estructura cliente-servidorEstructura cliente-servidor
Estudios para hacer la voz más robóticaEstudios para hacer la voz más robótica Nuevas fuentes glotalesNuevas fuentes glotales Modificación en el modelo de interpolación Modificación en el modelo de interpolación
entonativaentonativa
ConclusionesConclusiones Mejora en la implementación de las emociones Mejora en la implementación de las emociones
TRISTEZA y ALEGRÍATRISTEZA y ALEGRÍA Implementación de las emociones SORPRESA Implementación de las emociones SORPRESA
y ENFADOy ENFADO Tasa de reconocimiento: 75 %Tasa de reconocimiento: 75 %
Enfado: 43% VAESS Enfado: 43% VAESS 70%70% Sorpresa: 53% en resíntesis Sorpresa: 53% en resíntesis 79%79% Alta tasa de identificación de neutra:58,6% VAESS Alta tasa de identificación de neutra:58,6% VAESS
83,5%83,5% Modificación del BW efectivoModificación del BW efectivo
alegríaalegría Estudio de la fuente glotal Estudio de la fuente glotal
enfadoenfado Incorporación de grados en las emocionesIncorporación de grados en las emociones
Líneas futuras de Líneas futuras de investigacióninvestigación
Implementación de las emociones en el Implementación de las emociones en el sintetizador por concatenaciónsintetizador por concatenación
Implementación de dos nuevas emociones: Implementación de dos nuevas emociones: miedo y ascomiedo y asco
Evaluación de los grados de las emocionesEvaluación de los grados de las emociones
DEMOSTRACIÓNDEMOSTRACIÓN DEMOSTRACIÓN: Estado neutro Tristeza Alegría Sorpresa Enfado
¿ Preguntas?¿ Preguntas?