universidad de granada - ugr.esatv/pvl/transpa_proc_voz_2007_tema5.pdf · procesamiento de voz –...
TRANSCRIPT
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 1
UNIVERSIDAD DE GRANADA
PLAN DE ESTUDIOS: DIPLOMADO EN LOGOPEDIA
PROCESAMIENTO DE VOZÁngel de la Torre Vega
Dpto. Teoría de la Señal, Telemática y Comunicaciones
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 2
Tema 5: ANALISIS DE SEÑALES DE VOZ
5.1.- Introducción.5.2.- La forma de onda.5.3.- Las vocales.5.4.- Consonantes estacionarias sonoras y sordas.5.5.- Consonantes no estacionarias.5.6.- Coarticulación. 5.7.- Variabilidad.5.8.- La señal de voz en presencia de ruido:
– Ruido blanco y ruido coloreado– Ruido no estacionario– Detección de actividad de voz
Organización de la asignatura
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 3
Tema 6: SÍNTESIS Y CODIFICACIÓN DE VOZ
6.1.- Introducción.6.2.- Codificación y decodificación de voz.6.3.- Síntesis de voz.6.4.- Manipulación de la señal de voz.
Organización de la asignatura
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 4
Tema 7: RECONOCIMIENTO DE VOZ Y RECONOCIMIENTO DE LOCUTORES
7.1.- Introducción.7.2.- Reconocimiento automático de voz:
– Problemas asociados al reconocimiento de voz.– Representación de la voz: el front-end.– Modelado acústico: GMMs, HMMs y ANNs.– Modelado del lenguaje: vocabulario y gramática.– El sistema de diálogo.
7.3.- Reconocimiento automático de locutor:– Problemas asociados al reconocimiento de locutores– Reconocimiento, identificación y verificación de locutor. Distintos
enfoques del problema.– Representación de la voz y modelado del locutor.
Organización de la asignatura
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 5
Tema 8: PROCESAMIENTO DE LA SEÑAL DE VOZ EN SISTEMAS DE AYUDA A LA AUDICIÓN
8.1.- Introducción.8.2.- Audífonos:
– Amplificación.– Bancos de filtros.– Compresión.– Control automático de ganancia y reducción de ruido.– Realimentación acústica.
8.3.- Implantes cocleares:– Funcionamiento del implante coclear.– Procesamiento de la señal en un implante coclear.– Posibilidades y limitaciones de los implantes cocleares.– Programación de los implantes cocleares.– Percepción del sonido con implantes cocleares.
Organización de la asignatura
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 6
Tema 9: APLICACIONES DE LAS TECNOLOGÍAS DEL HABLA EN EL DIAGNÓSTICO,
TRATAMIENTO Y SEGUIMIENTO LOGOPÉDICO
9.1.- Introducción.9.2.- Herramientas de análisis de la voz.9.3.- Herramientas basadas en reconocimiento de voz.
Organización de la asignatura
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 7
TEMA 5
ANÁLISIS DE SEÑALES DE VOZ
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 8
Tema 5: ANALISIS DE SEÑALES DE VOZ
5.1.- Introducción.5.2.- La forma de onda.5.3.- Las vocales.5.4.- Consonantes estacionarias sonoras y sordas.5.5.- Consonantes no estacionarias.5.6.- Coarticulación. 5.7.- Variabilidad.5.8.- La señal de voz en presencia de ruido:
– Ruido blanco y ruido coloreado– Ruido no estacionario– Detección de actividad de voz
Tema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 9
5.1.- Introducción
• Hemos visto cómo se produce la voz (tema 3)• Hemos visto herramientas para análisis y representación (tema 4)
energía, cruces por cero, autocorrelación, tono fundamentalespectro, espectrograma, análisis LPC, banco de filtros, cepstrum
• En este tema aplicamos estas herramientas a señales de voz– Características observadas en los distintos fonemas
• Fonemas aislados
– Señales más realistas:• Voz continua• Voz adquirida en ruido
Tema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 10
• Actividad de las cuerdas vocales:– Vocales– Consonantes sonoras– Consonantes sordas
• Modo de articulación:– Vocales (abiertas, medias, cerradas)– Consonantes (oclusivas, fricativas, nasales, líquidas...)
• Lugar de articulación:– Vocales (anteriores, centrales, posteriores)– Consonantes (bilabiales, labiodentales, linguodentales...)
REVISIÓN DE LOS FONEMASCLASIFICACIÓN (desde el punto de vista de la producción)
Tema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 11
• Modo de articulación (1er formante):– Cerradas (i, u)– Medias (e, o)– Abiertas (a)
• Lugar de articulación (2o formante):– Anteriores (i, e)– Centrales (a)– Posteriores (o, u)
CASLIFICACIÓN DE LAS VOCALES
Tema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 12
CALSIFICACIÓN DE LAS CONSONANTES
• Modo de articulación:– Oclusivas (b, d, g, p, t, k):– Fricativas (s, f, z, x, y)– Africadas (ch)– Nasales (m, n, ñ)– Líquidas
• Laterales (l, ll)• Vibrantes (r, R)
• Lugar de articulación:– Bilabiales (b, p, m):– Labiodentales (f)– Linguodentales (t, d)– Linguointerdentales (z)– Linguoalveolares (s, n, l, r, R)– Linguopalatales (y, ch, ñ, ll)– Linguovelares (k, g, x)
Tema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 13
FONEMAS DEL ESPAÑOLTema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 14
5.2.- La forma de onda
• La forma de onda contiene toda la información• Es difícil analizar la información observando la forma de onda• Inspección de la forma de onda:
– Variación de las propiedades– Velocidad de pronunciación de fonemas– Fonemas sordos y sonoros (energía y periodicidad)– Vocales y fonemas sonoros (energía y frecuencia fundamental)
Tema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 15
�����
Tema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 16
��� ��� ���
Tema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 17
��������������
������������ ����������� ������������� �����
Tema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 18
5.3.- Las vocales
Tema 5: Análisis de voz
• Modo de articulación (1er formante):– Cerradas (i, u)– Medias (e, o)– Abiertas (a)
• Lugar de articulación (2o formante):– Anteriores (i, e)– Centrales (a)– Posteriores (o, u)
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 19
Tema 5: Análisis de voz
Espectros FFT y LPC de las vocales
���
���
��� ������
���
���
���
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 20
Funciones de área, formantes y vocales
Tema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 21
Tema 5: Análisis de voz
Funciones de área, formantes y vocales
500
1000
1500
2000
2500
3000
200 300 400 500 600 700 800 900 1000
freq.
2o
form
ante
(Hz)
freq. 1er formante (Hz)
/a//o//u/
/i/ /e/
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 22
5.4.- Las consonantes estacionarias
Tema 5: Análisis de voz
• Consonantes sonoras (estacionarias):– Nasales:
• m, n, ñ
– Líquidas:• l, y, R
• Consonantes sordas (estacionarias):– Fricativas:
• s, sh, z, f, j
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 23
Tema 5: Análisis de voz
Espectros FFT y LPC de consonantes sonoras estacionarias
���
���
��
��
���
���
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 24
Tema 5: Análisis de voz
Espectros FFT y LPC de consonantes sordas estacionarias
� �
� �
� ��
���
���
���
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 25
5.5.- Las consonantes no estacionarias
Tema 5: Análisis de voz
• Fonemas estacionarios:– Vocales: a, e, i, o, u– Consonantes sonoras: l, y, R, m, n, ñ– Consonantes sordas: s, sh, ss, z, f, j
• Fonemas no estacionarios:– Plosivas sordas: p, t, k– Plosivas sonoras: b, d, g– Otras consonantes: ch, r
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 26
Tema 5: Análisis de voz
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 27
Tema 5: Análisis de voz
���������������������������������������������������� �����
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 28
Tema 5: Análisis de voz
�������������������������������������������������������������
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 29
Tema 5: Análisis de voz
���������������� ��������������������������� ���������������������� �����
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 30
Tema 5: Análisis de voz
����������������������������� ������������������������������
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 31
Tema 5: Análisis de voz
������������� ���������� ��������� �����������������
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 32
Tema 5: Análisis de voz
����������������� ������� ��������������� ����
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 33
5.6.- Coarticulación
Tema 5: Análisis de voz
• Transición suave:– Cambios en el tracto vocal no instantáneos– Cambios en tensión de cuerdas vocales no instantáneos– Propiedades de la señal varían de forma suave– Limites entre fonemas difusos (continuidad)– Fonemas afectados por adyacentes (coarticulación)– En una frase los parámetros no llegan a tomar los valores “ideales”– Afectados por características suprasegmentales
• Ver ejemplos anteriores:– Continuidad– Coarticulación
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 34
5.7.- Variabilidad
Tema 5: Análisis de voz
• Variaciones de los parámetros que representan la voz:– Comunidades (estilos de habla)– Interlocutor (por estilo de habla y por características fisiológicas)– Intralocutor (estado de ánimo, estilo, enfermedad, etc.)– Dentro de una misma frase
• Factores que afectan:– Duración del fonema, velocidad de pronunciación– Estilo– Características suprasegmentales– Variantes fonéticas
• Dificultad para análisis supervisado• Dificultad para análisis automático
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 35
5.8.- Ruido
Tema 5: Análisis de voz
• Es una señal que se suma a la señal de voz– Ruido blanco– Ruido coloreado– Ruido estacionario / ruido no estacionario
• Efecto Lombard
• Detección de actividad de voz
• Métodos para tratar el ruido
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 36
Tema 5: Análisis de voz
����������������� ������� ��������������� ����
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 37
Tema 5: Análisis de voz
����������������� ������� ��������������� ����
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 38
Tema 5: Análisis de voz