universidad de granada - ugr.esatv/pvl/transpa_proc_voz_2007_tema5.pdf · procesamiento de voz –...

39
Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 1 UNIVERSIDAD DE GRANADA PLAN DE ESTUDIOS: DIPLOMADO EN LOGOPEDIA PROCESAMIENTO DE VOZ Ángel de la Torre Vega Dpto. Teoría de la Señal, Telemática y Comunicaciones

Upload: others

Post on 31-Oct-2019

6 views

Category:

Documents


0 download

TRANSCRIPT

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 1

UNIVERSIDAD DE GRANADA

PLAN DE ESTUDIOS: DIPLOMADO EN LOGOPEDIA

PROCESAMIENTO DE VOZÁngel de la Torre Vega

Dpto. Teoría de la Señal, Telemática y Comunicaciones

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 2

Tema 5: ANALISIS DE SEÑALES DE VOZ

5.1.- Introducción.5.2.- La forma de onda.5.3.- Las vocales.5.4.- Consonantes estacionarias sonoras y sordas.5.5.- Consonantes no estacionarias.5.6.- Coarticulación. 5.7.- Variabilidad.5.8.- La señal de voz en presencia de ruido:

– Ruido blanco y ruido coloreado– Ruido no estacionario– Detección de actividad de voz

Organización de la asignatura

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 3

Tema 6: SÍNTESIS Y CODIFICACIÓN DE VOZ

6.1.- Introducción.6.2.- Codificación y decodificación de voz.6.3.- Síntesis de voz.6.4.- Manipulación de la señal de voz.

Organización de la asignatura

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 4

Tema 7: RECONOCIMIENTO DE VOZ Y RECONOCIMIENTO DE LOCUTORES

7.1.- Introducción.7.2.- Reconocimiento automático de voz:

– Problemas asociados al reconocimiento de voz.– Representación de la voz: el front-end.– Modelado acústico: GMMs, HMMs y ANNs.– Modelado del lenguaje: vocabulario y gramática.– El sistema de diálogo.

7.3.- Reconocimiento automático de locutor:– Problemas asociados al reconocimiento de locutores– Reconocimiento, identificación y verificación de locutor. Distintos

enfoques del problema.– Representación de la voz y modelado del locutor.

Organización de la asignatura

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 5

Tema 8: PROCESAMIENTO DE LA SEÑAL DE VOZ EN SISTEMAS DE AYUDA A LA AUDICIÓN

8.1.- Introducción.8.2.- Audífonos:

– Amplificación.– Bancos de filtros.– Compresión.– Control automático de ganancia y reducción de ruido.– Realimentación acústica.

8.3.- Implantes cocleares:– Funcionamiento del implante coclear.– Procesamiento de la señal en un implante coclear.– Posibilidades y limitaciones de los implantes cocleares.– Programación de los implantes cocleares.– Percepción del sonido con implantes cocleares.

Organización de la asignatura

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 6

Tema 9: APLICACIONES DE LAS TECNOLOGÍAS DEL HABLA EN EL DIAGNÓSTICO,

TRATAMIENTO Y SEGUIMIENTO LOGOPÉDICO

9.1.- Introducción.9.2.- Herramientas de análisis de la voz.9.3.- Herramientas basadas en reconocimiento de voz.

Organización de la asignatura

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 7

TEMA 5

ANÁLISIS DE SEÑALES DE VOZ

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 8

Tema 5: ANALISIS DE SEÑALES DE VOZ

5.1.- Introducción.5.2.- La forma de onda.5.3.- Las vocales.5.4.- Consonantes estacionarias sonoras y sordas.5.5.- Consonantes no estacionarias.5.6.- Coarticulación. 5.7.- Variabilidad.5.8.- La señal de voz en presencia de ruido:

– Ruido blanco y ruido coloreado– Ruido no estacionario– Detección de actividad de voz

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 9

5.1.- Introducción

• Hemos visto cómo se produce la voz (tema 3)• Hemos visto herramientas para análisis y representación (tema 4)

energía, cruces por cero, autocorrelación, tono fundamentalespectro, espectrograma, análisis LPC, banco de filtros, cepstrum

• En este tema aplicamos estas herramientas a señales de voz– Características observadas en los distintos fonemas

• Fonemas aislados

– Señales más realistas:• Voz continua• Voz adquirida en ruido

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 10

• Actividad de las cuerdas vocales:– Vocales– Consonantes sonoras– Consonantes sordas

• Modo de articulación:– Vocales (abiertas, medias, cerradas)– Consonantes (oclusivas, fricativas, nasales, líquidas...)

• Lugar de articulación:– Vocales (anteriores, centrales, posteriores)– Consonantes (bilabiales, labiodentales, linguodentales...)

REVISIÓN DE LOS FONEMASCLASIFICACIÓN (desde el punto de vista de la producción)

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 11

• Modo de articulación (1er formante):– Cerradas (i, u)– Medias (e, o)– Abiertas (a)

• Lugar de articulación (2o formante):– Anteriores (i, e)– Centrales (a)– Posteriores (o, u)

CASLIFICACIÓN DE LAS VOCALES

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 12

CALSIFICACIÓN DE LAS CONSONANTES

• Modo de articulación:– Oclusivas (b, d, g, p, t, k):– Fricativas (s, f, z, x, y)– Africadas (ch)– Nasales (m, n, ñ)– Líquidas

• Laterales (l, ll)• Vibrantes (r, R)

• Lugar de articulación:– Bilabiales (b, p, m):– Labiodentales (f)– Linguodentales (t, d)– Linguointerdentales (z)– Linguoalveolares (s, n, l, r, R)– Linguopalatales (y, ch, ñ, ll)– Linguovelares (k, g, x)

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 13

FONEMAS DEL ESPAÑOLTema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 14

5.2.- La forma de onda

• La forma de onda contiene toda la información• Es difícil analizar la información observando la forma de onda• Inspección de la forma de onda:

– Variación de las propiedades– Velocidad de pronunciación de fonemas– Fonemas sordos y sonoros (energía y periodicidad)– Vocales y fonemas sonoros (energía y frecuencia fundamental)

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 15

�����

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 16

��� ��� ���

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 17

��������������

������������ ����������� ������������� �����

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 18

5.3.- Las vocales

Tema 5: Análisis de voz

• Modo de articulación (1er formante):– Cerradas (i, u)– Medias (e, o)– Abiertas (a)

• Lugar de articulación (2o formante):– Anteriores (i, e)– Centrales (a)– Posteriores (o, u)

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 19

Tema 5: Análisis de voz

Espectros FFT y LPC de las vocales

���

���

��� ������

���

���

���

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 20

Funciones de área, formantes y vocales

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 21

Tema 5: Análisis de voz

Funciones de área, formantes y vocales

500

1000

1500

2000

2500

3000

200 300 400 500 600 700 800 900 1000

freq.

2o

form

ante

(Hz)

freq. 1er formante (Hz)

/a//o//u/

/i/ /e/

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 22

5.4.- Las consonantes estacionarias

Tema 5: Análisis de voz

• Consonantes sonoras (estacionarias):– Nasales:

• m, n, ñ

– Líquidas:• l, y, R

• Consonantes sordas (estacionarias):– Fricativas:

• s, sh, z, f, j

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 23

Tema 5: Análisis de voz

Espectros FFT y LPC de consonantes sonoras estacionarias

���

���

��

��

���

���

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 24

Tema 5: Análisis de voz

Espectros FFT y LPC de consonantes sordas estacionarias

� �

� �

� ��

���

���

���

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 25

5.5.- Las consonantes no estacionarias

Tema 5: Análisis de voz

• Fonemas estacionarios:– Vocales: a, e, i, o, u– Consonantes sonoras: l, y, R, m, n, ñ– Consonantes sordas: s, sh, ss, z, f, j

• Fonemas no estacionarios:– Plosivas sordas: p, t, k– Plosivas sonoras: b, d, g– Otras consonantes: ch, r

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 26

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 27

Tema 5: Análisis de voz

���������������������������������������������������� �����

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 28

Tema 5: Análisis de voz

�������������������������������������������������������������

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 29

Tema 5: Análisis de voz

���������������� ��������������������������� ���������������������� �����

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 30

Tema 5: Análisis de voz

����������������������������� ������������������������������

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 31

Tema 5: Análisis de voz

������������� ���������� ��������� �����������������

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 32

Tema 5: Análisis de voz

����������������� ������� ��������������� ����

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 33

5.6.- Coarticulación

Tema 5: Análisis de voz

• Transición suave:– Cambios en el tracto vocal no instantáneos– Cambios en tensión de cuerdas vocales no instantáneos– Propiedades de la señal varían de forma suave– Limites entre fonemas difusos (continuidad)– Fonemas afectados por adyacentes (coarticulación)– En una frase los parámetros no llegan a tomar los valores “ideales”– Afectados por características suprasegmentales

• Ver ejemplos anteriores:– Continuidad– Coarticulación

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 34

5.7.- Variabilidad

Tema 5: Análisis de voz

• Variaciones de los parámetros que representan la voz:– Comunidades (estilos de habla)– Interlocutor (por estilo de habla y por características fisiológicas)– Intralocutor (estado de ánimo, estilo, enfermedad, etc.)– Dentro de una misma frase

• Factores que afectan:– Duración del fonema, velocidad de pronunciación– Estilo– Características suprasegmentales– Variantes fonéticas

• Dificultad para análisis supervisado• Dificultad para análisis automático

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 35

5.8.- Ruido

Tema 5: Análisis de voz

• Es una señal que se suma a la señal de voz– Ruido blanco– Ruido coloreado– Ruido estacionario / ruido no estacionario

• Efecto Lombard

• Detección de actividad de voz

• Métodos para tratar el ruido

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 36

Tema 5: Análisis de voz

����������������� ������� ��������������� ����

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 37

Tema 5: Análisis de voz

����������������� ������� ��������������� ����

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 38

Tema 5: Análisis de voz

Procesamiento de Voz – ATV – Dpto. Teoría de la Señal, Telemática y Comunicaciones – Universidad de Granada 39

Tema 5: Análisis de voz