tema 3. los sistemas de reconocimento...
Post on 29-Apr-2018
214 Views
Preview:
TRANSCRIPT
Esquema Esquema 1 Introducción1. Introducción2. Características de los sistemas de reconocimiento
t áti d l h blautomático del habla3. Técnicas para el reconocimiento automático del habla4. Estructura de los sistemas de reconocimiento5. Ejemplos5. Ejemplos6. Aplicaciones del reconocimiento automático del habla
2
0 Introducción0. IntroducciónReconocimiento automático del habla
Si t d ió t áti d l h bl Sistema de comprensión automática del habla.= Sistema que transforma la señal de habla humana en una acción:
texto (dictado automático)- texto (dictado automático)- anotación, indexación (y recuperación) de una información
en un documento sonoroen un documento sonoro- otras acciones (comando vocal, etc.)
Transformar señal de habla en representación simbólicaDel habla... ... al texto
3
Léonard a peint la Joconde.
0 Introducción0. IntroducciónÁmbitos relacionados con el reconocimiento automático del
habla:habla:
- Corrección fonética en aprendizaje en autonomía de lenguasp j gextranjeras
- Identificación automática del locutor- Reconocimiento automático de la lenguaY, más allá:
Comprensión automática del habla- Comprensión automática del habla
4
1. Decisiones previasCaracterísticas
Para crear una nueva aplicación de reconocimiento automático Para crear una nueva aplicación de reconocimiento automático del habla:
1. Definición de la utilidad de la aplicación, de las características del usuario yrealización de tests por medio de una interfaz para verificar si el conceptoestá adaptado al entorno de la aplicación.
2. Definición de los mensajes o del tipo de mensajes que deben ser2. Definición de los mensajes o del tipo de mensajes que deben serreconocidos por el sistema (conjunto finito o no de palabras o de frases,tamaño del diccionario, etc.).
3 Determinación del entorno: micro canal de transmisión ruidos etc3. Determinación del entorno: micro, canal de transmisión, ruidos, etc.4. Determinación de la variabilidad de la señal a reconocer
(robustez/versatilidad).
65. Tests
2. Principales dificultadesCaracterísticas
Dificultades del reconocimiento automático del habla:1 C tid d d i f ió t t1. Cantidad de información a tratar2. Variabilidad de información a tratar
• Variabilidad de entornosVariabilidad de entornos• Variabilidad fonética:
cantado -> cantao; médecin -> métcin...V i bilid d i t l t• Variabilidad inter-locutor
• Variabilidad intra-locutor• Variabilidad de tipos de habla
9 realizaciones de /a/ producidas por el mismo locutor
• Información prosódica: Vamos! / Vamos?; Vaya monos / vayámonos• Desambiguación por razones sintácticas o semánticas: Le président a parlé /
Le présidant a par les; Il l’a chanté / Il l’a chanter / Il l’a chantez / Il l’a chantée /
7
p p ;etc.
3. Decisiones y dificultadCaracterísticas
-Tipo de enunciados: palabras aisladas palabras conectadas detección palabras clave habla continua habla espontánea
- Número de locutores:monolocutor multi monolocutor independiente del locutormonolocutor multi-monolocutor independiente del locutor
- Tamaño del léxico:restringido especializado generalistarestringido especializado generalista
- Entorno:silencioso ruidoso (ruido previsible) ruidoso (ruido aleatorio)
- Perfil de los usuarios:entrenado habitual ocasional naïf
8
1. Modelos para el RAH Técnicas
- Modelo de producción (articulación): aplicación de la teoríaModelo de producción (articulación): aplicación de la teoríaacústica de producción del habla para inférir las característicasarticulatorias.
- Modelo acústico: aplicación de los conocimientos en análisisacústico del habla y en tratamiento de la señal.M d l diti li ió d l d l l- Modelo auditivo: aplicación de los modelos cocleares yneuronales y de los detectores auditivos de rasgos acústicos.
- Modelo perceptivo: aplicación de los modelos de percepción delModelo perceptivo: aplicación de los modelos de percepción delhabla y de extracción de rasgos fónicos perceptivos.
- Modelos estocásticos: no basados en conocimientos fonéticos.
9
1. Modelos para el RAH Técnicas
Históricamente:- Años 70: métodos basados en conocimiento (descodificación
ú ti f éti )acústico-fonética).- Finales años 70: reconocimiento de palabras aisladas,
programación dinámicaprogramación dinámica.- Años 80: Modelos Escondidos de Markov (HMM)- A partir de los años 90: habla continua, grandes léxicos,p g
adaptaciones.
10
2. Principio del RAHTécnicas
Fase de entrenamiento:Fase de entrenamiento:- Adquisición de datos etiquetados- Extracción de características- Creación de los “modelos” de referenciaFase de reconocimiento automático:
Ad i i ió d l ñ l- Adquisición de la señal- Comparación de la señal con los “modelos”- Cálculo de las distancias entre los “modelos” y la señalCálculo de las distancias entre los modelos y la señal
(similaridad)- Proceso(s) de decisión
11
2. Principio del RAHTécnicas
Depende de:Depende de:a) Tipo de reconocimiento
- Palabras aisladas- Palabras clave- Grandes léxicos
P l b ti / tá- Palabra continua / espontáneab) Técnicas de comparación
- Señal continua (parametrizada o no)Señal continua (parametrizada o no)- Señales discretas
12
3. Señal de hablaTécnicas
Conversión analógico-digitalFrecuencia de muestreo: teorema de Nyquistyq
13
4. ParametrizaciónTécnicas
Generalidades:- Análisis en ventana deslizante (30 ms.) con recubrimiento- Filtro pasa-bajo (8kHz)t o pasa bajo (8 )- Pre-acentuación (disminución de la dinámica del espectro)- Eliminación de la componente continua ( no información
inútil))
Principales tipos de métodos de parametrización:- Espectrales: raramente utilizados directamente- LPC (Linear Predictive Coding): Modelo autoregresivo;
principio: eliminar la redundancia temporal de la señal. Basadosobre modelo articulatorio de fuente y filtro.
- PLP (Perceptually-based Linear Prediction): Inspirado en modelos de percepción, intensidad percibida depende de la frecuencia (± escala de Bark o de Mel):
MFCC (M l F C t C ffi i t )15
- MFCC (Mel Frequency Cepstrum Coefficients)- DTW (Dynamic Time Warping)
5. Técnicas de comparaciónTécnicas
Técnicas de comparación:a) Señal continua (parametrizada o no)) (p )
• Comparación entre la señal y el modelo de referencia (< fase deentrenamiento)
• Determinación de la distancia entre la señal y el modelo de referencia• Proceso de decisión sobre similitud entre las 2
• Si parametrizada: señal y “modelo” representados por conjunto deparámetros• frecuenciales: formantes, coeficientes LPC, espectro de energía por
bandas frecuenciales• Temporales (Δ impulsiones de f0, pasos por 0, envolvente de amplitud)
b) Señales discretas• Segmentación (y concatenación) de los segmentos a partir de la
17identificación de los parámetros acústicos de los segmentos sucesivos.
Estructura 1. Reconocimiento de palabras aisladasComparación de señales contínuas
Digitalización de la señal Detección principio y final palabra
Comparación Codificación > pattern
atos
elas
cara
ct.
atte
rns r
ef. Diccionario
de patterns
enam
iento
Cálculo Δ (pattern señal / patterns dico)
dqui
sició
n de
dEx
tracc
ión
deCr
éació
npa
Fase
de e
ntre
Decisión de reconocimiento
AdF
20Output (escrito, acción...)
Estructura 2. Reconocimiento de grandes léxicos
Mismo principio que para el reconocimiento de palabrasMismo principio que para el reconocimiento de palabrasaisladas, pero se necesita:
- Definir unidades subléxicas- Clasificar previamente las entradas léxicas del
di i idiccionario
21
Estructura 3. Reconocimiento de habla continua
Necesidad de decodificación acústico-fonética Necesidad de:
- Definir las unidades de reconocimiento (dífonos, trífonos, )semisílabas...)
- Recurrir a “modelo de lenguaje” (cf. Infra)Plantear estrategia de decisión post comparación- Plantear estrategia de decisión post-comparación
22
Estructura Modelos de lenguajeHabla continua
Módulos:
- Fonológico y fonotáctico- Léxico
Gramática:- Gramática:
- Probabilista: todas las frases son posibles, pero tienenProbabilista: todas las frases son posibles, pero tienenprobabilidades distintas
- De estados finitos: partición binaria de las secuencias depalabras en “posibles” o “imposibles”palabras en “posibles” o “imposibles”
A la salida: n mejores frases.23
Estructura Estrategias de decisiónHabla continua
Tres grandes tipos de estrategias:1) Ascendente / Descendente / Mixta: leer y/o predecir2) Izquierda derecha / Medio laterales2) Izquierda-derecha / Medio-laterales3) Búsqueda solución óptima:
1) Estrategias totales: toma en consideración todas las soluciones posibles (no aplicable a grandes vocabularios)
2) Estrategia de “el mejor primero”: se empieza por el elemento que presenta mayor probabilidad.
3) E i d “ l j i ” (i di (1) (2))3) Estrategia en red o “algunos mejores primero” (intermedia entre (1) y (2))4) Estrategia por “islotes de confianza”, a base de palabras-clave de
reconocimiento robusto.
25
Estructura 3. Reconocimiento de habla continua
Digitalización de la señalef. Diccionarioam
iento
Digitalización de la señal
Comparación DAFn de
dat
osió
n de
car
act.
ión
patte
rns r
e Fonético(patterns de dífonos...)
se d
e ent
rena
Comparación DAF
Comparación Algoritmo de reconocimiento
Adqu
isició
nEx
tracc
iCr
eac
Fas
Cálculo Δ (pattern señal / patterns dico)
p g
Decisión de reconocimiento1
mod
elos
icales
Diccionario léxico(patterns léxicos)
Cálculo Δ (pattern señal / patterns dico)
Output (escrito, acción...)
pilac
ión
de m
os y
gram
ati léxicos)
Gramática
EventualmenteMódulo de comprensión
26Com
pLé
xico
1 con o sin umbral
Ejemplos 1. Reconocimiento de voz de WindowsLos empresarios quieren eliminar la prórroga sine die de los convenios.Los empresarios quieren eliminar las prórrogas y de los convenido.
La patronal plantea la ampliación de las cláusulas de descuelgue.p p p gLa patronal plantea la ampliación de las cláusulas de descuelgue
La CEOE ha propuesto a los sindicatos CC.OO. y UGT una profunda reforma del contenido de la negociación colectiva. En concreto plantea la La G o L ha propuesto a los sindicatos ccoo y ugt en una profunda reforma del contenido de la negociación colectiva. En concreto a plantear la p p y g p g p
eliminación de la ultraactividad de los convenios –de forma que se elimine su prórroga automática cuando caducan- y la ampliación de laeliminación de la junta la actividad de los convenios –Héctor Márquez eliminar su prórroga automática cuando le toca- y la ampliación de la
« cláusula de descuelgue » salarial aprobada en la reforma laboral. La reforma de la negociación colectiva es la clave de la flexibilidad delcláusula de descuelgue salarial aprobado en la reforma laboral. La reforma de la negociación colectiva es la clave de la flexibilidad del
mercado laboral y es más importante aún que la reforma laboral. Por esta razón los agentes sociales se reservan el derecho a negociarlamercado laboral yo es más importante aún que la reforma laboral. Po resta razón los agentes sociales se reservará el derecho a negociar la
bilateralmente sin interferencias del Gobierno. De hecho, aprovecharán para « retocar » algunos puntos conflictivos.bilateralmente siempre yo no vi a un. De hecho lo aprovecharán para retocar algunos puntos XXX.
27Esto explica que la respuesta de los sindicatos haya sido inmediata.Esto explica que la respuesta de los sindicatos haya sido inmediata.
Ejemplos 2. Dragon Naturally Speaking
Comédie. Un père juif veut marier sa fille dans la tradition avec le fils de son meilleur ami. Mais la belle estComédie Un air je lui veux marier sa fille dans la tradition avec le fils de son meilleur Anne Mais la del est
Test con entrenamiento básico
Comédie. Un air je lui veux marier sa fille dans la tradition avec le fils de son meilleur Anne. Mais la del est déjà amoureuse. Richissime propriétaire d’une chaîne de casinos, Max est un homme heureux.déjà amoureuse. Richissime propriétaire d’une chaîne de casinos, ma est un homme heureux.Fier de sa réussite sociale, il est surtout très satisfait de voir sa fille, Lisa, briller dans tous les domaines. Fier de sa réussite sociale, il est surtout très satisfait de voir sa fille, ni de la, brillait dans tous les domaines. Il lui nourrit d’ailleurs d’ambitieux projets. Son rêve : la marier dans la plus pure tradition juive, avec Il lui nourrit d’ailleurs d’ambitieux projets. Son revé : la mariée est dans la structure tradition juive, avec Sydney Azerad, fils de son meilleur ami. Lorsqu’il apprend que Lisa est déjà amoureuse d’un autreSydney adhéra de, si de son meilleur ami. Lorsqu’il apprend que Nizar est déjà amoureuse d’un autregarçon prénommé Jean-Christophe, il voit rouge. D’autant qu’il s’agit d’un goy, c’est-à-dire un non-juif.garçon prénommé Jean Christophe, il voit XXXX. D’autant qu’il s’agit Dan Goldin, c’est-à-dire d’un on suit.Une gentille comédie sans plus
28
Une gentille comédie, sans plus.Une gentille comédie, semble.Dan Goldin = ex-directeur de la NASA ; Nizar Baraka = premier ministre Marocain.
Aplicaciones Principales aplicacionesTelecomunicaciones:• Sistemas de información telefónica: páginas amarillas, meteorología, transportes, museos,
cines, estado de cuentas en un banco, etc., ,• Acceso telefónico a textos escritos: consulta de bases de datos, del mail, etc.• Encuestas telefónicas, etc.Burótica:
A li i “ lib ”• Aplicaciones “manos libres”• Dictado automático (libre, informes médicos, etc.)• Entrada de datos numéricos• Traducción asistida por ordenador (TAO) oral-oral/escritoTraducción asistida por ordenador (TAO) oral oral/escritoAyuda a personas con minusvalías:• Aplicaciones de ayuda a discapacitados motores (o visuales)Aplicaciones industriales:
C lt d i f i l t ó il• Consulta de informaciones en los automóviles• Control de comandos en los aviones, etc.• Consulta sobre el estado de un sistema• Control de robots
29
Control de robotsAprendizaje de lenguas extranjeras:• Software de aprendizaje, traducción automática, etc.
Links hacia demos de RAH (http://liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/recognition/refs_reconeixement.html#General
i iti )_overviews_recognition)(http://liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/recursos.html#Reconeixement_enllacos)ASR / RAP / Dictado automático / Dictée automatique, etc.
• http://www.nuance.com/talk/ (Naturally Speaking)• http://www.vecsys.fr/applications/applis-vocales.htm#mgpt• http://www.speechware.be/fr/freedemo.phpLibres de acceso (Linux):( )• http://freespeech.sourceforge.net/• http://www.kiecza.net/daniel/linux/cvoicecontrol/index-1.html
30
p
top related