ecualizacion de histogramas adaptativa...

6

Click here to load reader

Upload: duonghuong

Post on 19-Sep-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ECUALIZACION DE HISTOGRAMAS ADAPTATIVA …lorien.die.upm.es/~lapiz/rtth/JORNADAS/II/articulos/23.pdf · de histogramas, aplicado a cada componente del vector de caracter´ısticas

ECUALIZACI ON DE HISTOGRAMAS ADAPTATIVA EN EL DOMINIOCEPSTRAL PARA RECONOCIMIENTO DE VOZ ROBUSTO

Carmen Benıtez,Angel de la Torre, Jose C. Segura, Javier Ramırez, Antonio J. Rubio

Dpto. Electronica y Tecn. Comp., Universidad de Granada, 18071 GRANADA (Spain)Tel: +34.958.24.32.71 Fax: +34.958.24.32.30 e-mail:{carmen,atv,segura,rubio,javierrp }@ugr.es

Resumen

El ruido distorsiona la representacion de la senal de vozdando lugar a una degradacion del rendimiento en los sis-temas de reconocimiento automatico de voz. Los meto-dos de compensacion del ruido tratan de reducir este efec-to proporcionando una estimacion de la representacion dela voz limpia. En un trabajo previo propusimos un meto-do de compensacion del ruido basado en la ecualizacionde histogramas, aplicado a cada componente del vectorde caracterısticas en el dominio cepstral. En este trabajopresentamos una version adaptativa del metodo. En estaaproximacion, el procedimiento de compensacion del rui-do esta basado en las estimaciones realizadas en una ven-tana alrededor de la trama a compensar. De este modo, lacompensacion se adapta a las condiciones de ruido queafectan en un intervalo alrededor de cada trama, propor-cionando una compensacion mas apropiada en el caso deprocesos ruidosos no estacionarios. En este trabajo estu-diamos el mejor compromiso entre retardo y rendimientopara el metodo adaptativo de ecualizacion de histogra-mas. El metodo de compensacion se ha evaluado con latarea y base de datos de reconocimiento definidas en elestandar AURORA-2.

1. Introduccion

La distorsion en la representacion de la voz causa-da por el ruido degrada el rendimiento de los sistemasde reconocimiento automatico de voz, debido principal-mente al desajuste entre las condiciones de entrenamien-to y de reconocimiento [1]. Los metodos para robustecerlos reconocedores de voz ante condiciones de ruido estanorientados fundamentalmente hacia la minimizacion deeste desajuste causado por el ruido [1, 2, 3]. Los meto-dos para reducir el desajuste se pueden agrupar en trescategorıas:

El uso de caracterısticas robustas (es decir, afecta-das de forma mınima por el ruido) para representarla voz. De este modo, se realiza el reconocimien-to con modelos entrenados con voz limpia que se

Este trabajo se ha financiado parcialmente por el Gobierno Espanola traves del proyecto TIC2001-3323.

usan para evaluar la representacion de la voz rui-dosa, que se supone mınimamente afectada por elruido.

La compensacion del efecto del ruido sobre la re-presentacion de la voz con el objeto de realizar elreconocimiento sobre una estimacion de la voz lim-pia. En este caso, los modelos acusticos entrenadoscon voz limpia se utilizan para evaluar una versioncompensada de la representacion de la voz.

La adaptacion de los reconocedores a las condicio-nes de ruido con el objeto de evaluar la voz adqui-rida en condiciones de ruido con modelos de vozruidosa.

Estos metodos se suelen combinar, siendo frecuente, porejemplo, aplicar tecnicas de compensacion o de adapta-cion de modelos sobre sistemas que basan la representa-cion de la voz en parametrizaciones robustas.

En la actualidad, en la mayorıa de los sistemasde reconocimiento automatico de voz la representa-cion esta basada en los coeficientes cepstrales en esca-la Mel de frecuencia (Mel Frequency Cepstral Coeffi-cients, MFCC) [4]. El ruido aditivo produce distorsio-nes no lineales sobre las parametrizaciones basadas enMFCC [5, 6]. Por esta razon, aunque los metodos linea-les (como la Normalizacion de la Media Cepstral, CMN,[4], o la Normalizacion de la Media y la Varianza, MVN,[7, 8]) proporcionan mejoras significativas para la com-pensacion del ruido, presentan limitaciones importantes,puesto que solo proporcionan una compensacion de losdos primeros momentos de la distribucion de probabili-dad de las caracterısticas que representan la voz [9].

La ecualizacion de histogramas (Histogram Equali-zation, HEQ), utilizada de frecuentemente para Proce-samiento Digital de Imagenes [10], se ha aplicado paracompensar los efectos no lineales causados por el ruidosobre la representacion de la voz en distintos dominios[11, 12, 13]. En trabajos anteriores propusimos un meto-do basado en la ecualizacion de histogramas para la com-pensacion de los efectos del ruido en el dominio cepstral[14, 9, 15]. En ellos se mostro que este metodo propor-ciona mejoras sustanciales de la tasa de reconocimientode voz bajo condiciones de ruido cuando se utiliza como

Page 2: ECUALIZACION DE HISTOGRAMAS ADAPTATIVA …lorien.die.upm.es/~lapiz/rtth/JORNADAS/II/articulos/23.pdf · de histogramas, aplicado a cada componente del vector de caracter´ısticas

tecnica de compensacion aislada [9] o cuando se aplicaen combinacion con otros metodos [14, 15].

Los metodos adaptativos de compensacion del ruidoproporcionan una mejora en el rendimiento de los siste-mas de reconocimiento automatico de voz bajo condicio-nes de ruido no estacionario [8]. En estos metodos lastransformaciones aplicadas para la compensacion del rui-do estan basadas en una ventana alrededor de la trama acompensar y, por tanto, la compensacion se adapta a lascondiciones de ruido que afectan al entorno de cada tra-ma. Los metodos de compensacion adaptativos presentanademas la ventaja de que el retardo que introducen pue-de ser controlado a traves de la longitud de la ventanautilizada. Este retardo resulta particularmente importan-te en el contexto de Reconocimiento de Voz Distribuido(DSR), donde la parametrizacion de la voz se realiza entiempo real en el terminal cliente, mientras que el reco-nocimiento es realizado en el servidor.

En este trabajo proponemos una implementacionadaptativa del metodo de compensacion del ruido basa-do en Ecualizacion de Histogramas (en adelante HEQ),y analizamos el compromiso entre retardo y rendimien-to asociado al metodo de compensacion. Para evaluarel metodo de compensacion adaptativo que proponemos,en esta contribucion presentamos experimentos de reco-nocimiento usando el subconjunto de la base de datosen ingles TI-DIGITS incluido en el marco experimentalAURORA-2 [16].

2. Compensacion del ruido basada enecualizacion de histogramas

2.1. Efecto del ruido aditivo y del ruido convolutivo

Las parametrizaciones de la senal de voz basadas enMFCC incluyen un banco de filtros en escala Mel, unacompresion logarıtmica de la energıa de salida de cadafiltro, una transformada DCT para obtener los coeficien-tes cepstrales y la extraccion de los coeficientes de re-gresion [4]. SeanXb(t) y Yb(t), la energıa de salida delfiltro b en la tramat correspondientes a la voz limpia yla voz ruidosa, respectivamente. Asumiendo la indepen-dencia estadıstica del ruido y la senal de voz, el efecto deun ruido aditivoNb(t) y de un ruido convolutivoHb(t)que afecte a esta banda es descrito, en este dominio, porla ecuacion,

Yb(t) = (Xb(t) + Nb(t)) ·Hb(t) (1)

y para la salida del banco de filtros tras la compresionlogarıtmica (xb = log(Xb)), es descrito por,

yb(t) = hb(t) + log[exp(xb(t)) + exp(nb(t))] (2)

Puesto que los coeficientes cepstrales se obtienenaplicando una transformacion ortonormal a las salidas delbanco de filtros escaladas logarıtmicamente, el ruido con-

volutivo produce un desplazamiento global de los coefi-cientes cepstrales, mientras que el ruido aditivo introduceuna distorsion no lineal en el dominio MFCC [6].

2.2. Ecualizacion de histogramas para la compensa-cion del ruido

El metodo de ecualizacion de histogramas (HEQ),comunmente aplicado en Procesamiento Digital deImagenes [10] proporciona una transformacion no linealque convierte el histograma de una variable en un his-tograma de referencia. Este algoritmo es aplicado usual-mente a la escala de niveles de gris (en las imagenes enescala de gris) o a la escala de niveles de luminosidad pa-ra cada color (en las imagenes en color) para optimizar elrango dinamico de la escala de niveles de gris o del color.

Cuando el metodo HEQ se aplica a la representacionde la voz para la compensacion del ruido, cada compo-nente del vector de caracterısticas es ecualizada indepen-dientemente. El objetivo del metodo de compensacionHEQ es obtener, para cada componenten del vector decaracterısticas, una transformacionxn(yn) que conviertela distribucion de probabilidad correspondiente a la vozruidosapy(yn) en una distribucion de probabilidad dereferencia correspondiente a la voz limpiapx(xn). Di-cha transformacion proporciona una estimacion de la vozlimpia a partir de cada observacion de la voz ruidosa, esdecir, puede ser utilizada como un metodo de compensa-cion del ruido.

Puede demostrarse que sixn(yn) transformapy(yn)enpx(xn), entonces los histogramas acumulativos se ventransformados de acuerdo con la expresion,

Cy(yn) = Cx(xn(yn)) (3)

y por tanto, la transformacion se puede obtener a partirdel histograma acumulativo de la voz ruidosa y del his-tograma acumulativo de referencia correspondiente a lavoz limpia,

xn(yn) = C−1x [Cy(yn)] (4)

dondeC−1x representa la funcion inversa deCx.

Para calcular las transformacionesxn(yn), los histo-gramas acumulativosCx(xn) y Cy(yn) deben estimarsepara cada componenten del vector de caracterısticas. Lastransformaciones proporcionan la estimacion de la vozlimpia a partir de la voz ruidosa para cada componentedel vector de caracterısticas. El metodo de compensacionde ruido HEQ proporciona una transformacion que com-pensa los efectos no lineales del ruido y elimina la dis-torsion de las distribuciones de probabilidad de los datosruidosos. Se han propuesto metodos para procesamien-to robusto de la voz basados en HEQ para eliminar ladistorsion no lineal en distintos dominios: Balchandran yMammone aplicaron HEQ a las muestras de la voz paramejorar la identificacion de locutores [11]. Hilger y Neyecualizaron las salidas en escala lineal del banco de filtros

Page 3: ECUALIZACION DE HISTOGRAMAS ADAPTATIVA …lorien.die.upm.es/~lapiz/rtth/JORNADAS/II/articulos/23.pdf · de histogramas, aplicado a cada componente del vector de caracter´ısticas

para reconocimiento de voz robusto [13]. La aplicacionde HEQ en el dominio del cepstrum ha proporcionadomejoras significativas en reconocimiento robusto de voz[12, 14, 9, 15].

3. Ecualizacion de histogramas adaptativapara la compensacion del ruido

La aplicacion del metodo de compensacion HEQ re-quiere una estimacion apropiada de los histogramas acu-mulativos correspondientes a la voz ruidosaCy(yn) paracada componenten del vector de caracterısticas. En el ca-so de procesos ruidosos estacionarios, cuantas mas obser-vaciones se consideren, se tendra una mejor estimacionde los histogramas acumulativos y por tanto, se conse-guira una compensacion del ruido de mayor precision. Enesta situacion, el maximo rendimiento de reconocimientose alcanzarıa cuando todas las tramas de la frase se con-sideraran para la estimacion de los histogramas acumula-tivos. Sin embargo, en el caso de ruidos no estacionarios,los resultados pueden ser mejorados mediante una esti-macion adaptativa de los parametros involucrados en elprocedimiento de compensacion. En el caso de la norma-lizacion de la media y varianza en el dominio cepstral,existe una longitud de ventanaoptima para la estimacionde la media y la varianza, que proporciona un rendimien-to maximo [8], y usar ventanas mas largas o mas cortasdegrada los resultados de reconocimiento.

El retardo introducido por el metodo de compensa-cion tambien deberıa ser considerado en el contexto deReconocimiento de Voz Distribuido. Si las estimacionesnecesarias para la compensacion estan basadas en todaslas tramas de la frase, el procedimiento de compensacionintroduce un retardo largo y ademas variable (dependien-te de la frase). Frente a esto, un metodo de compensacionadaptativo puede proporcionar la representacion compen-sada con un retardo controlado. El retardo esta determi-nado por la longitud de la ventana definida para la adap-tacion, es decir, el numero de tramas involucradas en lasestimaciones. Si la ventana es demasiado corta, el retar-do sera pequeno, pero la compensacion no sera efectivaporque esta basada en estimaciones demasiado pobres. Amedida que la ventana es mayor, se ven involucradas mastramas en las estimaciones, proporcionando compensa-ciones mas efectivas, pero causando un retardo mayor.

Teniendo en cuenta estas consideraciones, hemos im-plementado un metodo de compensacion adaptativo ba-sado en HEQ. Para un retardo determinado deT tramas,hemos estimado los histogramas acumulativos a partir deuna ventana de2T + 1 tramas alrededor de la trama acompensar. De este modo, los histogramas acumulativos(y las transformaciones de compensacion) se actualizanpara cada trama y se ven adaptadas a los cambios en lascaracterısticas del ruido que afecta a la senal de voz.

Para las primeras (y lasultimas)T + 1 tramas de lafrase, las estimaciones estan basadas en una ventana fija

que contiene las primeras (oultimas)2T + 1 tramas (demodo que el retardo es mayor queT para las primerasT + 1 tramas, y menor para lasultimas). En el caso defrases con menos de2T + 1 tramas, todas las tramas dela frase son utilizadas para la estimacion de los histogra-mas acumulativos (y en este caso, se utilizan las mismastransformaciones para todas las tramas de la frase). Es-tas consideraciones relativas a los lımites de la frase y asu duracion son necesarias para la realizacion de experi-mentos de reconocimiento automatico de voz con una ba-se de datos, en los cuales cada frase esta almacenada enun fichero. En una implementacion real, cada trama serıacompensada teniendo en cuenta la ventana que contiene2T + 1 tramas a su alrededor, y la trama compensada seobtendrıa con un retardo deT tramas para todas las tra-mas de la frase.

4. Resultados experimentales

El metodo de compensacion HEQ adaptativo que pro-ponemos se ha evaluado mediante experimentos de reco-nocimiento en condiciones de ruido, usando el subcon-junto de la base de datos TI-DIGIT incluido en el marcoexperimental AURORA-2 [16]. La tarea consiste en elreconocimiento de dıgitos conectados en Ingles. La vozesta contaminada artificialmente con diversas SNRs conruido grabado en 10 condiciones diferentes. El recono-cedor de voz esta basado en el sistema HTK, y se hamodelado cada dıgito con un modelo oculto de Markovcontinuo con topologıa izquierda-a-derecha, con 16 es-tados emisores y 3 Gaussianas por estado [17]. El reco-nocedor de voz se ha entrenado en condiciones limpias(Clean Condition Test) y tambien se ha entrenado utili-zando frases contaminadas con diferentes tipos y nivelesde ruido (Multi Condition Test), de acuerdo con la tareadel estandar AURORA-2.

La representacion de la voz esta basada en una para-metrizacion MFCC. La senal de voz, muestreada a 8 kHzes segmentada en tramas y cada trama es representada porun vector de caracterısticas que contiene un coeficientede energıa (logarıtmica) y 12 coeficientes cepstrales. Elmetodo de compensacion HEQ adaptativo se aplica a ca-da componente de este vector de caracterısticas. El his-tograma acumulativo de cada componente es estimadoa partir de una ventana deslizante alrededor de la tramaa compensar. Se utiliza una distribucion de probabilidadGaussiana con media nula y varianza unidad como fun-cion densidad de probabilidad de referencia (se puedenencontrar mas detalles en [9]). El metodo de compensa-cion HEQ adaptativo se aplica tanto para entrenamientocomo para reconocimiento. El vector de caracterısticas seincrementa con los coeficientes de regresion (coeficientesdelta y delta-delta), lo que conduce a un vector de carac-terısticas con 39 componentes.

La figura 1 muestra el rendimiento del metodo decompensacion HEQ adaptativo para la tarea AURORA-

Page 4: ECUALIZACION DE HISTOGRAMAS ADAPTATIVA …lorien.die.upm.es/~lapiz/rtth/JORNADAS/II/articulos/23.pdf · de histogramas, aplicado a cada componente del vector de caracter´ısticas

55

60

65

70

75

80

85

90

20 40 60 80 100 120 140 160 180 200

Wor

d A

ccur

acy

(%)

Longitud de la ventana (tramas)

CLEAN CONDITION TEST

HEQ-AdapHEQ toda la frase

BASELINE

75

80

85

90

95

20 40 60 80 100 120 140 160 180 200

Wor

d A

ccur

acy

(%)

Longitud de la ventana (tramas)

MULTI CONDITION TEST

Figura 1: Resultados de reconocimiento (promediadospara niveles de SNR entre 20 y 0 dB) en funcion de lalongitud de la ventana utilizada para el metodo de com-pensacion HEQ adaptativo. Las graficas corresponden alos experimentos Clean Condition Test (arriba) y MultiCondition Test (abajo).

2, en funcion de la longitud de la ventana. Los resulta-dos estan promediados para todos los tipos de ruido (sub-conjuntos A, B y C) y para los niveles de SNR entre 20y 0 dB. Los resultados correspondientes a Clean Condi-tion Test y a Multi Condition Test se han representado engraficas separadas. Estas graficas muestran como mejo-ran los resultados a medida que la longitud de la ventanaaumenta (gracias a que se consideran mas tramas para laestimacion de los histogramas acumulativos). En el casode Clean Condition Test, el rendimiento alcanza un valormaximo para una longitud de ventana de 121 tramas, esdecir, para un retardo de 60 tramas (600 ms). Este com-portamiento muestra la importancia de los metodos decompensacion adaptativos bajo condiciones de ruido noestacionario. Esta longitud de ventana es coherente conla longitudoptima obtenida por Viiki [8] para la norma-lizacion adaptativa de la media y varianza de los vec-tores cepstrales. La figura 2 muestra el rendimiento delos metodos de compensacion HEQ (implementacionesadaptativa y no adaptativa) en funcion de la SNR. Losresultados estan promediados para los distintos tipos de

0

20

40

60

80

100

clean 20dB 15dB 10dB 5dB 0dB -5dB

Wor

d A

ccur

acy

(%)

SNR

HEQ-Adap MultiC.HEQ-NoAdap MultiC.

Baseline MultiC.HEQ-Adap CleanC.

HEQ-NoAdap CleanC.Baseline CleanC.

Figura 2:Resultados de reconocimiento en funcion delnivel de SNR. Estos resultados estan promediados paralos distintos tipos de ruido definidos en la base de datosAURORA-2. Se muestran resultados para Clean y MultiCondition Test.

ruido. El metodo HEQ adaptativo mostrado correspondea la longitud de ventanaoptima (121 tramas). La aplica-cion de la compensacion HEQ mejora significativamenteel rendimiento con respecto al reconocedor original pa-ra todo el rango de SNR, tanto para Clean como paraMulti Condition Test. La implementacion adaptativa deHEQ proporciona una mejora con respecto a la versionno adaptativa para Clean Condition Test y produce unaligera degradacion en el caso de Multi Condition Test.

Los resultados que proporciona el metodo de com-pensacion HEQ adaptativo se han comparado con los pro-porcionados por la normalizacion de la media cepstral(Cepstral Mean Normalization, CMN) [4] y la normali-zacion de media y varianza (Mean and Variance Norma-lization, MVN) [8]. Dicha comparativa se muestra en latabla 1. Se ha implementado una version adaptativa de losdistintos metodos de compensacion utilizando la longi-tud optima de la ventana (121 tramas) para la estimacionde los histogramas acumulativos, de la media cepstral, ode la media y varianza, respectivamente. Los resultadosmuestran que las implementaciones adaptativas propor-cionan una mejora sustancial para todos los metodos decompensacion con la excepcion del metodo HEQ en elcaso en que es aplicado sobre el Multi Condition Test,para el que se observa una ligera degradacion.

Los resultados de reconocimiento muestran la impor-tancia de los efectos no lineales causados por el ruido.El metodo HEQ proporciona mejoras importantes en elrendimiento de reconocimiento con respecto al sistemade referencia y tambien con respecto los metodos linea-les de compensacion gracias a que es capaz de compensarlos efectos no lineales causados por el ruido. Los resul-

Page 5: ECUALIZACION DE HISTOGRAMAS ADAPTATIVA …lorien.die.upm.es/~lapiz/rtth/JORNADAS/II/articulos/23.pdf · de histogramas, aplicado a cada componente del vector de caracter´ısticas

Clean Condition Multi ConditionWAcc Impr WAcc Impr

Baseline 60.06 % – 86.39 % –CMN 61.13 % 2.66 % 86.50 % 0.77 %CMN-Adap 66.47 % 16.05 % 87.15 % 5.57 %MVN 69.66 % 24.03 % 88.33 % 14.24 %MVN-Adap 75.30 % 38.16 % 89.09 % 19.83 %HEQ 80.76 % 51.81 % 89.66 % 24.04 %HEQ-Adap 83.03 % 57.50 % 89.21 % 20.70 %

Tabla 1:Tasa de reconocimiento (word accuracy, WAcc) ymejora relativa (relative improvement, Impr) con respec-to a los resultados de referencia para los distintos meto-dos de compensacion. CMN: cepstral mean normaliza-tion; MVN: mean and variance normalization; HEQ: his-togram equalization; Adapt: implementacion adaptativacon una longitud de ventana de 121 tramas. Los resulta-dos estan promediados para los distintos tipos de ruido(conjuntos A, B y C de AURORA-2) y para los niveles deSNR comprendidos entre 20 y 0 dB.

tados tambien muestran la importancia de los metodosadaptativos a la hora de abordar procesos ruidosos no es-tacionarios. Los resultados proporcionados por el metodode compensacion HEQ adaptativo son comparables conlos proporcionados por los mejores metodos de compen-sacion propuestos para la tarea AURORA-2 presentadosen la conferencia EUROSPEECH-2001 (vease la tabla 2)[18].

Ademas, la formulacion del metodo HEQ no descan-sa en suposiciones previas con respecto al tipo de ruidoque afecta a la senal o la parametrizacion utilizada pararepresentar la senal de voz. Por tanto, el metodo HEQpuede proporcionar mejoras en reconocimiento de vozbajo condiciones de ruido para un amplio rango de pro-cesos ruidosos y para diferentes parametrizaciones de lasenal de voz. Es por esta razon por la que el metodo HEQha mostrado un comportamiento satisfactorio cuando seha combinado con otros metodos de compensacion deruido, proporcionando mejoras adicionales con respectoa la aplicacion de los metodos de forma independiente.

5. Conclusiones

En este trabajo hemos presentado una implementa-cion adaptativa del metodo de compensacion de ruido ba-sado en ecualizacion de histogramas para ser aplicado aparametrizaciones de la voz basadas en el cepstrum. Losexperimentos de reconocimiento muestran que la imple-mentacion adaptativa mejora el rendimiento con respectoa la implementacion no adaptativa. Esta mejora esta aso-ciada a la habilidad de los metodos adaptativos para tratarprocesos ruidosos no estacionarios como los que usual-mente afectan a la senal de voz. Adicionalmente, el meto-do de compensacion HEQ adaptativo que proponemos re-

duce el retardo asociado al procedimiento de compensa-cion.

El metodo HEQ se ha comparado con implementa-ciones adaptativas de otros metodos de compensacion.Los resultados experimentales muestran que el metodode compensacion de ruido HEQ mejora los resultados delos metodos de compensacion que realizanunicamentecorrecciones lineales (como CMN y MVN), tanto paralas implementaciones adaptativas como para las no adap-tativas. Esto muestra la importancia de los efectos no li-neales asociados al ruido y la eficiencia de la tecnica deecualizacion de histograma para estimar las transforma-ciones no lineales que compensan de formaoptima losefectos del ruido.

6. Referencias

[1] Y. Gong. Speech recognition in noisy environments:A survey. Speech Communication, 16(3):261–291,1995.

[2] J.C. Junqua and J.P. Haton.Robustness in automaticspeech recognition. Kluwer Academic Publishers,1996.

[3] J.R. Bellegarda. Statistical techniques for ro-bust ASR: review and perspectives.Proc. ofEuroSpeech-97, pages KN 33–36, 1997.

[4] C.R. Jankowski, Jr. Hoang-Doan, and R.P. Lipp-mann. A comparison of signal processing front endsfor automatic word recognition.IEEE Trans. onSpeech and Audio Processing, 3(4):286–293, July1995.

[5] R.M. Stern, B. Raj, and P.J. Moreno. Compen-sation for environmental degradation in automaticspeech recognition.ESCA-NATO Tutorial and Re-search Workshop on Robust Speech Recognition forUnknown Communication Channels, pages 33–42,April 1997.

[6] A. de la Torre, D. Fohr and J.P. Haton. Compensa-tion of noise effects for robust speech recognition incar environments.Proc. of ICSLP 2000, Oct 2000.

[7] P. Jain and H. Hermansky. Improved mean and va-riance normalization for robust speech recognition.Proc. of ICASSP 2001, Salt Lake City, 2001.

[8] O. Viiki and K. Laurila. Cepstral domain segmentalfeature vector normalization for noise robust speechrecognition.Speech Communication, 25, 133–147,1998.

[9] A. de la Torre, J.C. Segura, C. Benitez, A.M. Pei-nado and A.J. Rubio. Non-linear transformations ofthe feature space for robust speech recognition. InProc. of ICASSP 2002, Vol 1, 401–404, 2002.

Page 6: ECUALIZACION DE HISTOGRAMAS ADAPTATIVA …lorien.die.upm.es/~lapiz/rtth/JORNADAS/II/articulos/23.pdf · de histogramas, aplicado a cada componente del vector de caracter´ısticas

PercentageSubway Babble Car Exhibition Average Restaurant Street Airport Station Average Subway M Street M Average Overall Improvement

Clean 97,57 97,58 97,23 97,53 97,48 97,57 97,61 97,23 97,53 97,49 97,82 97,61 97,72 97,53 -67,81%20 dB 97,57 96,10 97,85 97,25 97,19 96,41 97,70 97,17 97,19 97,12 97,30 97,46 97,38 97,20 -7,67%15 dB 96,16 94,92 97,14 96,39 96,15 95,03 96,49 96,33 95,96 95,95 96,19 96,95 96,57 96,16 -6,69%10 dB 93,89 93,53 95,65 93,21 94,07 92,54 94,80 94,69 94,08 94,03 93,64 94,95 94,30 94,10 2,58%5 dB 88,76 87,58 91,02 86,86 88,56 85,45 89,27 88,91 89,11 88,19 87,57 88,09 87,83 88,26 17,56%0 dB 73,47 65,39 75,48 71,21 71,39 64,29 72,22 72,80 69,70 69,75 68,59 70,01 69,30 70,32 26,35%-5dB 40,65 28,60 40,02 42,61 37,97 27,39 40,02 38,14 36,19 35,44 36,23 36,73 36,48 36,66 15,93%Average 89,97 87,50 91,43 88,98 89,47 86,74 90,10 89,98 89,21 89,01 88,66 89,49 89,08 89,21

10,80% -3,70% 36,39% 7,97% 13,59% 9,26% 23,59% 18,92% 28,01% 19,93% 32,31% 33,03% 32,66%

PercentageSubway Babble Car Exhibition Average Restaurant Street Airport Station Average Subway M Street M Average Overall Improvement

Clean 98,74 98,52 98,96 98,86 98,77 98,74 98,49 98,96 98,86 98,76 98,83 98,61 98,72 98,76 -29,05%20 dB 96,62 95,77 97,70 96,20 96,57 96,53 97,43 97,35 96,91 97,06 96,59 97,52 97,06 96,86 36,35%15 dB 93,98 93,53 96,15 93,55 94,30 93,71 95,34 95,76 94,94 94,94 94,17 95,80 94,99 94,69 56,50%10 dB 88,89 89,54 92,01 86,05 89,12 89,07 90,87 91,95 91,27 90,79 87,72 90,69 89,21 89,81 67,08%5 dB 79,31 76,96 81,03 73,62 77,73 76,79 81,29 82,14 81,36 80,40 76,51 80,44 78,48 78,95 64,64%0 dB 57,97 49,82 57,89 51,81 54,37 49,92 59,46 57,47 55,26 55,53 51,77 57,01 54,39 54,84 45,35%-5dB 26,19 18,77 24,46 27,06 24,12 19,37 27,03 24,25 23,05 23,43 22,32 24,70 23,51 23,72 16,59%Average 83,35 81,12 84,96 80,25 82,42 81,20 84,88 84,93 83,95 83,74 81,35 84,29 82,82 83,03

45,45% 62,33% 61,82% 42,92% 54,52% 60,35% 60,70% 67,77% 63,82% 63,26% 44,89% 53,64% 49,27% 57,50%

20,70%

Aurora 2 Clean Training - ResultsA B C

Aurora 2 Multicondition Training - ResultsA B C

Tabla 2:Resultados de reconocimiento obtenidos para la base de datos AURORA-2 aplicando el metodo de compensacionHEQ adaptativo. Los resultados se han desglosado para los distintos tipos de ruido y para los distintos valores de SNR.

[10] J.C. Russ.The image processing handbook. CRCPress, 1995.

[11] R. Balchandran and R.J. Mammone. Non-parametric estimation and correction of non-lineardistortion in speech systems.Proc. of ICASSP 1998,749–752, 1998.

[12] S. Dharanipragada and M. Padmanabhan. A non-linear unsupervised adaptation technique for speechrecognition.Proc. of ICSLP 2000, Vol IV, 556–559,2000.

[13] F. Hilger and H. Ney. Quantile based histogramequalization for noise robust speech recognition.Proc. of EuroSpeech 2001, Vol 2, 1135–1138, 2001.

[14] A. de la Torre.Tecnicas de mejora de la representa-cion en los sistemas de Reconocimiento Automaticode Voz. PhD thesis, Universidad de Granada, Es-pana, April 1999.

[15] J.C. Segura, C. Benitez, A. de la Torre. VTS Resi-dual noise compensation. InProc. of ICASSP 2002,Vol 1, 409–412, 2002.

[16] H.G. Hirsch and D. Pearce. The AURORA expe-rimental framework for the performance evaluationof speech recognition systems under noise condi-tions. ISCA ITRW ASR2000: Automatic Speech Re-cognition: Challenges for the Next Millennium, Pa-ris, France, September 2000.

[17] S. Young, J. Odell, D. Ollason, V. Valtchev andP. Woodland.The HTK Book. Cambridge Univer-sity, 1997.

[18] EUROSPEECH 2001, Sessions A41 and B11. Noi-se Robust Recognition: Front-end and Compensa-tion Algorithms Proc. of EUROSPEECH 2001, pp184-236 and 421-440, Sep 2001.