detección de silencio

25
Detección de Silencio Marta Barría

Upload: zazu

Post on 13-Jan-2016

25 views

Category:

Documents


0 download

DESCRIPTION

Detección de Silencio. Marta Barría. Detección de Silencio. La c onversación es por naturaleza entrecortada. Estos intervalos corresponden a pausas naturales entre: Frase y palabras (perceptibles a los oyentes) Intervalos entre sílabas (en general, no perceptibles) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Detección de Silencio

Detección de Silencio

Marta Barría

Page 2: Detección de Silencio

Detección de Silencio

• La conversación es por naturaleza entrecortada. Estos intervalos corresponden a pausas naturales entre:– Frase y palabras (perceptibles a los oyentes)– Intervalos entre sílabas (en general, no

perceptibles)

• La detección de silencio detecta estos intervalos.• Se transmite solamente los periodos de información.

Los periodos de silencio no son almacenados.

Ventajas

• Compactación para almacenamiento.• Aumento de la eficiencia de la utilización de los

canales de comunicación (ventaja TASI).• Base de mecanismos de control especiales (p.ej:

control de acceso a una aplicación compartida).

Page 3: Detección de Silencio

Definiciones:• Señal de Voz: se refiere a la señal codificada como un todo,

englobando tanto los trechos de voz como los intervalos de silencio.

• Trechos de Voz: Período contiguo donde hay voz sin ninguna pausa

• Intervalos de Silencio: Trechos en que no hay voz, que son percibidos o no por el oyente.– No existe el silencio absoluto:

• Ruidos ambientales o ruidos de fondo son codificados junto con la voz.

• Cuanto más ruidoso el ambiente, más difícil es detectar los períodos de silencio en el señal de voz.

• Algoritmos de detección de silencio deben ser capaces de adaptarse al medio en que están siendo ejecutados.

Detección de Silencio

Page 4: Detección de Silencio

• Para realizar la detección de silencio es necesario definir medidas que puedan ser aplicadas sobre la señal de voz para diferencias los trechos de voz de los periodos de silencio.

• Indicadores– Tasa de cruzamiento por cero.

– Valor medio de la amplitud de la de la señal

• Estas medidas son aplicadas a segmentos de corta duración de la señal de voz y no al valor instantáneo de la señal de voz en un determinado momento.

Indicadores para detección de silencio

Page 5: Detección de Silencio

• Periodos de clasificación: tamaños de los segmentos que son usados para la detección de silencio. Existe un compromiso entre el tamaño del segmento y las variaciones de la señal de voz:

– Un periodo de clasificación grande no representará los cambios rápidos de la señal de voz.

– Un periodo de clasificación pequeño implica un gran procesamiento.

Indicadores para detección de silencio

Page 6: Detección de Silencio

• Periodo de clasificación: actua sobre segmentos, pues una muestra aislada no es suficiente para la clasificación de la señal.

• Lo ideal seria utilizar un tamaño de segmento del orden del periodo de la frecuencia fundamental de la voz. Variable entre 2 ms (voces femeninas) y 25ms (voces masculinas muy graves).– Valor recomendado: entre 10 a 20 ms.

• Lo ideal es que los intervalos de silencio sean múltiples del paquete que se está usando para transmitir la señal.

Indicadores para detección de silencio

Page 7: Detección de Silencio

• Definiciones:

– N = número de muestras por segmentos– Xi = muestras de la señal de voz, i= 1 ...N– Fonema: son las unidades mínimas de los sonidos de

un cierto lenguaje.– Fonema sordo: No hay vibración de las cuerdas

vocales (p.ej: caso de algunas consonantes de fricciónf, s, x e algunas consonantes oclusivas como p, t ,k)

– Fonema sonoro: Hay vibración de las cuerdas vocales, como en el caso de los demás fonemas.

Medidas

Page 8: Detección de Silencio

• Media de la Amplitud de la Señal– La amplitud sirve como medida del nivel de energia de la

señal.

– La media de la amplitud de la señal es calculada como:

– Los fonemas sonoros se caracterizan por un nivel de amplitud alto en comparación con los fonemas sordos que presentan amplitudes más bajas.

– Se hay ruido de fondo la amplitud de la señal no es suficiente como indicador para la detección de silencio.

A X ii

N

1

Medidas

Page 9: Detección de Silencio

• Es expresada por el número de veces que la muestra cambian de signo durante el periodo medido.

• Es indicador eficiente para fonemas que a pesar de tener un nivel bajo de energía, posee un espectro concentrado en las frecuencias altas (ej. F al comienzo de palabra).

• Una alta tasa de cruzamiento por cero indica altas frecuencias e viceversa.

• Los fonemas sordos presentas altas frecuencias.

• Los fonemas sonoros presentan bajas frecuencias.

Tasa de cruzamiento por cero

Page 10: Detección de Silencio

• El ruido de fondo se concentra en frecuencias medias y bajas, inferiores a la de los fonemas sordos y comparable a la de los fonemas sonoros.

• Los fonemas sordos tienen:– alta frecuencia– amplitud baja

• Los fonemas sonoros tienen:– baja frecuencia– amplitud alta

Tasa de cruzamiento por cero

Page 11: Detección de Silencio

• Se expresa por la razón de la amplitud de dos segmentos consecutivos

• Señal de voz es no estacionário• La energia de segmentos sucesivos tiene un gran

variación.• Un valor alto para la tasa de variación en la amplitud de

la señal es un indicio de que el segmento hace parte de un surto de voz.

Coeficiente de autocorrelación de las muestras

CX X

X X

ii

N

i

ii

N

ii

N

2

1

2

1

12

2

Tasa de variación de la amplitud del señal

Page 12: Detección de Silencio

• En señales concentrados bajas frecuencias, las muestras adyacentes están fuertemente correlacionadas implicando un alto valor de C.

• Los fonemas sordos se caracterizan por un C bajo.• Los fonemos sonoros se caracterizan por un C alto.• El intervalo de silencio posee C intermedio presentado por

los fonemos sordos y sonoros

Tasa de variación de la amplitud del señal

Page 13: Detección de Silencio

• Después de identificar los intervalos de silencio y trechos de voz, se descartan intervalos de silencio con duración muy pequeña. Para esto se usan las técnicas de:

• Fill-In • Hangover

Fill -In

• Idea: Considerar los intervalos de silencio de pequeña duración como trechos de voz, conectando los trechos de voz adyacentes.

Tasa de variación de la amplitud del señal

Page 14: Detección de Silencio

• Fill-In es la técnica usada para determinar los intervalos de silencio de menor duración.

• Desventaja: – Retardar la clasificación de la señal de voz por un

periodo igual al tiempo de duración mínimo deseado para los intervalos de silencio.

– No es conveniente para servicios de tiempo real.

Tasa de variación de la amplitud del señal

Page 15: Detección de Silencio

• Definir un intervalo de tiempo después del final de un trecho de voz, durante el cual se continua clasificando la señal como trecho de voz.

• Todo periodo inicial de intervalo de silencio es clasificado como trecho de voz.

• Si el intervalo de silencio es menor que el hangover, será clasificado completamente como voz.

• Tiempo de hangover recomendado: 200 ms.

• Desventajas:– Perder inicio de todos los intervalos de silencio.– Se reduce la compactación de la señal.

Hangover

Page 16: Detección de Silencio

• Ventajas:– Evita introducción de retardo en la clasificación de

la señal de voz.– Disminuye la sensación de discontinuidad en la

reproducción de los intervalos de silencio.– Repara el problema de corte de final de palabras

producido por la detección de silencio.– Minimiza el efecto de la variación del retardo en la

reproducción de la señal de voz.

Hangover

Page 17: Detección de Silencio

a)

b)

c)

a) Clasificación inicial de la señal de vozb) Clasificación usando Fill-Inc) Clasificación usando Hangover

Clasificación

Page 18: Detección de Silencio

• Hay que reproducir los intervalos de silencio.

• Reproducción de algún sonido en el silencio (reproducción del ruido de fondo).

• Duración de los intervalos de silencio deben ser mantenidos en la reproducción.

• Para conseguir calidad en la voz reproducida, la duración de un intervalo de silencio debe ser mayor que 50%.

Reproducción de los Intervalos de Silencio

Page 19: Detección de Silencio

Soluciones:

• Almacenar muestra de ruido blanco, para ser reproducida en los intervalos de silencio. Esta muestra debe ser multiplicada por un factor que indica el nivel de ruido del ambiente (calculado a partir de las muestras de silencio transmitidas periodicanente). Hangover ya posee este ruido al final de las muestras.

• En caso que se este usando la técnica de hangover, el final del periodo de voz se repite durante el tiempo que dure el periodo de silencio.– Problema: pérdida del paquete con la muestra de

silencio.

Reproducción de lo Intervalos de Silencio

Page 20: Detección de Silencio

• Principales Indicadores usados:– Amplitud Media de la Señal (A)– Tasa de cruzamiento por cero (Z)

Algoritmo Básico• Establecimiento de límites mínimos para los indicadores

de la señal de voz.• Para cada segmento de la señal, si el valor de uno de los

indicadores es mayor que el límite establecido el segmento es considerado voz.

Algoritmos de Detección de Silencio

Page 21: Detección de Silencio

Definiciones:

• IA: segmento actual de voz• IB e IC: segmentos inmediatamente consecutivos• THU: Limite superior del nivel medio de la amplitud • THL: Limite inferior del nivel medio de la amplitud• NTHU: Limite superior de la tasa de cruzamiento por

cero.• NTHL: Limite inferior de la tasa de cruzamiento por

cero.

Algoritmo de Lee y Un

Page 22: Detección de Silencio

1.- Inicialmente IB=IC = silencio.2.- Para cada segmento codificado haga

2.1.- Calcule A y Z para el segmento2.2.- Se (A >THU) or (Z>NTHU) or

(A>THL and Z>NTHL) entonces IA = voz caso contrario IA = silencio

2.3.- Se por lo menos dos entre IA,IB e IC = voz entonces clasifica como voz caso contrario segmento es silencio

2.4.- IC = IB; IB = IA

Algoritmo de Lee y Un

Page 23: Detección de Silencio

Definiciones:• Se definen 4 estados:

SE= vozSI = SilencioHO = HangoverPD = Detección preliminar de voz.

• Transición entre estados depende del valor de dos variables booleanas calculadas para segmento de la señal:

– PDF: Detección preliminar de voz– SDF: Detección definitiva de voz

Algoritmo de Yatsuzuka

Page 24: Detección de Silencio

Cálculo de SDF e PDF

El algoritmo se basa en el examen de indicadores para determinar el valor de las variables booleanas:

• Nivel medio de energia del segmento (E), definiendose los limites E1,E2 y E3 (E1<E2<E3).

• Tasa de cruzamiento por cero en el segmento (Z), definese el limite Zmin.

• Para cada muestra detectar E1,E2 y E3 , y determinar SDF y PDF.

• Tomar multiplos del hangover.

Algoritmo de Yatsuzuka

Page 25: Detección de Silencio

Algoritmo 1.- Caso Ei > E1

entonces SDFi = 0 PDFi = 0 2.- Caso E1 < Ei < E2

entonces si Zi > Zmin

entonces SDFi = 1; PDFi = 1; PDFi-1 = 1

2.- Caso E2 < Ei < E3

entonces si Zi > Zmin

entonces SDFi = 1; PDFi = 1; PDFi-1 = 1

sino SDFi = 0; PDFi = 1;

3.- Caso E3 < Ei

entonces SDFi = 1; PDFi = 1; PDFi-1 = 1

Algoritmo de Yatsuzuka