1.3. digitalizacion de la voz

50
DIGITALIZACION DE LA VOZ

Upload: gustavo-rios

Post on 26-Jun-2015

3.132 views

Category:

Documents


6 download

TRANSCRIPT

El campo de la digitalizacin de la voz ha sido, y es todava, un rea de permanente desarrollo. Este desarrollo ha producido muchos tipos diferentes de algoritmos para digitalizacin de la voz. La escogencia de un tipo particular depende del costo de implementacin y los requerimientos de desempeo necesarios en la aplicacin. El algoritmo usados para sistemas T1 es el de PCM companded, el cual proporciona excelente calidad a una tasa moderada (64 Kbps) y con un costo moderado.

Las aplicaciones de transmisin con anchos de banda limitados, como los sistemas celulares digitales, requieren algoritmos de digitalizacin de la voz ms sofisticados para lograr tasas del orden de 8 16 Kbps. Otras aplicaciones para la voz digitalizada son los sistemas de almacenamiento de la voz. El almacenamiento digital es particularmente apropiado para grabar anuncios, ya que el sonido pregrabado no se deteriora con el tiempo y adems, los anuncios individuales, que son guardados en memorias o en CDs pueden ser accesados en forma aleatoria.

La grabacin de conversaciones en memorias con capacidad limitada son ejemplo de una aplicacin que puede usar algoritmos con tasas de digitalizacin muy bajas y con reducciones importantes de calidad La razn principal para que los sistemas de mensajes de voz usen almacenamiento digital es la de tener acceso aleatorio a los mensajes individualmente. Para minimizar el espacio de almacenamiento estos sistemas usan tpicamente tasas de datos de 8 32 Kbps.

Las tcnicas de digitalizacin de la voz pueden ser categorizadas en dos clases: las que codifican formas de onda anlogas tan fielmente como sea posible y las que procesan formas de onda para codificar solamente los aspectos que son realmente importantes en los procesos de conversacin y audicin La primera categora es representativa de los problemas generales de las conversiones A/D D/A y no esta restringida a la digitalizacin de las conversaciones.

La tres tcnicas ms comunes usadas para codificar la voz son; Modulacin por Cdigo de Pulsos (PCM), PCM Diferencial (DPCM) y Modulacin Delta (DM). Excepto en casos especiales los equipos telefnicos son diseados para reproducir una forma de onda anloga usando una de estas tcnicas. La segunda categora de digitalizacin de la conversacin esta relacionada con producir codificadores y decodificadores de tasas de datos muy bajas para sistemas de transmisin de banda estrecha dispositivos de almacenamiento digital con capacidad limitada.

Un dispositivo con esta clase de tcnica especial es llamado un vocoder (voice coder; codificador de voz). La mayor parte de los esfuerzos en este campo se han dedicado a desarrollar vocoders con tasas medias (ej. 8 Kbps) con calidades naturales de la conversacin, principalmente para aplicaciones de celulares digitales. Estos codificadores se implementan como una combinacin de las tcnicas de bajas tasas de bits y los codificadores de formas de onda. Estas tcnica representan una tercera clase de algoritmos de digitalizacin de la voz.

MODULACION DE AMPLITUD DE PULSO

El primer paso en la digitalizacin de una forma de onda anloga es establecer un conjunto de tiempos discretos en los cuales se va a muestrear la seal de entrada. Las tcnicas de digitalizacin predominantes estn basadas en el uso de muestras espaciadas en forma regular y peridica.

Si tenemos un nmero suficiente de muestras la forma de onda original podr ser recuperada completamente usando un filtro pasa-bajas para interpolar los valores intermedios de las muestras. La figura inferior muestra una forma de onda anloga muestreada a una frecuencia constante f s ! 1 / T y que luego es reconstruida mediante un filtro pasa bajas.

TASA DE MUESTREO DE NYQUIST Harry Nyquist logr establecer en 1933 la frecuencia de muestreo mnima requerida para extraer toda la informacin de una forma de onda continua variante en el tiempo. Este resultado, llamado criterio de Nyquist, se defini por la relacin:

f s " (2)( BW )Dondef s = frecuencia de muestreo BW = ancho de banda de la seal de entrada

La representacin espectral del muestreo se puede apreciar en la figura inferior, donde el muestreo se asemeja a la multiplicacin de la seal por un tren de pulsos y la recuperacin de la seal se logra mediante un filtro pasa bajas.

DISTORSION POR SUPERPOSICION

Si la forma de onda de entrada de un sistema PAM esta submuestreada ( f s 2 BW ) , la forma de onda original no podr ser recuperada sin distorsin. Esta distorsin se presenta porque las componentes de frecuencia generadas por el muestreo se superponen unas con otras haciendo imposible recuperar la forma original del espectro

En esencia, la distorsin por superposicin produce componentes de frecuencia, en la banda de frecuencias de inters, las cuales no existen en la forma de onda original. Otro trmino empleado para esto es aliasing . El aliasing no es un fenmeno exclusivo de la digitalizacin de la voz.

MODULACION POR CODIGO DE PULSOS La Modulacin por Cdigo de Pulsos (PCM) es una extensin de PAM, en donde cada valor de la muestra anloga es cuantizada a un valor discreto para su representacin en una palabra codificada digitalmente. Todos los valores de muestras que estn en un intervalo de cuantizacin particular sern representados por un valor discreto localizado en el centro del intervalo de cuantizacin. De esta manera el proceso de cuantizacin introduce cierta cantidad de error de distorsin en las muestras de la seal.

Este error conocido como error de cuantizacin es minimizado estableciendo un gran nmero de intervalos de cuantizacin.

RUIDO DE CUANTIZACIN Generalmente se asume que los errores de cuantizacin sucesivos de un codificador PCM estn distribuidos en forma aleatoria y que no estn correlacionados unos con otros Si la seal tiene tiempo suficiente para cambiar en amplitud por varios intervalos de cuantizacin, los errores de cuantizacin sern independientes.

Si una seal es sobremuestrada (frecuencia mayor que la tasa de Nyquist), las muestras sucesivas probablemente caern en el mismo intervalo, causando perdida de independencia en los errores de cuantizacin. El error de cuantizacin, o distorsin, creado por la digitalizacin de la seal anloga, se expresa generalmente como una potencia promedio de ruido, relacionada con la potencia promedio de la seal.

De esta forma la relacin seal a ruido de cuantizacin (SQR), se puede determinar como:E{x 2 (t )} E{[ y (t ) x(t )]2 }

SQR

DondeE{y} x(t ) y (t )

esperanza promedio seal de entrada anloga seal de salida decodificada

Hay tres observaciones respecto a la determinacin del valor esperado del ruido de cuantizacin:1.

El error y (t ) x(t ) est limitado en amplitud a q / 2 , donde q es el peso del intervalo de cuantizacin. El valor de una muestra tiene igual probabilidad de caer dentro de cualquier intervalo de cuantizacin, empleando una densidad de probabilidad uniforme de amplitud 1 / q .

2.

3.

Se asume que las amplitudes de la seal estn limitadas al rango mximo del codificador. Si el valor de una muestra excede el rango del intervalo de cuantizacin mas alto, se presentar una distorsin de sobrepeso, tambin llamada limitacin de pico saturacin.

Si asumimos por conveniencia una resistencia de 1; , la potencia promedio del ruido de cuantizacin ser: Potencia de ruido de cuatizacin ! 1 q 212

Si todos los intervalos de cuantizacin tienen igual longitud (cuantizacin uniforme), el ruido de cuantizacin es independiente de los valores de las muestras y el SQR se determina como:v v2 SQR (db) ! 10 log10 2 q / 12 ! 10.8 20 log10 q

Donde

v es la amplitud rms de la entrada.

En particular, para una seal de entrada senoidal la SQR producida por cuantizacin uniforme es: A2 / 12 (db) ! 10 log10 2 q / 12 A ! 7.78 20 log10 q

S

Donde A es la amplitud pico de la onda senoidal.

RUIDO DE CANAL INACTIVO Las ecuaciones para determinar los valores de SQR muestran que este valor es pequeo para valores de muestra pequeos.

La figura superior muestra que el ruido puede ser mayor que la seal cuando los valores de las muestras estn en el primer intervalo de cuantizacin.

Este efecto es particularmente molesto durante las pausas de las conversaciones y se conoce como ruido de canal inactivo. Un mtodo para minimizar el ruido de canal inactivo en sistemas PCM consiste en establecer niveles de cuantizacin que estn montados sobre el origen.

En este caso todos los valores de las muestras que esten localizados en el intervalo central de cuantizacin son decodificados como una salida constante cero. Los sistemas PCM de este tipo usan un nmero impar de intervalos de cuantizacin, ya que los rangos de codificacin de seales positivas y negativas es igual.

CODIFICACION PCM UNIFORME Un codificador que utiliza intervalos de cuantizacin de igual longitud para todas las muestras, genera palabras codificadas que guardan una relacin lineal con los valores de las muestras anlogas. Esto quiere decir que el equivalente numrico de cada palabra codificada es proporcional al valor de la muestra cuantizada que este representa. De esta manera un sistema PCM uniforme usa un conversor anlogo-digital convencional para generar los cdigos de la muestra. El nmero de bits requerido para cada muestra se determina mediante la mxima potencia de ruido aceptable.

La calidad mnima de voz digitalizada requiere una SQR de 26dB. Para que un sistema PCM uniforme logre esta SQR se necesita que ! 0.1 3 A. Para excursiones iguales de la seal tanto en rango positivo como negativo se necesitan 16 intervalos de cuantizacin, o cuatro bits por muestra. Adems de proporcionar una calidad adecuada para las pequeas seales, un sistema telefnico debe ser capaz de transmitir un rango grande de amplitudes de seal, llamado rango dinmico.

El rango dinmico (DR) es usualmente expresado en decibeles como la relacin entre la mxima y la mnima amplitud de la seal: Pmax 0 log 0 P min Vmax 20 log10 V min

DR

Un rango dinmico tpico es de 30dB. Si se asumen intervalos de cuantizacin igualmente espaciados, el nmero total de intervalos es de 496, lo cual requiere palabras de 9 bits.

El desempeo de un sistema PCM uniforme de n bits se determina observando que:2 Amax ! 2n

Donde Amax es la amplitud mxima. Sustituyendo el valor de q tenemos que: A SQR ! 1.76 6.02n 20 Log10 A max

COMPANDING En un sistema PCM uniforme el tamao de cada intervalo de cuantizacin est determinado por las condiciones del nivel ms bajo de seal a ser codificada. Los valores ms altos de la seal son codificados con los mismos intervalos de cuantizacin. Si los niveles de la seal tienen pocas excursiones a los valores ms altos, se desperdiciaran niveles de cuantizacin. Un proceso de codificacin ms eficiente se logra cuando los intervalos de cuantizacin no son uniformes, sino que se incrementan con el valor de la muestra.

Cuando los intervalos de cuantizacin son directamente proporcionales al valor de las muestras, la SQR es constante para todos los niveles de la seal. Cuando los intervalos de cuantizacin no son uniformes se presenta una relacin no lineal entre las palabras codificadas y las muestras que ellas representan. Una funcin no lineal se presenta cuando la seal de entrada anloga es inicialmente comprimida y luego cuantizada con intervalos de cuantizacin uniforme. El efecto de la operacin de compresin se presenta en la siguiente diapositiva.

Se puede observar que los intervalos de la seal de entrada son comprimidos sucesivamente en intervalos de cuantizacin de longitud constante. Los valores de muestra ms grandes sern comprimidos antes de la codificacin.

El proceso de comprimir primero una seal y luego expandirla es conocido como companding.

Las dos familias de compresin ms utilizadas son la ley - Q y la ley -A .

REDUNDANCIAS EN LAS CONVERSACIONES Los sistemas PCM convencionales codifican cada muestra de una forma de onda independientemente de las otras muestras. De esta forma un sistema PCM es capaz de codificar una forma de onda aleatoria cuyas mximas componentes de frecuencia no excedan la mitad de la tasa de muestreo. Los anlisis de las formas de onda de conversacin indican que hay una redundancia considerable de una muestra a la otra. El coeficiente de correlacin entre muestras adyacentes de 8KHz es generalmente de 0.88

Adems de la correlacin que existe entre las muestras adyacentes de una forma de onda de conversacin, existen otros niveles de redundancia que pueden ser explotados para reducir las tasas de bits codificados:- Distribuciones de amplitud no uniforme - Correlaciones muestra a muestra - Correlaciones ciclo a ciclo (periodicidad) - Factores de inactividad

Distribuciones de amplitud no uniforme. Las muestras con bajos niveles de amplitud son ms comunes que aquellas con niveles altos. La mayora de las muestras con bajo nivel ocurren como resultado de las pausas en una conversacin. Sin embargo, los niveles de potencia de la conversacin activa suelen estar en la parte baja del rango de codificacin. La calidad promedio de una conversacin PCM puede ser mejorada haciendo ms cortos los intervalos cuantizacin de los niveles ms bajos, e incrementando los intervalos de cuantizacin de los niveles ms altos.

Las mejoras logradas con esta tcnica son mnimas, y en su mayor parte no justifican la complejidad adicional. Correlaciones muestra a muestra. La alta correlacin entre muestras sucesivas indica que cualquier intento por reducir las tasas de transmisin deben aprovechar la correlacin entre muestras adyacentes. La forma ms simple de aprovechar la redundancia entre muestras en una conversacin es codificar solamente las diferencias entre las muestras adyacentes.

Las diferencias de medidas son acumuladas en el decodificador para recuperar la seal. En esencia estos sistemas codifican la pendiente o derivada de una seal en el origen y recuperan la seal integrando en el destino. Correlaciones ciclo a ciclo (periodicidad). Aunque una seal de conversacin requiere el ancho de banda entero de 3003400Hz de un canal telefnico, en cualquier instante de tiempo particular ciertos sonidos estarn compuestos por unas pocas frecuencias dentro de la banda.

Cuando unas pocas frecuencias fundamentales existan en un sonido, la forma de onda presentar una fuerte correlacin entre numerosas muestras correspondientes a varios ciclos de una oscilacin. El ciclo natural de un sonido de voz se muestra en la figura

Los codificadores que aprovechan la redundancia ciclo a ciclo en las conversaciones son ms complicados que aquellos que solo remueven las redundancias en muestras adyacentes. Factores de inactividad. El anlisis de las conversaciones telefnicas indica que una conversacin est tpicamente activa durante el 40% de la duracin de la llamada. La mayor inactividad ocurre como resultado de que una persona escucha mientras la otra habla. Para una conexin full-duplex convencional esto significa una subutilizacin.

MODULACION POR CODIGO DE PULSOS DIFERENCIAL La Modulacin por Cdigo de Pulsos Diferencial (DPCM) est diseada especficamente para sacar ventaja de la redundancia muestra a muestra en una forma de onda tpica de conversacin. Ya que el rango de diferencias de muestra es menor que el rango de muestras individuales, se necesitan pocos bits para codificar las diferencias de las muestras. La tasa de muestreo es a menudo la misma en lo que respecta a un sistema PCM comparable.

PCM ADAPTATIVO DIFERENCIAL DPCM tiene una implementacin relativamente sencilla y puede darnos un ahorro de 1 a 2 bits por muestra con respecto a la codificacin estndar PCM. Incluso se pueden lograr ahorros mayores agregando lgica de adaptacin al algoritmo bsico de PCM para crear lo que se llama PCM Diferencial Adaptativo (ADPCM)

MODULACION DELTA La Modulacin Delta es otra tcnica de digitalizacin que se aprovecha de la redundancia muestra a muestra en una forma de onda de conversacin. DM se puede considerar como un caso especial de DPCM usando solamente 1 bit por muestra de la diferencia de seal.

El bit especifica solamente la polaridad de la diferencia de la muestra y por lo tanto indica si la seal se incrementa o se decrementa respecto a la ltima muestra.

CODIFICACION PREDICTIVA ADAPTATIVA Los sistemas diferenciales anteriores (DPCM, ADPCM, DM), operan con tasas de datos ms bajas que el sistema PCM debido a que codifican una diferencia de seal que tiene una potencia promedio ms baja que la seal de entrada. La relacin entre la potencia de la seal de entrada y la potencia de la diferencia de seal es lo que se llama ganancia de prediccin. Los sistemas DPCM simples permiten alrededor de 5 dB de ganancia de prediccin.

La Codificacin Predictiva Adaptativa (APC) permite grandes niveles de ganancia de prediccin adaptando los coeficientes de prediccin a segmentos de conversacin individuales. Si los coeficientes son determinados a partir de la historia pasada y usados para predecir los segmentos de conversacin subsecuentes, se pueden obtener ganancias de prediccin del orden de los 13 dB .

CODIFICACIN SUBBANDA Es un codificador que usa un anlisis en el dominio de la frecuencia en lugar del dominio del tiempo como en los anteriores. Los codificadores dividen el espectro de entrada en subbandas mediante filtros. Cada subbanda es codificada separadamente con APCM, PCM ADPCM. Estos cdigos son multiplexados y transmitidos al decodificador donde son demultiplexados, decodificados y combinados para reconstruir la seal de entrada.

VOCODERS Los algoritmos anteriores pretenden reproducir la seal de entrada tan exactamente como sea posible. Estos asumen poco o ningn conocimiento de la naturaleza de la seal que procesan y son aplicables a cualquier seal presente en un canal de voz. Los procedimientos de digitalizacin de los vocoders codifican especficamente seales de voz. De all su nombre de vocoders, por Voice Coders (codificadores de voz). Estas tcnicas son diseadas exclusivamente para seales de voz.

El objetivo bsico de un vocoder es codificar solamente los aspectos ms importantes, perceptivamente, de la conversacin, con menos bits que los codificadores de formas de onda generales.

FIN