unidad2(difus multimedia)

of 85/85
28 de may de 202 2 Difusión y Multimedia Digitalización de la voz (Modulación Delta, Delta Adaptativa, PCM, DPCM, etc.). Descripción de las tramas T1 y E1. Estándares UIT-T G.711 y G.722. Modelo de tracto vocal. Compresión de la voz. Otros estándares UIT. Compresión del sonido.

Post on 25-May-2015

1.472 views

Category:

Technology

0 download

Embed Size (px)

DESCRIPTION

difusión multimedia, Modulación por Codificación de Pulsos (PCM): Generación y reconstrucción de PCM. Ruido de Cuantificación. Cuantificación no uniforme y Compansión.-PCM con ruido: Ruido de decodificación. Umbral de Error. PCM versus modulación analógica.Modulación Delta (DM) y codificación predictiva: Modulación delta. Modulación delta-sigma. Modulación delta -adaptativa. PCM diferencial. Sintetizadores de voz LPC.Grabación Digital de Audio: grabado y reproducción de CD. Multiplexado digital: Multiplexores y jerarquías. Esquema de multiplexado en Líneas de suscripción digital (DSL), Reddigital de servicios integrados (ISDN) y Red óptica síncrona (SONET).

TRANSCRIPT

  • 1. Difusin y Multimedia
    • Digitalizacin de la voz (Modulacin Delta, Delta Adaptativa, PCM, DPCM, etc.).
  • Descripcin de las tramas T1 y E1.
  • Estndares UIT-T G.711 y G.722. Modelo de tracto vocal. Compresin de la voz. Otros estndares UIT. Compresin del sonido.

27 de may de 2010 2. Digitalizacin de la voz

  • Como ya se indic anteriormente, en telefona se acostumbra usar una tasa de muestreo de 8.000 muestras por segundo, lo cual es adecuado para la transmisin de voz con un ancho de banda de 3.100 Hz.
  • Si se utiliza una codificacin a 8 bits por muestra, se produce un flujo digital a 64.000 bits por segundo.

27 de may de 2010 3. Digitalizacin de la voz

  • Esto se organiza normalmente de la siguiente manera. Cada muestra codificada a 8 bits es un byte, con el siguiente formato

27 de may de 2010 + 2 6 2 5 2 4 2 3 2 2 2 1 2 0 4. Multiplexaje

  • Como el tiempo entre una muestra y otra debe ser de 125 s. para cumplir con el criterio de Nyquist.
  • Si estos bytes se envan en un tiempo menor, entonces se podran mandar muestras de otros canales en los intervalos de tiempo libres. Esto constituye la llamada trama digital

27 de may de 2010 5. Multiplexaje 27 de may de 2010 Fuente 1 Fuente 2 Fuente 3 Fuente 4 Convertidor A/D 8 bits Trama de salida 6. Multiplexaje 27 de may de 2010 Canal 1 Canal 2 Canal 3 Canal 4 Canal 1 Para garantizar que todos canales puedan ser decodificados correctamente hacia sus destinos debe insertarse alguna forma de sincronismo. 7. Compansin

  • Debido a la respuesta no lineal del odo, y a que la respuesta dinmica de los canales es normalmente inferior a la del odo humano se puede utilizar compresin (y expansin) para el mejor aprovechamiento del canal. Esto es importante al digitalizar pues se ahorra ancho de banda al limitar el nmero de bits a enviar

27 de may de 2010 8. Compansin 27 de may de 2010 Fuente de sonido Compresin Canal lineal Salida Expansin 9. Compansin.

  • En el caso digital tambin se aplica compansin a la voz y luego se codifica con un convertidor Analgico Digital lineal de 8 bits. Como consecuencia se logra manejar una gama dinmica equivalente a 12 bits (Ley A) o 13 bits (Ley ).

27 de may de 2010 10. Compansin. Ley

  • El sistema Norteamericano utiliza para la compresin la llamada Ley , la cual viene definida por la siguiente expresin

27 de may de 2010 Donde x es la entrada y y la salida (entre 0 y 1). {vale 100 en el sistema T1 y 255 en DS2} 11. Compansin. Ley

  • En esta Ley, los 128 valores de mantisa del byte corresponden a un intervalo equivalente de valores de entrada entre de 0 a 8159 los cuales se decodifican al intervalo 0 a 8031.
  • Esto es equivalente a una codificacin lineal de 13 bits, la cual requerira un ancho de banda un 60% mayor.

27 de may de 2010 12. Compansin. Ley A

  • En Europa se utiliza la Ley A, cuya expresin es:

27 de may de 2010 Donde x es la entrada y y la salida (entre 0 y 1). { A vale 87,6} 13. Compansin. Ley A 27 de may de 2010 x 0 1 1 0 1/A y 14. Compansin. Ley A

  • En este caso la gama de valores de entrada va de 0 a 4096 y la decodificacin abarca el intervalo 1 a 4032, lo cual es equivalente a una codificacin de 12 bits.

27 de may de 2010 15. Recomendacin G.711 de la UIT

  • La digitalizacin de la voz a 64000 bits por segundo, siguiendo las leyes de compresin descritas (tanto americana como europea) corresponden a la Recomendacin G.711, la cual es la base del PCM. Este tambin es la base de todas las dems tcnicas de codificacin de la voz, pues generalmente se parte de una trama PCM para producir los dems estndares.

27 de may de 2010 16. Recomendacin G.711 de la UIT

  • Esta recomendacin representa el mtodo ms comn de codificacin de forma de onda utilizado alrededor del mundo. Mediante el uso de la recomendacin G.711 se logra transmitir una seal de voz en forma digital y reconstruirla en el destino de una forma que, para el odo humano, es esencialmente idntica a la original.
  • En PCM, cada una de las muestras enviadas al codificador es totalmente independiente una de las otras, por lo que PCM permite codificar forma de ondas totalmente arbitrarias cuya frecuencia mxima no exceda la mitad de la velocidad de muestreo.

27 de may de 2010 17. Recomendacin G.711 de la UIT

  • Diversos a nlisis sobre las formas de onda de la voz indican que existe una redundancia considerable entre una muestra de voz y la siguiente. El coeficiente de correlacin (medida de predictibilidad) entre dos muestras PCM de voz es de ms de 0.85. De aqu tenemos que, al tomar en cuenta estas redundancias, se pueden lograr reducciones significativas del ancho de banda requerido.

27 de may de 2010 18. ADPCM

  • En ADPCM (Adaptive Differential Pulse Code Modulation, modulacin diferencial adaptativa por pulsos codificados), a diferencia del PCM, no se codifica cada una de las muestras, sino que se codifica la diferencia entre la prediccin de la muestra y la muestra original. Dado el alto grado de correlacin entre las muestras, se pueden realizar predicciones cercanas a los valores de las muestras, por lo que se requiere enviar menos bits para indicar cul es el error de la prediccin (diferencia entre la prediccin y la muestra real) que el nmero de bits que se requiere para enviar la muestra en su totalidad.

27 de may de 2010 19. ADPCM

  • De esta manera, el codificador hace una prediccin de la muestra a partir de las muestras previas y enva al decodificador la informacin que indica cunto debe sumar (restar) a la prediccin para obtener la muestra real. Por su lado, el decodificador tambin hace una prediccin de la muestra (la cual coincide con la prediccin hecha por el codificador) y le suma resta a esta prediccin la cantidad indicada por el codificador.

27 de may de 2010 20. ADPCM

  • Con ADPCM se muestrea la seal de voz 8000 veces por segundo (como en PCM), pero dado que se enva solamente el error de prediccin, solamente se requiere transmitir 4 bits de informacin en lugar de los 8 que se requeriran para enviar la informacin de la muestra en su totalidad. Con esto se logra disminuir la velocidad de transmisin en la mitad (32 Kbps, 8000 muestras por segundo X 4bits por muestra) con respecto al PCM.

27 de may de 2010 21. ADPCM

  • Para evitar que cuando existan cambios bruscos en la seal de voz, no se pueda representar el error de prediccin con los cuatro bits que utiliza el algoritmo, el ADPCM utiliza una tcnica adaptativa en la cual los cuatro bits representan una gama que se adapta a las amplitudes de la seal de voz.

27 de may de 2010 22. ADPCM

  • De esta manera, cuando las amplitudes de la seal son altas, entonces los cuatro bits representan diferencias de niveles mayores, que cuando la seal posee una amplitud baja. Cuando la amplitud de la seal es alta, el error de prediccin puede tambin ser alto y en este caso los 4 bits con que se representa este error deben representar una gama mayor de niveles que le permita cubrir el error calculado. El algoritmo adapta permanentemente y de manera automtica la gama de valores representado por los 4 bits de informacin enviados.

27 de may de 2010 23. ADPCM

  • Cuando se incrementa la gama de amplitud representado por los 4 bits tambin se incrementa el ruido de cuantizacin, pero dado que solamente se incrementa la gama representada cuando la seal de voz es de gran amplitud, entonces la relacin existente entre la muestra real (de gran amplitud) con el error (tambin grande) se mantiene perceptivamente igual que cuando la seal de voz es de baja amplitud, donde la gama representada por los bits es menor y donde el error de cuantizacin es menor.

27 de may de 2010 24. Recomendacin G.721 y G.723

  • El ADPCM fue estandarizada por la ITU a mediados de los aos ochenta bajo la recomendacin G.721. En 1988 surgieron extensiones al G.721 (la G.723) que permiten reducir la velocidad de bits en el canal cuando la red presenta congestin. Con esta extensin se puede ajustar los bits por muestraentre3 y5, obtenindose velocidades de 24 Kbps y 40 Kbps, respectivamente.

27 de may de 2010 25. Recomendacin G.726

  • En 1.990 surgi una nueva versin de ADPCM (G.726) la cual es capaz de ajustar la velocidad de bits, cambiando el nmero de bits por muestra de 2 hasta 5, obtenindose velocidades entre 16 Kbps y 40 Kbps.
  • A diferencia del PCM, donde todas las muestras son independientes unas de otras, para estos algoritmos de ADPCM la prediccin de la muestra presente depende de las muestras precedentes. De esta manera, si al utilizar PCM se pierde una muestra de la seal, la calidad de la seal se ve afectada solamente por la prdida de esa muestra .

27 de may de 2010 26. ADPCM

  • S in embargo, si se utiliza ADPCM la prdida de una muestra afecta la prediccin de las muestras siguientes, teniendo esto un mayor impacto en la calidad de la seal.
  • Por estas razones, se hace muy importante que todos los bits generados en el transmisor lleguen correctamente al receptor de forma tal de mantener la prediccin de ambos equipos sincronizada.

27 de may de 2010 27. Recomendacin G.722

  • Esta recomendacin permite la codificacinde una seal de mejor calidad que en G.711, utilizando un ancho de banda de 7 kHz. El flujo de datos de salida puede ser a 48 kbps o 56 kbps y se utiliza con frecuencia en sistemas de videoconferencia.

27 de may de 2010 28. Embedded ADPCM Recomendacin G.727

  • Con los algoritmos ADPCM descritos anteriormente, si se requiere disminuir la velocidad de codificacin (debido, quizs, a la presencia de congestin en la red), se hace necesario que los equipos terminales realicen la negociacin respectiva. Esta negociacin resulta compleja y en muchos casos puede originar que la comunicacin tenga que reiniciarse.
  • El algoritmo Embedded ADPCM, definido en la recomendacin G.727, provee una capacidad para asignar el ancho de banda de una manera mucho ms flexible, sin requerir ningn tipo de negociacin.

27 de may de 2010 29. Embedded ADPCM Recomendacin G.727

  • En este algoritmo los bits codificados se dividen en dos clases: los bits principales (core) y los bits de perfeccionamiento (enhacement). Los bits principales son utilizados para representar el error entre la prediccin de la muestra y la muestra real. Los bits de perfeccionamiento se utilizan para obtener un mayor refinamiento de la seal reconstruida, disminuyndose con esto los errores de cuantizacin. As, por ejemplo, 2 bits pueden ser utilizados como principales (16 Kbps) y entre 0 y 3 bits (0 y 24 Kbps adicionales) como bits de perfeccionamiento.

27 de may de 2010 30. Embedded ADPCM Recomendacin G.727

  • La prediccin hecha tanto en el codificador como en el decodificador, no depende de los bits de perfeccionamiento, solamente depende de los bits principales. De esta manera, no se requiere que todos lo sbits lleguen al receptor para mantener el algoritmo de prediccin de ste sincronizado con el del transmisor, solamente se requieren los bits principales.
  • Los bits de perfeccionamiento son opcionales para el receptor. Si son recibidos son utilizados, pero su ausencia no causa ningn problema.

27 de may de 2010 31. Embedded ADPCM Recomendacin G.727

  • Estas caractersticas le dan bastante flexibilidad al algoritmo. As, por ejemplo,siel ancho de banda de un circuito est siendo utilizado en su totalidad y surge una nueva aplicacin que requiere un ancho de banda de, digamos, 16 Kbps, si estamos utilizando EADPCM con 16 Kbps de informacin principal y 16 Kbps de informacin de perfeccionamiento, podemos dejar de enviar los bits de perfeccionamiento para darle cabida a la nueva aplicacin (o a la nuevademanda de una ya existente).

27 de may de 2010 32. Codificacin por Sub-bandas

  • Este tipo de compresin se basa en la caracterstica de odo humano denominada enmascaramiento. Cuando una frecuencia posee una gran amplitud, el odo humano no puede escuchar las frecuencias de menor amplitud que se encuentran circundantes a sta. Se dice que la de frecuencia de mayor
  • amplitud enmascara a las de menor amplitud.

27 de may de 2010 33. Codificacin por sub-bandas

  • Este fenmeno del enmascaramiento no es slo instantneo sino que se presenta en una determinada gama de tiempo. De esta manera, si, por ejemplo, uno escucha de cerca el sonido de un disparo, por una gama de tiempo despus del mismo no es posible escuchar nada. A este fenmeno se le denomina enmascaramiento y puede durar hasta 100 mseg.
  • Dentro de la gama de tiempo que dura el fenmeno de enmascaramiento, todas las frecuencias que se encuentren por debajo de una determinada amplitud, denominada umbral de enmascaramiento, no podrn ser captadas por el ser humano.

27 de may de 2010 34. Codificacin por sub-bandas

  • Este umbral de enmascaramiento depende de la frecuencia y de la intensidad de la seal que lo provoca.
  • La idea bsica de la codificacin por sub-bandas (SBC, Sub-Band Coding) es la de economizar ancho de banda eliminando la informacin de las frecuencias que van a resultar enmascaradas. No se utiliza ancho de banda para enviar sonidos que de todas maneras no podrn ser captados por el odo humano.

27 de may de 2010 35. Codificacin por sub-bandas

  • El SBC divide la seal de audio en varias sub-bandas de frecuencia, aplicando a cada una de ellas una codificacin similar al ADPCM. A cada sub-banda se le asigna de manera adaptativa un nmero de bits, el cual depende de las caractersticas de enmascaramiento que posean las muestras de las sub-bandas.
  • La idea es manipular el ruido de cuantificacin de forma tal de que sea lo mayor posible (menor nmero de bits) pero que se encuentre por debajo del umbral de enmascaramiento (de forma tal de que no pueda ser apreciado).

27 de may de 2010 36. Codificacin por sub-bandas

  • Para aquellas sub-bandas ms afectadas por el enmascaramiento se le asignan menos bits (ruido de cuantizacin se hace menos evidente) y para aquellas sub-bandas menos afectadas por el enmascaramiento se les asigna ms bits. Es posible que para aquellas sub-bandas ms afectadas no se les asigne ningn bit, de forma tal que las muestras pertenecientes a las mismas no sean codificadas. De esta manera, manipulando la relacin entre el ruido de cuantificacin y los umbrales de enmascaramiento y eliminando la informacin de las frecuencias que se ven enmascaradas, se logran compresiones importantes.

27 de may de 2010 37. Codificacin por sub-bandas

  • El SBC se hace ms til cuando se utiliza para codificar seales de audio de alta calidad (22 KHz), donde el fenmeno de enmascaramiento es ms frecuente (y donde por tanto se pueden lograr mayores compresiones), que para codificar simplemente seales de voz (4 KHz).
  • Esta tcnica se utiliza para la codificacin de audio de MPEG (estndar para la codificacin de audio y vdeo), logrndose buenas calidades al comprimir audio de 22 KHz con velocidades tan bajas como 64 Kbps.

27 de may de 2010 38. Codificacin por sub-bandas

  • Utilizando PCM, el nmero de bits es constante para todas las muestras y, para tratar de mantener el ruido de cuantizacin bajo, para digitalizar un seal de audio de 22 KHz, se le asigna usualmente 16 bits a cada muestra. Con esto tenemos que la seal de 22 KHz es muestreada 44.000 veces por segundo (Nyquist), lo cual, utilizando 16 bits por muestra, nos da una velocidad de transmisin de 700 Kbps (que es el utilizado para un canal de audio para CD).
  • Muchos de estos bits son desperdiciados ya que la informacin que ellos tienen no podr ser percibida por el odo humano debido al enmascaramiento. Al utilizar SBC una asignacin de bits variable, que depende de la relacin entre el ruido de cuanti - ficacin y los umbrales de enmascaramiento, se puede lograr disminuir los 700 Kbps, para un canal de audio de CD, a 64 Kbps.

27 de may de 2010 39. Codificacin predictiva lineal (LPC)

  • Los mtodos de codificacin de forma de onda discutidos previamente se basan en la representacin de la seal de voz en el dominio del tiempo. LPC analiza la seal en el dominio de la frecuencia.
  • En gamas de milisegundos, las seales de voz no varan significativamente y esta caracterstica es lo que permite la posibilidad de sintetizar la voz. Con este tipo de codificacin, en lugar de digitalizarse la seal analgica, se digitaliza los parmetros del modelo de voz y el nivel de excitacin pertenecientes a una gama pequea de tiempo (alrededor de 20 mseg) enviando esta informacin al decodificador.

27 de may de 2010 40. Codificacin predictiva lineal (LPC)

  • Para entender mejor este tipo de modulacin, analicemos antes un poco las caractersticas de la voz.
  • La voz humana se produce cuando el aire es forzado a salir desde los pulmones, a travs de las cuerdas vocales y a lo l a rgo del tracto vocal. Mientras esto sucede, las cuerdas vocales vibran produciendo energa de audio que se concentra en las frecuencias con que stas vibran.

27 de may de 2010 41. Codificacin predictiva lineal (LPC)

  • Ciertas frecuencias resuenan dentro del tracto vocal, dependiendo estas frecuencias de la forma y tamao del tracto. La energa de estas frecuencias es reforzada por las reflexiones de las ondas, las cuales se suman entre s, mientras que la energa de las otras frecuencias tiende a disiparse. A estas reverberaciones de las cuerdas vocales se les denomina resonancias o formantes.

27 de may de 2010 42. Codificacin predictiva lineal (LPC)

  • A medida que el tracto vocal vara, moviendo la lengua, variando la forma de los labios, variando la apertura de la boca, por ejemplo, las frecuencias de los formantes son controladas.
  • Basndose en el modo de excitacin, la voz puede categorizarse en tres clases: sonidos con voz (voiced sounds) sonidos sin voz (unvoiced sounds) y sonidos explosivos (plosive sounds).

27 de may de 2010 43. Codificacin predictiva lineal (LPC)

  • Los sonidos con voz se producen por la vibracin de las cuerdas vocales y se encuentran comprendidos en una gama entre 50 y 400 Hz. Los sonidos con voz poseen un patrn repetitivo dentro de una gama de tiempo entre 2 y 20 mseg. Las vocales constituyen los sonidos con voz.

27 de may de 2010 44. Codificacin predictiva lineal (LPC)

  • En los sonidos sin voz no se presenta vibracin de las cuerdas vocales, sino que ms bien el aire sale de los pulmones y recorre el tracto vocal libremente, con tan slo leves constricciones mediante el uso de los dientes y los labios. La s y la f constituyen los sonidos sin voz.

27 de may de 2010 45. Codificacin predictiva lineal (LPC)

  • Los sonidos explosivos resultan del cierre completo del tracto vocal, lo que origina altas presiones de aire detrs del cierre. Cuando el tracto vocal se abre, el resultado es un sonido con un alto contenido de energa en las bajas frecuencias. La p y la b son ejemplos de este tipo de sonidos.

27 de may de 2010 46. Codificacin predictiva lineal (LPC)

  • Adicionalmente a estas tres clases de sonidos, existen otros que resultan de una combinacin de stos. Por ejemplo, la ocurrencia de vibracin de las cuerdas vocales y la constriccin del tracto vocal causan un sonido producido con friccin, denominado consonantes fricativas.

27 de may de 2010 47. Codificacin predictiva lineal (LPC)

  • La codificacin LPC (linear Predictive Coding) basa su funcionamiento en el modelaje del tracto vocal. El modelo asume que cada muestra de voz representa una combinacin lineal de las muestras anteriores.

27 de may de 2010 48. Codificacin predictiva lineal (LPC)

  • El tracto vocal es modelado como un tubo principal con un generador de frecuencias al final del mismo. La glotis (el espacio entre las cuerdas vocales) produce el sonido del timbre, el cual es caracterizado por su intensidad (loudness) y frecuencia (pitch). El tracto vocal (la garganta y la boca) forma el tubo. A este tubo principal se encuentran concatenados otros tubos acsticos que, junto con el principal, caracterizan las resonancias del tracto vocal

27 de may de 2010 49. Codificacin predictiva lineal (LPC) 27 de may de 2010 Generador (Frecuencia Amplitud) Modelo de tracto vocal 50. Codificacin predictiva lineal (LPC)

  • LPC analiza la seal de la voz estimando los formantes (frecuencias de resonancia de las cuerdas vocales) y calculando la intensidad y la frecuencia de los mismos.
  • El problema bsico de un sistema LPC consiste en determinar el modelo del tracto vocal a partir de la seal de voz

27 de may de 2010 51. Codificacin predictiva lineal (LPC)

  • Para esto utiliza una ecuacin en la que cada muestra de voz se expresa como una combinacin lineal de las muestras anteriores.
  • Los coeficientes de la ecuacin (coeficientes de prediccin) caracterizan el tracto vocal y el sistema requiere estimarlos
  • Esta estimacin se realiza minimizando el error medio cuadrtico entre la prediccin de la seal y la seal misma

27 de may de 2010 52. Codificacin predictiva lineal (LPC)

  • Esto quiere decir que se busca que el valor de los parmetros de prediccin sean tales que al sumar el cuadrado de los errores cometidos en cada muestra (diferencia entre la muestra real y la prediccin de la misma), el resultado obtenido sea el menor posible

27 de may de 2010 53. Codificacin predictiva lineal (LPC)

  • Con ADPCM se envan los errores de prediccin y tanto el codificador como el decodificador van ajustando los parmetros de las ecuaciones de prediccin en base a estos errores. En LPC, el codificador transmite, no los errores, sino los parmetros de las ecuaciones. Aprovechando que las seales de voz no varan significativamente en gamas pequeas de tiempo, estos parmetros son vlidos para una pequea gama de tiempo, por lo que el codificador los enva cada 20 mseg aproximadamente

27 de may de 2010 54. Codificacin predictiva lineal (LPC)

  • De esta manera se tiene, que a partir de la utilizacin de lgebra lineal, haciendo un anlisis de la seal en el dominio del tiempo, se obtiene estimaciones en el dominio de la frecuencia que describen de una manera aproximada el tracto vocal. Para esta estimacin, se requiere la computacin de una matriz de coeficientes y la solucin de un conjunto de ecuaciones lineales

27 de may de 2010 55. Codificacin predictiva lineal (LPC)

  • Diferentes mtodos (autocorrelacin, covariancia, etc.) pueden ser utilizados para asegurar la convergencia a una solucin nica. Bsicamente, LPC divide la seal de voz en segmentos temporales de alrededor de 20 mseg. (lo que equivaldra a 160 muestras PCM).

27 de may de 2010 56. Codificacin predictiva lineal (LPC)

  • Para cada segmento el codificador calcula el filtro que ha de enva los parmetros que caracterizan a este filtro al decodificador. Adicionalmente le enva los parmetros que caracterizan al formante (vibracin de las cuerdas vocales) presente en ese lapso de tiempo en que se est analizando la seal (frecuencia e intensidad).

27 de may de 2010 57. Codificacin predictiva lineal (LPC)

  • Con esta informacin el decodificador puede reconstruir la seal fuente, la cual hace pasar por el filtro, obtenindose la voz sintetizada.
  • El problema lo tenemos en que para los sonidos con voz (vocales), la seal que se introduce en el filtro est bien representada por los formantes, sin embargo, los sonidos sin voz no se pueden representar a travs de los formantes

27 de may de 2010 58. Codificacin predictiva lineal (LPC)

  • Para el caso de los sonidos sin voz, la seal resultante de la presin de aire proveniente de los pulmones a travs de las constricciones del tracto vocal es modelada como una secuencia de ruido aleatorio

27 de may de 2010 59. Codificacin predictiva lineal (LPC)

  • Los parmetros que se envan al decodificador son: los coeficientes del filtro (coeficientes de prediccin), la intensidad de la excitacin, un bit que indica si la excitacin es un sonido sin voz un sonido con voz, y, en caso de ser este ltimo, la frecuencia de la excitacin (formante )

27 de may de 2010 60. Codificacin predictiva lineal (LPC)

  • En el decodificador, los sonidos con voz se obtienen al pasar una serie de impulsos peridicos con la misma frecuencia e intensidad de la formante por el filtro (caracterizado por los coeficientes de prediccin). Los sonidos sin voz se obtienen al pasar por el filtro ruido aleatorio con la amplitud de la excitacin.

27 de may de 2010 61. Codificacin predictiva lineal (LPC)

  • Hoy dase puede codificar la voz con LPC a velocidades entre 2.4 y 4.8 Kbps con una seal de voz reconstruida con una calidad razonable. Desafortunadamente, ciertos sonidos no se pueden reproducir fielmente con este mtodo. La representacin del tracto vocal por una serie de tubos acsticos concatenados no permite representar los sonidos nasales, los cuales, requieren una representacin matemtica mucho ms compleja

27 de may de 2010 62. Codificacin predictiva lineal (LPC)

  • Adicionalmente, el modelaje del tracto vocal tambin conlleva a que la seal reconstruida difiera de la real, debido a las diferencias entre el modelo y el tracto vocal real. La principal ventaja de la utilizacin del LPC es su capacidad de producir voz inteligible a muy bajas velocidades (entre 2,4 y 4,8 Kbps).

27 de may de 2010 63. Codificacin predictiva lineal (LPC)

  • Sin embargo, al utilizar este tipo de codificacin generalmente se hace imposible reconocer, a partir de la voz sintetizada, a la persona que la origina. La razn de esto es que las caractersticas del tracto vocal varan enormemente de persona a persona, lo cual hace el modelaje sumamente difcil.

27 de may de 2010 64. Codificacin predictiva lineal (LPC)

  • C uanto ms complejo se haga el modelaje, se requieren ms bits para representarlo, y por tanto las velocidades de transmisin aumentan, no vindose justificadas la complejidad del modelo con la velocidad de transmisin obtenida.
  • LPC basa su funcionamiento en dos tipos de sonidos: con voz y sin voz, por lo que no puede representar los otros tipos de sonidos existentes, resultando esto en la produccin de una voz artificial. Estas razones hacen que la calidad de la voz sea muy inferior a la obtenida a travs de las tcnicas de PCM y ADPCM.

27 de may de 2010 65. Codificacin por excitacin lineal predictiva (CELP)

  • CELP (Code Excited Linear Prediction) es una tcnica hbrida de codificacin, donde se combinan la codificacin por forma de onda y la codificacin por modelaje de la voz. La idea es tratar de obtener las ventajas de ambas tcnicas

27 de may de 2010 66. Codificacin por excitacin lineal predictiva (CELP)

  • . A travs de la codificacin por forma de onda se logra reconstruir la seal con un grado de fidelidad alto (pero utilizando un ancho de banda significativo). Por otro lado, con la codificacin por modelaje logro transmitir la seal de voz utilizando un ancho de banda muy pequeo (pero con una calidad muy inferior)

27 de may de 2010 67. Codificacin por excitacin lineal predictiva (CELP)

  • Como vimos anteriormente, LPC basa su algoritmo en los sonidos con voz y los sonidos sin voz, para lo cual elimina los componentes de la voz que no se encuentran dentro de estas dos clases. La informacin eliminada se denomina residuo de la voz y contiene informacin importante que puede permitir la reconstruccin mucho ms fiel de la voz.

27 de may de 2010 68. Codificacin por excitacin lineal predictiva (CELP)

  • CELP utiliza un modelo del tracto vocal muy similar al utilizado por LPC y la diferencia fundamental se basa en que, adicionalmente, CELP utiliza un libro de cdigos que contiene una tabla con las seales residuo tpicas. En operacin, el codificador compara el residuo con todas las entradas en el libro de cdigos, eligiendo la que ms se parece y enviando el cdigo de la misma

27 de may de 2010 69. Codificacin por excitacin lineal predictiva (CELP)

  • El receptor recibe el cdigo, y elige el residuo relacionado con el mismo, el cual utiliza para excitar el filtro. De aqu el nombre de prediccin lineal con excitacin por cdigo.
  • De esta manera, CELP, adems de enviar los parmetros que modelan el tracto vocal, la intensidad de la excitacin, y la frecuencia de la formante (sonidos con voz), tambin enva el cdigo que permite obtener una aproximacin al residuo de la seal de voz.

27 de may de 2010 70. Codificacin por excitacin lineal predictiva (CELP)

  • En el decodificador, tanto la seal del generador de excitacin (con los valores de intensidad y frecuencia indicados por el codificador) como la seal recons - truida del residuo (obtenida a partir del libro de cdigos y del cdigo enviado por el codificador) se pasa a travs del filtro que modela el tracto vocal (construido a travs de los parmetros enviados por el codifi - cador), obtenindose as la reconstruccin de la voz.

27 de may de 2010 71. Codificacin por excitacin lineal predictiva (CELP)

  • Con esta codificacin se logra obtener una calidad mucho mayor a la obtenida con LPC sin sacrificar mucho ancho de banda adicional (velocidades entre 4.8 y 16 Kbps)

27 de may de 2010 72. CS-ACELP

  • La codificacin CS-ACELP (Conjugate Structure Algebraic Code Excited Linear Prediction, prediccin por excitacin lineal de cdigo algebraico de estructura conjugada) fue estandarizada por la ITU en Noviembre de 1995 bajo la recomendacin G.729. Con la utilizacin de esta recomendacin se codifica la voz a 8 Kbps , utilizandosegmentos de voz de 10 mseg (80 muestras PCM)

27 de may de 2010 73. CS-ACELP

  • Cada 10 mseg. se analiza la seal de voz y se extrae los parmetros del modelo CELP.
  • La caracterstica principal de CS-ACELP es que las entradas del libro de cdigos ya no vienen dadas por un conjunto de valores que caracterizan las formas de onda de los residuos, sino que dichas formas de onda son representadas por un conjunto de ecuaciones algebraicas.
  • Los procesadores de seales digitales manipulan con mucha mayor facilidad las formas de onda de los residuos cuando estos son representados como funciones matemticas que cuando estas son representadas por un conjunto de valores.

27 de may de 2010 74. CS-ACELP

  • CS-ACELP utiliza dos libros de cdigos, uno fijo y otro adaptable. El libro fijo contiene formas de onda preestablecidas, las cuales no varan. En el libro adaptable, las formas de onda se van adaptando a las seales reconstruidas, permitiendo con esto que la reconstruccin de la voz se vaya ajustando a las caractersticas de la misma, obtenindose con esto una mayor fidelidad.

27 de may de 2010 75. CS-ACELP . Recomendacin G.729

  • Como vimos antes, G.729 utiliza segmentos de voz de 10 mseg. Adicionalmente, el clculo de los coeficientes del filtro se basa no solamente en las muestras tomadas durante esos 10 mseg, sino que tambin toma en consideracin las muestras de los 5 mseg siguientes, tenindose con esto un retardo del algoritmo de 15 mseg.

27 de may de 2010 76. LD-CELP . Recomendacin G.728

  • LD-CELP (Low Delay CELP, CELP de bajo retardo) fue estandarizado por la ITU en 1992 bajo la recomendacin G.728.
  • Con esta codificacin ya no se transmite los parmetros del filtro, la frecuencia y amplitud de la excitacin y el cdigo del residuo, sino que se transmite el cdigo de la excitacin. Realmente, se transmite aqul cdigo que, al pasarlo por un filtro adaptable, genera la seal ms similar a la seal de entrada (el menor error)

27 de may de 2010 77. LD-CELP . Recomendacin G.728

  • En el decodificador, los parmetros que caracterizan al filtro son calculados a partir de los segmentos previos de voz reconstruida.
  • Esta codificacin opera con segmentos de voz de 0,625 mseg, correspondientes a 5 muestras PCM.

27 de may de 2010 78. LD-CELP . Recomendacin G.728

  • Por cada segmento de voz, el codificador analiza entre las 1024 vectores de su libro de cdigos para encontrar la forma de onda del mismo que ms se aproxime a la excitacin de entrada (el que minimiza el error medio cuadrtico compensado en frecuencia con respecto a la seal de entrada). Los 10 bits correspondientes al vector del libro de cdigo seleccionado son enviados al decodificador. De esta manera, cada 0,625 mseg el codificador enva 10 bits, lo que da una velocidad de 16 Kbps.

27 de may de 2010 79. LD-CELP . Recomendacin G.728

  • En la prctica,se usan7 bits para representar 128 formas de onda patrn y los otros bits se utilizan para indicar la amplitud de la seal. Sabiendo que una seal analgica puede poseer una variedad infinita de valores la seleccin entre 1024 posibilidades se ve muy dbil, y realmente lo sera si esta seleccin fuera esttica. Sin embargo, esta seleccin no es esttica, como en ninguna de las codificaciones CELP.
  • Justamente la reputacin de altamente compleja que posee la codificacin CELP viene dada de la actualizacin constante de los libros de cdigo y de los filtros, a partir del pasado reciente de la seal de entrada.

27 de may de 2010 80. LD-CELP . Recomendacin G.728

  • Al acumular solamente 5 muestras PCM para procesar el segmento de voz (en lugar de 80 para G.729) se logra tiempos de acumulacin mucho menores que reducen el retardo del algoritmo, y, adicionalmente, resultan bloques de informacin ms pequeos que se procesan de una manera mucho ms rpida.

27 de may de 2010 81. RecomendacinG.723.1

  • La recomendacin G.723.1 fue aprobada por la ITU en marzo de 1996, y recomendada en 1997 por el consorcio de teleconferencia multimedia al forum de voz sobre IP como codificacin de audio de baja velocidad para el estndar H.323 de la ITU. El estndar H.323 define los mtodos para la comunicacin de voz y vdeo sobre redes de paquetes.
  • Este codificador posee dos velocidades asociadas, 5,3 Kbps y 6.3 Kbps. La mayor velocidad provee una mejor calidad, pero la menor velocidad, aparte de ofrecer una buena calidad, provee a los diseadores de sistemas con una flexibilidad adicional.

27 de may de 2010 82. RecomendacinG.723.1

  • El codificador enva, al igual que en G.729, los parmetros que caracterizan al filtro LPC (que representa el tracto vocal), la amplitud de la seal de excitacin, la frecuencia de la formante y una representacin de la seal residuo.

27 de may de 2010 83. RecomendacinG.723.1

  • La diferencia fundamental con G.729 es que las seales se procesan en segmentos de tiempo mucho mayores, 30 mseg en lugar de 10 mseg y que para la aproximacin del residuo, G.723.1 utiliza, para su ms alta velocidad de codificacin (6.3 Kbps), en lugar de una excitacin de cdigo algebraica, una excitacin cuantificada con multipulso de mxima probabilidad (MP-MLQ, Multipulse Maximum Likelihood Quantization). Para su ms baja velocidad (5,3 Kbps) G.723.1 utiliza una excitacin de cdigo algebraica para aproximar el residuo de la seal.

27 de may de 2010 84. RecomendacinG.723.1

  • En G.723.1 las seales de audio se procesan en segmentos de 30 mseg, correspondientes a 240 muestras PCM, y para el clculo de los coeficientes del filtro LPC se analiza la seal de entrada por 7,5 mseg adicionales, resultando un retardo total del algoritmo de 37,5 mseg.

27 de may de 2010 85. Recomendaciones UIT para compresin de voz 27 de may de 2010