aplicaciones de las representaciones tiempo frecuencia en el procesamiento de voz

118
MORELIA, MICHOACÁN ABRIL DEL 2010 INSTITUTO TECNOLÓGICO DE MORELIA DIVISIÓN DE ESTUDIOS PROFESIONALES DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA MONOGRAFÍA APLICACIONES DE LAS REPRESENTACIONES TIEMPO – FRECUENCIA EN PROCESAMIENTO DE VOZ QUE PARA OBTENER EL TÍTULO DE: INGENIERO EN ELECTRÓNICA PRESENTA: JESÚS VLADIMIR ALVARADO MAGDALENO ASESOR: M.C. JULIO CÉSAR HERRERA GARCÍA SUBSECRETARÍA DE EDUCACIÓN SUPERIOR DIRECCIÓN GENERAL DE EDUCACIÓN SUPERIOR TECNOLÓGICA INSTITUTO TECNOLÓGICO DE MORELIA

Upload: vladimir-alvarado

Post on 20-Nov-2015

5 views

Category:

Documents


0 download

DESCRIPTION

Aplicaciones de las Representaciones Tiempo - Frecuencia en el procesamiento de voz

TRANSCRIPT

  • MORELIA, MICHOACN ABRIL DEL 2010

    INSTITUTO TECNOLGICO DE MORELIA

    DIVISIN DE ESTUDIOS PROFESIONALES DEPARTAMENTO DE INGENIERA ELECTRNICA

    MONOGRAFA

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO

    FRECUENCIA EN PROCESAMIENTO DE VOZ

    QUE PARA OBTENER EL TTULO DE:

    INGENIERO EN ELECTRNICA

    PRESENTA:

    JESS VLADIMIR ALVARADO MAGDALENO

    ASESOR:

    M.C. JULIO CSAR HERRERA GARCA

    SUBSECRETARA DE EDUCACIN SUPERIOR DIRECCIN GENERAL DE EDUCACIN SUPERIOR TECNOLGICA

    INSTITUTO TECNOLGICO DE MORELIA

  • i

    A G R A D E C I M I E N T O S

    A ti pap, por haberme dado los consejos y el nimo necesario para ir viviendo

    cada etapa de mi vida. Por tu enseanza de saber disfrutar y buscar las cosas

    que verdaderamente son importantes en la vida.

    A ti mam, por demostrarme la fuerza y el nimo incansable para hacer

    siempre bien las cosas. Por la preocupacin y el nimo que nos das para

    vernos volar en grande.

    A ustedes Nathaly y Sofi, por la confianza y el apoyo que siempre he tenido de

    su parte, por la enseanza que en ocasiones, sin querer, me brindan.

    A ti Eli, por ser la persona que ha vivido ms cercano el proceso de lograr este

    proyecto, por los tiempos que se sacrificaron, por el apoyo y compresin que

    siempre me has dado. Te amo.

    A mis amigos y compaeros de estudio, por el hecho de estar siempre cerca,

    de apoyarnos mutuamente en todo.

    A mis tas, Loren y Elena, que s que les hubiera encantado estar aqu, junto a

    mi, pero que s que donde quiera que se encuentren estarn muy felices de

    verme terminar este proceso

    A toda mi familia, que siempre unida, se apoya los unos a los otros. A la familia

    Alvarado Gonzlez, y la familia Magdaleno Martnez.

  • ii

    N D I C E

    RESUMEN iv OBJETIVOS v JUSTIFICACIN vi MOTIVACIN vii INTRODUCCIN 1 CAPTULO 1 CONCEPTOS DE PROCESAMIENTO DE SEALES 1.1 SEALES 2

    1.1.1 Tipos de seales 3 1.1.2 Seales continuas y discretas 4 1.1.3 Sistemas discretos 6

    1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO 6

    1.2.1 Discretos 7 1.2.2 Continuos 8 1.2.3 Propiedades de los sistemas lti 10

    1.3 LA TRANSFORMADA CONTINUA DE FOURIER 12

    1.3.1 Representacin de seales aperidicas 13 1.3.2 La transformada de Fourier para seales peridicas 19 1.3.3 Propiedades de la transformada continua de Fourier 20

    1.4 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO 26

    1.4.1 Representacin de seales aperidicas 26 1.4.2 La transformada de Fourier de tiempo discreto para

    seales peridicas 31 1.4.3 Propiedades de la transformada de Fourier de tiempo discreto 33

    CAPTULO 2 CARACTERIZACIN EN TIEMPO Y FRECUENCIA 2.1 CONCEPTO DE TIEMPO FRECUENCIA 36 2.2 TRANSFORMADA DE FOURIER DE TIEMPO CORTO 39 2.3 DISTRIBUCIN WIGNER VILLE 42 2.4 TRANSFORMADA DE GABOR 47 2.4.1 Ventanas comnmente utilizadas 49 2.4.2 Ejemplo de anlisis de voz 51 2.5 TRANSFORMADA WAVELET 53

  • iii

    CAPTULO 3 APLICACIONES DE PROCESAMIENTO DE VOZ 3.1 APLICACIONES CON MATLAB Y CSLU TOOLKIT 57 3.1.1 CSLU Toolkit 57 3.1.2 MatLab 60 3.2 APLICACIONES UTILIZANDO ESPECTROGRAMAS 64 3.2.1 Sistema de reconocimiento de voz mediante el anlisis de espectrograma. 64 3.2.2 Mtodos de identificacin usando anlisis de voz 71 3.3 APLICACIONES USANDO WAVELETS 77 3.3.1 Procedimiento y dispositivo de clasificacin de las seales

    del habla. 77 3.3.2 Mtodo para la extraccin de caractersticas de seales de voz y sistema relacionado con el reconocimiento de voz. 86 3.4 APLICACIONES USANDO OTRAS DISTRIBUCIONES TIEMPO FRECUENCIA 93 3.4.1 Anlisis de palabras utilizando la transformada de Gabor. 93 3.4.2 Anlisis tiempo- frecuencia para reconocimiento de voz utilizando la distribucin Wigner Ville suavizada. 97 CONCLUSIONES 102 LISTA DE FIGURAS 104 REFERENCIAS 106

  • iv

    R E S U M E N

    En este trabajo de investigacin se vern las principales funciones matemticas

    en el procesamiento de voz. Todo descrito de una manera simple y detallada,

    hablando de diversos temas, desde la transformada de Fourier hasta los

    mtodos que se utilizan para trabajar con el anlisis tiempo frecuencia, tales

    como la transformada de Gabor y la transformada Wavelets, sus anlisis

    matemticos, propiedades y la utilizacin ms frecuente que se les da a dichas

    transformadas. Tambin se tendr la oportunidad de analizar diferentes tipos

    de aplicaciones relacionadas con el reconocimiento de voz, los cuales utilizan

    todas las herramientas descritas anteriormente.

  • v

    O B J E T I V O S

    El objetivo general de esta monografa consiste en presentar de una manera

    global las aplicaciones que tiene en el mundo actual el procesamiento de voz y

    conocer las herramientas matemticas necesarias para poder capturar y

    procesar los sonidos.

    Tambin podemos delimitar algunos objetivos particulares:

    Explicar las nociones bsicas acerca del procesamiento de seales.

    Explicar y analizar la Transformada, continua y discreta, de Fourier. En

    cada una presentar el caso de aplicarla en seales peridicas y

    aperidicas, as como sus propiedades.

    Hablar sobre la caracterizacin Tiempo Frecuencia y conocer las

    diferentes funciones que nos ayudan a dicha caracterizacin.

    Mostrar algunas de las aplicaciones actuales de las representaciones

    Tiempo Frecuencia en el tema de procesamiento de voz, cules son

    sus funciones y de qu manera aplican el procesamiento de voz.

  • vi

    J U S T I F I C A C I N

    Los avances tecnolgicos en el mundo actual crecen de una manera

    impresionante da a da, y las empresas de diferentes rubros se han

    concentrado en realizar equipos con reconocimiento de voz. Es por eso que es

    importante realizar un documento donde se estudien las bases, las funciones

    matemticas y las aplicaciones que se le da a este tema. Tambin es

    importante que generaciones futuras cuenten con un documento de consulta

    donde se puedan informar del avance tecnolgico y los pasos que ha tomado

    el reconocimiento de voz.

  • vii

    M O T I V A C I N

    Se eligi este tema debido al gran inters de mi parte hacia todo lo nuevo que

    nos presenta la tecnologa, en especial en el campo de lo acstico, incluyendo

    voz y msica. Me interes porque es un tema actual, con aplicaciones en

    diversos sistemas para diferentes fines, desde un telfono celular, hasta un

    sistema de seguridad para casa o empresa. Un tema que da a da ir

    evolucionando y que los interesados en l tendremos que actualizarnos

    constantemente.

  • 1

    I N T R O D U C C I N

    En este tiempo en el que la carrera tecnolgica avanza cada vez a pasos

    ms agigantados, es indispensable que las personas y profesionistas que

    pertenecen al mundo de la tecnologa, se mantengan al da y actualizados con

    los diferentes procesos y proyectos que se desarrollan da a da alrededor del

    mundo.

    Los procesos en los que el ser humano puede ser capaz de controlar

    diferentes dispositivos mediante la voz han tomado un auge importante en los

    ltimos aos, debido a que es muy extensa la lista de cosas que se pueden

    hacer con tales desarrollos. Solo hay que observar con cuidado a nuestro

    alrededor para saber que la industria del procesamiento de voz es cada vez

    ms extensa, se pueden controlar los equipos de comunicacin mvil mediante

    el uso de la voz, se le puede hacer dictados a las computadora para evitar

    usar el teclado, se puede tener un sistema de seguridad en el hogar o en la

    industria que se base en el reconocimiento de voz.

    Todas estas aplicaciones se basan en un principio: poder procesar la

    voz. Este proceso comienza desde el momento en que se captura los datos,

    aplicar diferentes frmulas y aplicaciones matemticas para poder conocer los

    datos importantes de la voz, tales como frecuencia, duracin, separacin de

    palabras.

    En esta investigacin se tomarn los temas acerca de la relacin tiempo

    frecuencia y las herramientas matemticas que nos ayudan a obtener la

    informacin necesaria acerca del sonido y su procesamiento.

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 2

    CAPTULO 1. CONCEPTOS DE PROCESAMIENTO DE SEALES

    1.1 SEALES

    Los conceptos de seales [22], surgen de una gran variedad de eventos. La

    obtencin, representacin e interpretacin de dichas seales juegan un papel

    trascendental en la ciencia y tecnologa, incluyendo todas sus ramas como las

    comunicaciones, la electrnica, la acstica, la sismologa, el diseo de circuitos

    y equipos, la ingeniera biomdica y el procesamiento de voz entre otros.

    Aunque las seales pueden representarse de diferentes maneras, en todos los

    casos la informacin de una seal est contenida en un patrn de variaciones

    que representan una forma determinada [5]. Por ejemplo, si tomamos el circuito

    de la figura 1.1, las seales que obtendramos seran los patrones que tiene la

    variacin en el tiempo de los voltajes Vs y Vc [1]; otro ejemplo podra ser la voz

    humana, ya que aqu encontramos dos variables, la frecuencia y el tiempo, las

    cuales se representaran de la forma ilustrada en la figura 1.2

    Fig. 1.1 Circuito RC sencillo con voltaje en la fuente Vs y voltaje del capacitor Vc [4].

    Fig. 1.2 Representacin grfica de una palabra en funcin del tiempo [2].

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 3

    1.1.1 Clasificacin de las seales [21]

    Existen cuatro tipos de seales:

    Analgicas

    Digitales

    Muestreadas

    Cuantizadas

    Clasificacin de seales de acuerdo a su duracin:

    Causales

    Anticausales

    No causales

    Continuas

    Peridicas

    Clasificacin de seales basadas en simetras

    Simetra Par

    Simetra Impar

    Asimtrica

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 4

    Clasificacin de seales basadas en Energa y Potencia

    Seales de Energa

    Seales de Potencia

    Ejemplos de seales

    Escaln unidad

    Rampa

    Pulso

    Triangular

    Sinc

    Impulso

    1.1.2 Seales Continuas y Discretas

    En las seales continuas la variable independiente tiene un valor determinado

    para cada momento del tiempo, por lo tanto se puede definir para una sucesin

    continua de puntos de la variable independiente [22]. Por ejemplo, en la figura

    1.3 se tiene un ejemplo tpico del tiempo de carga de un capacitor en un circuito

    RC.

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 5

    Fig. 1.3 Perfil tpico del tiempo de carga de un capacitor.

    En las seales discretas la variable independiente solamente se encuentra

    definida en tiempos discretos y, por lo tanto, para estas seales la variable

    independiente solamente toma valores discretos. La densidad de poblacin con

    respecto a cada una de las ciudades del pas y la seal de voz como funcin

    del tiempo son ejemplos de seales discretas [22]. Otros ejemplos seran: el

    ndice semanal de la Bolsa Mexicana de Valores, ingreso promedio de las

    familias en una ciudad, el ndice de criminalidad por ciudad.

    Para diferencias a las seales continuas de las discretas en una grfica, se

    utiliza el smbolo t para denominar a la variable independiente continua y n para

    denominar a la variable independiente discreta [21].

    1.1.3 Sistemas Discretos

    Un sistema es una transformacin aplicada a una seal de entrada x) para

    obtener una seal de salida y [5]. A dicha transformacin se le denomina

    funcin de transferencia, y habitualmente se representa mediante una T. Los

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 6

    sistemas discretos son aquellos que trabajan con seales discretas. En la

    figura se muestra el diagrama de bloques de este tipo de sistemas.

    Fig. 1.4 Diagrama de Bloques. Sistema Discreto [22].

    1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO (LIT )

    Las propiedades bsicas de los sistemas de seales, como la linealidad y la

    invariancia en el tiempo tienen una importancia muy grande en el anlisis de

    las seales y sistemas, por dos razones [11]. La primera, demasiados procesos

    fsicos poseen stas mismas propiedades, por lo que pueden modelarse como

    sistemas lineales e invariantes en el tiempo (LIT). Adems es importante decir

    que los sistemas LIT se pueden analizar con mucho detalle para proporcionar

    el conocimiento de sus propiedades, as como un conjunto de variadas

    herramientas que forman el ncleo del anlisis de seales y sistemas [12].

    1.2.1 LIT DISCRETOS (SUMA DE CONVOLUCIN)

    La idea de visualizar cmo el impulso unitario discreto se puede utilizar para

    construir cualquier seal discreta consiste en pensar en una seal discreta

    como una sucesin de impulsos individuales.

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 7

    Suponiendo un sistema LIT cualquiera con las propiedades citadas, como se

    muestra en la figura 1.4, se cumple la expresin [22].

    =

    =

    Ec. 1.1

    Por la propiedad de la linealidad se obtiene:

    =

    Ec. 1.2

    Y ahora considerando

    = respuestaalimpulsounitario

    Se puede representar la funcin de transferencia del sistema como:

    = =

    Ec. 1.3

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 8

    La funcin de transferencia de un sistema LIT podr ser formulado mediante su

    respuesta el impulso, representada por h(n). Y la operacin mostrada en la

    ecuacin, que relaciona dicha respuesta al impulso y la entrada al sistema, se

    le atribuye el nombre de suma de convolucin [22].

    1.2.2 LIT CONTINUOS (INTEGRAL DE CONVOLUCIN)

    Como se vio en el sistema discreto, la clave para el desarrollo de la suma de

    convolucin fue la propiedad de representar matemticamente una seal como

    la superposicin de funciones impulso unitario escaladas y desplazadas. En el

    caso de los LIT continuos no existe una secuencia discreta de valores de

    entrada [23]. Sin embargo, al pensar en el impulso unitario como la idealizacin

    de un pulso tan corto que su duracin no tiene consecuencias en un sistema

    fsico real, se puede realizar y desarrollar una representacin para seales

    continuas arbitrarias en trminos de stos pulsos idealizados con una duracin

    pequea que tiende a desaparecer [12].

    Para esta seccin tomamos como base una seal &' que representa a la suma de versiones escaladas y desplazadas de la seal pulso bsico ), por lo tanto la respuesta &' de un sistema lineal a esta seal ser la superposicin de las respuestas a las versiones escaladas y desplazadas de

    ) [22]. Se define a *' como la respuesta de un sistema LIT a la entrada ' .

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 9

    Entonces, suponiendo un sistema lineal de tiempo continuo, vemos que:

    &' = *' Ec. 1.4

    Dado que el pulso ' corresponde a un impulso unitario desplazado conforme 0, la respuesta *' a este pulso de entrada se convierte en la respuesta a un impulso en el lmite. Por lo tanto, se hace ,' denote la respuesta en el tiempo t a un impulso unitario ' - localizado en el tiempo -, entonces

    ' = lim. '

    Ec. 1.5

    [22] Conforme 0, la sumatoria del lado de derecho se convierte en una integral, por tanto,

    ' = 0 -,'1- Ec. 1.6

    Quitando el subndice y definiendo la respuesta al impulso unitario h(t) como

    ' = .' Ec. 1.7

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 10

    Es decir, h(t) es la respuesta a '. En este caso la ecuacin se vuelve:

    ' = 0 -' -1- Ec. 1.8

    A sta ecuacin se le conoce como integral de convolucin , y corresponde a

    la representacin de un sistema LIT continuo en trminos de su respuesta a un

    impulso unitario [5]. La convolucin de dos seales x(t) y h(t) se representa

    simblicamente como

    ' = ' ' Ec. 1.9

    1.2.3 Propiedades de los sistemas LIT

    Los sistemas LIT tiene varias propiedades que no poseen otros sistemas, en

    esta seccin se explorarn algunas de las ms importantes y bsicas de estas

    propiedades, las cuales se separan en discretas y continuas para poder

    observar cada uno de los tipos de LIT por separado [11].

    Propiedad Conmutativa

    Una propiedad bsica de la convolucin tanto continua como discreta,

    consiste en que es una operacin conmutativa.

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 11

    Caso discreto:

    = =

    Ec. 1.10

    Caso continuo:

    ' ' = ' ' = 0 -' -1- Ec. 1.11

    Propiedad Distributiva

    Otra propiedad bsica de la convolucin es la propiedad distributiva. La

    convolucin se distribuye a travs de la adicin [21].

    Caso Discreto:

    2 + 4 = 2 + 4 Ec. 1.12

    Caso Continuo:

    ' 2' + 4' = ' 2' + ' 4' Ec. 1.13

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 12

    Propiedad asociativa

    Otra propiedad importante y til de la convolucin es la asociativa [22].

    Caso Discreto:

    2 4 = 2 4 Ec. 1.14

    Caso Continuo:

    ' 2' 4' = ' 2' 4' Ec. 1.15

    1.3 LA TRANSFORMADA CONTINUA DE FOURIER

    La representacin de seales no peridicas se puede lograr mediante una

    combinacin lineal de exponenciales complejas [12]. Mientras que para las

    seales peridicas las exponenciales complejas que las constituyen estn

    relacionadas armnicamente, para las seales aperidicas estn

    infinitesimalmente cercanas en frecuencia, y la representacin en trminos de

    una combinacin lineal adopta la forma de una integral, en lugar de una suma.

    El espectro de coeficientes resultante en esta representacin se conoce como

    transformada de Fourier, y la integral de sntesis por s misma, la cual usa

    estos coeficientes para representar la seal como una combinacin lineal de

    exponenciales complejas, se llama la transformada inversa de Fourier [11].

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 13

    1.3.1 Representacin de seales aperidicas

    Para tener una idea sobre le representacin de la transformada de Fourier,

    comenzaremos por definir la representacin de la transformada de Fourier de

    una onda peridica cuadrada continua sobre un periodo de tiempo [5].

    ' = 5 1,|'| < 20,2 < |'| < 2

    Para esta forma, los coeficientes de la serie de Fourier ; para esta onda cuadrada son

    ; = 2.2>? Ec. 1.16

    donde >. = 4@A . Una forma alternativa de representar la ecuacin 1.16 es en forma de muestras de una funcin envolvente, resultando

    ; = 2

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 14

    independiente de T [22]. Se deduce que a medida que T se incrementa, o a

    medida que la frecuencia fundamental B. = 2F/ disminuye, la envolvente se muestrea con un espaciamiento cada vez ms estrecho. Por otro lado,

    conforme T incrementa, la onda cuadrada peridica original se aproxima a un

    pulso rectangular. As mismo, los coeficientes de la serie de Fourier,

    multiplicados por T, resultan en muestras de la envolvente con un

    espaciamiento cada vez ms estrecho; de alguna manera el conjunto de

    coeficientes de la serie de Fourier se aproxima a la funcin de la envolvente a

    medida que [11].

    Este ejemplo muestra la idea bsica que permiti a Fourier el desarrollo de una

    representacin para seales aperidicas. En forma especfica, se piensa en

    una seal aperidica como el lmite de una seal peridica cuando el periodo

    se hace excesivamente grande, y se examina el comportamiento limitante de la

    representacin de la serie de Fourier para esta seal [23]. Ahora se considera

    una seal x(t) con duracin finita, para un nmero de 2, ' = 0

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 15

    Fig. 1.5 (a) Seal aperidica x(t) (b) Seal peridica &' construida para que sea igual a x(t) en un periodo [22].

    Se examina ahora el efecto de esto sobre la representacin en serie de Fourier

    de &', sobre el intervalo /2 K ' K /2 tenemos

    &' ;=LCD)

    Ec.1.18

    ; 1 0&'A4

    A4

    =LCD)1'

    Ec. 1.19

    donde B. 2F/ [11]. Ya que &' ' para |'| 9 /2, y tambin, ya que x(t)=0 fuera de dicho intervalo, la ecuacin 1.19 se puede escribir como

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 16

    ; = 1 0 'A/4

    A/4=LCD)1' = 1 0 '=LCD)1'

    Ec. 1.20

    Por lo tanto, se define la envolvente MNB de ; como

    MNB = 0 '=LCD)1'

    Ec. 1.21

    Tenemos para los coeficientes ;,

    ; = 1MNB. Ec. 1.22

    Combinando las ecuaciones 1.22 y 1.18 se puede expresar en trminos de

    MNB como

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 17

    &' = 1 MNB.

    =LCD)

    Ec. 1.23

    O de manera equivalente, ya que 4@A B.,

    &' 12F MNB.=LCD)

    B.

    Ec. 1.24

    Cuando , &' se aproxima a ' y en consecuencia, la ecuacin 1.24 en el lmite se convierte en una representacin de ' [22]. Adems, B. 0 conforme , y el miembro derecho de la ecuacin 1.24 se vuelve una integral. Esto se puede ver al considerar la interpretacin grfica de la ecuacin

    que se muestra en la figura 1.6.

    Fig. 1.6 Representacin grfica de la ecuacin 1.24 [22].

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 18

    Cada trmino en la sumatoria en el miembro derecho es el rea de un

    rectngulo de altura MNB.=LCD) y ancho B.. Conforme B. 0, la sumatoria converge a la integral de MNB=LC). Por lo tanto, como &' ' conforme , se puede ver que las ecuaciones 1.24 y 1.21 se convierten respectivamente [5].

    ' = 12F 0 MNB=LC)1B

    Ec. 1.25

    MNB = 0 '=LC)

    1' Ec. 1.26

    Las ecuaciones 1.25 y 1.26 son conocidas como el par de transformadas de

    Fourier cuya funcin MNB se conocer como transformada de Fourier o integral de Fourier de x(t), y la ecuacin 1.25 como la ecuacin de la transformada

    inversa de Fourier [12]. La ecuacin, en las seales aperidicas, representan la

    seal como una combinacin lineal de exponenciales complejas. La

    transformada MNB de una seal aperidica ' se conoce comnmente como el espectro de ', ya que nos proporciona la informacin necesaria para describir a ' como una combinacin lineal de seales senoidales a diferentes frecuencias.

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 19

    1.3.2 LA TRANSFORMADA DE FOURIER PARA SEALES PERI DICAS

    En la seccin anterior se desarroll la representacin de la transformada de

    Fourier, ah se enfoc sobre todo en las seales aperidicas, pero se pudo

    tambin desarrollar las representaciones de la transformada de Fourier para

    seales peridicas. Se puede construir de forma directa la transformada de

    Fourier de una seal peridica a partir de su representacin en serie de

    Fourier. La transformada resultante consistir en un tren de impulsos en el

    dominio de la frecuencia, con las reas de los impulsos proporcionales a los

    coeficientes de la serie de Fourier [22].

    Se considera una seal ' con transformada de Fourier MNB que consiste en un solo impulso de rea 2F en B = B.; esto es,

    MNB = 2FB B. Ec. 1.27

    Para determinar la seal ' de la cual sta es la transformada de Fourier podemos aplicar la relacin de la transformada inversa, ecuacin 1.25, para

    obtener

    ' = 12F 0 2FB B.=LC)1B

    Ec 1.28

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 20

    De manera ms general, si MNB es de la forma de una combinacin lineal de impulsos igualmente espaciados en frecuencia, esto sera

    MNB = 2F;B B. Ec. 1.29

    Entonces la aplicacin de la ecuacin 1.25 nos da

    ' = ;=LCD) Ec. 1.30

    Vemos que la ecuacin 1.30 corresponde exactamente a la representacin de

    la serie de Fourier de una seal peridica. Por lo tanto, la transformada de

    Fourier de una seal peridica con coeficientes de la serie de Fourier ; se pueden interpretar como un tren de impulsos que ocurren a las frecuencias

    relacionadas armnicamente y para las cuales el rea del impulso en la kesima

    frecuencia armnica B. es 2F veces el k-simo coeficiente de la serie de Fourier ; [11].

    1.3.3 PROPIEDADES DE LA TRANSFORMADA CONTINUA DE F OURIER

    En esta seccin se consideran varias propiedades de la transformada de

    Fourier. Las propiedades de la transformada de Fourier proporcionan un gran

    conocimiento acerca de la transformada y de la relacin que existe entre las

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 21

    descripciones de una seal en los dominios del tiempo y de la frecuencia [12].

    Adems, la mayora de estas propiedades son tiles para reducir la

    complejidad en la evaluacin de las transformadas o de las transformadas

    inversas de Fourier. Existe mucha relacin entre las representaciones de la

    serie de Fourier y de la transformada de Fourier de una seal peridica, por lo

    tanto, haciendo uso de esta relacin es posible trasladar muchas de las

    propiedades de las transformadas de Fourier hacia las propiedades

    correspondientes de las series de Fourier [23].

    Durante el anlisis de las propiedades, se remitir con frecuencia a funciones

    de tiempo y sus transformadas de Fourier, por lo cual se usar una notacin

    sinttica para indicar la relacin entre una seal y su transformada. Una seal

    ' y su transformada de Fourier MNB estn relacionadas mediante las ecuaciones de sntesis (Ec. 1.25) y de anlisis (Ec. 1.26) de la transformada de

    Fourier [11].

    ' = 12F 0 MNB=LC)1B

    Ec. 1.31

    MNB = 0 '=LC)

    1' Ec. 1.32

    Tambin se podr aludir a MNB mediante la notacin O|'| y a ' con la notacin de O2|MNB|. Tambin se referir a ' y MNB como un par de transformadas de Fourier mediante la notacin:

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 22

    ' PMNB Linealidad [22]

    Si

    ' PMNB y

    ' PRNB entonces

    ;' + S' P;MNB + SRNB Ec. 1.33

    Desplazamiento del tiempo [11]

    Si

    ' PMNB Entonces

    ' '. P=LC)DMNB Ec. 1.34

    Para establecer esta propiedad se considera la ecuacin 1.31:

    ' = 12F 0 MNB=LC)1B

    Reemplazando t con ' '. en esta ecuacin, se obtiene: ' '. = 12F0 MNB

    =LC))D1B

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 23

    = 12F0 =LC)DMNB =LC)1B

    Se reconoce en sta como la ecuacin de sntesis para ' '., se concluye que

    O' '. = =LC)DMNB

    Una consecuencia de la propiedad de desplazamiento es que una seal

    que es desplazada en tiempo, no tendra alterada la magnitud de su

    transformada de Fourier [22]. Por lo tanto, un efecto de un

    desplazamiento en el tiempo de una seal es introducir en su

    transformada un desplazamiento de fase, esto es, B'., la cual es una funcin de B.

    Diferenciacin e integracin

    Sea ' una seal con una transformada de Fourier MNB. [23] Entonces, al diferenciar ambos miembros de la ecuacin de sntesis (Ec.

    1.31) de la transformada de Fourier, se obtiene:

    1'1' = 12F0 NBMNB=LC)1B

    Por tanto

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 24

    1'1' P NBMNB Ec. 1.35

    sta es una propiedad de particular importancia, ya que reemplaza la

    operacin de diferenciacin en el dominio del tiempo con la de

    multiplicacin por NB en el dominio de la frecuencia.

    Escalamiento de tiempo y frecuencia [22]

    Si

    ' PMNB

    Entonces

    ;' P 1|;| MNB; Ec. 1.36

    Donde ; es una constante real. Esta propiedad se obtiene directamente de la definicin de la transformada de Fourier. Especficamente,

    OT;'U = 0 ;' =LC)1'

    Usando la sustitucin de variables - = ;', se obtiene:

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 25

    OT;'U =VWXWY1; 0 -=LZC[\,1-,; > 0

    1;0 -=LZC[\,1-,; > 0

    La cual corresponde a la ecuacin 1.36. Entonces, adems del factor de

    amplitud de 1/|;|, el escalamiento lineal en tiempo por un factor a corresponde a un escalamiento lineal en frecuencia por un factor 1/;, y viceversa.

    Tambin, considerando que ; = 1, en la ecuacin 1.36 se tiene:

    ' PMNB Ec. 1.37

    Esto es, al invertir una seal en el tiempo tambin se invierte su

    transformada de Fourier.

    Un ejemplo de la ecuacin 1.36 es el efecto en el contenido de la

    frecuencia que resulta cuando una cinta de audio se graba a una

    velocidad y se reproduce a diferente velocidad. Si la velocidad de

    reproduccin es mayor que la velocidad de grabacin, corresponde a

    una compresin en tiempo (; > 1), entonces el espectro se expande en frecuencia y el efecto auditivo consiste en que las frecuencias de la

    reproduccin son ms altas [12]. De manera contraria, la seal tendr

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 26

    frecuencias ms bajas si la velocidad de reproduccin es ms lenta que

    la velocidad de grabacin (0 < ;).

    La propiedad de escalamiento es un ejemplo de la relacin inversa entre

    el tiempo y la frecuencia. Por ejemplo, conforme se incrementa el

    periodo de una seal senoidal, disminuimos su frecuencia [11].

    La relacin inversa entre el dominio del tiempo y de la frecuencia es de

    gran importancia dentro de una amplia variedad de contextos de seales

    y sistemas, incluyendo el filtrado y diseo de filtros.

    1.4 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO

    En las secciones anteriores se pudo ver que existen muchas similitudes y un

    marcado paralelismo en el anlisis de las seales continuas y discretas, pero

    tambin se observ que existen diferencias importantes, por ejemplo, la

    representacin en serie de Fourier de una seal peridica discreta es una serie

    finita, opuesta a la representacin en serie infinita requerida para las seales

    peridicas continuas [22].

    Existen diferencias que son correspondientes en las transformadas de Fourier

    continua y de tiempo discreto.

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 27

    1.4.1 Representacin de seales aperidicas

    En la seccin 1.3.1 se estableci que los coeficientes de la serie de Fourier

    para una onda cuadrada peridica continua se pueden considerar como las

    muestras de una funcin envolvente y que, conforme el periodo de la onda

    cuadrada se incrementa, estas muestras llegan a estar cada vez ms cercanas

    unas de otras [11]. Esta propiedad sugiri la representacin para una seal

    aperidica ' construyendo primero una seal peridica ]' que igualara a ' sobre un periodo. Entonces conforme este periodo se aproximaba a infinito ]' era igual a ' sobre intervalos de tiempo cada vez ms grandes, y la representacin en serie de Fourier para ]' se aproximaba a la representacin de la transformada de Fourier de ' [22]. Ahora se aplicar un procedimiento anlogo a las seales discretas para desarrollar la representacin de la

    transformada de Fourier para secuencias aperidicas discretas.

    Se considera una secuencia general ^_ que tiene duracin finita. Esto es, para algunos enteros 2 y 4, ^_ = 0 fuera del intervalo 2 4. En la figura (a) se muestra una seal de este tipo [23]. A partir de esta seal

    aperidica podemos construir una secuencia peridica ] para la cual ^_ sea un periodo, como se ilustra en la figura (b). Cuando se hace que el periodo

    sea ms grande,] es idntica a ^_ sobre un intervalo ms grande, y conforme ` , ] = para cualquier valor finito de n.

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 28

    Fig. 1.7 (a) Seal x[n] de duracin finita. (b) seal peridica ] construida para que sea igualada a x[n] en un periodo [22].

    Se examina la representacin en serie de Fourier de ], se tiene:

    ] = ;=LZ4@a \ba Ec. 1.38

    ; = 1` ]=LZ4@a \bba Ec. 1.39

    Puesto que ] sobre un periodo que incluye el intervalo 2 K K 4, es conveniente seleccionar un intervalo de la sumatoria en la ecuacin 1.39

    que incluya este intervalo, de manera que ] pueda reemplazarse por x[n] en la sumatoria [11]. Por lo tanto,

    ; 1` =LZ4@a \b

    ac

    bad 1` =

    LZ4@a \b

    b

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 29

    Ec. 1.40

    donde en la segunda igualdad nos hemos valido del hecho de que x[n] es cero

    fuera del intervalo 2 4. Definiendo la funcin

    Me=LCf = =LCbb

    Ec. 1.41

    Se puede observar que los coeficientes ; son proporcionales a las muestras de M=LC, es decir,

    ; = 1 M=LCD Ec. 1.42

    Donde B. = 2F/` es el espaciamiento de las muestras en el dominio de la frecuencia [22]. Al combinar las ecuaciones 1.38 y 1.42 se obtiene

    ] = 1 M=LCD

    a

    =LCDb Ec. 1.43

    Ya que B. = 2F/` o de manera equivalente, 1/N = B./2F, la ecuacin 1.43 se puede reescribir como

    ] = 12F M=LCD=LCDbB.a Ec. 1.44

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 30

    Conforme N aumenta, B. disminuye, y conforme ` la ecuacin 1.44 se vuelve una integral. Para ver esto ms claramente, se considera que se

    representa M=LC=LCb como el trazo de la figura 1.8. De la ecuacin 1.41 se puede ver que M=LC es peridica en B con periodo 2F y tambin lo es =LCb. Entonces el producto M=LC=LCb tambin ser peridico [12].

    Fig. 1.8 Representacin grfica de la ecuacin 1.44 [22].

    Como hemos representado en la figura, cada trmino en la sumatoria de la

    ecuacin 1.44 representa el rea de un rectngulo de altura M=LCD=LCDb y ancho B.. A medida que B. 0, la sumatoria se vuelve una integral. Debido a que la sumatoria se realiza sobre N intervalos consecutivos de ancho

    B. 2F/`, el intervalo total de integracin siempre tendr un ancho de 2F [23]. Por lo tanto, medida que ` , ] , y la ecuacin 1.44 se convierte en

    12F0 M=LC=LCb1B4@

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 31

    donde, debido a que M=LC=LCb es peridica con periodo 2F, el intervalo de integracin se puede tomar como cualquier intervalo de longitud 2F [12] . Se tiene as el siguiente par de ecuaciones:

    = 12F0 M=LC=LCb1B4@ Ec. 1.45

    Me=LCf = =LCbb

    Ec. 1.46

    Las ecuaciones (1.45) y (1.46) son la contraparte discreta de las ecuaciones de

    (1.25) y (1.26). La funcin M=LC so conoce como la transformada de Fourier de tiempo discreto y el par de ecuaciones se conocen como el par de

    transformada de Fourier. La ecuacin 1.45 es la ecuacin de sntesis y la

    ecuacin 1.46 es la ecuacin de anlisis [22]. La ecuacin de sntesis es una

    representacin de x[n] como una combinacin lineal de exponenciales

    complejas muy cercanas en frecuencia y con amplitudes Me=LCfgC4@. Es por esto, igual que en el caso continuo, que regularmente se hace referencia a la

    transformada Me=LCf como el espectro de x[n], ya que proporciona la informacin acerca de cmo x[n] est compuesta de exponenciales complejas

    a frecuencias diferentes.

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 32

    1.4.2 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO PARA

    SEALES PERIDICAS.

    Como en el caso continuo [11], las seales peridicas discretas se pueden

    incorporar dentro del marco de referencia de la transformada de Fourier de

    tiempo discreto cuando se interpreta la transformada de una seal peridica

    como un tren de pulsos en el domino de la frecuencia. Para deducir la forma de

    esta representacin, se considera la seal

    = =LCDb Ec. 1.47

    En el caso continuo se vio que la transformada de Fourier de =LCD) se puede interpretar como un impulso en B = B.. Por lo tanto, se espera que resulte el mismo tipo de transformada para la seal discreta de la ecuacin 1.47. Sin

    embargo, la transformada de Fourier de tiempo discreto debe ser peridica en

    B con periodo de 2F [22]. Esto nos seala entonces que la transformada de Fourier de x[n] en la ecuacin 1.47 debe tener impulsos en B., B. 2F, B. 4F y as sucesivamente.

    Esto nos da la transformada de Fourier de x[n] como un tren de impulsos que

    se muestra en la figura 1.9

    Me=LCf = 2FB B. 2Fjk Ec. 1.48

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 33

    Fig. 1.9Transformada de Fourier de = =LCDb [22].

    Se observa que cualquier intervalo de longitud 2F incluye exactamente un impulso en la sumatoria expresada en la ecuacin 1.48.

    1.4.3 PROPIEDADES DE LA TRANSFORMADA DE FOURIER DE TIEMPO

    DISCRETO

    Justo como ocurre con la transformada continua de Fourier, existen una gran

    variedad de propiedades de la transformada de Fourier de tiempo discreto, esto

    proporciona un mayor conocimiento de la transformada, lo cual es muy til

    conocer para reducir la complejidad de la evaluacin de las transformadas y las

    transformadas inversas [23]. Es importante conocer que existe una estrecha

    relacin entre la serie de Fourier y la transformada de Fourier, por lo cual

    muchas propiedades de la transformada se derivan de las propiedades

    correspondientes de la serie de Fourier de tiempo discreto.

    Es conveniente utilizar una notacin especfica para indicar el par de una seal

    y su transformada. Esto es,

    Me=LCf OTU O2lM=LCm

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 34

    PM=LC Periodicidad de la transformada de Fourier de tiemp o discreto

    Como se analiz anteriormente, la transformada de Fourier de tiempo

    discreto siempre es peridica en B con un periodo 2F; es decir, Me=LCn4@f = M=LC

    Ec. 1.49

    Esta expresin contrasta con la transformada continua de Fourier, la

    cual en general es no peridica [11].

    Linealidad de la transformada de Fourier [12]

    Si

    2 PM2=LC Y

    4 PM4=LC Entonces

    ;2 + S4 P;M2e=LCf + SM4=LC Ec. 1.50

    Desplazamiento de tiempo y desplazamiento de frecue ncia [22]

    Si

    PM=LC Entonces

  • Captulo 1. Conceptos de Procesamiento de Seales

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 35

    . P =LCbDMe=LCf Ec. 1.51

    Y

    =LCDb PM=LCCD Ec. 1.52

    La ecuacin 1.51 se puede obtener mediante la sustitucin directa de

    . en la ecuacin de anlisis (1.46), mientras que la ecuacin 1.52 se deduce al sustituir M=LCCD en la ecuacin de sntesis (1.45).

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 36

    CAPTULO 2. CARACTERIZACIN EN TIEMPO Y FRECUENCI A

    Los campos de aplicacin de las representaciones Tiempo Frecuencia son

    cada vez ms amplios, pues se ha comprobado que mejoran los resultados de

    los mtodos espectrales y temporales clsicos al ser capaces de reflejar

    cambios en frecuencia con respecto al tiempo (transitorio espectrales), cosa

    que en un anlisis espectral clsico no se puede detectar, por lo que la

    clasificacin o deteccin de determinadas propiedades de la seal analizada se

    mejora [6]. Anlogamente, los mtodos basados en caractersticas temporales

    no consiguen detectar caractersticas esenciales de la seal que son las que

    muestran con certeza su naturaleza. Por ello, un uso combinado de ambos

    dominios resulta en el aprovechamiento de caractersticas tiles presentes en

    ambos dominios para as realizar diagnsticos ms fiables [10]. Inicialmente se

    aplic en la deteccin por radar y reconocimiento del habla, pero hoy en da se

    aplica en casi todos los campos de tratamiento digital de seales.

    2.1 CONCEPTO DE TIEMPO - FRECUENCIA

    Especificar la representacin en dominio del tiempo o de la frecuencia a una

    seal cualquiera, no es necesariamente el primer paso de un anlisis tiempo

    frecuencia. De hecho, las limitaciones de estas representaciones pueden

    obstaculizar en gran medida nuestra comprensin de las propiedades de la

    seal [23]. En una seal musical, el odo humano la interpreta como una serie

    de notas, una serie de tomos de sonido apareciendo a determinados

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 37

    tiempos, cada nota tiene una duracin finita y determinada altura (la frecuencia

    del tono). Si la seal contiene una nota, por ejemplo LA, una representacin de

    Fourier de la seal mostrar un pico en la frecuencia correspondiente, sin

    ninguna indicacin de la duracin. La msica generalmente se representa en

    una partitura. Y se sabe que la relacin tiempo frecuencia es precisamente la

    informacin que est codificada en la notacin musical (Ver Fig. 2.1). Por ello,

    se puede decir que la notacin musical es el prototipo de la representacin

    tiempo frecuencia de las seales [30].

    Fig. 2.1. Partitura de un arpegio [23].

    (a)

    (b)

    Fig. 2.2. Seal (a) y Espectro de Fourier (b) del arpegio [23].

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 38

    Fig. 2.3. Representacin Tiempo Frecuencia del arpegio [23].

    Cuando la seal mostrada en la Fig. 2.1 es tocada con algn instrumento como

    una flauta, es difcil de detectar su estructura matemtica De hecho, la

    representacin grfica de la seal y su espectro de Fourier (Fig. 2.2) no son

    capaces de revelar dicha estructura [7]. Por el contrario, el hecho de que es un

    arpegio es mucho ms claro en una representacin tiempo frecuencia como

    la representada en la Fig. 2.3, en la cual el tiempo y la frecuencia se

    representan simultneamente. Se puede ver claramente que la representacin

    tiempo frecuencia de la seal se localiza alrededor de cierto nmero de

    puntos, y es posible asociar dichos puntos con las notas individuales (o sus

    armnicos). Tambin se puede seguir la evolucin de la frecuencia

    fundamental de la seal [23]. En la Fig. 2.3 se observa que la seal sigue una

    curva que corresponde con la partitura de la Fig. 2.1.

    En este captulo se hablar de algunos mtodos matemticos usados en la

    representacin tiempo frecuencia de seales, tambin es necesario

    mencionar alguno de las caractersticas principales de las representaciones

    tiempo frecuencia,

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 39

    No existe un solo mtodo para la representacin tiempo frecuencia:

    Existen diferentes maneras de describir el contenido tiempo

    frecuencia de una seal.

    Para una determinada representacin tiempo frecuencia, es imposible

    lograr una localizacin tiempo frecuencia perfecta. Debido al principio

    de incertidumbre de Heisenberg. Esto significa que siempre se debe

    suponer un pequeo error entre la localizacin del tiempo y la

    localizacin de la frecuencia [8].

    2.2 TRANSFORMADA DE FOURIER DE TIEMPO CORTO (STFT)

    Como primera aproximacin a las transformadas tiempo frecuencia, una

    posibilidad consiste en analizar la seal con transformadas de Fourier de

    tiempo corto. As, tomando pequeas ventanas de la seal se apreciar que la

    distribucin espectral de cada una de ellas vara con el tiempo, pudiendo

    conocer con ms precisin la evolucin de las componentes espectrales [15].

    La transformada corta de Fourier ha sido muy utilizada en diferentes

    aplicaciones debido a su sencillez de implementacin, pero dada su baja

    resolucin espectral y temporal se tiende a dejar de utilizarla a favor de otros

    mtodos. Es empleada frecuentemente para el anlisis de voz, y en el campo

    de las seales biomdicas para deteccin de FV [10].

    Si para una seal de larga duracin se toman pequeos tramos de ella

    realizando un enventanado, y se calcula la transformada de Fourier de ese

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 40

    tramo, podremos conocer las componentes frecuenciales de cada tramo en una

    ventana de tiempo pequea. As, analizando cada transformada de Fourier se

    observa el cambio de dichas componentes frecuenciales [18]. La transformada

    de Fourier de tiempo corto se define como:

    , = [ ]

    Ec. 2.1

    La eleccin del tamao de la ventana es crtica a la hora de obtener buena resolucin. Si lo que se desea es obtener una resolucin grande en el dominio

    temporal elegiremos una ventana de poca longitud, en cambio, la distribucin

    espectral estar muy dispersa y no podremos conocer con exactitud sus

    componentes. Por el contrario, la eleccin de una ventana grande nos mostrar

    con ms precisin las componentes en frecuencia, pero se perder la idea del

    momento en que se produjeron cada una de ellas [30].

    La ventana de anlisis que se haya escogido para trabajar suprime a toda la

    seal fuera de sta, el resultado es un espectro local alrededor de t.

    Se toma como ejemplo la palabra GABOR, la cual se muestra su grfica de

    tiempo y su densidad espectral de energa en la Fig. 2.4.

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 41

    Fig 2.4. Seal de voz correspondiente a la palabra GABOR. Seal en el tiempo y su densidad

    espectral de energa [6].

    En la Fig. 2.4 se puede observar que existen componentes principales a

    diferentes frecuencias, pero no se puede especificar en que momento

    ocurrieron [6].

    Despus de utilizar la Transformada de Fourier de Tiempo Corto, se grafica la

    magnitud al cuadrado utilizando una ventana de anlisis de Hamming de 85

    puntos. El resultado se muestra en la Fig. 2.5.

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 42

    Fig. 2.5. Seal de voz analizada en el plano tiempo frecuencia [6].

    En la Fig. 2.5. se puede observar un primer patrn correspondiente a la slaba

    GA, un segundo patrn correspondiente a la slaba BOR y armnicas de

    menor amplitud.

    Los principales campos de aplicacin dentro del procesado de seales han sido

    la identificacin de sistemas, estimacin espectral, deteccin de seales,

    estimacin de parmetros y anlisis del habla [6].

    2.3 DISTRIBUCIN WIGNER VILLE

    La distribucin Wigner - Ville (WVD) data de 1948 y es histricamente la

    primera tcnica que busca obtener informacin sobre una seal, consiguiendo

    simultneamente una localizacin temporal y frecuencial. Fue propuesta por

    J. Ville como una densidad temporal frecuencial. Cuando se la aplica a

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 43

    oscilaciones puras, proporciona una localizacin ptima. El buen

    comportamiento se mantiene tambin a seales que son ciertas

    transformaciones simples de una nica oscilacin pura. Pero aparecen

    problemas al analizar seales ms complejas, por ejemplo la suma de seales

    simples. En estos casos el resultado no es la suma de las WVD de aqullas,

    sino que aparecen trminos de interferencia. En definitiva, la WVD no es

    lineal [14].

    Dada una seal f, su transformada Wigner Ville est definida como

    , = + 2

    2"

    #

    #

    Ec. 2.2.

    siendo x(t) la seal analtica asociada a la seal original. Es decir:

    = + $% Ec. 2.3

    siendo H( f(t) ) la transformada de Hilbert de f(t).

    Si denotamos:

    = + 2 2

    Ec. 2.4

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 44

    a esta funciTrn se le denomina t-autocorrelacin. Siendo su interpretacin

    similar a la autocorrelacin pero dando informacin localizada en el instante t

    [13].

    Como la transformada de Fourier de la autocorrelacin proporciona el mdulo

    de la transformada de Fourier de la seal, la distribucin de Wigner Ville se

    interpresta como el mdulo de la contribucin para una frecuencia ' en un instante t de la seal [7].

    La sugerencia original de Ville fue considerar la transformada Wigner Ville de

    una seal como una probabilidad de medida en el plano tiempo frecuencia.

    Esta propuesta demostr ser inadecuada, debido a los valores negativos que

    tiene la representacin. Sin embargo, la transformada de Wigner Ville tiene

    algunas propiedades interesantes. Entre ellas, las propiedades de localizacin

    son consideradas de gran importancia [14]. Ellas expresan que la transformada

    se adapta de una manera excelente para algunas clases especficas de

    seales; por ejemplo, se puede decir que la Transformada es Fourier es ptima

    para sinos y cosenos, tomando en cuenta que toda la energa de la

    transformada de Fourier en dichas funciones, est localizada en un solo punto

    [7]. Teniendo en cuenta que una localizacin optima para diferentes clases de

    seales es una de las metas ms importantes en el anlisis de tiempo

    frecuencia, tenemos que:

    La transformada de Wigner Ville tiene una localizacin ptima para

    seales Dirac.

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 45

    La transformada de Wigner Ville tiene una localizacin ptima en el

    dominio de la frecuencia en las ondas monocromticas puras y en las

    seales chirp lineales. (Fig. 2.6)

    Fig. 2.6 . Distribucin Wigner Ville de una seal chirp linear: casi una perfecta localizacin en

    el plano tiempo frecuencia [6].

    Conservacin de la Energa [13]: Integrando la distribucin Wigner

    Ville en todo el plano tiempo frecuencia, se obtiene la energa de x:

    () = ), ####

    Ec. 2.5

    Propiedad Marginal: La densidad del expectro de energa y a potencia

    instantnea pueden obtenerse como distribuciones marginales de ).

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 46

    ), = |+|#

    #

    ), = ||#

    #

    Traduccin de covarianza [14]: La distribucin de Wigner Ville es

    covariante en tiempo y frecuencia.

    = , ., = ) ,,

    = "/ ., = ), ,

    Compatibilidad con filtraciones: Si una seal y es la convolucin de x y h,

    la WVD de y es la convolucin del tiempo entre la WVD de h y la WVD

    de x.

    = 000 ., = 1 0, )0, 0#

    #

    #

    #

    Compatibilidad con modulaciones: Si y es la modulacin de x de una

    funcin m, la WVD de y es la convolucin de las frecuencias entre la

    WVD de x y la WVD de m.

    = 2 ., = 3, 4),#

    #44

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 47

    La distribucin Wigner Ville es bastante efectiva en la descomposicin tiempo

    frecuencia de seales no estacionarias; su resolucin es mayor comparada a la

    resolucin entregada por tcnicas lineales como la STFT, lo que permite una

    mejor localizacin de la energa en el espacio tiempo frecuencia [13].

    2.4 TRANSFORMADA DE GABOR

    Una clase de representaciones tiempo frecuencia ampliamente difundida en

    el mbito del procesamiento de seales se basa en el empleo de ventanas

    temporales, esto es de funciones suaves y bien localizadas en un intervalo.

    La ventana g(t) enmarca una porcin de la seal y permite aplicar localmente la

    Transformada de Fourier. De este modo, se releva la informacin en frecuencia

    localizada temporalmente en el dominio efectivo de la ventana.

    Desplazando temporlamente la ventana se cubre el dominio de la seal

    obtenindose la completa informacin tiempo frecuencia de la misma [6]:

    05, 6 = 07 8#

    #

    Ec. 2.6.

    Asumiendo que la ventana real g(t) est bien localizada en un intervalo

    centrado en t=0, de longitud y que su transformada g(w) est tambin localizada en una banda centrada en w=0, de ancho 6, las ventanas desplazadas y moduladas 7 8 son funciones elementales bien

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 48

    localizadas en el domunio conjunto tiempo frecuencia. Cada funcin

    elemental se localiza en el rectngulo centrdo en el punto , 6 de dimensin 6.

    Por tanto el conjunto de valores :05, 6; nos da un completo mapa en el dominio tiempo frecuencia que despliega la informacin de la seal. Ms an,

    sta puede recuperarse con la frmula de inversin [12]:

    0 = 12= 05, '>'#

    #

    #

    #

    Ec. 2.7.

    La misma sintetiza la seal como la superposicin integral de las funciones

    elementales 7 >. El mapeo sobre dominio tiempo frecuencia, bajo las condiciones referidas, se conoce como la transformada de Gabor y

    representa una atractiva generalizacin de la transformada de Fourier.

    Esta transformada se puede reformular considerando ahora el par de ventanas

    moduladas reales 7 cos' y 7 sin'. Estos pares de ventanas moduladas actan como filtros pasabanda, con definicin de fase. De tal modo

    la Transformada de Gabor puede entenderse como un tratamiento localizado

    de la seal mediante filtros pasabanda deslizantes, de ancho de banda

    constante [18].

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 49

    2.4.1 Ventanas comunmente utilizadas

    Cualquier ventana integrable puede utilizarse en la transformada de Gabor,

    pero algunas opciones son ms convenientes que otras. La principal

    caracterstica de una buena ventana es estar bien definidas en los dominios

    del tiempo y la frecuencia. Algunas de las usadas ms comunmente se

    muestran en la Fig. 2.7, y los logaritmos de sus transformadas de Fourier se

    pueden ver en la Fig. 2.8.

    Fig. 2.7. Ventanas comunmente utilizadas en el anlisis de Gabor. La notacin del eje

    horizontal debe dividirse entre 512 para coincidir con las frmulas matemticas dadas en la

    monografa [23].

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 50

    Fig. 2.8. Grfica del logaritmo ' DE7F,|7| de las grficas mostradas en la Fig 2.7 [23].

    La razn principal para usar estas ventanas es el hecho de que tengan formas

    simples y funcionales y que sus transformadas de Fourier estan concentradas

    esencialmente alrededor del origen ' = 0, como se ven en la Fig. 2.8. Las frmulas matemticas que definen a dichas ventanas son las siguientes[18]:

    Rectangular

    7 = H1,0 I I 1/20,1/2 K K 0 Ec. 2.8

    Triangular (Bartlett)

    7 L2,0 I I 1/221 ,1/2 K I 10,1 K K 0 Ec. 2.9

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 51

    Hanning

    7 = H0.54 0.46 cos2= ,0 10,1 < < 0 Ec. 2.10

    Blackman

    7 = H0.42 0.5 cos2= + 0.08 cos4= ,0 10,1 < < 0

    Ec. 2.11

    2.4.2 Ejemplo de Anlisis de Voz

    Se considera la seal de voz de la Fig. 2.9. Un posible modelo para describir la

    seal, al menos en su parte central, est dado por la ecuacin

    =RSTUE0TW

    TXF

    Ec. 2.12

    Con frecuencias aproximadamente de la forma TY D,Y D',, donde ', es la frecuencia de paso [12].

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 52

    Es claro que si el ancho de banda de la ventana a usarse en este ejemplo

    excede ',, cada una de las funciones de Gabor con frecuencia dentro de la banda de frecuencia de la seal ver varias armnicas de la seal. Esto es

    perfectamente visible en la Fig. 2.9(c), donde la transformada de Gabor oscila

    en funcin del tiempo con frecuencia igual a la altura de la seal [23].

    Fig. 2.9 (a) Seal de Voz How are you, (b) Transformada de Gabor con una ventana estrecha,

    (c) Transformada de Gabor con una ventana ms amplia [23].

    En contraste, cuando el ancho de banda es ms pequeo que la frecuencia de

    corte, no existe la interferencia.

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 53

    2.5 TRANSFORMADA WAVELET

    Una alternativa a la transformada de Gabor es la de utilizar ventanas

    moduladas, pero de dimensin variable, ajustada a la frecuencia de oscilacin.

    Ms precisamente, que mantenga un mismo nmero de oscilaciones en el

    dominio de la ventana. Esto sugiere, contar con una nica ventana modulada y

    generar una completa familia de funciones elementales mediante sus

    dilataciones o contracciones y traslaciones en el tiempo [20]:

    [ 1\|]|[ ^]

    Ec. 2.13

    Donde ] 0 y b son los parmetros de escala y traslacin. Se preserva la energa de las funciones mediante un factor de normalizacin.

    La funcin [, debe verificar ciertas condiciones de admisibilidad y se denomina wavelet madre y el resto de las funciones generadas, simplemente

    wavelets [17]. Se denotan las mismas como:

    [`,a 1\|]|[ ^]

    Ec. 2.14

    Las condiciones de admisibilidad bsicamente requieren que la funcin [, est bien localizada en tiempo, de media nula y que la transformada [b' sea

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 54

    un filtro continuo pasa banda, con rpido decaimiento hacia el infinito y hacia

    ' = 0.

    Entonces, dada una seal s(t), de energa finita la Transformada Wavelet

    Continua de s se define como:

    c0], ^ = 0[`,a#

    #

    Ec. 2.15

    Para cada par de parmetros reales (a,b), ] 0. Si la onda es real, la definicin se restringe para valores positivos de a [19]. La transformacin as

    definida preserva la energa de la seal, y posee una frmula integral de

    inversin. Si la wavelet madre es real, la reconstruccin se realiza como:

    0 = dc c0], ^[`,a ^]]#

    #

    #

    ,

    Ec. 2.16

    Donde dc es una constante positiva.

    La frmula expresa la sntesis de la seal como la superposicin integral de las

    funciones elementales [`,a.

    El mapeo sobre dominio tiempo frecuencia en (a,b), esto es la Transformada

    Wavelet Continua, representa una novedosa alternativa a la Transformada de

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 55

    Fourier por ventanas. Ella despliega la informacin de la seal en una

    estructura radicalmente diferente [6].

    Cualquier wavelet real [, admisible, est bien localizada en un intervalo centrado en un ,, de longitud y que su transformada [b' est localizada en una banda biltera 0 'F |'| ', de ancho >. Entonces, las waveletes [`,a estn localizadas en el intervalo centrado en ], + ^, de longitud ] en la banda biltera 0 'F/] |'| '/], de ancho >/].

    Se observa que la precisin en tiempo es inversamente proporcional a la

    precisin en frecuencia, mantenindose constante la relacin 8. Esta es la diferencia fundamental con la Transformada de Gabor [20].

    Ms an, para cada valor de a, la familia de wavelets parametrizada por b, se

    comporta como una ventana deslizante, de ancho de banda constante, pero el

    nmero de oscilaciones de estas ondas elementales es siempre el mismo, en el

    marco efectivo de la ventana.

    Por otra parte, si la transformada [b' decae rpidamente a cero en torno de ' = 0, se verifica la propiedad de oscilacin:

    e[ = 0#

    #

    Ec. 2.17

  • Captulo 2. Caracterizacin en tiempo y frecuencia

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 56

    Para k = 0,..,K. Esta importante propiedad, que no posee la Transformada de

    Gabor, es trascendente en las aplicaciones de anlisis de seales, para la

    deteccin de fenmenos puntuales, como discontinuidades o bruscos cambios

    en las derivadas [19].

    En efecto, si modelamos apropiadamente la seal fsica, por una funcin s(t),

    de modo que las derivadas reflejen los cambios de locales de comportamiento,

    en torno de cada punto `,a = ], + ^, de radio , el proceso queda caracterizado por el correspondiente polinomio de Taylor, hasta cierto orden

    K+1. Si el proceso es razonablemente suave en el entorno, la propiedad de

    oscilacin nos dice que la magnitud fc0], ^f es no significativa. En contraposicin, un brusco cambio en el entorno, que se refleja en la derivada

    de orden K+1, podr ser bien detectado.

    Otra propiedad relevante de la transformada continua es su invariancia

    respecto de las traslaciones o cambios de escala de seal. Estructuras

    similares, sern detectadas de la misma forma, independientemente de su

    localizacin temporal o escala [23].

    En suma, por sus propiedades la Transformada Wavelet constituye una

    promisoria y ventajosa alternativa para el procesamiento de seales, en

    particular las de Emisiones Acsticas.

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 57

    CAPITULO 3. APLICACIONES DE PROCESAMIENTO DE VOZ

    Las aplicaciones de procesamiento de voz son cada vez ms frecuentes en

    todos los mbitos de nuestra vida, las empresas de todos los rubros avanzan a

    pasos agigantados en cuanto a tecnologa se refiere y dentro de esta

    evolucin, el procesamiento de voz adquiere un papel cada vez ms

    importante.

    En esta investigacin se advirti que casi todas las aplicaciones utilizan las

    mismas bases para aplicar el procesamiento de voz en sus productos. La

    relacin tiempo frecuencia. Esto para obtener los espectros de las seales de

    audio y compararlos con una base de datos preestablecida para as poder

    obtener un resultado deseado.

    3.1 APLICACIONES CON MATLAB Y CSLU TOOLKIT [25]

    3.1.1 CSLU Toolkit

    CSLU Toolkit es un programa creado por el Oregon Graduate Institute of

    Science & Technology (OGI). Las siglas CSLU corresponden al Center for

    Spoken Language Understanding del mismo instituto.

    El CSLU Toolkit es una plataforma para la investigacin y desarrollo de

    sistemas de lenguaje hablado, la cual incluye herramientas audiovisuales para

    el procesamiento y reconocimiento de voz.

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 58

    Entre estas herramientas tenemos la llamada Speech Viewer .

    Fig. 3.1 Anlisis grfico en Speech Viewer [25].

    En la Figura 3.1 se muestra el anlisis grfico de la pronunciacin de la letra

    a. Este anlisis proporciona la siguiente informacin:

    La ventana 1 muestra la forma de onda seleccionada del archivo de

    sonido utilizado, el cual fue previamente grabado. Este grfico muestra

    dos variables: Amplitud y Tiempo.

    La ventana 2 muestra el espectrograma de la forma de onda

    seleccionada. En este grfico se manejan tres variables: Frecuencia

    (Hz), Tiempo (ms) y Amplitud (dB). Esta ltima variable se mide sobre el

    eje z de la grfica. Las zonas rojas representan las frecuencias con

    mayor amplitud, en tanto que las zonas verdes y oscuras presentan las

    frecuencias con menor amplitud.

    Con este programa se puede enfocar a detectar particularidades en los

    diferentes sonidos grabados, tanto en el dominio del tiempo, como en el

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 59

    dominio de la frecuencia. Estas particularidades nos llevaran a establecer que

    es posible diferenciar un sonido de otro, aunque su pronunciacin sea similar.

    En las figuras 3.2 y 3.3 se presentan las grficas obtenidas para las

    pronunciaciones de 2 vocales ms. Estas grficas muestran la forma de onda

    de la voz (sonido) y su espectrograma.

    Fig. 3.2 Pronunciacin de la letra E [25].

    Fig. 3.3 Pronunciacin de la letra I [25].

    Por la tanto se sabe que aunque existen pronunciaciones similares en su forma

    de onda, presentarn diferencias en su espectro de frecuencias

    (espectrograma). Debido a esto, la manera de diferenciar y reconocer los

    diferentes sonidos requiere de ms informacin, la cual puede encontrarse en

    su representacin en el dominio de la frecuencia.

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 60

    3.1.2 MatLab

    MatLab ofrece los medios necesarios para la implementacin de algoritmos

    especializados en el procesamiento digital de seales. En esta etapa se

    obtiene, con la misma calidad, los resultados que da Speech Viewer.

    Adicionalmente se presentarn las bases para la programacin en Matlab,

    como son:

    Digitalizacin de un archivo de sonido

    Implementacin de la Transformada de Fourier para representar la seal

    en el dominio de la frecuencia.

    Graficar los resultados

    Es necesario convertir la muestra de audio en una serie de datos que se

    puedan interpretar. Para esto se graba en la computadora la muestra de sonido

    en un archivo con extensin .wav y despus se procesa mediante la

    instruccin wavread incluida en Matlab. Esta instruccin nos proporciona dos

    parmetros:

    Fs= Frecuencia de muestreo en Hz.

    s= Vector que contiene los datos obtenidos de la lectura de la muestra.

    Debido a que se trabaja en el dominio de la frecuencia, es necesario que el

    vector de datos (s) cumpla ciertas condiciones. Para representar la seal en el

    dominio de la frecuencia se aplica la Transformada Discreta de Fourier. La

    longitud del vector s se representa mediante el parmetro m. Los componentes

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 61

    reales e imaginarios resultantes de la DFT del vector s son almacenados en el

    vector x, y la magnitud de la DFT(x) se representa por mag.

    Se presenta el algoritmo para graficar la representacin del archivo de sonido

    en el dominio de la frecuencia.

    f=(0:s/2)*Fs/m;

    subplot(221), plot(s), axis tight, grid on, title(Seal de Voz);

    subplot(222), specgram(s), title(Espectrograma), colorbar;

    subplot(223), plot (f,mag(1:m/2+1)), axis ([0 5000 0 10]), grid on, xlabel(Frecuencia (Hz)),

    ylabel(Magnitud), title(Representacin en Frecuencia);

    Como resultado se obtiene una imagen con los siguientes grficos:

    Seal de voz.- Graficacin de los datos del vector s.

    Espectrograma.- Espectro de frecuencias del vector s.

    Representacin en frecuencia.- Representa los parmetros frecuencia (f)

    vs. Magnitud (mag).

    En la figura 3.4 se observan los resultados obtenidos con la pronunciacin de la

    letra A.

    Fig. 3.4 Pronunciacin de la letra A [25]

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 62

    La representacin en frecuencia nos muestra diferencias entre sonidos

    similares en su forma de onda. Sin embargo los programas como Matlab, tratan

    a la voz como una serie de datos, no se le da una interpretacin visual,

    originando que puedan existir errores de reconocimiento. El espectro de la

    seal presenta valores mximos y mnimos, distribuidos de diferente manera

    para cada sonido. Si la intensidad de la seal cambia, tambin lo har la

    magnitud del espectro. Aunque la forma de onda se conserva, no as su escala

    de valores. Esto provoca la confusin y el no reconocimiento de sonidos, ya

    que estos valores pueden caer dentro del rango correspondiente a otro sonido

    [25].

    Para solucionar el problema de confusin entre sonidos se realiza lo siguiente:

    Estabilizacin de la seal. c=s./max(abs(s)); En donde c es el vector

    normalizado de s.

    Despus de aplicar la DFT de el vector c, se obtiene la magnitud del

    mismo y se eleva al cuadrado. mag=(abs(x)).^2; Con esto se mantienen

    altos los mximos y mnimos ms significativos, y se mantienen bajos

    los menos significativos. De igual manera se establece una diferencia

    mayor entre estos valores y los correspondientes a otro sonido. As se

    reduce la probabilidad de confusin entre los mismos, ya que esta

    diferencia no es lineal.

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 63

    Fig. 3.5 Comparacin entre el espectro original y el espectro Normalizado del fonema EME

    [25].

    Despus de dicho procedimiento prcticamente ha desaparecido el ruido

    presente en las frecuencias mayores a 1KHz. Si se toma como mximo

    dominante el pulso que se encuentra dentro del rango de 400 a 700 Hz. Se

    encuentra que, en el espectro original, la diferencia entre ellos es muy pequea

    (11-10=1). Sin embargo, en el espectro normalizado, la diferencia entre ellos es

    mayor (8.510 5.510 3.310).Con este procedimiento se pueden diferenciar mejor los sonidos y evitar las confusiones en el procedimiento de

    lectura de datos y mejorar notablemente el reconocimiento de voz.

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 64

    3.2 APLICACIONES UTILIZANDO ESPECTROGRAMAS

    3.2.1 Sistema de reconocimiento de voz mediante an lisis de

    espectrograma.

    (Pat. US 2002/0128834 A1, 12/Sep/2002)

    El reconocimiento de elementos conocidos del habla humana (fonemas, grupos

    de fonemas, slabas, palabras o frases) en los sonidos de una pronunciacin

    humana es fundamental para cualquier aplicacin computacional donde la

    operacin de dicha computadora dependa en lo que el usuario diga [33]. Tales

    aplicaciones incluyen, por ejemplo, sistemas de dictado, donde el texto

    pronunciado por un usuario es procesado en la computadora en forma textual.

    Otra de las aplicaciones es el sistema de comandos, en el cual el texto

    pronunciado por el usuario forma un comando que deber realizar la

    computadora.

    La figura 3.6 ilustra una red de computadoras 610 en la cual la presente

    invencin se ha implementado. Un usuario (620) proporciona el procesamiento,

    guardado, dispositivos de entrada y salida para proveer el procesamiento de

    voz. El usuario puede estar tambin conectado a una red de comunicaciones

    (610) en la cual tiene acceso a otros dispositivos computacionales, incluidos los

    servidores de las computadoras (630 y 632). La red de comunicaciones puede

    ser parte de Internet y utilizar protocolos TCP/IP para comunicarse con otros

    equipos.

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 65

    Un usuario proporciona la grabacin de voz mediante algn hardware

    (micrfono) en una forma aceptable de pronunciacin del lenguaje (602) y lo

    guarda en una forma digital (604). El sonido digitalizado tambin se puede

    obtener de un archivo (606) o a travs de la red (610). El sistema

    computacional de procesamiento de voz (660) recibe la informacin de un

    diccionario (603).

    Fig. 3.6 Sistema de computadoras donde se implementa la invencin [33].

    La figura 3.7 ilustra la estructura interna de una computadora de la red, donde

    se muestran el sistema de bus (700), interfaces de entrada y salida para

    conectar los dispositivos a la computadora tales como micrfonos y bocinas

    (702) , interfaces de red (706) , memoria voltil (708), memoria de disco o no

    voltil (710), una Unidad Central de Proceso (704). Todo esto utilizado con la

    finalidad de procesar el sonido de la pronunciacin humana.

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 66

    Fig 3.7 Estructura interna de la computadora [33].

    La figura 3.8 muestra la estructura de uno de los diccionarios utilizados en la

    presente invencin. Cada diccionario contiene diversos segmentos que ayudan

    en el procesamiento de las muestras de voz.

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 67

    Fig. 3.8 Estructura interna de un diccionario [33].

    Los segmentos pertenecen a diferentes tipos: vocales acentuadas, vocales no

    acentuadas, consonantes sonoras adyacentes, sonido sordo, sonido no sordo,

    pausas e irreconocibles (este ltimo se utiliza si el segmento no puede ser

    reconocido dentro de ninguno de los segmentos). En consecuencia, cualquier

    diccionario incluye diversos segmentos como los mencionados anteriormente,

    para as clasificar lo que el usuario dice. Adicionalmente, un diccionario puede

    contener alguna informacin suprasegmental, que describe por ejemplo, la

    fuerza o la duracin de las palabras dichas. Tambin puede contener algunos

    algoritmos creados especficamente para detectar la pronunciacin humana.

    Estos algoritmos pueden asociarse a cualquiera de los segmentos ya

    mencionados.

    El diccionario se puede cargar usando un proceso manual o un proceso

    interactivo. El proceso incluye analizar el espectrograma de la muestra de voz

    para as determinar crestas. Las crestas son utilizadas para distinguir e

    identificar formantes reales en las muestras de sonidos externos. Esto permite

    capturar la informacin en sonidos de vocales, que es especialmente

    importante. La informacin de los formantes se pueden guardar en el

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 68

    diccionario para ser usados de manera posterior en comparacin de segmentos

    de voces.

    En la presente invencin, algunos segmentos son de expresin continua. La

    figura 3.9 ilustra la estructura de un segmento de expresin continua en una

    entrada de diccionario.

    Fig. 3.9 Estructura de un segmento de voz continua dentro de una entrada de diccionario [33].

    La figura 3.9 muestra la informacin contenida en uno de los diferentes

    diccionarios, para un segmento de expresin continua (802). Cada persona

    mediante su voz, y la duracin del segmento hablado produce al menos un pico

    prominente en el espectrograma. Este pico se le llama formante. La

    informacin contiene los contornos para cada formante (805, 506, 807), la

    duracin del segmento (815) y el tiempo promedio de la frecuencia para cada

    formante (808, 809, 810). Tambin incluye los corredores 811, 812 u 813,

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 69

    dentro de los cuales contiene la frecuencia promedio del correspondiente

    formante cuando el segmento es pronunciado. Cada corredor es un intervalo

    definido por dos frecuencias: la ms alta y la ms baja. Dentro del sistema

    tambin pueden existir algunos algoritmos optimizados especficamente para la

    deteccin de ste segmento dentro de la pronunciacin humana.

    El Mtodo ptimo de Inversin, es la operacin de la presente invencin en la

    forma de una operacin para emparejar diccionarios, el cual trabaja sobre una

    grabacin de sonido digitalizada. El mtodo se divide en una secuencia de

    segmentos 901-905. Los segmentos 802, 803 y 804 de la entrada de

    diccionario se comparan primero con los segmentos 901, 902, 903, despus

    con los segmentos 902, 903, 904 y finalmente con los segmentos 903, 904 y

    905. El nmero de segmentos a compararse debe de ser igual a los de la

    entrada de diccionario. Al resultado de las comparaciones se le llama

    Secuencias de Segmentos Probadas.

    Debido a que el tema de esta monografa es la relacin tiempo frecuencia

    omitir las siguientes explicaciones hasta llegar a la caracterizacin de los

    espectrogramas que son la parte fundamental de esta invencin y de esta

    monografa.

    El sonido de la voz humana tiene un espectro discreto de armnicos. Un

    espectrograma normalmente se obtiene mediante un arreglo de frecuencias. El

    principal objetivo de los mtodos de la obtencin de espectrograma es crearlo

    mediante la captura de la mayor parte de los armnicos del sonido de voz, y

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 70

    tomar lo menos posible el ruido inevitablemente presente en cualquier

    grabacin de sonido. Estos mtodos estn diseados para trabajar con

    diferentes usuarios, y tambin con el mismo usuario en tiempos diferentes.

    Fig. 3.10 Mtodo de Transformada de Tiempo Triple [33].

    En la figura 3.10 se ilustra el mtodo de la Transformada de Tiempo Triple

    usado para obtener un espectrograma (1006) de un segmento de voz continua

    (900). Despus de que se determina la frecuencia de tono bsico. La

    frecuencia del tono bsico es la frecuencia del menor de los armnicos dentro

    de un segmento de voz continua. (1001), la grabacin de sonido se escala

    como se muestra en 1003. Esta grabacin de sonido escalada se procesa,

    1004, utilizando un grupo de frecuencias 1002 para obtener un espectrograma

  • Captulo 3. Aplicaciones de Procesamiento de Voz.

    APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 71

    intermedio, 1005. El espectrograma intermedio ti