recorte das fricativas /s/ e /z/ em registros...

10
36 | PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 RECORTE DAS FRICATIVAS /S/ E /Z/ EM REGISTROS ACÚSTICOS POR INFERÊNCIA BAYESIANA ADELINO PINHEIRO SILVA 1 DANIEL GONÇALVES GOMES 2 ELIZÂNGELA MARA RODRIGUES DE OLIVEIRA 3 NATHÁLIA AMORIM ZOLINI 4 RESUMO: Na sociedade contemporânea é cada vez maior a interação entre o homem e a máquina, oferecendo inúmeras possibilidades de exploração. A rápida informatização dos processos propicia à comunicação realizada através da fala torna-se uma alternativa viável para a melhoria desta interface e rápida adequação dos envolvidos na interação homem-máquina. Neste contexto, presente estudo tem como objetivo a composição de corpus coletado por procedimento padronizado para estudo de classificação das fricativas /s/ e /z/ em contexto de palavras. O texto introduz ainda ao leitor conceitos básicos na produção e análise de fala, tanto do ponto de vista descritivo, acústico e estatístico. PALAVRAS-CHAVE: Análise de Voz e Fala. Identificação de Vogais. Redes neurais Artificiais. Análise Cepstral. Reconhecimento de Padrões. 1 - INTRODUÇÃO Na sociedade contemporânea é cada vez maior a interação entre o homem e a máquina. Com o advento das mais avançadas de tecnologias, esta comunicação tem se tornado cada vez melhor, entretanto mais dependente e complexa. Diante deste contexto, a co- municação homem-máquina ainda oferece inúmeras possibilidades de exploração, e devido à informatização dos processos e à difícil adequação dos envolvidos, a comunicação realizada através da fala torna-se uma alternativa viável para a melhoria e expansão desta in- terface. Editores de textos e softwares por comando de voz são uma re- alidade, embora necessitem aperfeiçoamento. O reconhecimento por comando de voz funciona, porém não é completamente robusto, de- vido a particularidades como gírias, chavões e regionalismos. Desta forma estes sistemas de reconhecimento de elementos de fala ainda possuem potencial de melhoria, tornando-se assim um vasto campo a ser explorado (MÜLLER, 2002), em especial como uma etapa do processo de identificação de falantes baseadas em características de alto nível (REYNOLDS et al., 2003). Muitas empresas de tecnologia investem em técnicas de de- codificação e quantificação de sinal da locução, sempre com o ob- jetivo de preservar a informação de voz e fala e, em consequência, seu reconhecimento. A partir desta perspectiva o presente trabalho irá propor a identificação de padrões simbilantes em registros acústicos. Inicialmente será realizado a composição de um corpus, coleta- do por procedimento padronizado, e a partir deste foram separadas as fricativas /s/ e e /z/ de contexto de palavras e posteriormente anali- sado padrões acústicos, utilizando uma combinação de de técnicas de reconhecimento de fala por padrões estatísticos e métodos quan- titativos para codificação de sinais. 2 - FISIOLOGIA DO TRATO VOCAL O discurso é o produto acústico final de movimentos voluntários, formalizados dos aparelhos respiratório e mastigatórios. O comporta- mento motor da produção da fala é adquirido, desenvolvido, controla- do e mantido pela realimentação (feedback) acústica do mecanismo de audição e pela realimentação (feedback) sinestésica da muscu- latura da fala. A informação oriunda destes sentidos é organizada e coordenada pelo Sistema Nervoso Central e usados para conduzir a função da fala (FLANAGAN, 2013). Qualquer prejuízo ao mecanismo de controle, normalmente degrada o desempenho do aparelho vocal o que atrapalha o processo natural de comunicação, como apresen- tado pela figura 1. Figura 1 – Processo de comunicação. Fonte: Elaborado pelos autores, adaptado de Flanagan (2013).

Upload: haque

Post on 13-Dec-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

36 | PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785

RECORTE DAS FRICATIVAS /S/ E /Z/ EM REGISTROS ACÚSTICOS POR INFERÊNCIA BAYESIANA

Adelino Pinheiro SilvA1

dAniel GonçAlveS GomeS2

elizânGelA mArA rodriGueS de oliveirA3

nAtháliA Amorim zolini4

Resumo: Na sociedade contemporânea é cada vez maior a interação entre o homem e a máquina, oferecendo inúmeras possibilidades de exploração. A rápida informatização dos processos propicia à comunicação realizada através da fala torna-se uma alternativa viável para a melhoria desta interface e rápida adequação dos envolvidos na interação homem-máquina. Neste contexto, presente estudo tem como objetivo a composição de corpus coletado por procedimento padronizado para estudo de classificação das fricativas /s/ e /z/ em contexto de palavras. o texto introduz ainda ao leitor conceitos básicos na produção e análise de fala, tanto do ponto de vista descritivo, acústico e estatístico.

PAlAvRAs-chAve: Análise de voz e Fala. Identificação de vogais. Redes neurais Artificiais. Análise cepstral. Reconhecimento de Padrões.

1 - Introdução

Na sociedade contemporânea é cada vez maior a interação entre o homem e a máquina. com o advento das mais avançadas de tecnologias, esta comunicação tem se tornado cada vez melhor, entretanto mais dependente e complexa. Diante deste contexto, a co-municação homem-máquina ainda oferece inúmeras possibilidades de exploração, e devido à informatização dos processos e à difícil adequação dos envolvidos, a comunicação realizada através da fala torna-se uma alternativa viável para a melhoria e expansão desta in-terface.

editores de textos e softwares por comando de voz são uma re-alidade, embora necessitem aperfeiçoamento. o reconhecimento por comando de voz funciona, porém não é completamente robusto, de-vido a particularidades como gírias, chavões e regionalismos. Desta forma estes sistemas de reconhecimento de elementos de fala ainda possuem potencial de melhoria, tornando-se assim um vasto campo a ser explorado (mÜlleR, 2002), em especial como uma etapa do processo de identificação de falantes baseadas em características de alto nível (ReYNolDs et al., 2003).

muitas empresas de tecnologia investem em técnicas de de-codificação e quantificação de sinal da locução, sempre com o ob-jetivo de preservar a informação de voz e fala e, em consequência,

seu reconhecimento. A partir desta perspectiva o presente trabalho irá propor a identificação de padrões simbilantes em registros acústicos.

Inicialmente será realizado a composição de um corpus, coleta-do por procedimento padronizado, e a partir deste foram separadas as fricativas /s/ e e /z/ de contexto de palavras e posteriormente anali-sado padrões acústicos, utilizando uma combinação de de técnicas de reconhecimento de fala por padrões estatísticos e métodos quan-titativos para codificação de sinais.

2 - FIsIologIa do trato Vocal

o discurso é o produto acústico final de movimentos voluntários, formalizados dos aparelhos respiratório e mastigatórios. o comporta-mento motor da produção da fala é adquirido, desenvolvido, controla-do e mantido pela realimentação (feedback) acústica do mecanismo de audição e pela realimentação (feedback) sinestésica da muscu-latura da fala. A informação oriunda destes sentidos é organizada e coordenada pelo sistema Nervoso central e usados para conduzir a função da fala (FlANAGAN, 2013). Qualquer prejuízo ao mecanismo de controle, normalmente degrada o desempenho do aparelho vocal o que atrapalha o processo natural de comunicação, como apresen-tado pela figura 1.

Figura 1 – Processo de comunicação.

Fonte: elaborado pelos autores, adaptado de Flanagan (2013).

PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 | 37

A função de inalação, que expande a caixa torácica, provoca a redução da pressão de ar dos pulmões criando a movimentação de uma corrente de ar (fluxo) através de narinas, cavidade nasal, véu palatino e traqueia. o ar é normalmente expelido pela mesma via. No processo de alimentação, a mastigação ocorre na cavidade oral, quando o alimento é ingerido as estruturas na entrada da traqueia são alocadas sob a epiglote que protege a abertura das pregas vocais e evita que o bolo alimentar vá para a traqueia. No mesmo movimento a epiglote proporciona a passagem do bolo alimentar para o esófago, que encontra-se fixo contra a parede de trás da garganta, e para o estômago (FlANAGAN, 2013).

o trato vocal é um tubo acústico não uniforme, com área de sec-ção transversal altura, largura e índices de perdas e reverberação vari-áveis. em um homem adulto o tubo vocal tem cerca de 17 centímetros de comprimento e é deformado em corte transversal pelo movimento

das articulações; ou seja, os lábios, mandíbula, língua e véu. o trato vocal tem início pela constrição das pregas vocais na parte superior da traqueia. e é terminado pelos lábios. (FlANAGAN, 2013).

o trato nasal constitui um caminho auxiliar para a transmissão de som que começa no véu e termina nas narinas. No homem adulto a cavidade tem um comprimento de cerca de 12 cm e divide-se sobre uma parte da sua extensão da frente para trás por meio do septo nasal. o acoplamento acústico entre as vias nasais e vocais é contro-lado pelo tamanho da abertura no véu palatino. em tal caso, o som pode ser irradiado a partir da boca e narinas. em geral, o acoplamento nasal pode influenciar substancialmente o caráter do som irradiado a partir da boca. Para a produção de sons não nasais o véu fica firme-mente acima e veda efetivamente a entrada para a cavidade nasal (FlANAGAN, 2013). A figura 2 apresenta um diagrama esquemático dos principais elementos fisiológicos do trato vocal.

Figura 2 – Diagrama esquemático do mecanismo vocal humano.

Fonte: elaborado pelos autores, adaptada 123RF ID 11713021, de Flanagan (2013).

38 | PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785

A fonte de energia para a produção da fala está nas musculatu-ras torácicas e abdominais. o ar é expelido pela contração da caixa torácica e o aumento da pressão pulmonar.

A produção dos sons das vogais no mais suave nível requer uma pressão pulmão de 4 cm h20 (aproximadamente 392,3 Pa). Para sons agudos muito altos, por outro lado, as pressões são de cerca de 20 cm h20 ou mais (FlANAGAN, 2013).

o ar é forçado a partir dos pulmões, que passa através da tra-queia para a faringe. A parte superior da traqueia é composta pela laringe. A estrutura cartilaginosa que abriga dois lábios de ligamento e músculo é denominada prega vocal. o orifício como uma fenda entre as pregas é chamado de glote. As estruturas protuberantes, salientes, posterior e acima das pregas, são as cartilagens aritenoides. estas cartilagens apoiam as pregas e facilitam o ajuste da tensão. As prin-cipais cartilagens que não compõe o trato vocal são a tireoide e a cricoide posterior (FlANAGAN, 2013).

3 - consoantes FrIcatIVas

um segmento consonantal é determinado pelo som gerado de-vido a obstrução total ou parcial das correntes de ar nas cavidades supraglotais, podendo esta ser fricativas ou não. em contrapartida o segmento vocálico não apresenta nenhuma obstrução ou fricção (sIlvA, 2007).

classifica-se um som consonantal em ralação a diferentes fa-tores, sendo eles: o estado da glote; a nasalidade; a posição dos articuladores ativos; e a maneira ou modo de Articulação.

o estado da glote pode ser denominado vozeado quando as pregas vocais vibram no momento da produção de um determinado som. Isto ocorre devido a passagem de ar que ocasiona uma aproxi-mação dos músculos estriados que formam a glote, gerando assim a vibração. caso contrário, quando não há vibração, ou seja, os mús-culos que compõe a glote estão totalmente separados durante a pas-sagem do ar, é denominado estado de glote desvozeado (figura 3).

Figura 3 - o estado da glote em segmentos vozeados (direita) e desvo-zeados (esquerda).

Fonte: elaborado pelos autores, adaptada de osborne (2016) e silva (2007, p. 28).

segundo silva (2007), um segmento oral ou nasal é determi-nado pela posição do véu palatino, e este pode ser acompanhado juntamente com a posição da úvula. Dependendo desta posição, du-rante a pronúncia de uma vogal, determinamos se o som será oral ou nasal. se durante a fala a úvula estiver levantada, não permitindo a passagem de ar à cavidade nasal e consequentemente impedindo a ressonância nesta cavidade, produzindo um som oral. entretanto, se a úvula estiver abaixada e o ar penetrar na cavidade nasal gerando uma ressonância, produzindo um som nasal.

Denomina-se articuladores ativos, estruturas que se movimen-tam durante a fala, sendo elas: lábio inferior, língua, véu palatino e as pregas vocais. os articuladores passivos são lábios superior, os den-tes superiores e o céu da boca que se divide em alvéolos, palato duro, véu palatino e úvula. Para se definir o lugar da articulação é necessário observar a posição dos articuladores ativos em relação aos passivos.

mediante ao proposto estudo, os lugares da articulação mais importantes são labio-dental, dental e alveolar. labiodental tem como articulador ativo o lábio inferior e o articulador passivo os dentes in-cisivos superiores (exemplos: faca, vaca). o alveolar possui como articulador ativo o ápice ou lâmina da língua e como articulador pas-sivo os alvéolos (exemplos: sapa, zapata). consoantes alveolares de diferenciam de consoantes dentais apenas com relação ao articulador passivo (sIlvA, 2007).

Pode-se também classificar os encontros consonantais quanto à maneira ou modo de articulação. o presente estudo irá abordar de maneia mais detalhada à maneira fricativa, determinadas pela aproxi-mação dos articuladores durante a passagem central do ar, acarretan-

do em uma fricção. Para que ocorra esta fricção, a corrente de ar não pode ser totalmente obstruída, deve ocorrer passagem parcial deste ar. A denominação fricção é correlata do fenômeno de movimento tur-bulento do ar que flui pelo trato vocal.

o símbolo fonético [f] é classificado como fricativa labiodental desvozeada, sendo este uniforme em todos os dialetos do português brasileiro. um exemplo ortográfico é a palavra faca, cuja transcrição fonética é [‘faka]. o símbolo fonético v é classificado como fricativa labiodental vozeada, sendo este uniforme em todos os dialetos do português brasileiro. um exemplo ortográfico é a palavra vaca, cuja transcrição fonética é [‘vaka].

o símbolo fonético [s] é classificado como fricativa alveolar desvozeada, sendo este uniforme em início de sílaba em todos os dialetos do português brasileiro podendo ocorrer com a articulação alveolar ou dental, havendo marca de variação dialetal em final de sílaba. um exemplo ortográfico é a palavra caça, cuja transcrição fo-nética é [‘kasa]. o símbolo fonético [z] é classificado como fricativa alveolar vozeada, sendo este uniforme em início de sílaba em todos os dialetos do português brasileiro podendo ocorrer com a articulação alveolar ou dental, havendo marca de variação dialetal em final de síla-ba. um exemplo ortográfico é a palavra casa, cuja transcrição fonética é [‘kaza] (sIlvA, 2007).

A tabela a seguir apresenta a classificação das consoantes, com mecanismo de ar pulmonar, de acordo com o International Phonetic Alphabet (IPA - Alfabeto Fonético Internacional). A tabela classifica as consoantes de acordo com modo de articulação, ponto de articulação e vozeamento.

PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 | 39

4 - análIse por componentes me-cepstraIs

Na abordagem realizada por oppenheim e schafer (2010), de-fine-se o cepstrum discreto como a transformada inversa de Fourier (IFT - Inverse Fourrier Transform) do logaritmo do módulo da trans-formada de Fourier de tempo discreto (DTFT - Discrete Time Four-rier Transform) de um sinal. em contra partida, o calculo do cepstrum complexo omite a etapa de extração do módulo da transformada de Fourrier, e é definido apenas como a IFT do logaritmo da DTFT, fican-do respectivamente definidos como as equações a seguir.

Assim como o cepstrum complexo, o cepstrum real permite o desacoplamento das amplitudes dos modelos fonte-filtro, sendo com y[n] a correlação do sinal x[n] com o filtro h[n], tem-se a seguinte relação cepstral:

em seguida, tomando o logaritmo e em seguida a transformada inversa de Fourrier:

A transformada de Fourier transforma o domínio do sinal do tem-po para frequência, a transformação cepstral alterara do domínio do tempo para o domínio da quefrência, tal nomenclatura (e outras simi-lares) foram propostas no trabalho de Borgert, healy e Tukey (1963).

A escala mel, com nome derivado da palavra melodia (melody),

é uma escala logarítmica perceptual definida por stevens, volkmann e Newman (1937), que tem por objetivo manter os tons de frequên-cia equidistantes tomando como referência 40 dB acima do limite de percepção humana em 1000 hz. observando-se a anatomia da có-clea humana (figura 4) é possível constata-se que a sensibilidade da membrana basilar as frequências audíveis segue uma escala logarít-mica. entretanto, a transformação da escala linear de frequência para a escala mel não é única, sendo a fórmula mais popular definida por o’shaughnessy (1987) pela equação:

com base nestes conceitos, os componentes mel cepstrais de um sinal são definidos a partir da soma da potência cepstral de uma faixa espectral dentro da escala mel. em termos práticos para obter-se um componente mel-cepstral de um sinal é realizado o somatório da potência cepstral, no domínio da quefrência, de um sinal filtrado em uma determinada faixa de acordo com a escala mel.

A componente mel cepstral (mFcc - Mel Frequency Component Cepstrum) pode ser definida como a potência cepstral de uma faixa de frequência na escala mel. uma das abordagens mais difundidas é descrita por Togneri e Pullella (2011). cada uma das K componentes mel cepstrais será calculada, em cada quadro de N pontos, a partir de uma faixa espectral obtida pela aplicação de um filtro centralizado em uma frequência na escala mel (geralmente triangular) sobre o mó-dulo da transformada de Fourier (figura 4). em seguida é calculado o logaritmo do espectro filtrado e a transformada discreta cosseno do tipo 2 (DcT-II - Discrete Cosine Transform - type II), conforme etapas de cálculo apresentadas na figura 5.

Tabela 1 – Tabela de consoantes (mecanismo de corrente de ar pulmonar)

Fonte: IPA (International Phonetic Alphabet), 2005.

40 | PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785

Tendo como |X(ejω)| o módulo da transformada de Fourier do qua-dro x[n] calculado utilizando a janela espectral de hanning e hn(ejω ) o n-ésimo dos K filtros na escala mel, obtém-se sn como:

Assim, cada coeficientes mel cepstrais é obtido pela transforma-da discreta cosseno da forma:

5 - InFerêncIa BayesIana e modelo de mIstura de gaussIanas

Na estatística, é sempre necessária uma informação sobre uma quantidade de interesse θ. entretanto na grande maioria das vezes esse valor é desconhecido e a intensidade desta incerteza pode assumir diferentes graus. o Teorema de Bayes veio na tentativa de reduzir este desconhecimento utilizando de modelos probabilísticos (ehleRs, 2007).

considerando uma quantidade de interesse desconhecida θ e resumindo em termos probabilísticos p(θ), sabe-se que é possível aumentar a informação ao observar-se uma quantidade aleatória X. De acordo com a teoria Bayesiana tem-se uma regra utilizada para quantificar o aumento da informação,

Para um valor de x fixo, a função,

indica a verossimilhança de cada um dos possíveis valores de θ

enquanto que p(θ) indica a distribuição a priori de θ. Fazendo a combi-nação dessas duas indicações obtêm-se a distribuição a posteriori de θ, determinada por p(θ|x). Assim, o teorema de base é representado por,

Denomina-se de distribuição a posteriori ou preditiva, a distribui-ção esperada para a

observação x, dado θ. logo,

segundo ehlers (2007), um grande interesse neste processo é a previsão do mesmo em pontos não observados do tempo ou espaço. ou seja, ao se observar X = x será feita uma previsão de uma quan-tidade Y , que também estará relacionada a θ e pode ser resumida probabilisticamente como p(y|x,θ). Tal distribuição preditiva pode ser obtida através de:

Figura 4 - Diagrama da distribuição perceptual de frequências na cóclea e do banco de filtros para obtenção dos componentes mel-cepstrais.

Fonte: elaborado pelos autores e adaptado de stevens, volkmann e Newman (1937) e Togneri e Pullella (2011).

Figura 5 – etapas na obtenção dos componentes mel-cepstrais.

Fonte: elaborada pelos autores, adaptada de Togneri e Pullella (2011).

PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 | 41

Portanto, quando ocorre uma independência condicional entre X e Y , dado θ obtém-se:

só é possível atribuir uma previsão se Y for uma quantidade observável. muitas das vezes a expressão acima não apresenta uma solução analítica, tornando necessária a utilização de métodos de aproximação.

Note-se então que as distribuições a priori e a posteriori são re-lativas àquela observação que está sendo considerada no momento, ou seja, p(θ|x) é a posteriori de θ em relação a X, mas a priori de θ em relação a Y (ehleRs, 2007).

o modelo de mistura de gaussianas (Gmm - Gaussian Mixture Model) visa aproximar uma função de densidade de probabilidade de uma variável aleatória pela soma ponderada de funções de distribui-ção normal. Dada um função de densidade de probabilidade normal N(x|μ,Σ) de uma dimensão, definida e expandida para n dimensões da forma:

Por exemplo, se considerarmos uma massa de dados conforme distribuída na figura 6 a seguir, em sequência pode-se obter o seu modelo de misturas de gaussianas de uma massa de dados multidi-mensional. A figura 7 apresenta o calculo da Gmm como uma rede.

Figura 7 - Rede do modelo de mistura de Gaussianas

Fonte: elaborada pelos autores.

Desta forma, temos para uma determinada massa de dados x, o modelo θ que define a mistura de gaussianas e é composto por θ, sendo que a probabilidade de um vetor de dados x ter sido gerado pelo modelo θ é dado por:

uma propriedade da função de densidade de probabilidade é que a área sobre a função é unitária, desta forma, integrando o mode-lo de misturas de gaussianas tem-se que:

A expectância, também conhecido como esperança matemática

ou valor esperado de uma variável aleatória é a soma das probabi-lidades de cada possibilidade de saída da experiência multiplicada pelo seu valor. o algoritmo de maximização da expectância (em - ex-pectation–maximization) é um método iterativo para encontrar má-xima verossimilhança (ml - maximum likelihood) de parâmetros em modelos estatísticos, onde o modelo depende variáveis latentes não observadas.

A etapas do algoritmo em alternam entre os passos de cálculo da expectância (passo e), onde utiliza-se uma função para o calculo da log-verossimilhança que é avaliada a partir do modelo presente; e um passo de maximização (passo m), que calcula os parâmetros que maximizam a log-verossimilhança até obter-se o modelo de máxima verossimilhança.

o algoritmo em foi sugerido a primeira vez por Dempster A.P.; laird (1977) entretanto, as analises de convergência do algoritmo só foram sanadas posteriormente por Wu (1983).

o algoritmo consiste em maximizar a verossimilhança entre um modelo de mistura de gaussianas θ e um conjunto de dados X = { x0,x1,..., xT}. se considerarmos, por simplificação, que os dados xi são independentes entre si (ReYNolDs D. A.; Rose, 1995), a probabili-dade de observação do conjunto X dados o modelo θ é:

A log-verossimilhança L{X|θ} pode ser obtida combinando o logaritmo, na forma:

Desta forma a ideia básica do algoritmo de maximização da ve-rossimilhança consiste em obter, a partir de um modelo inicial θi um

Figura 6 – histograma de dados e modelo de Gaussianas

Fonte: elaborada pelos autores.

42 | PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785

novo modelo θ i+1 onde L{X|θi+1} ≥ L{X|θi}. o novo modelo é obtido a partir do modelo atual e o processo se repete até atingir um limiar de convergência. Para o calculo no modelo i + 1 são utilizadas as condições descritas por (mclAchlAN G.J.; BAsFoRD, 1988), que resultam nas equações a seguir, garantem o incremento monotônico do modelo:

A probabilidade da mistura i dado o vetor de dados xt e o mode-lo de mistura de gaussianas θ pode ser calculado como:

eQuAÇÃo 20, arquivo: “equacao_20_300dpi_larg_16cm.jpg”

entretanto, no algoritmo de maximização da expectância, a escolha tamanho G do modelo e de suas configurações iniciais θ0 podem ser fatores críticos de sua convergência, e não existem boas escolhas capazes de garantir um bom modelo inicial. este fato motiva que técnicas alternativas de busca da máxima log-verossimilhança possam ser discutidos para contornar estes problemas.

6 - análIse exploratórIa dos resultados

Inicialmente foram coletados registros acústicos de seis locu-tores e através do software Praat, foi possível realizar a separação dos mesmos em quadros, onde foram identificadas as fricativas e separadas em três gabaritos, /s/, /z/ e “demais sons”. Posteriormen-te os gabaritos foram utilizados para agrupar os mFcc’s de cada classe de som.

A extração das mFcc’s foi realizada com 24 componentes, onde cada quadro possuía tamanho de 20 ms e o passo entre qua-dros adjacentes de 10 ms. Portanto, para cada componentes obtém-se um vetor que permite avaliar a capacidade de distinção de cada componente mel-cepstral.

Para realizar tal distinção, avaliando o comportamento da mag-nitude do mFcc de cada índice para cada classe temos suas den-sidades de probabilidade estimadas. A estimação de densidade de probabilidade não paramétrica é realizada pela ponderação de uma função de núcleo. silverman (1986) e scott (2015) mostram que a den-sidade de probabilidade estimada f(x) é definida da forma:

onde N é o número de amostras da variável aleatória e h o intervalo do domínio de x que a função kernel K(x) abrange. Para o caso em que a função K(x) é uma distribuição uniforme com h constante, f(x) será o histograma das N amostras. As figuras 16 apresentam as densidade estimadas dos mFcc’s de índice 1 a 24. Tais componentes foram selecionadas devido ao fato de apre-sentarem uma maior separação entre as consoantes fricativas do restante sonoro.

Figura 8 – Densidade de probabilidade estimadas de algumas mFcc’s.

Fonte: elaborada pelos autores.

PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 | 43

A figura 8 a seguir apresenta o traçado das componentes, com o intuito de se obter informações específicas das consoantes fricativas (/s/ ou /z/). ou seja, através do gráfico analisou-se a capacidade das característica de distinguir entre as fricativas alvo do presente estudo e restante material sonoro.

As componentes apresentadas na figura 8 contribuem para dis-tinguir, as consoantes fricativas /s/ ou /z/ do restante. Nota-se que existem áreas de intercessão entre as curvas, entretanto, na com-posição de várias dimensões a separação pode ficar mais evidente.

Na tentativa de agrupar as consoantes fricativas /s/, /z/ e o restante foram calculadas as distâncias euclidianas (DuDA; hART; sToRK, 2004), entre as médias das características de cada indivíduo, conforme as equações a seguir.

onde D é a dimensionalidade das classes, e neste caso D = 24. os resultados para os cenários acima descritos são apresentados respectivamente nas figuras abaixo.

o traçado da distância euclidiana representa uma matriz (figura 10), onde as cores representam as distâncias em que as consoan-

tes fricativas /s/, estão da /z/, do restante e dela mesma e vice-versa. sendo que o branco indica a menor distância possível e a cor branca a maior distância. Portanto, ao relacionar a fricativa /z/ com a fricativa /s/, identificamos a cor escura, ou seja, distância pequena.

De acordo com as figuras acima, percebe-se que ao cruzar a fricativa /z/ com o resto e o resto com a fricativa /z/, obtêm-se no ponto de encontro cor próxima ao branco, indicativo de uma distância longa. Isto mostra que é possível fazer uma separação eficiente destes gru-pos. em contrapartida, ao cruzar as fricativas s com o resto e o resto com a fricativa s, esta distância reduz, indicando que a separação destes grupo tornou-se um pouco mais complexa.

Após avaliar a capacidade de distinção entre as fricativas /s/, /z/ e os demais sinais sonoros a etapa natural é a parametrização das funções densidade de probabilidade por modelos de misturas de gaussianas para o calculo da probabilidade a posteriori de uma determinada amostra ser ou não oriunda de uma determinada classe.

A figura 9 a seguir apresenta as etapas para avaliação de uma amostra (quadro) de áudio é uma das fricativas /s/ ou /z/, primeiro extraindo as mFcc’s, em seguida parametrizando por Gmm’s e por fim aplicando o teorema de Bayes.

Figura 9 – etapas para utilização do mFcc e Gmm na separação das fricativas.Fonte: elaborada pelos autores.

Figura 10 – Distância euclidiana e probabilidade a posteriori.Fonte: elaborada pelos autores.

44 | PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785

As três classes (“demais sons”, s/ e /z/) foram separadas e para as amostras disponíveis de cada classe foram levantados os modelos de mistura de Gaussianas (Gmm’s) contendo 7 distribuições Gaussia-nas, de dimensionalidade 24, e matriz de covariância diagonal. A pré separação dos modelos de misturas foi realizada utilizando o algorit-mo c-médias e o ajuste pela maximização da expectância.

obtidos os Gmm’s a partir dos dados de cada classe foi calcula-da a probabilidade a posteriori dos conjuntos de dados pertencerem a cada classe conforme apresenta a figura 10. em seguida cada quadro de componentes cepstrais foi submetida a cada modelo de classe e avaliada a probabilidade máxima a posteriori (mAP – maximum a pos-teriori), a classe que apresentasse o mAP foi escolhida e comparada com sua classe de origem para avaliar o erro de estimação estatística que é apresentado na tabela 2.

Nota-se que os resultados apresentam acerto de classifica-ção acima de 93%, de forma que o desempenho, baseado apenas na informação estatística apresentou resultados muito significativos. Tal resultado é importante do ponto de vista da robustez estatística, entretanto avaliando o posicionamento das ocorrências notou-se que algumas ocorrem nas adjacências das fricativas enquanto outras ocorrências apareceram em ambientes de ausência de fala.

esta observação indica que um refinamento mais preciso, prin-cipalmente na indicação de presença ou ausência de atividade de voz, deve ser utilizada em complementação ao presente trabalho.

7 - conclusões

A metodologia utilizada, utilizando inferência Bayesiana e Gmm mostrou-se eficaz na separação das três classes de sons (“demais sons” /s/ e /z/) se combinadas com métodos computacionais para a maximização da expectância, que confiram a máxima verossimilhança entre o modelo e a massa de dados observados.

Tal fato foi confirmado através da estimativa de erro percentual calculado pela probabilidade de distribuição a posteriori, onde a fri-cativa /z/ apresentou menor índice, seguido pelos “demais sons” e pela fricativa /s/. observando-se nas três classes um índice de acerto percentual acima de 93 %.

É importante frisar, todavia, que os resultados encontrados de-vem ser ponderados, pois ainda existe possibilidade de melhorias. mais estudos, realizados com maior controle experimental e com dife-rentes contextos ainda precisam ser realizados. Além disso, é impor-tante aumentar a amostra, e parear também os resultados por idade, sexo e naturalidade.

Para a continuidade do presente trabalho os autores propõe ex-plorar os padrões dos demais sons fricativos mais comumente encon-tradas, incluindo os sons das africadas; realizar o recorte em relação a

presença de vibração das pregas vocais (vozeamento), aprofundando os estudos em detecção de atividade de voz e em contextos articula-tórios contínuos.

os autores apontam ainda que as possibilidades no estudo de sons da fala é extremamente amplo, possibilitando uma vasta gama de recortes e casos particulares capazes apontar padrões matemáti-cos que contribuem para o entendimento e desenvolvimento de siste-mas baseados no suporte por voz e fala.

reFerêncIasBoGeRT, B. P.; heAlY, m. J.; TuKeY, J. W. The quefrency alanysis of time se-ries for echoes: cepstrum, pseudo-autocovariance, cross-cepstrum and saphe cracking. In: chAPTeR. Proceedings of the symposium on time series analysis. [s.l.], 1963. v. 15, p. 209–243.

DemPsTeR A.P.; lAIRD, N. R. D. maximum likelihood from incomplete data via the em algorithm. Journal of the Royal statistical society, vol. 1, p. 1–38, 1977.

DuDA, R. o.; hART, P. e.; sToRK, D. G. Pattern classification. [s.l.]: John Wiley & sons., 2004.

ehleRs, R. s. Análise de séries temporais. laboratório de estatística e Geoin-formação. universidade Federal do Paraná, 2007.

FlANAGAN, J. l. speech analysis synthesis and perception. [s.l.]: springer science & Business media, 2013. v. 3.

mclAchlAN G.J.; BAsFoRD, K. mixture models: Inference and Applications to clustering. [s.l.]: Dekker, 1988.

mÜlleR, D. N. compreensão da linguagem falada. Porto Alegre: PPGc-uFR-Gs, 2002.

oPPeNheIm, A.; schAFeR, R. Discrete-Time signal Processing. [s.l.]: Pearson, 2010.

osBoRNe heAD & NecK Institute, http://www.voicedoctorla.com/voice-disor-ders/vocal-nodules-nodes/, acessado em 11/05/2016.

o’shAuGhNessY, D. speech communication: human and machine. [s.l.]: uni-versities press, 1987.

ReYNolDs, D. et al. Beyond cepstra: exploiting high-level information in speaker recognition. In: cITeseeR. Proceedings of the Workshop on multimodal user Authentication. [s.l.], 2003. p. 223–229.

scoTT, D. W. multivariate density estimation: theory, practice, and visualization. [s.l.]: John Wiley & sons, 2015.

sIlvA, T. c. Fonética e fonologia do português: roteiro de estudos e guia de exercícios. [s.l.]: contexto, 2007.

Tabela 1 – Tabela com o erro de estimação por Gmm.

Fonte: elaborada pelos autores.

PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 | 45

sIlveRmAN, B. W. Density estimation for statistics and data analysis. [s.l.]: cRc press, 1986. v. 26.

sTeveNs, s. s.; volKmANN, J.; NeWmAN, e. B. A scale for the measurement of thepsychological magnitude pitch. The Journal of the Acoustical society of America, Acoustical society of America, v. 8, n. 3, p. 185–190, 1937.

ToGNeRI, R.; PullellA, D. An overview of speaker identification: Accuracy and robustness issues. Ieee circuits And systems magazine, second Quarter 2011.

Wu, c. F. J. on the convergence properties of the em algorithm. Annals of sta-tistics, vol. 1, p. 95–103, 1983.

autores1 - Adelino Pinheiro silva: é bacharel (2004) e mestre (2007) em engenharia elétrica pela universidade Federal de minas Gerais, e capacitado (2009) em Fonética Forense junto a secretaria Nacional de segurança Pública. membro efetivo da Associação de criminalística do estado de minas Gerais - AcemG. Atualmente cursa o Doutorado no ceFAlA/uFmG (centro de estudos da Fala, Acústica, linguagem e música) atua na seção Técnica de engenharia legal no Instituto de criminalística de minas Gerais, onde realiza exames técnicos e pes-quisas, leciona no centro universitário Newton Paiva e na Academia de Polícia civil. e-mail: [email protected].

2 - Daniel Gonçalves Gomes: é técnico em eletrônica (2010) pelo centro Federal de educação Tecnológica de minas Gerais – ceFeT-mG, atualmente é graduan-do em engenharia elétrica pelo centro universitário Newton Paiva, é estagiário em engenharia elétrica na Philips medical systems.

3 - elizângela mara Rodrigues de oliveira: é técnica em Processamento de Da-dos (2004)pelo ceNTec e atualmente é graduanda em engenharia elétrica pelo centro universitário Newton Paiva, atualmente estagiária em engenharia elétrica na PRoDABel.

4 - Nathália Amorim Zolini: é bacharel em Fisioterapia (2009) pelo centro uni-versitário Newton Paiva e atualmente é graduanda em engenharia elétrica pelo centro universitário Newton Paiva, possui experiência na elaboração da docu-mentação de engenharia em projeto e