mel frequency cepstral coefficients for music modeling autores : beth logan cambridge research...
TRANSCRIPT
![Page 1: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/1.jpg)
Mel Frequency Cepstral Coefficients for Music Modeling
Autores : Beth Logan
Cambridge Research Laboratory ISMIR - 2003
![Page 2: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/2.jpg)
O que são Mel Frequency Cepstral Coefficients ?
MFCC são geralmente usados como features de sistemas de reconhecimento de fala.
Um exemplo seria um sistema de SAC que pode reconhecer automaticamente números falados em um telefone.
![Page 3: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/3.jpg)
Introdução
Neste trabalho foi examinado com alguns detalhes Mel Frequency Cepstral Coefficients ( MFCCs ), que são features dominantes usadas no reconhecimento da fala.
Investigamos a aplicabilidade destas features na modelagem musical.
. A composição espectral de um sinal contém muita informação.
. São features sensíveis ao ruído.
![Page 4: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/4.jpg)
Introdução
MFCCs são features de curto prazo, elas são calculadas como segue:
1 – Divide o sinal em Frames. 2 - Para cada Frame, obtém a amplitude do
espectro. 3 – Aplica-se logaritmo. 4 – Aplica-se DCT ( Discrete Cosine Transform ) .
![Page 5: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/5.jpg)
Introdução
Examinamos 2 dos principais pressupostos no processo de formação de MFCC:
1 - A utilização de Mel Frequency scale para modelar o espectro.
2 - Discrete Cosine Transform (DCT ) para “decorrelate” Mel-spectral vectors.
![Page 6: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/6.jpg)
MFCC for Speech Recognition
MFCC são as features dominantes utilizadas no reconhecimento da fala.
Seu sucesso é devido a capacidade de representar a amplitude do espectro da fala de uma forma compacta.
![Page 7: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/7.jpg)
MFCC for Speech Recognition
![Page 8: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/8.jpg)
MFCC for Speech Recognition
A escala Mel é baseada em um mapeamento entre a frequência real e o pitch aparentemente percebido do sistema auditivo humano.
![Page 9: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/9.jpg)
MFCCs for Music Analysis
Como visto anteriormente o processo de cálculo de MFFCs para fala consiste em 5 etapas:
.Dividir o sinal em frames
.Obter a amplitude do espectro .Transformar para Logaritimo .Converter para espectro Mel .Aplicar DCT
Vamos procurar determinar se este processo é adequado na criação de features para um modelo musical
![Page 10: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/10.jpg)
Mel vs Linear Spectral Modeling
Para investigar se é apropriado para determinar o spectrum da música usando a escala mel, usamos um áudio de speech/music simples.
Temos disponíveis cerca de 3 horas de dados rotulados de um programa de transmissão de rádio.
O programa contém entrevistas, comerciais e uma série de segmentos de músicas.
![Page 11: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/11.jpg)
Mel vs Linear Spectral Modeling
Os dados são divididos da seguinte maneira :
.2 horas de dados de treino - 10% rotulados como música.
. 40 minutos de dados de teste - 14 % rotulados como música.
![Page 12: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/12.jpg)
Mel vs Linear Spectral Modeling
Nós convertemos os dados de treinamento para a escala ‘Mel’ e para ‘um Linear Spectral Modeling’.
Usando uma versão padrão de algoritmos EM ( Expectation – Maximization ) nos treinamos uma mistura de Classificadores Gaussianos para rotular segmentos de fala/música dos dados de treinamento.
![Page 13: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/13.jpg)
Mel vs Linear Spectral Modeling
![Page 14: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/14.jpg)
Using the DCT to Approximate the KL Transform
Oque é um Karhumen – Loève ?
A KL é uma transformação linear que permite a representação de funções utilizando funções-base formadas pelos “eigenVectors” ( autovetores) da matriz de correlação do sinal.
A KL é uma transformação linear que geralmente é realizada para encontrar ‘eigenValues” ( autovalores ) da matriz de covariância.
![Page 15: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/15.jpg)
KL Transform
A transformação KL converte um vetor u de dimensão m em um vetor v de dimensão n onde :
. n <= m e v é “uncorrelated”
. Isso é expresso como : v = Ou
![Page 16: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/16.jpg)
KL Transform
Obs : The speech used is the trainning set for TIMIT( Garofolo et al. 1993) which is a speaker independent, clean speech database ( 3 hours of speech ).
![Page 17: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/17.jpg)
Usando DCT
Na comunidade de reconhecimento de fala é usado um DCT ( Discrete Cosine Transform ) para aproximar da transformação KL.
A transformação é escrita como : c = Du
onde c é o coeficiente cepstral de u e D que é n x m matrix of cosine basis.
![Page 18: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/18.jpg)
Usando DCT Pelos nossos estudos, observamos que o DCT está próximo do
ótimo para a função de “decorrelated” para fala.
![Page 19: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/19.jpg)
KL transform for music spectra
Vamos agora examinar a transformação KL para música.
A figura a seguir mostra os “eigenValues” e os 15 primeiros “eigenVectors” para uma sequência de Mel Log Spectral vectores coletados de Músicas dos Beatles (289 minutos de música no total).
![Page 20: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/20.jpg)
KL transform for music spectra
![Page 21: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/21.jpg)
Conclusão
Neste paper, procurou-se construir um caso de sucesso na comunidade de reconhecimento de fala pela investigação de como aplicável é, usar features dominantes da fala (spectral features ) para a modelagem de música.
![Page 22: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/22.jpg)
Referências
Foote, J.T. (1997), Content-based retrieval of music and audio, in ‘SPIE’,pp. 138-147.
Garolfo, J.S. Et al. (1993), Darpa timit. acoustic-phonetic continuous speech corpus. Nistir 4930, Technical report, DARPA.
Logan, B. T. & Chu, S. (2000), Music summarization using key phrases, in ‘Proceedings IEEE International Conference in Spoken Language Processing’
![Page 23: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003](https://reader036.vdocuments.mx/reader036/viewer/2022062700/552fc10b497959413d8c20cf/html5/thumbnails/23.jpg)
EigenValues and EingenVectors
Vejamos um exemplo de eigenValue e EigenVector:
Se vc for perguntado se é um eigenVector correspondente do
eigenValue para voce pode descobrir, subistituindo x, e A na equação :