universidade federal do rio de janeiro escola politécnica...
TRANSCRIPT
Universidade Federal do Rio de Janeiro
Escola Politécnica
Departamento de Eletrônica e de Computação
Aplicação de Representação Tempo-Frequência com
Espaçamento Espectral Não-Linear à Separação de Fontes
Sonoras a partir de Misturas Pré-Gravadas
Autor:
Gabriel Mendes Gouvêa
Orientador:
Prof. Luiz Wagner Pereira Biscainho, D. Sc.
Examinador:
Prof. Sergio Lima Netto, Ph. D.
Examinador:
Alan Freihof Tygel, M. Sc.
DEL
Abril de 2014
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
Escola Politécnica - Departamento de Eletrônica e de Computação
Centro de Tecnologia, bloco H, sala H-217, Cidade Universitária
Rio de Janeiro - RJ CEP 21949-900
Este exemplar é de propriedade da Universidade Federal do Rio de Janeiro, que
poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar
qualquer forma de arquivamento.
É permitida a menção, reprodução parcial ou integral e a transmissão entre bibli-
otecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja
ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que
sem finalidade comercial e que seja feita a referência bibliográfica completa.
Os conceitos expressos neste trabalho são de responsabilidade do(s) autor(es) e
do(s) orientador(es).
ii
AGRADECIMENTO
Gostaria de agradecer à minha família pelo apoio, pelo carinho e por sempre
me guiar especialmente durante situações difíceis e complicadas da minha vida.
Agradeço aos meus amigos que conheci durante a faculdade pelos momentos
incríveis que compartilhamos; e também pelo suporte ao longo do curso de engenha-
ria eletrônica, principalmente na produção deste projeto.
E, por fim, gostaria de agradecer ao meu orientador Luiz Wagner, que, além
de um ótimo professor, foi um excelente amigo. Sua paciência e dedicação me
permitiram o desenvolvimento deste projeto.
iii
RESUMO
Este trabalho propõe uma adaptação para duas técnicas de separação de
fontes sonoras encontradas na literatura: a separação de fontes sonoras através de
filtragem por mediana e a Non-negative Matrix Factorization. Essa adaptação tem
como principal foco o uso de uma representação tempo-frequência conhecida como
Constant-Q Transform, que apresenta uma boa definição para os sinais de natureza
musical. As novas implementações são, então, comparadas com as técnicas originais
através de testes subjetivos aplicados em alguns voluntários.
Nos resultados obtidos através dos testes, não foi possível observar diferenças
desempenho entre as duas implementações utilizando a técnica de separação de fon-
tes através de filtragem por mediana. Contudo, a implementação de NMF utilizando
CQT foi melhor avaliada com relação a outra implementação utilizando STFT.
Palavras-Chave: separação de fontes, CQT, filtragem por mediana, NMF.
iv
ABSTRACT
This work proposes an adaptation for two techniques of sound source se-
paration: sound source separation using median filtering and Non-negative Matrix
Factorization. This adaptation aims for the use of a time-frequency representation
known as Constant-Q Transform, which provides a good definition for music signals.
The new implementations are then compared with the original techniques through
subjective tests applied to some volunteers.
From the test results, it was not possible to observe performance differences
between the two implementations with sound source separation using median filte-
ring. However, the implementation of NMF using CQT was better evaluated with
respect to the other implementation using STFT.
Key-words: source separation, CQT, median filtering, NMF.
v
SIGLAS
STFT - Short-Time Fourier Transform
NMF - Non-Negative Matrix Factorization
CQT - Constant-Q Transform
DFT - Discrete Fourier Transform
ICQT - Inverse Constant-Q Transform
NMFD - Non-Negative Matrix Factor Deconvolution
NMF2D - Non-Negative Matrix Factor 2-D Deconvolution
vi
Sumário
1 Introdução 1
2 Fundamentação Teórica 4
2.1 Short-Time Fourier Transform . . . . . . . . . . . . . . . . . . . . . 4
2.2 Separação de Fontes através de Filtragem por Mediana . . . . . . . . 9
2.3 Non-negative Matrix Factorization . . . . . . . . . . . . . . . . . . . 11
2.4 Constant-Q Transform . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Separação de Fontes com CQT e Avaliação Subjetiva 20
3.1 Adaptações nos Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1 Separação de Fontes através de Filtragem por Mediana com
CQT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.2 NMF e NMFD com CQT . . . . . . . . . . . . . . . . . . . . 22
3.2 Sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 Método de Avaliação Subjetiva . . . . . . . . . . . . . . . . . . . . . 25
4 Resultados dos Testes Subjetivos 29
4.1 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Análise Estatística dos Resultados . . . . . . . . . . . . . . . . . . . . 32
5 Conclusões 38
5.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Bibliografia 40
vii
A Tabela Completa de Resultados dos Testes Subjetivos 42
A.1 Resultados da Etapa Tonal . . . . . . . . . . . . . . . . . . . . . . . . 43
A.2 Resultados da Etapa Transitória . . . . . . . . . . . . . . . . . . . . . 44
A.3 Resultados da Etapa NMF sem Referência . . . . . . . . . . . . . . . 45
A.4 Resultados da Etapa NMF com Referência . . . . . . . . . . . . . . . 46
viii
Lista de Figuras
1.1 Diagrama de blocos dos sistemas de separações de fontes. . . . . . . . . . 1
2.1 Sinal no tempo com 3 tons. . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Espectro de frequência de um sinal com 3 tons. . . . . . . . . . . . . . . 6
2.3 Espectrograma de um sinal com 3 tons intercalados por intervalos de silêncio. 6
2.4 Exemplo de sobreposição. . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5 Espectrograma do sinal Billie Jean. . . . . . . . . . . . . . . . . . . . . 9
2.6 Sinal antes e depois de uma filtragem por mediana de comprimento 7. . . . 10
2.7 Espectrograma tonal do sinal Billie Jean. . . . . . . . . . . . . . . . . . 12
2.8 Espectrograma percussivo do sinal Billie Jean. . . . . . . . . . . . . . . . 12
2.9 Separação NMF de um sinal com trompete. . . . . . . . . . . . . . . . . 14
2.10 Separação NMFD de um sinal com piano. . . . . . . . . . . . . . . . . . 15
2.11 Diagrama de blocos da CQT. . . . . . . . . . . . . . . . . . . . . . . . . 18
2.12 Diagrama de blocos da ICQT. . . . . . . . . . . . . . . . . . . . . . . . 19
2.13 CQT de um sinal com 3 tons. . . . . . . . . . . . . . . . . . . . . . . . 19
3.1 Partitura do sinal de mistura. . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Interface do teste de avaliação subjetiva - Etapa tonal. . . . . . . . . . . . 26
3.3 Interface do teste de avaliação subjetiva - Etapa NMF sem referência. . . . 28
4.1 Média e desvio padrão amostrais da etapa tonal. . . . . . . . . . . . . . . 30
4.2 Média e desvio padrão amostrais da etapa transitória. . . . . . . . . . . . 30
4.3 Média e desvio padrão amostrais da etapa NMF sem referência. . . . . . . 31
4.4 Média e desvio padrão amostrais da etapa NMF com referência. . . . . . . 31
4.5 Exemplos de notas afastadas da médias. . . . . . . . . . . . . . . . . . . 32
4.6 Média e desvio padrão amostrais da etapa tonal após a remoção de intruso. 33
ix
4.7 Média e desvio padrão amostrais da etapa transitória após a remoção de
intruso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.8 Média e desvio padrão amostrais da etapa NMF sem referência após a
remoção de intruso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.9 Média e desvio padrão amostrais da etapa NMF com referência após a
remoção de intruso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
x
Lista de Tabelas
3.1 Comprimento do filtro de mediana para cada sinal. . . . . . . . . . . 23
3.2 Notas presentes em cada sinal de referência e notas retiradas. . . . . . 25
3.3 Comprimento do shift da NMFD em cada sinal da etapa NMF com
referência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1 Intervalo das diferenças entre as implementações STFT e CQT na
etapa tonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Intervalo das diferenças entre as implementações STFT e CQT na
etapa transitória. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Intervalo das diferenças entre as implementações STFT e CQT na
etapa NMF sem referência. . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4 Intervalo das diferenças entre as implementações STFT e CQT na
etapa NMF com referência. . . . . . . . . . . . . . . . . . . . . . . . . 37
xi
Capítulo 1
Introdução
O ser humano recebe em suas orelhas misturas de diferentes sinais sonoros,
porém tem a capacidade de distinguir e se concentrar em uma fonte dessas misturas
como, por exemplo, uma pessoa falando no meio de uma festa. Isto é denominado
efeito Cocktail Party [1]. O objetivo das técnicas de separação de fontes sonoras
consiste em simular este efeito, ou seja, a partir de uma ou mais misturas gerar de
volta as fontes que as compõem. Pode-se conceber um sistema composto por um
sensor acústico que realiza uma soma ponderada das versões que chegam a ele dos
sinais emitidos pelas fontes, gerando, assim, o sinal misturado. Os algoritmos de
separação devem, então, sintetizar um “sistema inverso” correspondente, capaz de
recompor as entradas do sensor.
Os sistemas de separação de fontes que foram estudados podem ser descritos
através do diagrama de blocos apresentado na Figura 1.1.
Figura 1.1: Diagrama de blocos dos sistemas de separações de fontes.
A etapa de análise consiste em transformar o sinal originalmente no domínio
do tempo para o domínio tempo-frequência. Através de uma Short-Time Fourier
Transform (STFT), pode-se representar o sinal que contém a mistura em uma ma-
triz, chamada de espectrograma de magnitude, que apresenta a evolução espectral
do sinal ao longo do tempo.
1
Para o processamento, as duas técnicas abordadas neste trabalho apresentam
diferentes métodos. A técnica de separação tonal/transitório através de filtragem por
mediana [2] utiliza um filtro não-linear para dividir o espectrograma da mistura em
dois novos: um mais tonal e outro mais transitório. Já para a técnica Non-negative
Matrix Factorization (NMF) [3], essa etapa consiste em fatorar o espectrograma em
uma matriz de ganhos e uma matriz de padrões espectrais, de acordo com o número
de fontes.
Por fim, na síntese, realiza-se a transformação das matrizes obtidas pela etapa
anterior, representadas no domínio tempo-frequência, de volta para o domínio do
tempo. Para a técnica de separação de fontes através de filtragem por mediana,
obtém-se um sinal contendo a parcela mais tonal da mistura e um outro contendo
a parcela mais percussiva. Para a NMF, o resultado da técnica terá o número de
sinais equivalente ao número de fontes consideradas.
As técnicas de separação de fontes sonoras encontram aplicações que vão
desde restauração de áudio forense até remixagem em estúdio. Neste último caso, a
ideia é isolar as fontes sonoras (notas e instrumentos musicais), modificar cada uma
delas e ressintetizar a música. Para aplicações deste tipo, é ideal que as técnicas
consigam distinguir bem cada uma das fontes.
As notas musicais na escala cromática são definidas pelas suas frequências,
que são espaçadas geometricamente. Então, para obter uma melhor definição das
fontes musicais, os métodos necessitam de uma representação que permita localizar
essas notas.
A proposta desse projeto é utilizar a Constant-Q Transform (CQT) [4], que
permite representar os sinais no domínio tempo-frequência com uma organização ge-
ométrica da escala de frequências. Diante das técnicas de separação de fontes sonoras
presentes na literatura, a adaptação aqui proposta procura melhorar o desempenho
para misturas pré-gravadas de natureza musical.
Para comparar essa adaptação com os métodos que utilizam a STFT suge-
ridos pela literatura, será utilizada uma avaliação subjetiva com voluntários que
irão julgar qual representação tempo-frequência apresenta melhor desempenho na
separação de fontes sonoras.
No Capítulo 2, serão apresentadas as técnicas estudadas que fundamentam
2
o projeto. Inicialmente, será apresentada a forma de representação de um sinal no
domínio tempo-frequência com a STFT. Em seguida, duas técnicas de separação de
fontes encontradas na literatura serão explicadas; ambas utilizam a STFT como a
etapa de pré-processamento. E por fim será descrita outra representação tempo-
frequência mais adequada para sinais musicais.
No Capítulo 3, serão descritas as alterações nos algoritmos de separação
de fontes necessárias para o uso da nova representação tempo-frequência. Poste-
riormente, será detalhado um processo de avaliação subjetiva com a finalidade de
comparar essas técnicas usando diferentes representações tempo-frequência.
Os resultados dessa avaliação subjetiva serão apresentados no Capítulo 4.
Nele serão explicadas as análises realizadas para concluir qual representação tempo-
frequência é mais adequada.
Por fim, no Capítulo 5, são descritas as conclusões extraídas dos resultados.
Também serão mostradas as propostas de trabalhos futuros.
3
Capítulo 2
Fundamentação Teórica
Nesse capítulo são descritos os conceitos utilizados, como a Short-Time Fou-
rier Transform, que funciona como uma etapa de análise em sistemas de proces-
samento de sinais. Em seguida, serão apresentadas as técnicas de separação de
fontes estudadas: a Separação de Fontes através de Filtragem por Mediana e a
Non-negative Matrix Factorization. E por fim, será explicada uma representação
tempo-frequência que possui melhor resolução para sinais musicais, a Constant-Q
Transform.
2.1 Short-Time Fourier Transform
Dentro da área de processamento de sinais, a forma mais intuitiva de re-
presentação de um sinal digital de áudio é no domínio do tempo. Na Figura 2.1,
tem-se o exemplo de um sinal no tempo com 3 notas de piano tocadas em instantes
diferentes.
Observa-se que é possível identificar com facilidade o momento em que cada
nota foi tocada. Porém, não há informações suficientes para dizer quais são as
notas presentes nesse sinal. Outra forma de representar um sinal é no domínio
da frequência. Uma possível transformação entre os dois domínios é chamada de
Discrete Fourier Transform (DFT). Na Figura 2.2, tem-se o módulo do espectro de
frequência do mesmo sinal com 3 notas.
Nesse gráfico, é possível observar quais são as componentes frequenciais pre-
sentes no sinal, mas a localização temporal de cada nota é perdida. A fim de se
4
Figura 2.1: Sinal no tempo com 3 tons.
obter as duas informações sobre um sinal em uma única representação, é necessário
utilizar uma representação tempo-frequência.
A Short-Time Fourier Transform (STFT) permite analisar um sinal digital
de áudio como uma evolução do espectro de frequência ao longo do tempo, sendo
expressada em uma matriz complexa denominada espectrograma. O módulo dessa
representação para o sinal utilizado nos exemplos anteriores pode ser visto na Figura
2.3.
Analisando-se esse espectrograma, é possível localizar cada um dos tons e
seus harmônicos, bem como o momento em que eles aparecem. Para realizar essa
transformação, primeiramente deve-se dividir o sinal em intervalos de tempo. Essa
etapa, conhecida como janelamento, consiste em fazer
xm[n] = x[n]wm[n], (2.1)
onde x[n] é o sinal completo, wm[n] é a função que irá janelar o sinal no m-ésimo
intervalo e xm[n] é o m-ésimo sinal janelado. Dentre as janelas mais utilizadas,
têm-se a janela retangular, a de Hann e a de Hamming [5]. Para evitar os artefatos
que surgem por causa da limitação da janela, frequentemente se utiliza sobreposição
entre as janelas. A Figura 2.4 mostra como, a partir de um sinal qualquer, é realizado
um janelamento com a janela de Hann e sobreposição de 50%.
A partir dos sinais janelados, calcula-se o espectro de frequência de cada um
5
Figura 2.2: Espectro de frequência de um sinal com 3 tons.
Figura 2.3: Espectrograma de um sinal com 3 tons intercalados por intervalos de silêncio.
6
(a) Sinal
(b) Janelas com sobreposição
(c) Sinal janelado com sobreposição
Figura 2.4: Exemplo de sobreposição.
7
através da DFT
S[m, k] =1
N
N−1∑n=0
xm[n]e−jk2πNn, (2.2)
onde S[m, k] representa a k-ésima componente frequencial do m-ésimo intervalo
de tempo de comprimento N . O conjunto de todos esses componentes pode ser
organizado na forma de uma matriz de elementos complexos; a matriz contendo
apenas os respectivos módulos compõe o espectrograma.
Para calcular a STFT de um sinal, são citados alguns parâmetros que a
regulam, como:
• o tipo de janela;
• a quantidade de amostras da janela;
• a quantidade de amostras que serão sobrepostas e
• o comprimento da DFT para cada sinal janelado.
O tipo de janela é responsável por controlar as inevitáveis distorções impostas
à representação final. As quantidades de amostras da janela e de sobreposição
determinam a resolução temporal do espectrograma. O comprimento da DFT define
a quantidade de pontos que cada janela tem no domínio frequencial.
A resolução frequencial da STFT é linear, ou seja, a diferença entre compo-
nentes frequenciais contíguas é a mesma ao longo de todo o espectro. Em sinais
predominantemente musicais1, os tons produzidos pelos instrumentos são baseados
na escala cromática. Esta, por sua vez, define as notas por frequências espaçadas
geometricamente. Logo, o espectrograma representa esse tipo de sinais com menor
resolução para tons de baixa frequência, enquanto que para tons de alta frequência
distingue-se a melhor informação, como ocorre no exemplo da Figura 2.3.
1Estamos nos referindo à música ocidental tradicional.
8
2.2 Separação de Fontes através de Filtragem por
Mediana
Nesta seção será explicada uma técnica de separação de fontes sonoras que
divide um sinal de mistura em duas partes: uma mais tonal e outra mais percussiva.
O artigo que descreve esse método [2] se baseia na ideia de que os sinais de
áudio tonais, ou seja, aqueles que possuem altura definida, são melhor definidos na
frequência, enquanto que as características percussivas do sinal, como uma batida em
um tambor, são melhor localizadas no tempo. No espectrograma do sinal de áudio
Billie Jean, apresentado na Figura 2.5, as linhas verticais representam as informações
percussivas e as linhas horizontais representam as características tonais.
Figura 2.5: Espectrograma do sinal Billie Jean.
O objetivo da técnica é suprimir as linhas verticais resultando em um novo
espectrograma que contenha, basicamente, as informações mais tonais do sinal. Si-
milarmente, eliminando-se as linhas horizontais pode-se obter outro espectrograma
que exprime um sinal com características mais percussivas.
Para realizar essa separação, propõe-se o uso de um filtro por mediana. Na
Figura 2.6, é possível observar um sinal qualquer antes desta filtragem (em azul) e
depois desta filtragem (em verde).
Esse filtro consiste em
xf [n] = Median (x[n], L) , (2.3)
9
Figura 2.6: Sinal antes e depois de uma filtragem por mediana de comprimento 7.
onde x[n] é o sinal a ser filtrado, L é o número de pontos por grupo a ser anali-
sado e xf [n] é o sinal filtrado. Para calcular o resultado desse filtro, é necessário
avaliar a mediana de L pontos ao redor de uma amostra do sinal e substituir esta
mesma amostra pelo valor calculado. O procedimento é então repetido para todas
as amostras do sinal. Assim, se houver amostras discrepantes dentro de um grupo
analisado, elas serão ignoradas pelo filtro, resultando em um sinal mais suave.
A partir do espectrograma de magnitude do sinal, será usado o filtro na ver-
tical, ou seja, ao longo da frequência, e serão removidos os impulsos horizontais, isto
é, as informações tonais. Ao mesmo tempo, são preservados os impulsos verticais,
que seriam as características percussivas do sinal. Essa operação pode ser expressa
como
Pi = Median (|Si|, Lp) , (2.4)
sendo |Si| o módulo do espectro gerado pelo i-ésimo intervalo de tempo do espectro-
grama, Pi o espectro filtrado no mesmo intervalo e Lp o comprimento desse filtro.
Com um raciocínio análogo, para remover os impulsos verticais, tem-se
Hj = Median (|Sj|, Lh) , (2.5)
sendo |Sj| o comportamento temporal da j-ésima frequência do espectrograma, Hj o
comportamento temporal filtrado da mesma frequência e Lh o comprimento desse fil-
tro. Com os espectrogramas filtrados, geram-se duas matrizes de máscaras definidas
10
como
MHj,i =Hmh,i
Hmj,i + Pm
j,i
, (2.6)
MPj,i =Pmh,i
Hmj,i + Pm
j,i
, (2.7)
onde m é um expoente ao qual cada elemento do espectrograma é elevado, MHj,i
e MPj,i são, respectivamente, as máscaras tonal e percussiva, respectivamente, no
i-ésimo intervalo e na j-ésima frequência. Este expoente (normalmente com valor
m = 2) refere-se ao controle de contraste, que age de forma a intensificar os valores
altos e atenuar os valores baixos assumidos pelas máscaras em cada ponto. Essas
máscaras serão aplicadas ao espectrograma original para gerar os espectrogramas
das fontes através do produto ponto a ponto, denotado pelo símbolo ⊗ conforme
descrito abaixo
H = S⊗MH , (2.8)
P = S⊗MP , (2.9)
sendo H o espectrograma harmônico filtrado, P o espectrograma percussivo filtrado
e S o espectrograma original complexo. Os espectrogramas resultantes dessa sepa-
ração a partir do exemplo Billie Jean são apresentados nas Figuras 2.7 e 2.8.
2.3 Non-negative Matrix Factorization
Dentre as técnicas de separação de fontes presentes na literatura, a Non-
negative Matrix Factorization é a que mais tem sido investigada e apresenta aplica-
ções em diversas áreas, inclusive quando se trata de misturas sonoras. Ao contrário
dos métodos desenvolvidos anteriormente, a NMF devolve tantos sinais de fontes
quanto se queira a partir de uma única mistura.
A técnica da NMF consiste basicamente em decompor uma matriz de ele-
mentos não-negativos em duas outras matrizes de elementos não-negativos obtidas
pela minimização de uma função custo. Como o foco são aplicações em misturas de
áudio, ou seja, sinais com uma dimensão, é conveniente utilizar a representação no
domínio tempo-frequência conforme visto na Seção 2.1 como a matriz para o método
X[m, k] =1
N
N−1∑n=0
xm[n]e−jk2πNn. (2.10)
11
Figura 2.7: Espectrograma tonal do sinal Billie Jean.
Figura 2.8: Espectrograma percussivo do sinal Billie Jean.
O objetivo do método é descrito como
V ≈ V = WH, (2.11)
onde V é uma matriz M ×K que representa o módulo de X, V é uma estimativa
da matriz V, W é uma matriz de dimensão M × D e H é uma matriz de dimen-
são D ×K. Para a matriz V se aproximar cada vez mais da matriz V é utilizado
um método de convergência chamado de Steepest Descent, também conhecido como
12
método do gradiente descendente. Esse método irá atualizar a matriz V a cada ite-
ração, modificando alternadamente as matrizes H e W. As equações de atualização
baseadas neste algoritmo de otimização são definidas por
W ← W − µW∂E
∂W, (2.12)
H ← H− µH∂E
∂H, (2.13)
sendo E uma função custo a ser minimizada. Uma das funções custo mais comuns
é a distância euclidiana, dada por
E =
√√√√ M∑
m=1
K∑k=1
∣∣∣V [m, k]− V [m, k]∣∣∣22
. (2.14)
Conforme os cálculos desenvolvidos em [6], as equações de atualização para
esta função custo são dadas por
W ← W ⊗ VHT
WHHT, (2.15)
H ← H⊗ WTV
WTWH. (2.16)
Outra função custo frequentemente utilizada em aplicações de áudio é a di-
vergência de Kullback-Leibler, dada por
DKL =M∑m=1
K∑k=1
(V [m, k] ln
(V [m, k]
V [m, k]
)− V [m, k] + V [m, k]
). (2.17)
Neste caso as equações de atualização, conforme [7], são definidas por
W ← W ⊗WT V
V
WT1, (2.18)
H ← H⊗V
VHT
1HT. (2.19)
A inicialização das matrizes W e H é feita a partir de números aleatórios não
negativos distribuídos uniformemente entre 0 e 1.
Após atingir a convergência, o conteúdo de cada matriz pode ser interpretado
da seguinte forma: a matriz H de dimensão D × K apresenta o padrão espectral
de cada fonte d, enquanto a matriz W indica quando cada fonte d aparece e sua
intensidade neste momento. A obtenção do espectrograma de magnitude de cada
fonte é dada por
Vd = WdHd, (2.20)
13
sendo Vd o espectrograma de magnitude da fonte d, Wd o vetor de ganhos da
fonte d e Hd o vetor do padrão espectral da fonte d. Utilizando-se um algoritmo de
reconstrução de fase, são obtidos os espectrogramas complexos e, assim, os sinais
das fontes no domínio do tempo podem ser reconstruídos.
No exemplo da Figura 2.9, a mistura contém um trompete tocando 3 notas em
diferentes instantes. A imagem mais à esquerda corresponde à matriz H, o gráfico
localizado na parte superior representa a matriz W e o espectrograma central dessa
figura equivale a V. É possível perceber que cada nota tocada é considerada pelo
algoritmo como sendo uma fonte.
Figura 2.9: Separação NMF de um sinal com trompete.
Em alguns casos, um único padrão espectral pode não identificar correta-
mente uma fonte. No piano, por exemplo, pode ser adequado o uso de uma evo-
lução espectral no tempo para caracterizar as notas. Um aprimoramento da NMF,
já descrito na literatura, é chamado de Non-Negative Matriz Factor Deconvolution
(NMFD), que permite atribuir este pequeno espectrograma para cada fonte. Para
explicar esse processo, será utilizado o operador deslocamento horizontal.
A =
1 2
3 4
, (2.21)
−→A
1=
0 1
0 3
. (2.22)
14
Esse operador consiste, basicamente, em fazer um shift para a direita dos elementos
da matriz, preenchendo-a com zeros à esquerda. Dessa forma, o objetivo da NMFD
pode ser expresso como
V ≈ V =τ−1∑t=0
Wt
−→H
t. (2.23)
As equações de atualização visando à minimização da divergência de Kullback-
Leibler, de acordo com [7], são dadas por
Wt ← Wt ⊗V
V
(−→H
t)T1(−→H
t)T , (2.24)
H ← H⊗WT
t
−−→(V
V
) tWT
t 1. (2.25)
O algoritmo segue uma sequência similar à da NMF comum. Inicializam-se
as matrizes W e H aleatoriamente com distribuição uniforme de 0 a 1. Atualizam-se
as matrizes alternadamente até o processo convergir ou atingir o número máximo de
iterações. Na Figura 2.10, é apresentado o exemplo de uma mistura de piano que,
a partir do algoritmo de NMFD, devolve 3 fontes, onde cada fonte é uma nota.
Figura 2.10: Separação NMFD de um sinal com piano.
Diferentes variantes da NMF podem enxergar como fontes entidades diferen-
tes: cada instrumento, cada nota musical, subpartes transitória e permanente de
cada nota musical etc.
15
2.4 Constant-Q Transform
A Constant-Q Transform (Transformada de Q Constante) é uma represen-
tação tempo-frequência semelhante à STFT. Esta representação, porém, apresenta
um espectro de frequência com seletividade constante, forçando que o espaçamento
entre baixas frequências seja menor do que o espaçamento entre as altas frequências.
Na STFT, o intervalo entre frequências, que a partir de agora serão chamadas
de bins, era constante. Na CQT, o espaçamento entre bins varia proporcionalmente
com a sua frequência central. A razão entre a frequência central do bin e a sua
distância à frequência central do próximo bin é chamado de seletividade, definida
por
Q =fk
∆fk,
sendo fk a k-ésima frequência central e ∆fk o espaçamento entre bin relativo a fk e
o bin relativo a fk+1.
Essa representação foi introduzida por Brown em [4], na qual é descrita a
transformação do sinal no tempo para a CQT
XCQ[k,m] =
m+dNk/2e+1∑n=m−bNk/2c
x[n]a∗k[n−m+Nk/2], (2.26)
onde XCQ[k,m] é a matriz que corresponde à CQT do sinal x[n] na k-ésima compo-
nente frequencial do m-ésimo intervalo de tempo e ∗ denota a operação de conjuga-
ção complexa. Define-se ak como uma janela complexa, também chamada de kernel
temporal, cujo comprimento Nk é dado por
Nk =fsfkQ, (2.27)
onde Q é o fator de seletividade que será explicado a seguir. A função ak é definida
como
ak[n] =1
Nk
w
[n
Nk
]exp
{−j2πnfk
fs
}, (2.28)
sendo fk a k-ésima frequência, fs a frequência de amostragem do sinal, e a função
w[n] uma janela do tipo Hann, por exemplo. Comparando com a equação da STFT,
a diferença básica entre as duas representações é o comprimento da janela, que, no
caso da CQT, varia de acordo com a frequência fk.
16
Como o objetivo da CQT é possibilitar uma melhor análise dos sinais de
natureza musical, será agora associado o espaçamento logarítmico entre bins com
a organização da escala cromática. A razão entre as frequências de duas notas
adjacentes nessa escala é de um semitom, que equivale a 21/12. Logo, se uma nota
possui frequência fk, a nota seguinte terá a frequência fk+1 = 21/12fk. Portanto, o
espaçamento entre esses bins é dado por
∆fk = 21/12fk − fk ≈ 0,0594fk. (2.29)
Com isso, a seletividade desse sistema equivale a
Q =fk
∆fk=
fk0,0594fk
≈ 16,82. (2.30)
Por isso, para representar um sinal com uma resolução de um semitom, basta
utilizar a CQT com Q ≈ 16,82. Na maioria dos casos, utiliza-se Q = 34, que equivale
a um espaçamento de aproximadamente um quarto de tom, melhorando a resolução
da representação.
A implementação da CQT do sinal de acordo com a equação (2.26) possui um
custo computacional alto. De acordo com [8], Brown et al. sugerem um algoritmo
mais eficiente, porém com ele não seria possível ressintetizar o sinal no tempo.
Em [9], Schörkhuber et al. propõem uma modificação no processamento da
CQT que diminui o custo computacional do sistema e permite estimar o sinal no
tempo que a gerou. A modificação proposta consiste em processar a CQT da maior
oitava do sinal, isto é, desde a frequência de Nyquist até a metade desta. Após esse
passo, é possível filtrar o sinal por um passa-baixas e subamostrar o sinal por um
fator de 2. Repete-se este processo até a última oitava. Um diagrama de blocos que
resume esse processo pode ser visto na Figura 2.11.
Quando a CQT de uma oitava é computada, utiliza-se um conjunto de kernels.
Ao subamostrar o sinal, o mesmo grupo de kernels pode ser usado para obter a
CQT da oitava abaixo. Este procedimento cria alguns artefatos na representação,
em comparação com a implementação sugerida em [8].
O processo de reconstrução do sinal no tempo é análogo ao método de análise.
Utilizando-se o conjugado dos kernels, é processada a Inverse Constant-Q Transform
de cada oitava do sinal. Em seguida, juntam-se todas as parcelas, realizando-se as
devidas interpolações. Tal procedimento pode ser visto na Figura 2.12.
17
Figura 2.11: Diagrama de blocos da CQT.
O sinal de áudio contendo 3 notas de piano utilizado como exemplo na Seção
2.1 foi representado na Figura 2.13, utilizando essa implementação de CQT. Nessa
figura, em comparação com a representação por STFT, observa-se melhor resolução
nas baixas frequências e pior resolução em altas frequências, porém sem prejudicar
a discriminação das mesmas. Naturalmente, como efeito colateral, o espaçamento
entre harmônicos deixa de ser linear.
18
Figura 2.12: Diagrama de blocos da ICQT.
Figura 2.13: CQT de um sinal com 3 tons.
19
Capítulo 3
Separação de Fontes com CQT e
Avaliação Subjetiva
Como anteriormente discutido, as técnicas de separação de fontes que foram
estudadas necessitam de um pré-processamento que consiste em representar o sinal
de mistura no domínio tempo-frequência. Porém, a STFT, encontrada usualmente
nessa etapa, não possui propriedades tão favoráveis para a aplicação em misturas de
natureza musical quanto a CQT.
Neste capítulo, serão mostrados exemplos de como, através do algoritmo de
CQT, o desempenho das técnicas de separação de fontes pode ser melhorado para
as aplicações já mencionadas. Em seguida, será explicado o método de avaliação
utilizado no trabalho.
3.1 Adaptações nos Algoritmos
No algoritmo de CQT apresentado na seção 2.4, os pontos temporais de
XCQ[k,m] são calculados de forma igual para todos os bins dentro da mesma oitava.
Ao descer uma oitava, o número de pontos calculados diminui por um fator de 2,
ou seja, as oitavas terão diferentes quantidade de pontos e haverá lacunas na matriz
XCQ[k,m].
Em [9], é sugerida uma implementação que realiza uma interpolação e, assim,
permite entregar o mesmo número de pontos que um espectrograma entregaria.
Com esse novo algoritmo adaptado, chamado de CQT perfeitamente rasterizada, é
20
possível inserir nas duas técnicas de separação de fontes (apresentadas nas Seções
2.2 e 2.3) uma representação tempo-frequência mais adequada para sinais musicais.
3.1.1 Separação de Fontes através de Filtragem por Mediana
com CQT
O método para filtragem utilizado no espectrograma assemelha-se ao método
utilizado na CQT. Primeiramente, é representado o sinal de mistura no domínio
tempo-frequência utilizando o algoritmo de CQT perfeitamente rasterizada
x[n]→ SCQ[k,m], (3.1)
em seguida realizam-se as filtragens descritas por
PCQi = Median
(|SCQi |, Lp
), (3.2)
HCQj = Median
(|SCQj |, Lh
), (3.3)
onde SCQi é o módulo do espectro gerado pelo i-ésimo intervalo de tempo, PCQi é
o espectro filtrado do mesmo intervalo, Lp é o comprimento do filtro ao longo da
frequência, SCQj o comportamento temporal do j-ésimo bin de frequência, HCQj o
comportamento temporal filtrado do mesmo bin e Lh o comprimento do filtro ao
longo do tempo.
A partir das novas matrizes de CQT, geram-se máscaras definidas em cada
ponto da matriz como a seguir
MCQHj,i =
(HCQh,i )m
(HCQj,i )m + (PCQ
j,i )m, (3.4)
MCQPj,i =
(PCQh,i )m
(HCQj,i )m + (PCQ
j,i )m, (3.5)
onde MCQHj,i e MCQ
Pj,i são, respectivamente, as máscaras harmônica e percussiva no
i-ésimo intervalo de tempo e no j-ésimo bin de frequência, que serão aplicadas na
matriz de CQT original para produzir os sinais filtrados
HCQ = SCQ ⊗MCQH , (3.6)
PCQ = SCQ ⊗MCQP , (3.7)
21
sendo HCQ a matriz de CQT harmônica filtrada, PCQ a matriz de CQT percussiva
filtrada e SCQ a matriz de CQT original complexa.
As matrizes de CQT dos sinais filtrados são, então, comprimidas retirando-se
os pontos que foram interpolados. E, através do cálculo da CQT inversa (mencionado
na Seção 2.4) são obtidos os sinais de cada fonte no domínio do tempo.
3.1.2 NMF e NMFD com CQT
A partir da CQT representada com o método em que é perfeitamente ras-
terizada, o algoritmo de NMF prossegue de forma similar ao apresentado na Seção
2.3.
O método para decomposição da matriz de CQT da mistura em duas outras
matrizes não negativas é da forma
VCQ ≈ V = WH, (3.8)
onde se busca minimizar uma função-custo. Neste projeto, a divergência de Kullback-
Leibler foi escolhida para este papel. A partir de uma inicialização aleatória das
matrizes W e H, o algoritmo irá convergir com as equações de atualização
W ← W ⊗WT VCQ
V
WT1, (3.9)
H ← H⊗VCQ
VHT
1HT. (3.10)
Para o caso da NMFD, é permitido o deslocamento horizontal da matriz de
padrões espectrais H, fazendo-se
VCQ ≈ V =τ−1∑t=0
Wt
−→H
t. (3.11)
E com a finalidade de minimizar função-custo da divergência de Kullback-Leibler,
as equações de atualização são dadas por
Wt ← Wt ⊗VCQ
V
(−→H
t)T1(−→H
t)T , (3.12)
H ← H⊗WT
t
−−−−→(VCQ
V
) tWT
t 1. (3.13)
As diferentes implementações de cada técnica utilizada neste trabalho não
serão apresentadas aqui, podendo ser obtidas com o autor do projeto.
22
3.2 Sinais
Nessa seção serão apresentados os sinais utilizados para analisar cada uma
das técnicas de separação de fontes anteriormente descritas.
Para a técnica de separação de fontes através de filtragem por mediana, foram
escolhidos quatro sinais de mistura. O primeiro sinal é um trecho da música Animal,
da banda Def Leppard. O segundo sinal contém um trecho da peça Litanies para
órgão, do autor Jehan Alain. Este é um sinal bastante estacionário e pela natureza
do instrumento é predominantemente tonal. O terceiro sinal é sintético e possui
uma sequência de Hi-Hats. Ao contrário do segundo sinal, este sinal é predominante
percussivo. O último sinal é um trecho da música Billie Jean, do artista Michael
Jackson. Todos os sinais foram amostrados a uma taxa de fs = 44100 Hz.
De cada um desses sinais, realizou-se a separação de fontes, extraindo-se as
parcelas tonal e transitória. Estes sinais resultantes foram gerados com uma potência
m = 2 na criação das máscaras. No procedimento envolvendo a STFT, utilizaram-
se janelas de Hamming com 4096 amostras e sobreposição de 75% com DFT de
tamanho 4096 amostras. No método com CQT, foi utilizado um filtro Butterworth
de sexta ordem como passa-baixas e um fator de seletividade Q = 68, que equivale a
uma resolução frequencial de aproximadamente um oitavo de tom. O parâmetro de
comprimento dos filtros de mediana variou de acordo com o sinal e foi escolhido de
forma a obter uma melhor separação consoante a avaliação do autor deste projeto.
Na Tabela 3.1, esse parâmetro é descrito para cada sinal.
Tabela 3.1: Comprimento do filtro de mediana para cada sinal.
SinalTonal Transitório
STFT CQT STFT CQT
Animal 17 125 17 15
Litanies 17 125 17 15
Hi-Hats 17 51 17 17
Billie Jean 17 125 17 15
Para avaliar a técnica NMFD foram utilizados dois conjuntos de sinais. O
primeiro conjunto é composto por um único sinal de piano sintético que toca três
notas diferentes, conforme a Figura 3.1, onde é possível observar que algumas notas
23
Figura 3.1: Partitura do sinal de mistura.
foram tocadas simultaneamente. Esse sinal foi decomposto em três outros sinais
resultantes através da NMFD, implementada com STFT, e em outros três sinais com
a NMFD, implementada com CQT. Cada nota do sinal original era supostamente
representada em um dos três sinais resultantes da NMFD com STFT e da NMFD
com CQT.
Os resultados da separação foram gerados com o algoritmo de NMFD apre-
sentado neste projeto com a função-custo de divergência de Kullback-Leibler. Para o
procedimento de NMFD com STFT foi utilizada uma janela de Hamming com 1024
amostras e sobreposição de 256 amostras. Além disso, a DFT foi calculada com
tamanho de 2048 amostras e permitiu-se um deslocamento horizontal (no tempo)
de 5 amostras. Para a implementação com CQT, utilizou-se um filtro Butterworth
de sexta ordem como passa-baixas, um fator de seletividade Q = 68 e foi permitido
o mesmo deslocamento horizontal de 5 amostras.
O segundo conjunto consiste de quatro sinais de mistura retirados dos regis-
tros de notas de um piano obtidas do banco de dados RWC Music Database: Musical
Instrument Sound Database [10]. O registro continha todas as notas do piano (de-
nominado pela base de 011PFNOF ) separadas por uma pausa, começando de A0
(Lá 0) e subindo de semitom em semitom até C8 (Dó 8), com um total de 88 notas.
Cada sinal de mistura possui uma sequência de doze notas retiradas do re-
gistro. Para a extração desses sinais foi necessário saber quando começa cada nota
(onset). Em [11] é possível encontrar essa informação sobre o banco de dados em
questão, inclusive sobre o registro utilizado nesse projeto (011PFNOF ). Para a re-
alização do teste, separou-se de cada sinal de referência uma das notas dentre as
doze nele presente. Para obter uma estimativa da nota separada, foram utilizadas
a NMFD com STFT e a NMFD com CQT. A Tabela 3.2 informa quais notas estão
presentes em cada sinal de mistura e, para cada um destes sinais, qual foi a nota
retirada pelas técnicas.
Para gerar os sinais resultantes, utilizou-se a NMFD com a função-custo de
24
Tabela 3.2: Notas presentes em cada sinal de referência e notas retiradas.
Sinal Notas Notas retiradas
Sinal 1 D1, D#1, ..., C#2 G1
Sinal 2 G#2, A2, ..., G3 G3
Sinal 3 D4, D#4, ..., C#5 G4
Sinal 4 G#5, A5, ..., G6 G6
divergência de Kullback-Leibler. Para a técnica NMFD com STFT, foi empregada
a janela de Hamming com 1024 amostras e sobreposição de 256 amostras, além de
uma DFT de 2048 amostras. Para a técnica NMFD com CQT, foram utilizados um
fator de seletividade Q = 68 e um filtro passa-baixas Butterworth de sexta ordem.
O parâmetro de deslocamento horizontal variou com cada sinal e seus valores são
apresentados para cada caso na Tabela 3.3.
Tabela 3.3: Comprimento do shift da NMFD em cada sinal da etapa NMF com
referência.Sinal STFT CQT
Sinal 1 5 5
Sinal 2 20 5
Sinal 3 5 20
Sinal 4 5 5
3.3 Método de Avaliação Subjetiva
Para comparar as técnicas analisadas no presente projeto, realizou-se um teste
subjetivo com quinze participantes. O teste foi dividido em quatro etapas: etapa
tonal, etapa transitória, etapa NMF sem referência e etapa NMF com referência.
Na primeira etapa, também chamada de etapa tonal, havia quatro conjuntos
de sinais obtidos como descrito anteriormente. Em cada um deles, foram apresen-
tados para o participante: um sinal de mistura, um sinal resultante da separação
de fontes através de filtragem por mediana com STFT e outro sinal resultante da
separação de fontes através de filtragem por mediana com CQT. Como já explici-
25
tado no nome da etapa, ambos os sinais resultantes correspondiam apenas à parcela
harmônica (ou tonal) do sinal de referência.
Através da interface gráfica, o participante pôde ouvir quantas vezes fosse
necessário todos os sinais, incluindo o sinal de referência, com controle da intensidade
sonora. Após escutá-los, o participante deveria avaliar os dois sinais resultantes sob
três critérios: Separação, Resíduo e Integridade. Na Figura 3.2 é possível observar
a interface de avaliação utilizada no projeto.
Figura 3.2: Interface do teste de avaliação subjetiva - Etapa tonal.
O primeiro critério (Separação) se relaciona a quanto dos componentes tonais
foi separado e pôde ser avaliado da pior para a melhor separação. O critério de
Resíduo se refere a quanto das parcelas indesejadas do sinal restou, equivalendo
aos componentes complementares à parcela tonal, isto é, a parcela percussiva (ou
transitória). Este critério pôde ser avaliado da pior (maior presença de resíduos)
para a melhor (menor presença de resíduos). Por fim, o último critério (Integridade)
descreve o quão natural o sinal soa, ou seja, quão íntegro ele soa de forma ampla, e
foi avaliado da pior a melhor integridade.
A etapa transitória é similar à etapa anterior. Utilizando-se os mesmos sinais
de mistura e apenas a parcela percussiva (ou transitória) dos sinais de referência, o
usuário ouvia e avaliava os sinais apresentados com base em três critérios análogos
aos definidos.
26
O critério de Separação consiste em avaliar quanto dos componentes tran-
sitórios foi separado, variando de pior para melhor separação. O segundo critério,
Resíduo, refere-se a quanto dos componentes tonais, ou seja, a parcela tonal, restou
no sinal. Este varia de pior (maior presença de resíduo) a melhor (menor presença
de resíduo). Por fim, o critério de Integridade representa o mesmo da etapa anterior,
isto é, o quão íntegro o sinal soa.
Na etapa seguinte, denominada NMF sem referência, havia um sinal de mis-
tura como apresentado na Figura 3.1 para todas as subetapas de avaliação. Dessa
forma, não há uma referência bem definida sobre cada fonte, porque as notas são
tocadas simultaneamente. Colocado assim dessa forma, esse teste é igual ao pró-
ximo: retirar uma nota de um conjunto de notas. Assim, o participante deveria
comparar dois sinais, um de cada implementação diferente, representando a mesma
nota separada a partir do sinal de mistura. É importante observar que nem todas
as notas são escutadas isoladamente no sinal de mistura.
O processo de avaliação consistiu em atribuir uma nota para cada sinal re-
sultante com respeito a dois critérios: Separação e Resíduo. O critério de Separação
qualifica quanto da parte desejada, isto é, da nota, foi apresentado, variando de
pior para melhor separação, enquanto o critério de Resíduo avalia quanto das outras
notas restou, com uma escala de pior (maior presença de ruído) a melhor (menor
presença de ruído). A interface gráfica utilizada no processo de avaliação é similar
à das etapas anteriores. Na Figura 3.3 se vê o modelo utilizado.
Na última etapa do teste, denominada etapa NMF com referência, o partici-
pante deveria ouvir o sinal de referência contendo todas as notas da oitava e duas
separações diferentes da mesma nota, avaliando cada uma delas nos três critérios.
O critério de Separação analisa quão bem a nota foi separada das demais, ou seja,
em que grau essa nota foi separada do sinal original. O critério de Resíduo avalia
quanto das outras notas estava presente no sinal resultante. O último critério, de
Integridade, qualifica quão natural o sinal resultante soou.
Estes critérios foram apresentados inicialmente em [12]. No presente projeto,
utilizou-se uma escala que variava de 0 a 100 para todas as etapas do teste. Os
testes foram realizados em uma sala com isolamento acústico dentro do Laboratório
de Sinais, Multimídia e Telecomunicações da UFRJ com fones de ouvido disponíveis
27
Figura 3.3: Interface do teste de avaliação subjetiva - Etapa NMF sem referência.
no laboratório e um notebook pessoal, com duração média de cinquenta minutos para
cada voluntário. Todos os voluntários receberam uma explicação sobre como realizar
a avaliação em cada etapa, bem como os critérios que deveriam ser analisados.
Um ponto importante para as duas primeiras etapas (tonal e transitória) é que
não foi fornecida informação prévia a respeito da definição do que seria uma parcela
tonal ou transitória, utilizando-se nessa avaliação participantes familiarizados com
estes termos.
28
Capítulo 4
Resultados dos Testes Subjetivos
Neste capítulo serão apresentados os resultados dos testes subjetivos, bem
como as análises realizadas nos mesmos a fim de concluir qual representação tempo-
frequência apresenta o melhor desempenho.
4.1 Resultados
As tabelas completas de resultados são apresentadas no Apêndice A. Realizou-
se uma análise estatística de cada etapa calculando-se a média amostral
x =1
N
N∑i=1
xi, (4.1)
onde xi é a nota em um critério dada pelo i-ésimo participante para um sinal, em
um determinado tipo de implementação (STFT ou CQT). Também foi avaliado o
desvio padrão amostral:
s =
√√√√ 1
N − 1
N∑i=1
(xi − x)2. (4.2)
Utilizou-se um estimador não polarizado pelo número limitado (e pequeno)
de participantes. Nas Figuras 4.1, 4.2, 4.3 e 4.4, é possível observar a média amostral
e o desvio padrão amostral, representado por uma barra de erro, de cada etapa em
suas diferentes configurações de sinal (cores diferentes para cada sinal), critério (S
para separação, R para resíduo e I para integridade) e implementação (L para a
implementação linear STFT e NL para a implementação não-linear CQT), ou seja,
em cada linha das Tabelas A.1, A.2, A.3 e A.4.
29
Figura 4.1: Média e desvio padrão amostrais da etapa tonal.
Figura 4.2: Média e desvio padrão amostrais da etapa transitória.
Ao analisar esses gráficos, conclui-se que com os altos valores de desvio pa-
drão é impossível afirmar a média de cada configuração com uma boa precisão e,
portanto, as tabelas do Apêndice A não permitem uma comparação entre a STFT
e a CQT. Isso ocorreu devido ao fato de haver algumas notas muito afastadas da
média observada. Na Figura 4.5, é apresentado um exemplo em que as notas de um
30
Figura 4.3: Média e desvio padrão amostrais da etapa NMF sem referência.
Figura 4.4: Média e desvio padrão amostrais da etapa NMF com referência.
usuário, marcadas com um ‘◦’, estavam distantes da médias amostrais, marcadas
com um ‘•’.
31
Figura 4.5: Exemplos de notas afastadas da médias.
4.2 Análise Estatística dos Resultados
Para diminuir os desvios padrões é necessário desconsiderar essas notas intru-
sas. No projeto, um algoritmo simples descrito a seguir foi utilizado para a retirada
destes intrusos.
Seja um vetor de dados referente a uma determinada configuração, retira-se
um dos pontos e calculam-se média e desvio padrão amostrais do vetor restante. Se
o ponto retirado estiver distante da média em até duas vezes o desvio padrão, ele
não é considerado um intruso. Caso contrário, este intruso é removido do vetor de
dados.
Esse processo foi realizado em cada ponto das linhas das tabelas. Em seguida,
foi realizado novamente o cálculo estatístico de cada vetor restante. Ao fim desse
processo, os vetores de dados de cada configuração podem possuir tamanhos diferen-
tes, ou seja, de um vetor original de quinze amostras, uma configuração pode ficar
com onze amostras, enquanto outra pode apresentar treze amostras. As Figuras 4.6,
4.7, 4.8 e 4.9 apresentam as novas médias e desvios padrões amostrais.
A partir dessa nova média com um desvio padrão menor, pode-se determinar
qual das duas implementações (STFT ou CQT) foi melhor avaliada em cada caso.
Através de um cálculo sugerido em [13], é possível calcular a diferença entre duas
32
Figura 4.6: Média e desvio padrão amostrais da etapa tonal após a remoção de intruso.
Figura 4.7: Média e desvio padrão amostrais da etapa transitória após a remoção de
intruso.
médias com um intervalo de confiança tão grande quanto se queira. Utilizou-se este
cálculo para obter a diferença entre as médias das configurações. Assim, a finalidade
é obter
µ = E(XSTFT − XCQT
)= µSTFT − µCQT , (4.3)
33
Figura 4.8: Média e desvio padrão amostrais da etapa NMF sem referência após a remoção
de intruso.
Figura 4.9: Média e desvio padrão amostrais da etapa NMF com referência após a remoção
de intruso.
onde XSTFT é a variável aleatória referente as notas com implementação STFT,
XCQT é a variável aleatória referente as notas com implementação CQT e µ é a
estimativa da diferença da média entre essas duas variáveis sendo que, quando µ
assume valores positivos, o método com STFT foi melhor avaliado e, quando assume
34
valores negativos, o método com CQT apresentou melhor avaliação.
De acordo com [13],
µSTFT − µCQT ∈ (xSTFT − xCQT )±
tnSTFT+nCQT−2,α/2 ∗ spooled ∗
√1
nSTFT+
1
nCQT, (4.4)
onde
spooled =
√(nSTFT − 1) s2STFT + (nCQT − 1) s2CQT
nSTFT + nCQT − 2, (4.5)
com xSTFT , sSTFT , nSTFT sendo a média amostral, o desvio padrão e o número de
elementos do vetor de amostras relativo a uma configuração com STFT, respecti-
vamente; xCQT , sCQT , nCQT sendo a média amostral, o desvio padrão e o número
de elementos do vetor de amostras relativo a uma configuração com CQT, res-
pectivamente; e por fim tnSTFT+nCQT−2,α/2 sendo um valor que considera que essa
análise apresenta uma distribuição t-Student1 e permite um intervalo de confiança
de 100(1− α)%.
Dessa forma, foi analisada a diferença entre cada par de configurações de
sinal e critério com o objetivo de comparar qual a melhor técnica para cada caso.
Este cálculo foi realizado para um intervalo de confiança de 95%, isto é, α = 0,05.
Dessa forma, é necessário definir um parâmetro para estabelecer qual representação
possui o melhor desempenho em cada configuração. Considerou-se que caso 80%
ou mais do intervalo se encontrassem na região positiva ou negativa, a STFT ou
a CQT teria apresentado uma melhor avaliação, respectivamente. As Tabelas 4.1,
4.2, 4.3 e 4.4 apresentam os intervalos em que se encontram essas diferenças e qual
a representação melhor avaliada em cada configuração.
1Essa distribuição é a mais adequada ao processo, uma vez que há poucas amostras analisadas.
35
Tabela 4.1: Intervalo das diferenças entre as implementações STFT e CQT na etapa
tonal.Sinal Critério Limites Melhor avaliação
Animal
Separação [−21,10, 4,41] CQT
Resíduo [−40,11, 4,19] CQT
Integridade [11,11, 30,13] STFT
Litanies
Separação [−9,41, 14,83] Inconclusivo
Resíduo [−21,37, 13,55] Inconclusivo
Integridade [−62,77,−18,23] CQT
Hi Hats
Separação [−12,96, 42,26] Inconclusivo
Resíduo [40,93, 61,93] STFT
Integridade [−29,06, 35,72] Inconclusivo
Billie Jean
Separação [−4,18, 24,85] STFT
Resíduo [−5,00, 21,67] STFT
Integridade [−10,14, 21,34] Inconclusivo
Tabela 4.2: Intervalo das diferenças entre as implementações STFT e CQT na etapa
transitória.Sinal Critério Limites Melhor avaliação
Animal
Separação [15,62, 39,00] STFT
Resíduo [27,23, 45,01] STFT
Integridade [−23,28, 5,99] Inconclusivo
Litanies
Separação [−4,49, 28,19] STFT
Resíduo [−12,70, 20,40] Inconclusivo
Integridade [−41,76, 4,76] CQT
Hi Hats
Separação [−23,89, 4,90] CQT
Resíduo [−18,18, 27,38] Inconclusivo
Integridade [−45,75,−9,40] CQT
Billie Jean
Separação [33,62, 53,67] STFT
Resíduo [31,48, 57,31] STFT
Integridade [−21,74, 6,63] Inconclusivo
36
Tabela 4.3: Intervalo das diferenças entre as implementações STFT e CQT na etapa
NMF sem referência.Sinal Critério Limites Melhor avaliação
Sinal 1Separação [−18,10, 1,41] CQT
Resíduo [−27,67,−1,95] CQT
Sinal 2Separação [−10,46, 16,06] Inconclusivo
Resíduo [−17,60, 3,57] CQT
Sinal 3Separação [−13,75, 14,73] Inconclusivo
Resíduo [−23,49, 0,55] CQT
Tabela 4.4: Intervalo das diferenças entre as implementações STFT e CQT na etapa
NMF com referência.Sinal Critério Limites Melhor avaliação
Sinal 1
Separação [−49,88,−6,38] CQT
Resíduo [−44,37,−12,13] CQT
Integridade [−40,52, 4,52] CQT
Sinal 2
Separação [−48,05,−23,62] CQT
Resíduo [−53,64,−28,26] CQT
Integridade [−48,18,−12,71] CQT
Sinal 3
Separação [−40,35,−6,51] CQT
Resíduo [−44,83,−1,63] CQT
Integridade [−29,17,−4,55] CQT
Sinal 4
Separação [−47,20,−14,23] CQT
Resíduo [−22,66, 12,51] Inconclusivo
Integridade [−42,40,−5,60] CQT
37
Capítulo 5
Conclusões
Neste capítulo serão apresentadas as conclusões a respeito dos resultados
expostos no capítulo anterior. Por fim, serão descritos os trabalhos futuros que
podem ser estendidos deste projeto a fim de desenvolver aprimoramentos nesta área
de pesquisa.
5.1 Conclusões
Ao se analisar as tabelas de resultados da avaliação subjetiva apresentadas
anteriormente, é possível observar uma grande variação nas notas das duas primei-
ras etapas, talvez devido ao fato de os participantes terem interpretações diferentes
com relação à terminologia empregada nas etapas tonais e transitórias. A princi-
pal divergência ocorreu no sinal Hi-Hats durante a etapa tonal. Como este sinal
é constituído predominantemente por componentes percussivas, era esperado que
em condições ideais o sinal resultante nessa configuração fosse silêncio. Contudo,
os resultados extremamente discordantes sugerem que isto não ficou claro para os
voluntários, principalmente no critério de integridade.
No Capítulo 3, foi mencionado que não seria informado previamente aos
participantes a diferença entre tonal e transitório. Foi observada nos resultados de
participantes com pouca familiaridade com esses termos uma divergência maior com
relações às médias. Essa escolha de não informá-los parece ter prejudicado a precisão
do resultado.
Com relação às tabelas de diferença de média (nas quais determina-se qual
38
representação tempo-frequência apresentou o melhor desempenho em cada configu-
ração), nota-se que os resultados referentes à técnica de separação de fontes através
de filtragem por mediana foram diversificados. Em algumas configurações a STFT
apresentou um melhor desempenho; enquanto que em outras a CQT a superou.
Porém, não houve um padrão bem definido. Pode-se inferir que esse teste foi incon-
clusivo para esta técnica.
Contudo, para as etapas envolvendo a NMFD, percebe-se que houve um
melhor desempenho da representação por CQT. Isso se explica porque, como os
sinais de mistura eram compostos apenas de sinais de piano, o uso da CQT, que
representa melhor os sinais com pitch definido, é favorecido.
5.2 Trabalhos Futuros
Como mencionado anteriormente, a técnica de separação de fontes através
de filtragem por mediana deve ser explorada com outros sinais e maior variação de
parâmetros para que se possa avaliar se há uma diferença de desempenho entre as
duas implementações.
Para a técnica de NMF, é desejável realizar análises em outros sinais mais
complexos. Um estudo com outras adaptações da técnica de NMF e da NMFD,
como por exemplo a Non-Negative Matrix Factor 2-D Deconvolution (NMF2D) [6]
também pode ser efetuado.
Devido à etapa de reconstrução dos sinais ter utilizado a informação de fase
do sinal de mistura, grande parte dos sinais resultantes dos métodos de separa-
ção apresentaram baixa qualidade. Uma sugestão para melhorar esses resultados é
adaptar processos de reconstrução de fase como os descritos em [14] para as técnicas
implementadas com CQT.
Como já dito no Capítulo 4, houve poucos participantes nos testes subjeti-
vos, o que prejudicou a análise das técnicas. Um número maior de participantes
possibilitaria um refinamento nos resultados produzidos por este projeto.
39
Referências Bibliográficas
[1] ROWE, D. B., Multivariate Bayesian Statistics. Boca Raton, EUA, Chapman
and Hall/CRC, 2003.
[2] FITZGERALD, D., “Harmonic/Percussive Separation using Median Filtering”.
In: 13th International Conference on Digital Audio Effects (DAFX10), pp.
217–220, Graz, Áustria, Dezembro 2010.
[3] VIRTANEN, T., Signal Processing Methods for Music Transcription, capítulo
9 - Unsupervised Learning Methods for Source Separation in Monaural Music
Signals, New York, EUA, Springer-Verlag, pp. 267–296, 2006.
[4] BROWN, J. C., “Calculation of a constant Q spectral transform”, Journal of
the Acoustical Society of America, v. 89, n. 1, pp. 425–434, Janeiro 1991.
[5] HAYKIN, S., VEEN, B. V., Signals and Systems. New Jersey, EUA, Bookman,
2003.
[6] TYGEL, A., Métodos de Fatoração de Matrizes Não-Negativos para Separação
de Sinais Musicais. Dissertação de Mestrado, PEE/COPPE-UFRJ, Dezembro
2009.
[7] SMARAGDIS, P., “Non-negative Matrix Factor Deconvolution; Extraction of
Multiple Sound Sources from Monophonic Inputs”. In: Proceedings of the 5th
International Congress on Independent Component Analysis and Blind Signal
Separation, pp. 494–499, Setembro 2004.
[8] BROWN, J. C., PUCKETTE, M. S., “An efficient algorithm for the calculation
of a constant Q transform”, Journal of the Acoustical Society of America, v. 92,
n. 5, pp. 2698–2701, Janeiro 1992.
40
[9] SCHÖRKHUBER, C., KLAPURI, A., “Constant-Q transform toolbox for music
processing”. In: Proceedings of the 7th Sound and Music Computing Conference,
Barcelona, Espanha, Julho 2010.
[10] GOTO, M., NISHIMURA, T., “RWC Music Database: Music Genre Database
and Musical Instrument Sound Database”. In: Procedings of the 4th Internati-
onal Conference on Music Information Retrieval (ISMIR 2003), pp. 229–230,
Baltimore, EUA, Outubro 2003.
[11] SZCZUPAK, A. L., Identificação de Notas Musicais em Registros Solo de Violão
e Piano. Dissertação de Mestrado, PEE/COPPE-UFRJ, Junho 2008.
[12] BISCAINHO, L. W. P., IRIGARAY, I., “Transient and Steady-State Com-
ponent Extraction Using Nonlinear Filtering”. In: Congreso Internacional de
Ciencia y Tecnología Musical, v. 1, pp. 1–4, Buenos Aires, Argentina, 2013.
[13] DEEP, R., Probability and Statistics. Waltham, EUA, Academic Press, 2006.
[14] CAMPOS, C. V. C., “Algoritmos para Reconstrução da Fase de Sinais de Áu-
dio”, Projeto de Graduação, DEL/POLI-UFRJ, Março 2011.
41
Apêndice A
Tabela Completa de Resultados dos
Testes Subjetivos
A seguir é exibido em tabelas o resultado completo de todas as etapas para
cada participante. Cada tabela é o resultado de uma etapa e nela são apresentadas as
notas, variando de 0 a 100, de cada voluntário para todos os sinais, implementações
e critérios, conforme descrito na Seção 3.3.
42
A.1 Resultados da Etapa Tonal
43
A.2 Resultados da Etapa Transitória
44
A.3 Resultados da Etapa NMF sem Referência
45
A.4 Resultados da Etapa NMF com Referência
46