universidade federal do rio de janeiro escola politécnica...

Universidade Federal do Rio de Janeiro

Escola Politécnica

Departamento de Eletrônica e de Computação

Aplicação de Representação Tempo-Frequência com

Espaçamento Espectral Não-Linear à Separação de Fontes

Sonoras a partir de Misturas Pré-Gravadas

Autor:

Gabriel Mendes Gouvêa

Orientador:

Prof. Luiz Wagner Pereira Biscainho, D. Sc.

Examinador:

Prof. Sergio Lima Netto, Ph. D.

Examinador:

Alan Freihof Tygel, M. Sc.

DEL

Abril de 2014

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

Escola Politécnica - Departamento de Eletrônica e de Computação

Centro de Tecnologia, bloco H, sala H-217, Cidade Universitária

Rio de Janeiro - RJ CEP 21949-900

Este exemplar é de propriedade da Universidade Federal do Rio de Janeiro, que

poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar

qualquer forma de arquivamento.

É permitida a menção, reprodução parcial ou integral e a transmissão entre bibli-

otecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja

ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que

sem finalidade comercial e que seja feita a referência bibliográfica completa.

Os conceitos expressos neste trabalho são de responsabilidade do(s) autor(es) e

do(s) orientador(es).

ii

AGRADECIMENTO

Gostaria de agradecer à minha família pelo apoio, pelo carinho e por sempre

me guiar especialmente durante situações difíceis e complicadas da minha vida.

Agradeço aos meus amigos que conheci durante a faculdade pelos momentos

incríveis que compartilhamos; e também pelo suporte ao longo do curso de engenha-

ria eletrônica, principalmente na produção deste projeto.

E, por fim, gostaria de agradecer ao meu orientador Luiz Wagner, que, além

de um ótimo professor, foi um excelente amigo. Sua paciência e dedicação me

permitiram o desenvolvimento deste projeto.

iii

RESUMO

Este trabalho propõe uma adaptação para duas técnicas de separação de

fontes sonoras encontradas na literatura: a separação de fontes sonoras através de

filtragem por mediana e a Non-negative Matrix Factorization. Essa adaptação tem

como principal foco o uso de uma representação tempo-frequência conhecida como

Constant-Q Transform, que apresenta uma boa definição para os sinais de natureza

musical. As novas implementações são, então, comparadas com as técnicas originais

através de testes subjetivos aplicados em alguns voluntários.

Nos resultados obtidos através dos testes, não foi possível observar diferenças

desempenho entre as duas implementações utilizando a técnica de separação de fon-

tes através de filtragem por mediana. Contudo, a implementação de NMF utilizando

CQT foi melhor avaliada com relação a outra implementação utilizando STFT.

Palavras-Chave: separação de fontes, CQT, filtragem por mediana, NMF.

iv

ABSTRACT

This work proposes an adaptation for two techniques of sound source se-

paration: sound source separation using median filtering and Non-negative Matrix

Factorization. This adaptation aims for the use of a time-frequency representation

known as Constant-Q Transform, which provides a good definition for music signals.

The new implementations are then compared with the original techniques through

subjective tests applied to some volunteers.

From the test results, it was not possible to observe performance differences

between the two implementations with sound source separation using median filte-

ring. However, the implementation of NMF using CQT was better evaluated with

respect to the other implementation using STFT.

Key-words: source separation, CQT, median filtering, NMF.

v

SIGLAS

STFT - Short-Time Fourier Transform

NMF - Non-Negative Matrix Factorization

CQT - Constant-Q Transform

DFT - Discrete Fourier Transform

ICQT - Inverse Constant-Q Transform

NMFD - Non-Negative Matrix Factor Deconvolution

NMF2D - Non-Negative Matrix Factor 2-D Deconvolution

vi

Sumário

1 Introdução 1

2 Fundamentação Teórica 4

2.1 Short-Time Fourier Transform . . . . . . . . . . . . . . . . . . . . . 4

2.2 Separação de Fontes através de Filtragem por Mediana . . . . . . . . 9

2.3 Non-negative Matrix Factorization . . . . . . . . . . . . . . . . . . . 11

2.4 Constant-Q Transform . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 Separação de Fontes com CQT e Avaliação Subjetiva 20

3.1 Adaptações nos Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1.1 Separação de Fontes através de Filtragem por Mediana com

CQT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.1.2 NMF e NMFD com CQT . . . . . . . . . . . . . . . . . . . . 22

3.2 Sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3 Método de Avaliação Subjetiva . . . . . . . . . . . . . . . . . . . . . 25

4 Resultados dos Testes Subjetivos 29

4.1 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.2 Análise Estatística dos Resultados . . . . . . . . . . . . . . . . . . . . 32

5 Conclusões 38

5.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Bibliografia 40

vii

A Tabela Completa de Resultados dos Testes Subjetivos 42

A.1 Resultados da Etapa Tonal . . . . . . . . . . . . . . . . . . . . . . . . 43

A.2 Resultados da Etapa Transitória . . . . . . . . . . . . . . . . . . . . . 44

A.3 Resultados da Etapa NMF sem Referência . . . . . . . . . . . . . . . 45

A.4 Resultados da Etapa NMF com Referência . . . . . . . . . . . . . . . 46

viii

Lista de Figuras

1.1 Diagrama de blocos dos sistemas de separações de fontes. . . . . . . . . . 1

2.1 Sinal no tempo com 3 tons. . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Espectro de frequência de um sinal com 3 tons. . . . . . . . . . . . . . . 6

2.3 Espectrograma de um sinal com 3 tons intercalados por intervalos de silêncio. 6

2.4 Exemplo de sobreposição. . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.5 Espectrograma do sinal Billie Jean. . . . . . . . . . . . . . . . . . . . . 9

2.6 Sinal antes e depois de uma filtragem por mediana de comprimento 7. . . . 10

2.7 Espectrograma tonal do sinal Billie Jean. . . . . . . . . . . . . . . . . . 12

2.8 Espectrograma percussivo do sinal Billie Jean. . . . . . . . . . . . . . . . 12

2.9 Separação NMF de um sinal com trompete. . . . . . . . . . . . . . . . . 14

2.10 Separação NMFD de um sinal com piano. . . . . . . . . . . . . . . . . . 15

2.11 Diagrama de blocos da CQT. . . . . . . . . . . . . . . . . . . . . . . . . 18

2.12 Diagrama de blocos da ICQT. . . . . . . . . . . . . . . . . . . . . . . . 19

2.13 CQT de um sinal com 3 tons. . . . . . . . . . . . . . . . . . . . . . . . 19

3.1 Partitura do sinal de mistura. . . . . . . . . . . . . . . . . . . . . . . . 24

3.2 Interface do teste de avaliação subjetiva - Etapa tonal. . . . . . . . . . . . 26

3.3 Interface do teste de avaliação subjetiva - Etapa NMF sem referência. . . . 28

4.1 Média e desvio padrão amostrais da etapa tonal. . . . . . . . . . . . . . . 30

4.2 Média e desvio padrão amostrais da etapa transitória. . . . . . . . . . . . 30

4.3 Média e desvio padrão amostrais da etapa NMF sem referência. . . . . . . 31

4.4 Média e desvio padrão amostrais da etapa NMF com referência. . . . . . . 31

4.5 Exemplos de notas afastadas da médias. . . . . . . . . . . . . . . . . . . 32

4.6 Média e desvio padrão amostrais da etapa tonal após a remoção de intruso. 33

ix

4.7 Média e desvio padrão amostrais da etapa transitória após a remoção de

intruso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.8 Média e desvio padrão amostrais da etapa NMF sem referência após a

remoção de intruso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.9 Média e desvio padrão amostrais da etapa NMF com referência após a

remoção de intruso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

x

Lista de Tabelas

3.1 Comprimento do filtro de mediana para cada sinal. . . . . . . . . . . 23

3.2 Notas presentes em cada sinal de referência e notas retiradas. . . . . . 25

3.3 Comprimento do shift da NMFD em cada sinal da etapa NMF com

referência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1 Intervalo das diferenças entre as implementações STFT e CQT na

etapa tonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36


etapa transitória. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36


etapa NMF sem referência. . . . . . . . . . . . . . . . . . . . . . . . . 37


etapa NMF com referência. . . . . . . . . . . . . . . . . . . . . . . . . 37

xi

Capítulo 1

Introdução

O ser humano recebe em suas orelhas misturas de diferentes sinais sonoros,

porém tem a capacidade de distinguir e se concentrar em uma fonte dessas misturas

como, por exemplo, uma pessoa falando no meio de uma festa. Isto é denominado

efeito Cocktail Party [1]. O objetivo das técnicas de separação de fontes sonoras

consiste em simular este efeito, ou seja, a partir de uma ou mais misturas gerar de

volta as fontes que as compõem. Pode-se conceber um sistema composto por um

sensor acústico que realiza uma soma ponderada das versões que chegam a ele dos

sinais emitidos pelas fontes, gerando, assim, o sinal misturado. Os algoritmos de

separação devem, então, sintetizar um “sistema inverso” correspondente, capaz de

recompor as entradas do sensor.

Os sistemas de separação de fontes que foram estudados podem ser descritos

através do diagrama de blocos apresentado na Figura 1.1.

Figura 1.1: Diagrama de blocos dos sistemas de separações de fontes.

A etapa de análise consiste em transformar o sinal originalmente no domínio

do tempo para o domínio tempo-frequência. Através de uma Short-Time Fourier

Transform (STFT), pode-se representar o sinal que contém a mistura em uma ma-

triz, chamada de espectrograma de magnitude, que apresenta a evolução espectral

do sinal ao longo do tempo.

1

Para o processamento, as duas técnicas abordadas neste trabalho apresentam

diferentes métodos. A técnica de separação tonal/transitório através de filtragem por

mediana [2] utiliza um filtro não-linear para dividir o espectrograma da mistura em

dois novos: um mais tonal e outro mais transitório. Já para a técnica Non-negative

Matrix Factorization (NMF) [3], essa etapa consiste em fatorar o espectrograma em

uma matriz de ganhos e uma matriz de padrões espectrais, de acordo com o número

de fontes.

Por fim, na síntese, realiza-se a transformação das matrizes obtidas pela etapa

anterior, representadas no domínio tempo-frequência, de volta para o domínio do

tempo. Para a técnica de separação de fontes através de filtragem por mediana,

obtém-se um sinal contendo a parcela mais tonal da mistura e um outro contendo

a parcela mais percussiva. Para a NMF, o resultado da técnica terá o número de

sinais equivalente ao número de fontes consideradas.

As técnicas de separação de fontes sonoras encontram aplicações que vão

desde restauração de áudio forense até remixagem em estúdio. Neste último caso, a

ideia é isolar as fontes sonoras (notas e instrumentos musicais), modificar cada uma

delas e ressintetizar a música. Para aplicações deste tipo, é ideal que as técnicas

consigam distinguir bem cada uma das fontes.

As notas musicais na escala cromática são definidas pelas suas frequências,

que são espaçadas geometricamente. Então, para obter uma melhor definição das

fontes musicais, os métodos necessitam de uma representação que permita localizar

essas notas.

A proposta desse projeto é utilizar a Constant-Q Transform (CQT) [4], que

permite representar os sinais no domínio tempo-frequência com uma organização ge-

ométrica da escala de frequências. Diante das técnicas de separação de fontes sonoras

presentes na literatura, a adaptação aqui proposta procura melhorar o desempenho

para misturas pré-gravadas de natureza musical.

Para comparar essa adaptação com os métodos que utilizam a STFT suge-

ridos pela literatura, será utilizada uma avaliação subjetiva com voluntários que

irão julgar qual representação tempo-frequência apresenta melhor desempenho na

separação de fontes sonoras.

No Capítulo 2, serão apresentadas as técnicas estudadas que fundamentam

2

o projeto. Inicialmente, será apresentada a forma de representação de um sinal no

domínio tempo-frequência com a STFT. Em seguida, duas técnicas de separação de

fontes encontradas na literatura serão explicadas; ambas utilizam a STFT como a

etapa de pré-processamento. E por fim será descrita outra representação tempo-

frequência mais adequada para sinais musicais.

No Capítulo 3, serão descritas as alterações nos algoritmos de separação

de fontes necessárias para o uso da nova representação tempo-frequência. Poste-

riormente, será detalhado um processo de avaliação subjetiva com a finalidade de

comparar essas técnicas usando diferentes representações tempo-frequência.

Os resultados dessa avaliação subjetiva serão apresentados no Capítulo 4.

Nele serão explicadas as análises realizadas para concluir qual representação tempo-

frequência é mais adequada.

Por fim, no Capítulo 5, são descritas as conclusões extraídas dos resultados.

Também serão mostradas as propostas de trabalhos futuros.

3

Capítulo 2

Fundamentação Teórica

Nesse capítulo são descritos os conceitos utilizados, como a Short-Time Fou-

rier Transform, que funciona como uma etapa de análise em sistemas de proces-

samento de sinais. Em seguida, serão apresentadas as técnicas de separação de

fontes estudadas: a Separação de Fontes através de Filtragem por Mediana e a

Non-negative Matrix Factorization. E por fim, será explicada uma representação

tempo-frequência que possui melhor resolução para sinais musicais, a Constant-Q

Transform.

2.1 Short-Time Fourier Transform

Dentro da área de processamento de sinais, a forma mais intuitiva de re-

presentação de um sinal digital de áudio é no domínio do tempo. Na Figura 2.1,

tem-se o exemplo de um sinal no tempo com 3 notas de piano tocadas em instantes

diferentes.

Observa-se que é possível identificar com facilidade o momento em que cada

nota foi tocada. Porém, não há informações suficientes para dizer quais são as

notas presentes nesse sinal. Outra forma de representar um sinal é no domínio

da frequência. Uma possível transformação entre os dois domínios é chamada de

Discrete Fourier Transform (DFT). Na Figura 2.2, tem-se o módulo do espectro de

frequência do mesmo sinal com 3 notas.

Nesse gráfico, é possível observar quais são as componentes frequenciais pre-

sentes no sinal, mas a localização temporal de cada nota é perdida. A fim de se

4

Figura 2.1: Sinal no tempo com 3 tons.

obter as duas informações sobre um sinal em uma única representação, é necessário

utilizar uma representação tempo-frequência.

A Short-Time Fourier Transform (STFT) permite analisar um sinal digital

de áudio como uma evolução do espectro de frequência ao longo do tempo, sendo

expressada em uma matriz complexa denominada espectrograma. O módulo dessa

representação para o sinal utilizado nos exemplos anteriores pode ser visto na Figura

2.3.

Analisando-se esse espectrograma, é possível localizar cada um dos tons e

seus harmônicos, bem como o momento em que eles aparecem. Para realizar essa

transformação, primeiramente deve-se dividir o sinal em intervalos de tempo. Essa

etapa, conhecida como janelamento, consiste em fazer

xm[n] = x[n]wm[n], (2.1)

onde x[n] é o sinal completo, wm[n] é a função que irá janelar o sinal no m-ésimo

intervalo e xm[n] é o m-ésimo sinal janelado. Dentre as janelas mais utilizadas,

têm-se a janela retangular, a de Hann e a de Hamming [5]. Para evitar os artefatos

que surgem por causa da limitação da janela, frequentemente se utiliza sobreposição

entre as janelas. A Figura 2.4 mostra como, a partir de um sinal qualquer, é realizado

um janelamento com a janela de Hann e sobreposição de 50%.

A partir dos sinais janelados, calcula-se o espectro de frequência de cada um

5

Figura 2.2: Espectro de frequência de um sinal com 3 tons.

Figura 2.3: Espectrograma de um sinal com 3 tons intercalados por intervalos de silêncio.

6

(a) Sinal

(b) Janelas com sobreposição

(c) Sinal janelado com sobreposição

Figura 2.4: Exemplo de sobreposição.

7

através da DFT

S[m, k] =1

N

N−1∑n=0

xm[n]e−jk2πNn, (2.2)

onde S[m, k] representa a k-ésima componente frequencial do m-ésimo intervalo

de tempo de comprimento N . O conjunto de todos esses componentes pode ser

organizado na forma de uma matriz de elementos complexos; a matriz contendo

apenas os respectivos módulos compõe o espectrograma.

Para calcular a STFT de um sinal, são citados alguns parâmetros que a

regulam, como:

• o tipo de janela;

• a quantidade de amostras da janela;

• a quantidade de amostras que serão sobrepostas e

• o comprimento da DFT para cada sinal janelado.

O tipo de janela é responsável por controlar as inevitáveis distorções impostas

à representação final. As quantidades de amostras da janela e de sobreposição

determinam a resolução temporal do espectrograma. O comprimento da DFT define

a quantidade de pontos que cada janela tem no domínio frequencial.

A resolução frequencial da STFT é linear, ou seja, a diferença entre compo-

nentes frequenciais contíguas é a mesma ao longo de todo o espectro. Em sinais

predominantemente musicais1, os tons produzidos pelos instrumentos são baseados

na escala cromática. Esta, por sua vez, define as notas por frequências espaçadas

geometricamente. Logo, o espectrograma representa esse tipo de sinais com menor

resolução para tons de baixa frequência, enquanto que para tons de alta frequência

distingue-se a melhor informação, como ocorre no exemplo da Figura 2.3.

1Estamos nos referindo à música ocidental tradicional.

8

2.2 Separação de Fontes através de Filtragem por

Mediana

Nesta seção será explicada uma técnica de separação de fontes sonoras que

divide um sinal de mistura em duas partes: uma mais tonal e outra mais percussiva.

O artigo que descreve esse método [2] se baseia na ideia de que os sinais de

áudio tonais, ou seja, aqueles que possuem altura definida, são melhor definidos na

frequência, enquanto que as características percussivas do sinal, como uma batida em

um tambor, são melhor localizadas no tempo. No espectrograma do sinal de áudio

Billie Jean, apresentado na Figura 2.5, as linhas verticais representam as informações

percussivas e as linhas horizontais representam as características tonais.

Figura 2.5: Espectrograma do sinal Billie Jean.

O objetivo da técnica é suprimir as linhas verticais resultando em um novo

espectrograma que contenha, basicamente, as informações mais tonais do sinal. Si-

milarmente, eliminando-se as linhas horizontais pode-se obter outro espectrograma

que exprime um sinal com características mais percussivas.

Para realizar essa separação, propõe-se o uso de um filtro por mediana. Na

Figura 2.6, é possível observar um sinal qualquer antes desta filtragem (em azul) e

depois desta filtragem (em verde).

Esse filtro consiste em

xf [n] = Median (x[n], L) , (2.3)

9

Figura 2.6: Sinal antes e depois de uma filtragem por mediana de comprimento 7.

onde x[n] é o sinal a ser filtrado, L é o número de pontos por grupo a ser anali-

sado e xf [n] é o sinal filtrado. Para calcular o resultado desse filtro, é necessário

avaliar a mediana de L pontos ao redor de uma amostra do sinal e substituir esta

mesma amostra pelo valor calculado. O procedimento é então repetido para todas

as amostras do sinal. Assim, se houver amostras discrepantes dentro de um grupo

analisado, elas serão ignoradas pelo filtro, resultando em um sinal mais suave.

A partir do espectrograma de magnitude do sinal, será usado o filtro na ver-

tical, ou seja, ao longo da frequência, e serão removidos os impulsos horizontais, isto

é, as informações tonais. Ao mesmo tempo, são preservados os impulsos verticais,

que seriam as características percussivas do sinal. Essa operação pode ser expressa

como

Pi = Median (|Si|, Lp) , (2.4)

sendo |Si| o módulo do espectro gerado pelo i-ésimo intervalo de tempo do espectro-

grama, Pi o espectro filtrado no mesmo intervalo e Lp o comprimento desse filtro.

Com um raciocínio análogo, para remover os impulsos verticais, tem-se

Hj = Median (|Sj|, Lh) , (2.5)

sendo |Sj| o comportamento temporal da j-ésima frequência do espectrograma, Hj o

comportamento temporal filtrado da mesma frequência e Lh o comprimento desse fil-

tro. Com os espectrogramas filtrados, geram-se duas matrizes de máscaras definidas

10

como

MHj,i =Hmh,i

Hmj,i + Pm

j,i

, (2.6)

MPj,i =Pmh,i

Hmj,i + Pm

j,i

, (2.7)

onde m é um expoente ao qual cada elemento do espectrograma é elevado, MHj,i

e MPj,i são, respectivamente, as máscaras tonal e percussiva, respectivamente, no

i-ésimo intervalo e na j-ésima frequência. Este expoente (normalmente com valor

m = 2) refere-se ao controle de contraste, que age de forma a intensificar os valores

altos e atenuar os valores baixos assumidos pelas máscaras em cada ponto. Essas

máscaras serão aplicadas ao espectrograma original para gerar os espectrogramas

das fontes através do produto ponto a ponto, denotado pelo símbolo ⊗ conforme

descrito abaixo

H = S⊗MH , (2.8)

P = S⊗MP , (2.9)

sendo H o espectrograma harmônico filtrado, P o espectrograma percussivo filtrado

e S o espectrograma original complexo. Os espectrogramas resultantes dessa sepa-

ração a partir do exemplo Billie Jean são apresentados nas Figuras 2.7 e 2.8.

2.3 Non-negative Matrix Factorization

Dentre as técnicas de separação de fontes presentes na literatura, a Non-

negative Matrix Factorization é a que mais tem sido investigada e apresenta aplica-

ções em diversas áreas, inclusive quando se trata de misturas sonoras. Ao contrário

dos métodos desenvolvidos anteriormente, a NMF devolve tantos sinais de fontes

quanto se queira a partir de uma única mistura.

A técnica da NMF consiste basicamente em decompor uma matriz de ele-

mentos não-negativos em duas outras matrizes de elementos não-negativos obtidas

pela minimização de uma função custo. Como o foco são aplicações em misturas de

áudio, ou seja, sinais com uma dimensão, é conveniente utilizar a representação no

domínio tempo-frequência conforme visto na Seção 2.1 como a matriz para o método

X[m, k] =1

N

N−1∑n=0

xm[n]e−jk2πNn. (2.10)

11

Figura 2.7: Espectrograma tonal do sinal Billie Jean.

Figura 2.8: Espectrograma percussivo do sinal Billie Jean.

O objetivo do método é descrito como

V ≈ V = WH, (2.11)

onde V é uma matriz M ×K que representa o módulo de X, V é uma estimativa

da matriz V, W é uma matriz de dimensão M × D e H é uma matriz de dimen-

são D ×K. Para a matriz V se aproximar cada vez mais da matriz V é utilizado

um método de convergência chamado de Steepest Descent, também conhecido como

12

método do gradiente descendente. Esse método irá atualizar a matriz V a cada ite-

ração, modificando alternadamente as matrizes H e W. As equações de atualização

baseadas neste algoritmo de otimização são definidas por

W ← W − µW∂E

∂W, (2.12)

H ← H− µH∂E

∂H, (2.13)

sendo E uma função custo a ser minimizada. Uma das funções custo mais comuns

é a distância euclidiana, dada por

E =

√√√√ M∑

m=1

K∑k=1

∣∣∣V [m, k]− V [m, k]∣∣∣22

. (2.14)

Conforme os cálculos desenvolvidos em [6], as equações de atualização para

esta função custo são dadas por

W ← W ⊗ VHT

WHHT, (2.15)

H ← H⊗ WTV

WTWH. (2.16)

Outra função custo frequentemente utilizada em aplicações de áudio é a di-

vergência de Kullback-Leibler, dada por

DKL =M∑m=1

K∑k=1

(V [m, k] ln

(V [m, k]

V [m, k]

)− V [m, k] + V [m, k]

). (2.17)

Neste caso as equações de atualização, conforme [7], são definidas por

W ← W ⊗WT V

V

WT1, (2.18)

H ← H⊗V

VHT

1HT. (2.19)

A inicialização das matrizes W e H é feita a partir de números aleatórios não

negativos distribuídos uniformemente entre 0 e 1.

Após atingir a convergência, o conteúdo de cada matriz pode ser interpretado

da seguinte forma: a matriz H de dimensão D × K apresenta o padrão espectral

de cada fonte d, enquanto a matriz W indica quando cada fonte d aparece e sua

intensidade neste momento. A obtenção do espectrograma de magnitude de cada

fonte é dada por

Vd = WdHd, (2.20)

13

sendo Vd o espectrograma de magnitude da fonte d, Wd o vetor de ganhos da

fonte d e Hd o vetor do padrão espectral da fonte d. Utilizando-se um algoritmo de

reconstrução de fase, são obtidos os espectrogramas complexos e, assim, os sinais

das fontes no domínio do tempo podem ser reconstruídos.

No exemplo da Figura 2.9, a mistura contém um trompete tocando 3 notas em

diferentes instantes. A imagem mais à esquerda corresponde à matriz H, o gráfico

localizado na parte superior representa a matriz W e o espectrograma central dessa

figura equivale a V. É possível perceber que cada nota tocada é considerada pelo

algoritmo como sendo uma fonte.

Figura 2.9: Separação NMF de um sinal com trompete.

Em alguns casos, um único padrão espectral pode não identificar correta-

mente uma fonte. No piano, por exemplo, pode ser adequado o uso de uma evo-

lução espectral no tempo para caracterizar as notas. Um aprimoramento da NMF,

já descrito na literatura, é chamado de Non-Negative Matriz Factor Deconvolution

(NMFD), que permite atribuir este pequeno espectrograma para cada fonte. Para

explicar esse processo, será utilizado o operador deslocamento horizontal.

A =

1 2

3 4

, (2.21)

−→A

1=

0 1

0 3

. (2.22)

14

Esse operador consiste, basicamente, em fazer um shift para a direita dos elementos

da matriz, preenchendo-a com zeros à esquerda. Dessa forma, o objetivo da NMFD

pode ser expresso como

V ≈ V =τ−1∑t=0

Wt

−→H

t. (2.23)

As equações de atualização visando à minimização da divergência de Kullback-

Leibler, de acordo com [7], são dadas por

Wt ← Wt ⊗V

V

(−→H

t)T1(−→H

t)T , (2.24)

H ← H⊗WT

t

−−→(V

V

) tWT

t 1. (2.25)

O algoritmo segue uma sequência similar à da NMF comum. Inicializam-se

as matrizes W e H aleatoriamente com distribuição uniforme de 0 a 1. Atualizam-se

as matrizes alternadamente até o processo convergir ou atingir o número máximo de

iterações. Na Figura 2.10, é apresentado o exemplo de uma mistura de piano que,

a partir do algoritmo de NMFD, devolve 3 fontes, onde cada fonte é uma nota.

Figura 2.10: Separação NMFD de um sinal com piano.

Diferentes variantes da NMF podem enxergar como fontes entidades diferen-

tes: cada instrumento, cada nota musical, subpartes transitória e permanente de

cada nota musical etc.

15

2.4 Constant-Q Transform

A Constant-Q Transform (Transformada de Q Constante) é uma represen-

tação tempo-frequência semelhante à STFT. Esta representação, porém, apresenta

um espectro de frequência com seletividade constante, forçando que o espaçamento

entre baixas frequências seja menor do que o espaçamento entre as altas frequências.

Na STFT, o intervalo entre frequências, que a partir de agora serão chamadas

de bins, era constante. Na CQT, o espaçamento entre bins varia proporcionalmente

com a sua frequência central. A razão entre a frequência central do bin e a sua

distância à frequência central do próximo bin é chamado de seletividade, definida

por

Q =fk

∆fk,

sendo fk a k-ésima frequência central e ∆fk o espaçamento entre bin relativo a fk e

o bin relativo a fk+1.

Essa representação foi introduzida por Brown em [4], na qual é descrita a

transformação do sinal no tempo para a CQT

XCQ[k,m] =

m+dNk/2e+1∑n=m−bNk/2c

x[n]a∗k[n−m+Nk/2], (2.26)

onde XCQ[k,m] é a matriz que corresponde à CQT do sinal x[n] na k-ésima compo-

nente frequencial do m-ésimo intervalo de tempo e ∗ denota a operação de conjuga-

ção complexa. Define-se ak como uma janela complexa, também chamada de kernel

temporal, cujo comprimento Nk é dado por

Nk =fsfkQ, (2.27)

onde Q é o fator de seletividade que será explicado a seguir. A função ak é definida

como

ak[n] =1

Nk

w

[n

Nk

]exp

{−j2πnfk

fs

}, (2.28)

sendo fk a k-ésima frequência, fs a frequência de amostragem do sinal, e a função

w[n] uma janela do tipo Hann, por exemplo. Comparando com a equação da STFT,

a diferença básica entre as duas representações é o comprimento da janela, que, no

caso da CQT, varia de acordo com a frequência fk.

16

Como o objetivo da CQT é possibilitar uma melhor análise dos sinais de

natureza musical, será agora associado o espaçamento logarítmico entre bins com

a organização da escala cromática. A razão entre as frequências de duas notas

adjacentes nessa escala é de um semitom, que equivale a 21/12. Logo, se uma nota

possui frequência fk, a nota seguinte terá a frequência fk+1 = 21/12fk. Portanto, o

espaçamento entre esses bins é dado por

∆fk = 21/12fk − fk ≈ 0,0594fk. (2.29)

Com isso, a seletividade desse sistema equivale a

Q =fk

∆fk=

fk0,0594fk

≈ 16,82. (2.30)

Por isso, para representar um sinal com uma resolução de um semitom, basta

utilizar a CQT com Q ≈ 16,82. Na maioria dos casos, utiliza-se Q = 34, que equivale

a um espaçamento de aproximadamente um quarto de tom, melhorando a resolução

da representação.

A implementação da CQT do sinal de acordo com a equação (2.26) possui um

custo computacional alto. De acordo com [8], Brown et al. sugerem um algoritmo

mais eficiente, porém com ele não seria possível ressintetizar o sinal no tempo.

Em [9], Schörkhuber et al. propõem uma modificação no processamento da

CQT que diminui o custo computacional do sistema e permite estimar o sinal no

tempo que a gerou. A modificação proposta consiste em processar a CQT da maior

oitava do sinal, isto é, desde a frequência de Nyquist até a metade desta. Após esse

passo, é possível filtrar o sinal por um passa-baixas e subamostrar o sinal por um

fator de 2. Repete-se este processo até a última oitava. Um diagrama de blocos que

resume esse processo pode ser visto na Figura 2.11.

Quando a CQT de uma oitava é computada, utiliza-se um conjunto de kernels.

Ao subamostrar o sinal, o mesmo grupo de kernels pode ser usado para obter a

CQT da oitava abaixo. Este procedimento cria alguns artefatos na representação,

em comparação com a implementação sugerida em [8].

O processo de reconstrução do sinal no tempo é análogo ao método de análise.

Utilizando-se o conjugado dos kernels, é processada a Inverse Constant-Q Transform

de cada oitava do sinal. Em seguida, juntam-se todas as parcelas, realizando-se as

devidas interpolações. Tal procedimento pode ser visto na Figura 2.12.

17

Figura 2.11: Diagrama de blocos da CQT.

O sinal de áudio contendo 3 notas de piano utilizado como exemplo na Seção

2.1 foi representado na Figura 2.13, utilizando essa implementação de CQT. Nessa

figura, em comparação com a representação por STFT, observa-se melhor resolução

nas baixas frequências e pior resolução em altas frequências, porém sem prejudicar

a discriminação das mesmas. Naturalmente, como efeito colateral, o espaçamento

entre harmônicos deixa de ser linear.

18

Figura 2.12: Diagrama de blocos da ICQT.

Figura 2.13: CQT de um sinal com 3 tons.

19

Capítulo 3

Separação de Fontes com CQT e

Avaliação Subjetiva

Como anteriormente discutido, as técnicas de separação de fontes que foram

estudadas necessitam de um pré-processamento que consiste em representar o sinal

de mistura no domínio tempo-frequência. Porém, a STFT, encontrada usualmente

nessa etapa, não possui propriedades tão favoráveis para a aplicação em misturas de

natureza musical quanto a CQT.

Neste capítulo, serão mostrados exemplos de como, através do algoritmo de

CQT, o desempenho das técnicas de separação de fontes pode ser melhorado para

as aplicações já mencionadas. Em seguida, será explicado o método de avaliação

utilizado no trabalho.

3.1 Adaptações nos Algoritmos

No algoritmo de CQT apresentado na seção 2.4, os pontos temporais de

XCQ[k,m] são calculados de forma igual para todos os bins dentro da mesma oitava.

Ao descer uma oitava, o número de pontos calculados diminui por um fator de 2,

ou seja, as oitavas terão diferentes quantidade de pontos e haverá lacunas na matriz

XCQ[k,m].

Em [9], é sugerida uma implementação que realiza uma interpolação e, assim,

permite entregar o mesmo número de pontos que um espectrograma entregaria.

Com esse novo algoritmo adaptado, chamado de CQT perfeitamente rasterizada, é

20

possível inserir nas duas técnicas de separação de fontes (apresentadas nas Seções

2.2 e 2.3) uma representação tempo-frequência mais adequada para sinais musicais.

3.1.1 Separação de Fontes através de Filtragem por Mediana

com CQT

O método para filtragem utilizado no espectrograma assemelha-se ao método

utilizado na CQT. Primeiramente, é representado o sinal de mistura no domínio

tempo-frequência utilizando o algoritmo de CQT perfeitamente rasterizada

x[n]→ SCQ[k,m], (3.1)

em seguida realizam-se as filtragens descritas por

PCQi = Median

(|SCQi |, Lp

), (3.2)

HCQj = Median

(|SCQj |, Lh

), (3.3)

onde SCQi é o módulo do espectro gerado pelo i-ésimo intervalo de tempo, PCQi é

o espectro filtrado do mesmo intervalo, Lp é o comprimento do filtro ao longo da

frequência, SCQj o comportamento temporal do j-ésimo bin de frequência, HCQj o

comportamento temporal filtrado do mesmo bin e Lh o comprimento do filtro ao

longo do tempo.

A partir das novas matrizes de CQT, geram-se máscaras definidas em cada

ponto da matriz como a seguir

MCQHj,i =

(HCQh,i )m

(HCQj,i )m + (PCQ

j,i )m, (3.4)

MCQPj,i =

(PCQh,i )m

(HCQj,i )m + (PCQ

j,i )m, (3.5)

onde MCQHj,i e MCQ

Pj,i são, respectivamente, as máscaras harmônica e percussiva no

i-ésimo intervalo de tempo e no j-ésimo bin de frequência, que serão aplicadas na

matriz de CQT original para produzir os sinais filtrados

HCQ = SCQ ⊗MCQH , (3.6)

PCQ = SCQ ⊗MCQP , (3.7)

21

sendo HCQ a matriz de CQT harmônica filtrada, PCQ a matriz de CQT percussiva

filtrada e SCQ a matriz de CQT original complexa.

As matrizes de CQT dos sinais filtrados são, então, comprimidas retirando-se

os pontos que foram interpolados. E, através do cálculo da CQT inversa (mencionado

na Seção 2.4) são obtidos os sinais de cada fonte no domínio do tempo.

3.1.2 NMF e NMFD com CQT

A partir da CQT representada com o método em que é perfeitamente ras-

terizada, o algoritmo de NMF prossegue de forma similar ao apresentado na Seção

2.3.

O método para decomposição da matriz de CQT da mistura em duas outras

matrizes não negativas é da forma

VCQ ≈ V = WH, (3.8)

onde se busca minimizar uma função-custo. Neste projeto, a divergência de Kullback-

Leibler foi escolhida para este papel. A partir de uma inicialização aleatória das

matrizes W e H, o algoritmo irá convergir com as equações de atualização

W ← W ⊗WT VCQ

V

WT1, (3.9)

H ← H⊗VCQ

VHT

1HT. (3.10)

Para o caso da NMFD, é permitido o deslocamento horizontal da matriz de

padrões espectrais H, fazendo-se

VCQ ≈ V =τ−1∑t=0

Wt

−→H

t. (3.11)

E com a finalidade de minimizar função-custo da divergência de Kullback-Leibler,

as equações de atualização são dadas por

Wt ← Wt ⊗VCQ

V

(−→H

t)T1(−→H

t)T , (3.12)

H ← H⊗WT

t

−−−−→(VCQ

V

) tWT

t 1. (3.13)

As diferentes implementações de cada técnica utilizada neste trabalho não

serão apresentadas aqui, podendo ser obtidas com o autor do projeto.

22

3.2 Sinais

Nessa seção serão apresentados os sinais utilizados para analisar cada uma

das técnicas de separação de fontes anteriormente descritas.

Para a técnica de separação de fontes através de filtragem por mediana, foram

escolhidos quatro sinais de mistura. O primeiro sinal é um trecho da música Animal,

da banda Def Leppard. O segundo sinal contém um trecho da peça Litanies para

órgão, do autor Jehan Alain. Este é um sinal bastante estacionário e pela natureza

do instrumento é predominantemente tonal. O terceiro sinal é sintético e possui

uma sequência de Hi-Hats. Ao contrário do segundo sinal, este sinal é predominante

percussivo. O último sinal é um trecho da música Billie Jean, do artista Michael

Jackson. Todos os sinais foram amostrados a uma taxa de fs = 44100 Hz.

De cada um desses sinais, realizou-se a separação de fontes, extraindo-se as

parcelas tonal e transitória. Estes sinais resultantes foram gerados com uma potência

m = 2 na criação das máscaras. No procedimento envolvendo a STFT, utilizaram-

se janelas de Hamming com 4096 amostras e sobreposição de 75% com DFT de

tamanho 4096 amostras. No método com CQT, foi utilizado um filtro Butterworth

de sexta ordem como passa-baixas e um fator de seletividade Q = 68, que equivale a

uma resolução frequencial de aproximadamente um oitavo de tom. O parâmetro de

comprimento dos filtros de mediana variou de acordo com o sinal e foi escolhido de

forma a obter uma melhor separação consoante a avaliação do autor deste projeto.

Na Tabela 3.1, esse parâmetro é descrito para cada sinal.

Tabela 3.1: Comprimento do filtro de mediana para cada sinal.

SinalTonal Transitório

STFT CQT STFT CQT

Animal 17 125 17 15

Litanies 17 125 17 15

Hi-Hats 17 51 17 17

Billie Jean 17 125 17 15

Para avaliar a técnica NMFD foram utilizados dois conjuntos de sinais. O

primeiro conjunto é composto por um único sinal de piano sintético que toca três

notas diferentes, conforme a Figura 3.1, onde é possível observar que algumas notas

23

Figura 3.1: Partitura do sinal de mistura.

foram tocadas simultaneamente. Esse sinal foi decomposto em três outros sinais

resultantes através da NMFD, implementada com STFT, e em outros três sinais com

a NMFD, implementada com CQT. Cada nota do sinal original era supostamente

representada em um dos três sinais resultantes da NMFD com STFT e da NMFD

com CQT.

Os resultados da separação foram gerados com o algoritmo de NMFD apre-

sentado neste projeto com a função-custo de divergência de Kullback-Leibler. Para o

procedimento de NMFD com STFT foi utilizada uma janela de Hamming com 1024

amostras e sobreposição de 256 amostras. Além disso, a DFT foi calculada com

tamanho de 2048 amostras e permitiu-se um deslocamento horizontal (no tempo)

de 5 amostras. Para a implementação com CQT, utilizou-se um filtro Butterworth

de sexta ordem como passa-baixas, um fator de seletividade Q = 68 e foi permitido

o mesmo deslocamento horizontal de 5 amostras.

O segundo conjunto consiste de quatro sinais de mistura retirados dos regis-

tros de notas de um piano obtidas do banco de dados RWC Music Database: Musical

Instrument Sound Database [10]. O registro continha todas as notas do piano (de-

nominado pela base de 011PFNOF ) separadas por uma pausa, começando de A0

(Lá 0) e subindo de semitom em semitom até C8 (Dó 8), com um total de 88 notas.

Cada sinal de mistura possui uma sequência de doze notas retiradas do re-

gistro. Para a extração desses sinais foi necessário saber quando começa cada nota

(onset). Em [11] é possível encontrar essa informação sobre o banco de dados em

questão, inclusive sobre o registro utilizado nesse projeto (011PFNOF ). Para a re-

alização do teste, separou-se de cada sinal de referência uma das notas dentre as

doze nele presente. Para obter uma estimativa da nota separada, foram utilizadas

a NMFD com STFT e a NMFD com CQT. A Tabela 3.2 informa quais notas estão

presentes em cada sinal de mistura e, para cada um destes sinais, qual foi a nota

retirada pelas técnicas.

Para gerar os sinais resultantes, utilizou-se a NMFD com a função-custo de

24

Tabela 3.2: Notas presentes em cada sinal de referência e notas retiradas.

Sinal Notas Notas retiradas

Sinal 1 D1, D#1, ..., C#2 G1

Sinal 2 G#2, A2, ..., G3 G3

Sinal 3 D4, D#4, ..., C#5 G4

Sinal 4 G#5, A5, ..., G6 G6

divergência de Kullback-Leibler. Para a técnica NMFD com STFT, foi empregada

a janela de Hamming com 1024 amostras e sobreposição de 256 amostras, além de

uma DFT de 2048 amostras. Para a técnica NMFD com CQT, foram utilizados um

fator de seletividade Q = 68 e um filtro passa-baixas Butterworth de sexta ordem.

O parâmetro de deslocamento horizontal variou com cada sinal e seus valores são

apresentados para cada caso na Tabela 3.3.

Tabela 3.3: Comprimento do shift da NMFD em cada sinal da etapa NMF com

referência.Sinal STFT CQT

Sinal 1 5 5

Sinal 2 20 5

Sinal 3 5 20

Sinal 4 5 5

3.3 Método de Avaliação Subjetiva

Para comparar as técnicas analisadas no presente projeto, realizou-se um teste

subjetivo com quinze participantes. O teste foi dividido em quatro etapas: etapa

tonal, etapa transitória, etapa NMF sem referência e etapa NMF com referência.

Na primeira etapa, também chamada de etapa tonal, havia quatro conjuntos

de sinais obtidos como descrito anteriormente. Em cada um deles, foram apresen-

tados para o participante: um sinal de mistura, um sinal resultante da separação

de fontes através de filtragem por mediana com STFT e outro sinal resultante da

separação de fontes através de filtragem por mediana com CQT. Como já explici-

25

tado no nome da etapa, ambos os sinais resultantes correspondiam apenas à parcela

harmônica (ou tonal) do sinal de referência.

Através da interface gráfica, o participante pôde ouvir quantas vezes fosse

necessário todos os sinais, incluindo o sinal de referência, com controle da intensidade

sonora. Após escutá-los, o participante deveria avaliar os dois sinais resultantes sob

três critérios: Separação, Resíduo e Integridade. Na Figura 3.2 é possível observar

a interface de avaliação utilizada no projeto.

Figura 3.2: Interface do teste de avaliação subjetiva - Etapa tonal.

O primeiro critério (Separação) se relaciona a quanto dos componentes tonais

foi separado e pôde ser avaliado da pior para a melhor separação. O critério de

Resíduo se refere a quanto das parcelas indesejadas do sinal restou, equivalendo

aos componentes complementares à parcela tonal, isto é, a parcela percussiva (ou

transitória). Este critério pôde ser avaliado da pior (maior presença de resíduos)

para a melhor (menor presença de resíduos). Por fim, o último critério (Integridade)

descreve o quão natural o sinal soa, ou seja, quão íntegro ele soa de forma ampla, e

foi avaliado da pior a melhor integridade.

A etapa transitória é similar à etapa anterior. Utilizando-se os mesmos sinais

de mistura e apenas a parcela percussiva (ou transitória) dos sinais de referência, o

usuário ouvia e avaliava os sinais apresentados com base em três critérios análogos

aos definidos.

26

O critério de Separação consiste em avaliar quanto dos componentes tran-

sitórios foi separado, variando de pior para melhor separação. O segundo critério,

Resíduo, refere-se a quanto dos componentes tonais, ou seja, a parcela tonal, restou

no sinal. Este varia de pior (maior presença de resíduo) a melhor (menor presença

de resíduo). Por fim, o critério de Integridade representa o mesmo da etapa anterior,

isto é, o quão íntegro o sinal soa.

Na etapa seguinte, denominada NMF sem referência, havia um sinal de mis-

tura como apresentado na Figura 3.1 para todas as subetapas de avaliação. Dessa

forma, não há uma referência bem definida sobre cada fonte, porque as notas são

tocadas simultaneamente. Colocado assim dessa forma, esse teste é igual ao pró-

ximo: retirar uma nota de um conjunto de notas. Assim, o participante deveria

comparar dois sinais, um de cada implementação diferente, representando a mesma

nota separada a partir do sinal de mistura. É importante observar que nem todas

as notas são escutadas isoladamente no sinal de mistura.

O processo de avaliação consistiu em atribuir uma nota para cada sinal re-

sultante com respeito a dois critérios: Separação e Resíduo. O critério de Separação

qualifica quanto da parte desejada, isto é, da nota, foi apresentado, variando de

pior para melhor separação, enquanto o critério de Resíduo avalia quanto das outras

notas restou, com uma escala de pior (maior presença de ruído) a melhor (menor

presença de ruído). A interface gráfica utilizada no processo de avaliação é similar

à das etapas anteriores. Na Figura 3.3 se vê o modelo utilizado.

Na última etapa do teste, denominada etapa NMF com referência, o partici-

pante deveria ouvir o sinal de referência contendo todas as notas da oitava e duas

separações diferentes da mesma nota, avaliando cada uma delas nos três critérios.

O critério de Separação analisa quão bem a nota foi separada das demais, ou seja,

em que grau essa nota foi separada do sinal original. O critério de Resíduo avalia

quanto das outras notas estava presente no sinal resultante. O último critério, de

Integridade, qualifica quão natural o sinal resultante soou.

Estes critérios foram apresentados inicialmente em [12]. No presente projeto,

utilizou-se uma escala que variava de 0 a 100 para todas as etapas do teste. Os

testes foram realizados em uma sala com isolamento acústico dentro do Laboratório

de Sinais, Multimídia e Telecomunicações da UFRJ com fones de ouvido disponíveis

27

Figura 3.3: Interface do teste de avaliação subjetiva - Etapa NMF sem referência.

no laboratório e um notebook pessoal, com duração média de cinquenta minutos para

cada voluntário. Todos os voluntários receberam uma explicação sobre como realizar

a avaliação em cada etapa, bem como os critérios que deveriam ser analisados.

Um ponto importante para as duas primeiras etapas (tonal e transitória) é que

não foi fornecida informação prévia a respeito da definição do que seria uma parcela

tonal ou transitória, utilizando-se nessa avaliação participantes familiarizados com

estes termos.

28

Capítulo 4

Resultados dos Testes Subjetivos

Neste capítulo serão apresentados os resultados dos testes subjetivos, bem

como as análises realizadas nos mesmos a fim de concluir qual representação tempo-

frequência apresenta o melhor desempenho.

4.1 Resultados

As tabelas completas de resultados são apresentadas no Apêndice A. Realizou-

se uma análise estatística de cada etapa calculando-se a média amostral

x =1

N

N∑i=1

xi, (4.1)

onde xi é a nota em um critério dada pelo i-ésimo participante para um sinal, em

um determinado tipo de implementação (STFT ou CQT). Também foi avaliado o

desvio padrão amostral:

s =

√√√√ 1

N − 1

N∑i=1

(xi − x)2. (4.2)

Utilizou-se um estimador não polarizado pelo número limitado (e pequeno)

de participantes. Nas Figuras 4.1, 4.2, 4.3 e 4.4, é possível observar a média amostral

e o desvio padrão amostral, representado por uma barra de erro, de cada etapa em

suas diferentes configurações de sinal (cores diferentes para cada sinal), critério (S

para separação, R para resíduo e I para integridade) e implementação (L para a

implementação linear STFT e NL para a implementação não-linear CQT), ou seja,

em cada linha das Tabelas A.1, A.2, A.3 e A.4.

29

Figura 4.1: Média e desvio padrão amostrais da etapa tonal.

Figura 4.2: Média e desvio padrão amostrais da etapa transitória.

Ao analisar esses gráficos, conclui-se que com os altos valores de desvio pa-

drão é impossível afirmar a média de cada configuração com uma boa precisão e,

portanto, as tabelas do Apêndice A não permitem uma comparação entre a STFT

e a CQT. Isso ocorreu devido ao fato de haver algumas notas muito afastadas da

média observada. Na Figura 4.5, é apresentado um exemplo em que as notas de um

30

Figura 4.3: Média e desvio padrão amostrais da etapa NMF sem referência.

Figura 4.4: Média e desvio padrão amostrais da etapa NMF com referência.

usuário, marcadas com um ‘◦’, estavam distantes da médias amostrais, marcadas

com um ‘•’.

31

Figura 4.5: Exemplos de notas afastadas da médias.

4.2 Análise Estatística dos Resultados

Para diminuir os desvios padrões é necessário desconsiderar essas notas intru-

sas. No projeto, um algoritmo simples descrito a seguir foi utilizado para a retirada

destes intrusos.

Seja um vetor de dados referente a uma determinada configuração, retira-se

um dos pontos e calculam-se média e desvio padrão amostrais do vetor restante. Se

o ponto retirado estiver distante da média em até duas vezes o desvio padrão, ele

não é considerado um intruso. Caso contrário, este intruso é removido do vetor de

dados.

Esse processo foi realizado em cada ponto das linhas das tabelas. Em seguida,

foi realizado novamente o cálculo estatístico de cada vetor restante. Ao fim desse

processo, os vetores de dados de cada configuração podem possuir tamanhos diferen-

tes, ou seja, de um vetor original de quinze amostras, uma configuração pode ficar

com onze amostras, enquanto outra pode apresentar treze amostras. As Figuras 4.6,

4.7, 4.8 e 4.9 apresentam as novas médias e desvios padrões amostrais.

A partir dessa nova média com um desvio padrão menor, pode-se determinar

qual das duas implementações (STFT ou CQT) foi melhor avaliada em cada caso.

Através de um cálculo sugerido em [13], é possível calcular a diferença entre duas

32

Figura 4.6: Média e desvio padrão amostrais da etapa tonal após a remoção de intruso.

Figura 4.7: Média e desvio padrão amostrais da etapa transitória após a remoção de

intruso.

médias com um intervalo de confiança tão grande quanto se queira. Utilizou-se este

cálculo para obter a diferença entre as médias das configurações. Assim, a finalidade

é obter

µ = E(XSTFT − XCQT

)= µSTFT − µCQT , (4.3)

33

Figura 4.8: Média e desvio padrão amostrais da etapa NMF sem referência após a remoção

de intruso.

Figura 4.9: Média e desvio padrão amostrais da etapa NMF com referência após a remoção

de intruso.

onde XSTFT é a variável aleatória referente as notas com implementação STFT,

XCQT é a variável aleatória referente as notas com implementação CQT e µ é a

estimativa da diferença da média entre essas duas variáveis sendo que, quando µ

assume valores positivos, o método com STFT foi melhor avaliado e, quando assume

34

valores negativos, o método com CQT apresentou melhor avaliação.

De acordo com [13],

µSTFT − µCQT ∈ (xSTFT − xCQT )±

tnSTFT+nCQT−2,α/2 ∗ spooled ∗

√1

nSTFT+

1

nCQT, (4.4)

onde

spooled =

√(nSTFT − 1) s2STFT + (nCQT − 1) s2CQT

nSTFT + nCQT − 2, (4.5)

com xSTFT , sSTFT , nSTFT sendo a média amostral, o desvio padrão e o número de

elementos do vetor de amostras relativo a uma configuração com STFT, respecti-

vamente; xCQT , sCQT , nCQT sendo a média amostral, o desvio padrão e o número

de elementos do vetor de amostras relativo a uma configuração com CQT, res-

pectivamente; e por fim tnSTFT+nCQT−2,α/2 sendo um valor que considera que essa

análise apresenta uma distribuição t-Student1 e permite um intervalo de confiança

de 100(1− α)%.

Dessa forma, foi analisada a diferença entre cada par de configurações de

sinal e critério com o objetivo de comparar qual a melhor técnica para cada caso.

Este cálculo foi realizado para um intervalo de confiança de 95%, isto é, α = 0,05.

Dessa forma, é necessário definir um parâmetro para estabelecer qual representação

possui o melhor desempenho em cada configuração. Considerou-se que caso 80%

ou mais do intervalo se encontrassem na região positiva ou negativa, a STFT ou

a CQT teria apresentado uma melhor avaliação, respectivamente. As Tabelas 4.1,

4.2, 4.3 e 4.4 apresentam os intervalos em que se encontram essas diferenças e qual

a representação melhor avaliada em cada configuração.

1Essa distribuição é a mais adequada ao processo, uma vez que há poucas amostras analisadas.

35

Tabela 4.1: Intervalo das diferenças entre as implementações STFT e CQT na etapa

tonal.Sinal Critério Limites Melhor avaliação

Animal

Separação [−21,10, 4,41] CQT

Resíduo [−40,11, 4,19] CQT

Integridade [11,11, 30,13] STFT

Litanies

Separação [−9,41, 14,83] Inconclusivo

Resíduo [−21,37, 13,55] Inconclusivo

Integridade [−62,77,−18,23] CQT

Hi Hats

Separação [−12,96, 42,26] Inconclusivo

Resíduo [40,93, 61,93] STFT

Integridade [−29,06, 35,72] Inconclusivo

Billie Jean

Separação [−4,18, 24,85] STFT

Resíduo [−5,00, 21,67] STFT



transitória.Sinal Critério Limites Melhor avaliação

Animal

Separação [15,62, 39,00] STFT



Litanies

Separação [−4,49, 28,19] STFT


Integridade [−41,76, 4,76] CQT

Hi Hats

Separação [−23,89, 4,90] CQT



Billie Jean

Separação [33,62, 53,67] STFT



36


NMF sem referência.Sinal Critério Limites Melhor avaliação

Sinal 1Separação [−18,10, 1,41] CQT

Resíduo [−27,67,−1,95] CQT

Sinal 2Separação [−10,46, 16,06] Inconclusivo

Resíduo [−17,60, 3,57] CQT

Sinal 3Separação [−13,75, 14,73] Inconclusivo

Resíduo [−23,49, 0,55] CQT


NMF com referência.Sinal Critério Limites Melhor avaliação

Sinal 1

Separação [−49,88,−6,38] CQT

Resíduo [−44,37,−12,13] CQT

Integridade [−40,52, 4,52] CQT

Sinal 2


Resíduo [−53,64,−28,26] CQT


Sinal 3


Resíduo [−44,83,−1,63] CQT


Sinal 4




37

Capítulo 5

Conclusões

Neste capítulo serão apresentadas as conclusões a respeito dos resultados

expostos no capítulo anterior. Por fim, serão descritos os trabalhos futuros que

podem ser estendidos deste projeto a fim de desenvolver aprimoramentos nesta área

de pesquisa.

5.1 Conclusões

Ao se analisar as tabelas de resultados da avaliação subjetiva apresentadas

anteriormente, é possível observar uma grande variação nas notas das duas primei-

ras etapas, talvez devido ao fato de os participantes terem interpretações diferentes

com relação à terminologia empregada nas etapas tonais e transitórias. A princi-

pal divergência ocorreu no sinal Hi-Hats durante a etapa tonal. Como este sinal

é constituído predominantemente por componentes percussivas, era esperado que

em condições ideais o sinal resultante nessa configuração fosse silêncio. Contudo,

os resultados extremamente discordantes sugerem que isto não ficou claro para os

voluntários, principalmente no critério de integridade.

No Capítulo 3, foi mencionado que não seria informado previamente aos

participantes a diferença entre tonal e transitório. Foi observada nos resultados de

participantes com pouca familiaridade com esses termos uma divergência maior com

relações às médias. Essa escolha de não informá-los parece ter prejudicado a precisão

do resultado.

Com relação às tabelas de diferença de média (nas quais determina-se qual

38

representação tempo-frequência apresentou o melhor desempenho em cada configu-

ração), nota-se que os resultados referentes à técnica de separação de fontes através

de filtragem por mediana foram diversificados. Em algumas configurações a STFT

apresentou um melhor desempenho; enquanto que em outras a CQT a superou.

Porém, não houve um padrão bem definido. Pode-se inferir que esse teste foi incon-

clusivo para esta técnica.

Contudo, para as etapas envolvendo a NMFD, percebe-se que houve um

melhor desempenho da representação por CQT. Isso se explica porque, como os

sinais de mistura eram compostos apenas de sinais de piano, o uso da CQT, que

representa melhor os sinais com pitch definido, é favorecido.

5.2 Trabalhos Futuros

Como mencionado anteriormente, a técnica de separação de fontes através

de filtragem por mediana deve ser explorada com outros sinais e maior variação de

parâmetros para que se possa avaliar se há uma diferença de desempenho entre as

duas implementações.

Para a técnica de NMF, é desejável realizar análises em outros sinais mais

complexos. Um estudo com outras adaptações da técnica de NMF e da NMFD,

como por exemplo a Non-Negative Matrix Factor 2-D Deconvolution (NMF2D) [6]

também pode ser efetuado.

Devido à etapa de reconstrução dos sinais ter utilizado a informação de fase

do sinal de mistura, grande parte dos sinais resultantes dos métodos de separa-

ção apresentaram baixa qualidade. Uma sugestão para melhorar esses resultados é

adaptar processos de reconstrução de fase como os descritos em [14] para as técnicas

implementadas com CQT.

Como já dito no Capítulo 4, houve poucos participantes nos testes subjeti-

vos, o que prejudicou a análise das técnicas. Um número maior de participantes

possibilitaria um refinamento nos resultados produzidos por este projeto.

39

Referências Bibliográficas

[1] ROWE, D. B., Multivariate Bayesian Statistics. Boca Raton, EUA, Chapman

and Hall/CRC, 2003.

[2] FITZGERALD, D., “Harmonic/Percussive Separation using Median Filtering”.

In: 13th International Conference on Digital Audio Effects (DAFX10), pp.

217–220, Graz, Áustria, Dezembro 2010.

[3] VIRTANEN, T., Signal Processing Methods for Music Transcription, capítulo

9 - Unsupervised Learning Methods for Source Separation in Monaural Music

Signals, New York, EUA, Springer-Verlag, pp. 267–296, 2006.

[4] BROWN, J. C., “Calculation of a constant Q spectral transform”, Journal of

the Acoustical Society of America, v. 89, n. 1, pp. 425–434, Janeiro 1991.

[5] HAYKIN, S., VEEN, B. V., Signals and Systems. New Jersey, EUA, Bookman,

2003.

[6] TYGEL, A., Métodos de Fatoração de Matrizes Não-Negativos para Separação

de Sinais Musicais. Dissertação de Mestrado, PEE/COPPE-UFRJ, Dezembro

2009.

[7] SMARAGDIS, P., “Non-negative Matrix Factor Deconvolution; Extraction of

Multiple Sound Sources from Monophonic Inputs”. In: Proceedings of the 5th

International Congress on Independent Component Analysis and Blind Signal

Separation, pp. 494–499, Setembro 2004.

[8] BROWN, J. C., PUCKETTE, M. S., “An efficient algorithm for the calculation

of a constant Q transform”, Journal of the Acoustical Society of America, v. 92,

n. 5, pp. 2698–2701, Janeiro 1992.

40

[9] SCHÖRKHUBER, C., KLAPURI, A., “Constant-Q transform toolbox for music

processing”. In: Proceedings of the 7th Sound and Music Computing Conference,

Barcelona, Espanha, Julho 2010.

[10] GOTO, M., NISHIMURA, T., “RWC Music Database: Music Genre Database

and Musical Instrument Sound Database”. In: Procedings of the 4th Internati-

onal Conference on Music Information Retrieval (ISMIR 2003), pp. 229–230,

Baltimore, EUA, Outubro 2003.

[11] SZCZUPAK, A. L., Identificação de Notas Musicais em Registros Solo de Violão

e Piano. Dissertação de Mestrado, PEE/COPPE-UFRJ, Junho 2008.

[12] BISCAINHO, L. W. P., IRIGARAY, I., “Transient and Steady-State Com-

ponent Extraction Using Nonlinear Filtering”. In: Congreso Internacional de

Ciencia y Tecnología Musical, v. 1, pp. 1–4, Buenos Aires, Argentina, 2013.

[13] DEEP, R., Probability and Statistics. Waltham, EUA, Academic Press, 2006.

[14] CAMPOS, C. V. C., “Algoritmos para Reconstrução da Fase de Sinais de Áu-

dio”, Projeto de Graduação, DEL/POLI-UFRJ, Março 2011.

41

Apêndice A

Tabela Completa de Resultados dos

Testes Subjetivos

A seguir é exibido em tabelas o resultado completo de todas as etapas para

cada participante. Cada tabela é o resultado de uma etapa e nela são apresentadas as

notas, variando de 0 a 100, de cada voluntário para todos os sinais, implementações

e critérios, conforme descrito na Seção 3.3.

42

A.1 Resultados da Etapa Tonal

43

A.2 Resultados da Etapa Transitória

44

A.3 Resultados da Etapa NMF sem Referência

45

A.4 Resultados da Etapa NMF com Referência

46

universidade federal do rio de janeiro escola politécnica...

Documents