medidas de confiança em segmentação automática de fala · síntese de fala, segmentação...

Medidas de Confiançana Segmentação Automática de Fala

Luís António Dias Mestre Figueira

Dissertação para obtenção do Grau de Mestre emEngenharia Electrotécnica e de Computadores

JúriPresidente: Professor Doutor Carlos SilvestreOrientador: Professor Doutor Luís Caldas de OliveiraVogais: Professor Doutor António Serralheiro

Doutora Maria do Céu Viana

Novembro de 2008

Agradecimentos

Gostaria de agradecer, antes do mais, ao Professor Luís Caldas a oportunidade que me deu

de fazer este trabalho, e em especial pelo acompanhamento, ajuda, discussões e muitas ideias,

que muito me ajudaram ao longo desta pequena maratona.

Um sincero obrigado ao Engenheiro Sérgio Paulo por todas as ideias, críticas, sugestões e

tarefas que me deu no dia–a–dia.

Uma palavra de apreço também ao Carlos Mendes, à Profa. Isabel Mascarenhas, e a todos os

colegas do L2F, Inesc, Tecnovoz e VoiceInteraction que sempre me acompanharam e ajudaram.

E, claro, aos meus pais, ao Helder, à Sofia e a todos os amigos e familiares mais próximos:

um sincero obrigado pela paciência e apoio que me transmitiram, e que em muito me ajudou a

realizar este trabalho.

Resumo

O alinhamento fonético de bases de dados de fala é uma tarefa crítica na construção de

vozes para sintetizadores de fala. A qualidade destas vozes depende fortemente da exactidão

da segmentação fonética.

Este trabalho estuda a combinação de diferentes ferramentas de segmentação fonética como

forma de medir a confiança na segmentação fonética de uma base de dados de gravações.

Cada ferramenta de segmentação usada foi cuidadosamente estudada, medindo o seu de-

sempenho na marcação das fronteiras para todos os segmentos fonéticos do corpus. Os seg-

mentos foram agrupados em classes, estudando os resultados para cada par de transições entre

classes. Após esta análise exploratória, estudaram-se novas ferramentas resultantes da combi-

nação dos segmentadores fonéticos individuais, tirando partido dos desempenhos para cada tipo

de transição fonética.

Baseado nas combinações entre alinhadores é proposto um método para avaliar a confiança

na segmentação de conjuntos de frases de uma base de dados de fala.

Palavras Chave

Síntese de Fala, Segmentação Fonética Automática, Medidas de Confiança, Modelos de Mar-

kov Não Observáveis, Alinhamento Temporal Dinâmico

iii

Abstract

The phonetic segmentation of speech databases is a critical task in building synthetic voices

for speech synthesis engines. The quality of theses voices is highly dependent on the accuracy

of the phonetic segmentation task.

This work studies the combination of multiple phonetic segmentation tools as a method of

measuring the confidence on the phonetic segmentation of sentences of a speech recordings

database.

Each segmentation tool was studied thoroughly, measuring its performance in locating bound-

aries for all the phonetic segments in the corpus. The phonetic segments were grouped into

classes and the location of the boundaries between each phone class pair was evaluated. After

this exploratory analysis, new segmentation tools were studied by combining the individual tools,

taking advantage of their better performance for specific phonetic transition types.

Based on this combination of tools, a method for evaluating the confidence on the segmenta-

tion of the set of sentences on a speech corpus is proposed.

Keywords

Speech Synthesis, Automatic Phonetic Segmentation, Confidence Measures, Hidden Markov

Models, Dynamic Time Warping

v

Conteúdo

1 Introdução 1

1.1 Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 Organização do relatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Alinhadores Fonéticos Utilizados 7

2.1 Alinhador baseado em síntese (MAF–DTW) . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1 Geração do sinal sintético de referência . . . . . . . . . . . . . . . . . . . . . . 8

2.1.2 Extracção de características e alinhamento . . . . . . . . . . . . . . . . . . . . 9

2.2 Alinhador baseado em treino de HMM . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.1 Parametrização do sinal de fala . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.2 Treino e adaptação dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.3 Alinhamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3 Audimus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3.1 Modelos de língua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3.2 Adaptação dos modelos acústicos . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4 eHMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 Bases de Dados 19

3.1 Classes Fonéticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2 Descrição das bases de dados de fala . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2.1 Base de dados lgaspar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2.2 Base de dados bdmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2.3 Base de dados bdfemale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3 Sequências fonéticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4 Bases de dados de alinhamentos em Structured Query Language (SQL) . . . . . 23

4 Segmentador de Referência 27

4.1 Desempenho individual dos alinhadores . . . . . . . . . . . . . . . . . . . . . . . . 27

4.2 Ordenamento dos alinhadores fonéticos . . . . . . . . . . . . . . . . . . . . . . . . 30

vii

4.3 Configuração de referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5 Medidas de Confiança 37

5.1 Confiança baseada na concordância de segmentadores . . . . . . . . . . . . . . . 37

5.1.1 Identificação do classificador binário . . . . . . . . . . . . . . . . . . . . . . . . 37

5.1.2 Capacidade discriminatória do classificador . . . . . . . . . . . . . . . . . . . . 39

5.2 Classificador baseado na duração . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.3 Classificador misto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5.4 Medidas de confiança ao nível da frase . . . . . . . . . . . . . . . . . . . . . . . . 46

6 Conclusão 51

6.1 Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Referências 55

A Alfabeto fonético para o dialecto padrão do Português Europeu 59

B Distribuição das transições fonéticas na base de dados lgaspar 61

C Percentagem de segmentos com erro inferior a 20ms 63

D Configuração dos segmentadores S1 e S2 67

viii

Lista de Figuras

2.1 Funcionamento do algoritmo MAF–DTW . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2 Esquema de um modelo de Markov não–observável do tipo esquerda–direita . . . 11

2.3 Esquema de funcionamento do segmentador baseado no HTK . . . . . . . . . . . 12

2.4 Esquemas de funcionamento do HInit . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.5 Diagrama de blocos do sistema Audimus . . . . . . . . . . . . . . . . . . . . . . . 14

4.1 Evolução da percentagem de segmentos abaixo de um limiar de erro . . . . . . . 31

4.2 Evolução da percentagem de segmentos abaixo de um limiar de erro. Gráficos que

comparam o desempenho do segmentador de referência generalista (S0) com o

segmentador de referência óptimo de cada BD . . . . . . . . . . . . . . . . . . . . 36

5.1 Fronteiras correctas alinhadas por S0, em função de S0S1 . . . . . . . . . . . . . 38

5.2 Detalhes da análise no wavesurfer de dois segmentos problemáticos . . . . . . . . 40

5.3 Curva ROC para o classificador baseado na concordância entre S0 e S1 . . . . . 42

5.4 Curva ROC para o classificador baseado na duração média . . . . . . . . . . . . . 43

5.5 Curva ROC para o classificador misto conjuntivo . . . . . . . . . . . . . . . . . . . 46

5.6 Resultado de confiança em função da percentagem de segmentos correctos, por

frase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.7 Média de segmentos correctos por frase, em função do limiar de confiança . . . . 49

ix

Lista de Tabelas

2.1 Características acústicas usadas no alinhador MAF–DTW . . . . . . . . . . . . . . 9

3.1 Descrição das classes fonéticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2 Número de transições fonéticas, no subconjunto de treino do corpus lgaspar . . . 21

3.3 Número de transições fonéticas no subconjunto anotado manualmente da base de

dados bdmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.4 Número de transições fonéticas corpus bdfemale . . . . . . . . . . . . . . . . . . . 22

3.5 Distribuição de fones por classes, segmentações manuais de todos os corpus . . 23

4.1 Comportamento global dos segmentadores . . . . . . . . . . . . . . . . . . . . . . 29

4.2 Ordenação dos alinhadores de acordo com o tipo de transição . . . . . . . . . . . 32

4.3 Configuração do segmentador de referência (S0) . . . . . . . . . . . . . . . . . . . 33

4.4 Comparação das várias configurações do segmentador de referência . . . . . . . 35

5.1 Matriz de confusão para o classificador baseado na concordância entre S0 e S1 . 42

5.2 Matriz de confusão para o classificador baseado na duração . . . . . . . . . . . . 44

5.3 Classificador misto conjuntivo (AND) . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.4 Classificador misto disjunto (OR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.5 Erro médio e desvio padrão dos resultados de confiança nas frases do corpus de

teste lgaspar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

A.1 Alfabeto fonético para o dialecto padrão do Português Europeu . . . . . . . . . . . 59

C.1 Percentagem de segmentos com erro menor que 20ms, BD lgaspar . . . . . . . . 64

C.2 Percentagem de segmentos com erro menor que 20ms, bdfemale . . . . . . . . . 65

C.3 Percentagem de segmentos com erro menor que 20ms, bdmale . . . . . . . . . . 66

D.1 Configuração do 2o segmentador de referência (S1) . . . . . . . . . . . . . . . . . 67

D.2 Configuração do 3o segmentador de referência (S2) . . . . . . . . . . . . . . . . . 67

xi

Lista de Acrónimos

DTW Dynamic Time Warping

EST Edinburgh Speech Tools

HMM Hidden Markov Models

HTK Hidden Markov Model Toolkit

MFCC Mel–frequency cepstral coefficients

MLP Perceptrão Multi–Camada

SQL Structured Query Language

TTS Text–To–Speech

WFST Weighted Finite State Transducers

ROC Receiver Operating Characteristic

xiii

Capítulo 1

Introdução

Os sintetizadores baseados em concatenação de unidades são actualmente os mais usados

na área da síntese de fala, especialmente devido ao nível de desenvolvimento tecnológico atin-

gido que permite, quer em termos de processamento, quer de capacidade de armazenamento, a

construção de bases de dados mais extensas, possibilitando um discurso sintético mais natural

e perceptível.

Em grande parte das situações a qualidade da voz produzida a pelos sistemas de concate-

nação de unidades depende do correcto tratamento da base de dados de fala. A construção e

tratamento desta base de dados é a fase em que reside a maior parte do esforço dispendido para

produzir síntese de qualidade em sistemas Text–To–Speech (TTS).

Antes da gravação da base de dados é necessário desenhar as frases (prompts) a fornecer

aos locutores — de acordo com vários critérios, desde o domínio das vozes como o tipo de

prosódia desejada — e escolher os locutores. O processo de gravação em si é também muito

sensível: é fundamental que não haja ruído, e que o locutor seja consistente na forma como lê

— razão pela qual muitas vezes se recorre a locutores profissionais. Após a fase de gravação da

base de dados inicia-se o enriquecimento desta, de forma a produzir o inventário de fala. Para

tal procede-se a várias operações, como a extracção de características acústicas dos sinais de

fala — Mel–frequency cepstral coefficients (MFCC), f0, energia — ou o cálculo de pitchmarks.

É também nesta fase que é realizado o alinhamento fonético das frases que constituem o

conjunto das gravações de fala. O alinhamento fonético é o processo de detecção das fronteiras

entre fones — tipos distintos de sons — em sinais de fala. Esta fase é crucial, pois a qualidade

da síntese depende, em larga medida, da exactidão com que são marcadas fronteiras temporais

das unidades a serem usadas pelo sintetizador.

Numa avaliação perceptual descrita em Kawai & Toda [2004], na qual foram comparados os

resultados de segmentadores construídos com bases de dados segmentadas manual e automa-

ticamente, verificou-se que a qualidade da fala produzida a partir das segmentações manuais é

superior. No entanto, dado a grande quantidade de fala necessária para construir vozes com boa

qualidade, é impraticável proceder-se ao seu o alinhamento manual. A anotação manual, ainda

1

que usada somente para correcção de erros resultantes da anotação automática, requer sóli-

dos conhecimentos de linguística e o domínio das ferramentas informáticas actualmente usadas

nesta área. Trata-se igualmente de uma tarefa extremamente morosa, pelo que muito dispen-

diosa. Além do mais, a anotação manual carece de normas padrão amplamente aceites na

comunidade de linguistíca, o que pode conduzir à falta de coerência na aplicação dos critérios

de segmentação entre diversos anotadores [Amaral et al., 1999; Carvalho, 2004]. Surge assim

a necessidade utilização de técnicas automáticas fiáveis para realizar esta tarefa, de forma a

minimizar a posterior intervenção humana neste processo.

1.1 Estado da Arte

Existem várias técnicas diferentes para segmentar o sinal de fala, sendo dois os tipos de

sistemas de uso mais generalizado: sistemas baseados em treino de modelos estatísticos e

sistemas baseados em síntese de fala.

Os sistemas baseados em treino de modelos acústicos, nomeadamente Hidden Markov

Models (HMM), são sobejamente usados em processamento de fala, essencialmente por to-

marem em consideração a variação estatística do sinal de fala [Malfrére et al., 2003]. No entanto,

para além de ser computacionalmente pesada, um dos problemas da segmentação usando HMM

é necessitar de um alinhamento fonético inicial (bootstrapping) ou de um conjunto de modelos

já razoavelmente adaptados ao orador. Uma vantagem dos alinhadores baseados em síntese,

usando o algoritmo Dynamic Time Warping (DTW), é não haver necessidade de treino de mo-

delos acústicos, tornando o processo de alinhamento mais rápido. Por outro lado, para se poder

utilizar esta técnica, é necessário que exista uma voz sintética da mesma língua na qual se

pretende trabalhar.

De acordo com Kominek et al. [2003]; Malfrére et al. [2003], não é possível afirmar que uma

abordagem seja francamente superior à outra. Nenhum destes métodos apresenta resultados

significativamente melhores que o outro, tendo ambos as suas especificidades: o alinhamento

baseado em síntese — aplicando o algoritmo DTW — é cerca de 70% das vezes mais preciso que

o sistema de HMM — mas é mais provável que cometa um número superior de erros grosseiros.

O sistema baseado em HMM é assim mais fiável, mas menos preciso. Para colmatar esta falta

de precisão, existem vários trabalhos na área do refinamento local das fronteiras colocadas pelos

segmentadores baseados em HMM [Matousek et al., 2003; Nicodem et al., 2008; Toledano et al.,

2003].

Um erro grosseiro de segmentação tem um impacto na qualidade perceptual da fala sinte-

tizada, muito mais significativo que muitos erros pequenos. Para além disso, a dimensão das

bases de dados actualmente usadas em síntese de fala — muitas vezes com mais de 8 horas de

material gravado por apenas um locutor, ainda que com material de diferentes contextos [Oliveira

2

et al., 2008] — permite construir vozes com boa qualidade sem haver necessidade de usar todo

o material disponível. Torna-se assim possível seleccionar de uma base de dados apenas as

frases desejadas, escolhendo só aquelas para as quais se tem maior confiança na segmentação

fonética. Assume assim grande importância a capacidade de detectar erros grosseiros na base

de dados.

No trabalho apresentado em Kominek et al. [2003] estuda-se a relação entre os resultados

obtidos com um método de segmentação baseado em HMM e um algoritmo DTW, concluindo

que os erros de ambos não estão fortemente correlacionados, pelo que a sua combinação pode

ser usada para detectar segmentos problemáticos. É estudado um sistema que se baseia na

distribuição dos erros nas duas ferramentas e na sua estatística — média e desvio padrão —

para identificar segmentos que possam necessitar de correcção manual. Ainda neste trabalho

são estudas as comparações entre as fronteiras dos dois segmentadores, assim como das du-

rações de cada segmento, de forma a remeter para inspecção/correcção manual as frases que

apresentem maior número de possíveis erros de segemntação.

Em Kominek & Black [2004] é apresentado um segmentador baseado em HMM, que usa vá-

rios modelos acústicos para cada tipo de fone. Esta abordagem, devidamente intitulada “family–

of–models”, usa modelos adaptados a vários falantes — com e sem contexto (trifones) — efec-

tuando várias estimativas da localização das fronteiras para cada fone. O estudo da variância

destas estimativas permite reduzir o número de outliers, melhorando de forma significativa a

qualidade da voz de selecção de unidades construída a partir destas segmentações.

Nos artigos Jarifi et al. [2006, 2008] é apresentado um sistema que combina simultaneamente

três ferramentas de alinhamento automático. É efectuado um estudo do comportamento destes

segmentadores em termos de transições fonéticas, de forma a afinar pesos de selecção das

ferramentas. Através da combinação ponderada dos resultados de três métodos automáticos de

segmentação fonética, os autores atingem resultados superiores aos obtidos com qualquer uma

das ferramentas individuais estudadas.

1.2 Objectivos

O objectivo deste trabalho é avaliar a segmentação fonética gerada por diferentes ferramentas

automáticas, usando a combinação desses resultados para classificar a confiança na qualidade

da segmentação fonética.

Dado que existe uma grande variedade de ferramentas de alinhamento fonético disponíveis,

é importante encontrar formas combinar os seus resultados. Numa fase inicial deste trabalho

reúne-se um conjunto de alinhadores disponíveis no laboratório e estuda-se o seu desempe-

nho, comparando os seus resultados com uma base de dados de referência — alinhada à mão.

3

Este estudo conduz à criação de um novo segmentador cuja configuração depende do tipo de

transição fonética em questão — um segmentador de referência .

É com base na configuração obtida para o segmentador de referência que se calculam as

medidas de confiança. Estas são baseadas na distância entre as várias configurações estuda-

das para o segmentador de referência. Como comparação, neste trabalho faz-se também um

estudo de medidas de confiança baseadas em estatísticas simples das segmentações fonéticas

— média e desvio padrão da duração dos fones. Estudam-se igualmente formas de conjugar

ambos os tipos de medidas.

Um dos principais objectivos deste trabalho é permitir a detecção de frases problemáticas

no inventário — casos em que tipicamente há vários segmentos consecutivos com erros de

segmentação. A identificação destas frases é útil para detectar anomalias nas bases de dados

e/ou nas ferramentas usadas, como:

• o locutor lê o texto que lhe é fornecido de forma diferente da prevista;

• o texto tem erros de normalização;

• há presença de ruído na gravação;

• mau funcionamento das próprias ferramentas de segmentação.

Após a detecção das frases do inventário em que o nível de confiança é mais baixo, é possível

tomar a devida acção: verificá-las manualmente, de forma a corrigir o problema — casos de

problemas de normalização, p.e. — , ou retirá-las do inventário, caso não seja possível corrigir

os seus problemas sem recurso ao alinhamento manual.

Apesar deste trabalho ter um capítulo dedicado na íntegra à descrição dos segmentadores

fonéticos usados, a abordagem que se pretendeu tomar foi o desenho de um algoritmo que

funcione independentemente das ferramenta escolhidas. Neste trabalho optou-se por trabalhar

com 4 alinhadores fonéticos de características distintas: 3 baseados em adaptação de modelos

acústicos ao orador — Audimus, eHmm e HTK — sendo os dois últimos baseados em HMM e o

primeiro em redes neuronais. Usou-se também um alinhador baseado em síntese, o DTW.

1.3 Organização do relatório

No próximo capítulo deste relatório apresentam-se as ferramentas de segmentação usadas.

No Capítulo 3 descrevem-se as bases de dados de fala utilizadas ao longo do trabalho.

No Capítulo 2 são descritas as ferramentas de segmentação fonética usadas, assim como a

base de dados de alinhamentos construída.

No Capítulo 4 as ferramentas de segmentação fonética são avaliadas em detalhe, sendo

descrita a metodologia usada para construir o segmentador de referência. Neste capítulo são

apresentados resultados obtidos com todas as ferramentas, quer nas bases de dados de treino

quer nas de teste.

4

No Capítulo 5 é efectuado um estudo sobre algumas medidas de confiança baseadas quer

na duração média dos segmentos, quer na combinação dos segmentadores de referência.

Finalmente, no último capítulo deste trabalho apresentam-se as principais conclusões, assim

como possíveis direcções de trabalho futuro.

5

Capítulo 2

Alinhadores Fonéticos Utilizados

Neste capítulo descrevem-se os vários alinhadores fonéticos utilizados neste projecto, assim

como a configuração usada em cada um. Foram usadas quatro ferramentas de segmentação

fonética apresentando características distintas: um segmentador baseado em síntese, dois ba-

seados em treino de Hidden Markov Models (HMM) e, finalmente, um outro baseado em redes

neuronais. Note-se que duas destas ferramentas — o MAF–DTW e o HTK — foram usadas nos

algoritmos de construção de vozes para síntese de fala [Figueira & Santos, 2006], razão pela

qual o seu funcionamento é explicado com maior detalhe neste capítulo. No que diz respeito ao

Audimus, este é um reconhecedor de fala desenvolvido pelo grupo L2F. Por sua vez, o eHmm

é um alinhador fonético desenvolvido na Universidade de Carnegie Mellon, e distribuído com o

sistema de construção de vozes Festvox [Black & Lenzo, 2006].

2.1 Alinhador baseado em síntese (MAF–DTW)

A segmentação baseada em síntese parte da seguinte premissa: para se alinhar fonetica-

mente um sinal de fala, usando como informação adicional a transcrição ortográfica, gera-se

uma forma de onda artificial, usando um sistema TTS. Seguidamente, extraem-se vectores de

coeficientes acústicos de ambos os sinais, de forma a parametrizar as duas formas de onda —

o original e o artificial. O melhor alinhamento entre as sequências de vectores de característi-

cas acústicas dos sinais sintético e gravado é obtido recorrendo ao algoritmo DTWs [Sakoe &

Chiba, 1984], obtendo-se como resultado final a identificação das fronteiras dos fones no sinal

original. Este algoritmo calcula o referido alinhamento minimizando a distância acumulada entre

os vectores de características de ambos os sinais. Com base nesse alinhamento e na informa-

ção temporal do sinal sintético, é possivel mapear as fronteiras dos segmentos fonéticos do eixo

temporal do sinal sintético para o eixo temporal do sinal gravado, obtendo-se assim as fronteiras

dos segmentos do material gravado.

Acrescente-se neste trabalho é usada uma variante do algoritmo DTW clássico — o MAF–

DTW (do inglês Multiple Acoustic Feature based DTW–Algorithm [Paulo & Oliveira, 2003]). Nesta

7

abordagem, a distância acústica entre dois fones é calculada usando pares distintos de carac-

terísticas dependentes do tipo de transição fonética. Este processo melhora o desempenho do

algoritmo DTW tradicional — que usa sempre o mesmo tipo de características independente-

mente do tipo de transição fonética. Na Figura 2.1 encontra-se um esquema do funcionamento

deste algoritmo, ignorando a geração da sequência fonética (conversão grafema–fonema), assu-

mindo assim que esta já é conhecida.

S ina l de fa la or ig inal

Algoritmo DTW

S ina l de fa la s in tét ico

Segmentação fonét ica do s inal de fa la or ig inal

Extracção de características

Extracção de características

Geração dosinal sintético

Sequênc ia fonét ica

Sequênc ia fonét ica do s inal s intét ico Ident i f i cação tempora l das f ron te i ras en t re segmentos Ident i f icação da c lasse acúst ica dos fones

Figura 2.1: Funcionamento do algoritmo de segmentação baseado em síntese (MAF–DTW)

2.1.1 Geração do sinal sintético de referência

No que diz respeito ao sinal sintético de referência, este é gerado com o sistema de TTS do

Festival — sistema de síntese de fala desenvolvido pela Universidade de Edinburgo. No caso de

a base de dados a alinhar ser em Português Europeu, a voz utilizada é de um falante masculino

pertencente à variante padrão do Português Europeu. A voz usada neste processo de síntese

deve ser o mais parecida possível com a nova voz que se pretende criar, devido à influência que

pode ter nos resultados do alinhamento. Para a obtenção de melhores resultados, o ideal é usar

uma voz de um locutor do mesmo sexo e falante do mesmo dialecto.

Esta é uma voz de concatenação de difones, para que não existam descontinuidades nas

fronteiras entre fones (a concatenação dos difones é feita no centro dos fones), e porque neste

tipo de vozes é conhecida com exactidão a localização da fronteira entre os fones. Também não

é efectuado qualquer pós–processamento do sinal — seja filtragem ou manipulação prosódica

— de forma a não distorcer o sinal sintético.

8

2.1.2 Extracção de características e alinhamento

As distâncias acústicas entre os sinais original e sintetizado são calculadas a partir de coe-

ficientes acústicos. Assim sendo, torna-se necessário parametrizar os dois tipos de sinal. Para

tal usam-se janelas espaçadas de 5ms, calculando os seguintes parâmetros acústicos: coefici-

entes MFCC, coeficientes de predição linear (LPC) e energia. Em seguida é aplicado o algoritmo

DTW, cujas entradas são o sinal sintetizado — com o respectivo alinhamento fonético — e o

natural e, ainda, os ficheiros contendo os respectivos coeficientes acústicos. Desta forma o DTW

é aplicado usando uma matriz com as distâncias euclidianas entre as janelas dos sinais sintético

e natural. Esta matriz é construída de forma iterativa, sendo feita par de fones a par de fones.

De acordo com a classe fonética da transição entre os fones do sinal sintético, escolhe-se o par

de características acústicas que melhor identifica a fronteira entre segmentos [Paulo & Oliveira,

2003].

De seguida, calcula-se a distância euclideana entre estes vectores de características, preen-

chendo a matriz de distâncias. Construída esta matriz, que estabelece a correspondência entre

as janelas dos dois sinais, extrai-se a função que calcula o mapeamento não linear entre os dois

sinais.

Na Tabela 2.1 encontram-se os pares de características acústicas usados neste trabalho para

calcular as distâncias, para os vários tipos de transições fonéticas. No MAF–DTW (para Por-

tuguês Europeu) distinguem-se as seguintes classes fonéticas: vogal, nasal, fricativa, líquida

lateral, líquida vibrante, oclusiva e silêncio. Na implementação original do algoritmo, descrita

em Paulo & Oliveira [2003], são usados outros tipos de características acústicas para obter me-

lhores resultados — nomeadamente formantes e taxa de cruzamento por zero — que não são

usados nesta implementação. A razão desta escolha tem como objectivo facilitar o seu uso inde-

pendentemente do sexo do falante (as formante calculadas para falantes masculinos dão resulta-

dos mais fiáveis que para femininos). Relativamente a este trabalho usou-se a implementação do

MAF–DTW que se encontra apresentada de forma mais detalhada em Figueira & Santos [2006].

Tabela 2.1: Características acústicas usadas no alinhador MAF–DTW, de acordo com o tipo de transi-ção entre segmentos

Nasal Fricativa Líquida Lateral Oclusiva Silêncio Vogal Líq. Vibr.

Nasal mfcc, lsf mfcc, mfcc mfcc, en lsf, en mfcc, en mfcc, mfcc mfcc, enFricativa lsf, lsf en, mfcc mfcc, en lsf, en mfcc, en lsf, lsf lsf, enLíquida Lateral lsf, en lsf, en lsf, lsf en, mfcc mfcc, en en, mfcc —Oclusiva lsf, en lsf, lsf lsf, en mfcc, mfcc lsf, mfcc mfcc, en en, enSilêncio lsf, en lsf, en lsf, en lsf, en — lsf, en —Vogal mfcc, en mfcc, lsf mfcc, en lsf, en mfcc, en lsf, mfcc en, enLíq. Vibrante mfcc, mfcc lsf, lsf — en, en lsf, en en, en —

9

2.2 Alinhador baseado em treino de HMM

Os HMM são uma ferramenta estatística extremamente usada na área do processamento da

fala, em especial na área do reconhecimento, desde há várias décadas, devido à sua natureza

probabilística e à existência de algoritmos poderosos de ajuste automático dos parâmetros dos

modelos de forma iterativa. Nestes, considera-se o sinal estacionário (em intervalos de curta

duração) pelo que se pode parametrizar o sinal usando intervalos de tempo fixos.

Um processo de Markov é um processo estocástico (X), caracterizado por uma sequência de

estados Xi (de agora em diante denominado por xi) e pelas probabilidades de transição entre

estes (aij), e que exibe a seguinte propriedade fundamental: a probabilidade de transição do

estado xi para o estado xi+1 depende apenas do estado anterior, e não de toda a sequência de

estados passados, ou seja:

P (Xi+1 = x|X0 = x0, X1 = x1, . . . , Xi = xi) = P (Xi+1 = x|Xi = xi) (2.1)

Um modelo de Markov não observável é definido por Rabiner [1989] como um par de processos

estocásticos (máquina de estados finita) M = (X,O,Π), em que o processo X é uma cadeia

de Markov de primeira ordem não directamente observável (escondida) e que apenas pode ser

observado através do processo O, que representa a sequência de variáveis aleatórias que assu-

mem valores no espaço de observações, com determinada probabilidade de emissão bi em cada

um dos estados. A distribuição inicial de probabilidades representa-se por Π.

Em processamento da fala, as observações são vectores de coeficientes acústicos do sinal

de fala, representando os estados qualquer unidade fonética. Adopta-se geralmente um modelo

do tipo esquerda–direita, onde o índice do estado aumenta (ou permanece o mesmo) à medida

que o tempo aumenta — ver Figura2.2.

Desta forma, cada estado tem uma distribuição de probabilidade de acordo com as observa-

ções possíveis; logo, a partir da análise da sequência de observações gerada, é possivel estimar

a sequência de estados que esteve na sua origem.

Os Mel–frequency cepstral coefficients (MFCC) são obtidos aplicando a transformada de Fou-

rier a janelas (tipicamente de Hamming) do sinal de fala, descorrelacionando o espectro com a

transformada de coseno discreta, sendo frequentemente usados para fazer a parametrização es-

pectral de sinais de fala. Os estados de um HMM podem ser caracterizados por uma distribuição

estatística — misturas Gaussianas — associadas à verosimilhança de cada vector de observa-

ções [Young et al., 2002]. Cada estado, — tipicamente fones ou palavras — tem uma diferente

distribuição de observações.

A topologia dos HMM usados é a seguinte: tipo esquerda–direita com 5 estados, sendo cada

estado composto por 8 misturas gaussianas. O primeiro e último estados são não–emissores,

10

como se pode ver na ver Figura2.2. O único modelo em que não se adopta esta topologia é para

o modelo dos silêncios inferiores a 50ms (silêncio curto, /sp/), composto apenas por 3 estados.

a12 a23 a34 a 45

a22 a33 a44

1 2 3 4 5

a24 a35

b2( ) b3( ) b4( )

a13

Figura 2.2: HMM esquerda–direita simplificado [Young et al., 2002]

Este segmentador necessita de uma segmentação fonética para inicializar o treino iterativo

dos modelos. É com base nestes alinhamentos que se treina o primeiro HMM. Neste trabalho,

o HTK usa alinhamentos produzidos pelo MAF–DTW; contudo, qualquer outro alinhamento pode

ser fornecido pelo segmentador, sendo que quanto melhor a for a sua qualidade, mais precisas

são as estimações dos modelos treinados a partir dele, o por sua vez conduz a uma melhor

segmentação do sinal de fala Carvalho et al. [1998].

O modo de funcionamento do alinhador pode ser resumido da seguinte forma: inicialmente

procede-se à parametrização acústica dos sinais de fala. De seguida, e de forma iterativa,

treinam-se os modelos (inicialmente os modelos genéricos, posteriormente os modelos treina-

dos numa iteração anterior). Os modelos treinados são usados para descodificar a sequência

fonética fornecida. Esta sequência fonética é posteriormente usada para efectuar um novo treino

de modelos. Este procedimento é iterativo, e realizado até que se considere ter atingido a con-

vergência. O funcionamento desta segemntador encontra-se esquematizado na Figura 2.3.

O treino dos HMM é efectuado de forma sequencial. Primeiro os HMM são inicializados

a partir das transcrições fonéticas provenientes do último alinhamento e do modelo de HMM

calculado — que tanto pode ser um modelo padrão, como um modelo resultante de um ciclo de

treino.

2.2.1 Parametrização do sinal de fala

O primeiro passo desta fase é a parametrização dos sinais de áudio. Esta operação é efectu-

ada recorrendo à ferramenta HCopy — distribuída com o conjunto de ferramentas Hidden Markov

Model Toolkit (HTK). Cada vector de coeficientes é composto por 12 coeficientes MFCC, respec-

tivos coeficientes delta de primeira e segunda ordem, e, cada um destes conjuntos, o respectivo

valor de energia (coeficiente de ordem zero), num total de 39 coeficientes por vector. Todas

as ferramentas HTK usam estes vectores de observações para estimação dos modelos, pelo

11

H M M " canón i co "

H M M t r e i n a d o

A l i n h a m e n t o f o n é t i c o

N

S


Treino(HInit +HRest)

Al inhamento(HVite)

Convergência?

A l i n h a m e n t o f o n é t i c o i n i c i a l


Figura 2.3: Esquema de funcionamento do segmentador baseado no HTK

que estes não voltam a ser calculados. O espaçamento entre vectores é de 5ms e estes são

calculados janelas de Hamming com largura de 20ms.

2.2.2 Treino e adaptação dos modelos

O treino dos HMM é preferencialmente feito com base em modelos adaptados ao orador.

Caso estes não existam, parte-se de um modelo geral, que indica a topologia do HMM — ta-

manho dos vectores, tipo de parâmetros e número de estados e misturas. A topologia utilizada

foi a tradicional: modelos do tipo esquerda–direita, com 5 estados cada (3 estados centrais) e 8

misturas por estado, excepto no caso dos ditongos e do fone /o~/, em que, devido sua à raridade

de ocorrência apenas se usam 6 misturas gaussianas.

A inicialização dos modelos é feita com a ferramenta HInit, distribuída com o HTK. O princípio

de funcionamento do HInit baseia-se no conceito de um HMM como gerador de vectores de

fala, podendo-se considerar cada ficheiro de treino (contendo a parametrização efectuada ao

sinal) como o resultado (output) do HMM cujos parâmetros se pretendem estimar. Logo, se o

estado gerador de cada vector do conjunto de treino fosse conhecido, os valores desconhecidos

de médias e variâncias poderiam ser estimados pesando todos os vectores associados a cada

estado [Young et al., 2002]. Este método é implementado segundo um esquema iterativo como

descrito na Figura 2.4(a), em que o algoritmo de Viterbi é usado para determinar a sequência

de estados mais provável que corresponde a cada observação, sendo os parâmetros do HMM

estimados em seguida, inicializando assim o modelo de cada fone isoladamente. Esta operação

é feita iterativamente, até se atingir convergência ou um número máximo de iterações.

O HInit tem a opção de efectuar a segmentação inicial e uniforme dos ficheiros de transcri-

ção. No entanto, como é usado tendo sempre à entrada uma segmentação fonética de todos

12

os ficheiros — oriunda do alinhamento inicial baseado em síntese ou do alinhamento usando o

HVite nas iterações posteriores, não necessita desta segmentação inicial, procedendo somente à

actualização do modelo. No entanto, caso se detectem problemas nesta abordagem, esta opção

pode ser desactivada, de forma a que o HInit faça a segmentação uniforme das transcrições.

Viterbi Segmentation

Update HMM Parameters

Prototype HMM

Converged?No

Yes

Initialised HMM

Uniform Segmentation

Initialise Parameters

(a) Funcionamento

InputHMM Def(ih.1)

OutputHMM Def(ih.2)

HInit

000 103 eh024 091 ih092 134 t135 182 th

000 023 s024 091 ih092 134 t135 182 th

000 056 ih024 091 ih092 134 t135 182 th

000 023 b024 091 ih092 134 t135 182 th

000 016 a024 091 ih092 134 t135 182 th

000 023 b024 091 ih092 134 t135 182 ih

data/tr1.mfc

data/tr2.mfc

data/tr3.mfc

data/tr4.mfc

data/tr5.mfc

data/tr6.mfc

labs/tr1.lab

labs/tr2.lab

labs/tr3.lab

labs/tr4.lab

labs/tr5.lab

labs/tr6.lab

(b) Processamento de ficheiros

Figura 2.4: Esquemas de funcionamento do HInit [Young et al., 2002]

Uma vez inicializado o HMM, usa-se o algoritmo de Baum–Welsh, que calcula a probabilidade

de estar num estado em cada instante. O valor de probabilidade assim calculado é usado para

actualizar os parâmetros do HMM. A entrada desta ferramenta são os modelos inicializados pelo

HInit, assim como as transcrições fonéticas e os coeficientes acústicos.

No final de cada treino de modelos, é feito o tratamento dos silêncios. Tendo como referência

a topologia representada na Figura 2.2, altera-se o modelo do silêncio normal (/sil/) criando

duas novas transições, uma do estado 2 para o estado 4, e outra do estado 4 para o estado

2, de forma a que o seu modelo se torne mais robusto. Ao adicionar estas transições, pode-se

assim transitar do estado 4 para o estado 2, absorvendo o ruído impulsivo das gravações [Young

et al., 2002]. Para efectuar esta operação usa-se a ferramenta HHed, editor de modelos do

HTK. Constrói-se também o modelo HMM para o silêncio curto (/sp/), composto por apenas um

estado, o estado central do /sil/.

2.2.3 Alinhamento

O passo seguinte consiste no alinhamento das transcrições a partir dos HMM treinados. Este

procedimento é realizado pela ferramenta HVite. À saída desta etapa, são criadas as transcrições

13

fonéticas para cada uma das elocuções. É necessário fornecer ao HVite um dicionário de (word

level lattice), com as transcrições fonéticas ao da palavra, para todo o corpus. De acordo com

as pronúncias do dicionário e com base nos modelos treinados anteriormente, o HVite escolhe

a pronúncia que melhor espelha a respectiva realização acústica, produzindo um novo alinha-

mento. Os novos alinhamentos produzidos pelo HVite são todos gravados num único ficheiro,

pelo que é necessário proceder à separação das transcrições em ficheiros individuais. Ao dividir

os ficheiros, realiza-se igualmente uma análise das transcrições de forma a corrigir alguns erros

ocorridos no alinhamento, nomeadamente o apagamento de silêncios contíguos, substituindo-os

por apenas um silêncio, ou o tratamento dos silêncios antes das oclusivas surdas (/p/, /t/ e /k/)

— estes fones são caracterizados por uma zona de silêncio quase total (oclusão) antes da zona

de explosão, pelo que um erro muito comum no alinhamento por HMM é identificar esta zona de

silêncio como sendo um silêncio curto.

O ciclo de treino/alinhamento é efectuado de forma iterativa até que se atinja a convergência.

Considera-se que esta foi atingida caso menos de 0,5% dos fones tenham uma diferença superior

a 5 ms entre duas iterações sucessivas do algoritmo.

2.3 Audimus

O Audimus é um sistema de reconhecimento de fala desenvolvido no grupo L2F. Trata-se de

um sistema híbrido que combina as capacidades discriminativas de classificação de padrões de

um Perceptrão Multi–Camada (MLP) com as capacidades de modelação dos processos de HMM

para modelar a natureza temporal do sinal de fala [Neto & Meinedo, 2000; Neto et al., 1999].

Figura 2.5: Diagrama de blocos do sistema Audimus Meinedo [2008]

Para os modelos acústicos são utilizados 3 diferentes métodos de extracção de caracterís-

ticas: PLP (Perceptual Linear Prediction), Log-Rasta (Relative Spectral) e MSG (Modulation-

filtered Spectogram). Nos dois primeiros métodos é utilizada uma janela de contexto de 7 tramas,

extraindo-se um conjunto de 12 coeficientes com o logaritmo da energia e as suas primeiras de-

rivadas temporais, resultando num vector com um total de 26 elementos. No terceiro método é

utilizada uma janela com 9 tramas, extraindo-se 14 coeficientes. Estes são submetidos a dois

filtros (passa-baixo e passa-banda), que são concatenados, gerando um conjunto de 28 elemen-

14

tos. Todos estes processos de extracção de características funcionam sobre o mesmo conjunto

de 38 fones representativos da língua portuguesa, mais 2 representativos de silêncio e respira-

ções. Posteriormente, serão combinados para formar um único MLP, utilizado no processo de

descodificação [Meinedo et al., 2003].

O processo de descodificação de fala do Audimus faz corresponder ao sinal acústico a repre-

sentação ortográfica da frase que foi produzida. Escolhe a sua hipótese com base num voca-

bulário finito composto por palavras que podem ser reconhecidas, e num modelo de língua que

apresenta um conjunto de restrições à forma como as palavras se relacionam entre si.

2.3.1 Modelos de língua

Os modelos de língua podem ser compostos por regras formais linguísticas ou por modelos

estocásticos. Os modelos com base em regras, além de serem computacionalmente exigentes,

tendem a ser demasiado restritivos para utilização em fala espontânea, caracterizada por fre-

quentes construções frásicas gramaticalmente incorrectas. Assim, em reconhecimento de fala,

é muito mais usual a introdução de modelos de língua com base em modelos estocásticos, em

que se realiza uma distribuição de probabilidades para cada elemento ou conjunto de elementos

verificados num conjunto de treino. Para criar este modelo, é necessário utilizar grandes quan-

tidades de material de treino para obter estatísticas válidas, que permitam construir modelos de

língua estocasticamente robustos.

O sistema de descodificação do Audimus é baseado na aplicação de Weighted Finite State

Transducers (WFST) a reconhecedores de fala de grande vocabulário. É construído um único

WFST que resulta da composição dos vários transdutores, representando componentes como

os modelos acústicos, dependência de contexto, o léxico e o modelo de língua. Importa refe-

rir que esta composição é realizada fora do processo de descodificação. Outra característica

muito importante do processo de descodificação utilizando WFST consiste no facto do espaço

de procura ser criado dinamicamente, ajustando-se ao segmento que está a ser descodificado

no momento. Esta solução revela-se uma forma elegante de reunir as mais diversas fontes de

informação para serem utilizadas no processo de descodificação, além de permitir obter redu-

ções até 6 vezes no tempo de processamento [Caseiro & Trancoso, 2002]. Como desvantagem,

verifica-se a necessidade de grandes quantidades de memória no processo de composição.

2.3.2 Adaptação dos modelos acústicos

Para além da transcrição fonética, fornece-se igualmente um modelo acústico generalista ao

Audimus, com base no qual é feita a primeira segmentação fonética. Este modelo genérico foi

treinado com um corpus de cerca de 70 horas de fala, recolhidas de emissões de programas

televisivos da RTP entre Outubro de 2000 Janeiro de 2001. Trata-se assim de fala de vários

oradores, de ambos os sexos, e recolhido em condições acústicas heterogéneas. Este corpus

15

foi segmentado automaticamente, tendo os modelos sido treinados após a verificação manual do

mesmo. Este modelo tem uma taxa de erro ao nível da palavra (WER) de cerca de 18% [Meinedo

et al., 2003], quando usado com uma rede com a configuração de 182 entradas, 1000 estados

centrais e 40 saídas — 38 fones, silêncio e respiração.

Após a segmentação fonética inicial, baseada no modelo acústico genérico descrito anteri-

ormente, procede-se à adaptação deste modelo ao orador. Para tal, efectua-se um treino de

rede, com 90% da base de dados a segmentar, reservando-se os restantes 10% para conjunto

de validação cruzada. Este ciclo de treino dos pesos da rede neuronal seguido de segmentação

é efecuado de forma iterativa, e pára quando menos que 1% dos fones sofre alterções em duas

iterações sucessivas — altura em que se considera que o treino estabilizou.

2.4 eHMM

O eHMM [Prahallad et al., 2006] é um alinhador fonético desenvolvido na Universidade de Car-

negie Mellon. Faz parte integrante do conjunto de ferramentas Festvox [Black & Lenzo, 2006] —

desde a sua versão 2.1, lançada em 2006, tendo vindo substituir o já conhecido sistema Sphinx-

Train como alinhador optimizado para trabalhar com bases de dados de síntese de fala [Black

& Lenzo, 2006]. Esta ferramenta pode usar três topologias diferentes de modelos. Na topo-

logia da configuração por omissão (mod0), os modelos são do tipo esquerda–direita, em que

os estados são ligados de forma ergódica. A segunda configuração possível (mod1) obtém-se

ligando todos os estados entre si, não diferenciando entre estados para a esquerda ou para a di-

reita — criando assim modelos completamente ligados (do inglês fully–connected). Uma terceira

topologia (mod2) consiste em ligar todos os estados a todos os estados subsequentes (forward–

connected). No entanto, das experiências efectuadas em Huggins-Daines & Rudnicky [2006];

Prahallad et al. [2006] verificou-se que para segmentar bases de dados para síntese de fala a

melhor performance é obtida com a topologia mod0 — i.e. a topologia do tipo esquerda–direita.

É necessário fornecer ao eHmm uma segmentação de referência com a informação do ali-

nhamento entre as palavras que constituem a frase e os fones que as constituem. O eHmm

necessita desta para treinar uma pausa curta entre todas as palavras ao longo das várias itera-

ções de treino de modelos. Esta pausa é opcional, pois no fim do treino — quando os modelos

acústicos convergem — é tomada uma decisão acerca de manter ou não as pausas opcionais.

Esta estrutura multinível — fonético, silábico, palavras e frase, entre outros — é gerada recor-

rendo à ferramenta MuLA, descrita em [Paulo & Oliveira, 2002]. A capacidade de inserir e apagar

silêncios entre palavras com precisão [Huggins-Daines & Rudnicky, 2006], assim como o facto

de adaptar modelos ao orador de forma não–supervisionada torna o eHmm uma ferramenta ex-

tremamente útil para segmentar fala.

16

A configuração usada para o eHmm foi a configuração por omissão: 2 gaussianas por estado,

13 coeficientes MFCC e modelos do tipo esquerda–direita — topologia do tipo mod0.

17

Capítulo 3

Bases de Dados

Neste capítulo descrevem-se os dados usados neste trabalho. Foram usadas três bases de

dados distintas, recolhidas no âmbito de dois projectos diferentes. Duas das bases de dados

foram recolhidas nas mesmas condições no âmbito do mesmo projecto, com um orador de cada

sexo. A terceira base de dados, com maior quantidade de material, foi recolhida posteriormente,

apresentando melhores condições acústicas. O orador desta é do sexo masculino.

Ao longo deste trabalho, os alinhadores fonéticos serão avaliados não só em termos de com-

portamento global — ou seja, no conjunto de todas as transições fonéticas de uma base de dados

— mas também de forma mais detalhada, ao analisar o comportamento de cada alinhador em

todos os conjuntos de transições entre classes fonéticas. Assim, inicialmente procede-se à des-

crição do conjunto de fones e das classes fonéticas — i.e., conjuntos de fones com características

acústicas semelhantes.

Note-se que são igualmente descritas as opções tomadas em termos de organização dos

dados, nomeadamente em relação à determinação das sequências fonéticas.

3.1 Classes Fonéticas

Como referido anteriormente, a avaliação dos alinhadores fonéticos é feita calculando o erro

na fronteira entre fones. De forma a proceder a uma avaliação suficientemente detalhada avalia-

se o comportamento dos segmentadores fonéticos em diferentes classes fonéticas. Uma descri-

ção mais completa dos fones existentes no português Europeu encontra-se no Anexo A. Por sua

vez, o conjunto de classes fonéticas adoptadas neste trabalho encontra-se descrito na Tabela 3.1.

A escolha dos tipos de transição fonética baseou-se na adoptada em Paulo & Oliveira [2003].

No entanto, em relação a esse trabalho, a classe das vogais foi separada nas classes vogal,

vogal nasal e glides orais. Devido à dificuldade em segmentar as glides nasais (/j~/ e /w~/), e

como estas só ocorrem em contexto de ditongo, optou-se por usar os ditongos nasais (/6~j~/,

/6~w~/, /u~j~/ e /o~j~/). Devido às suas características acústicas, os ditongos nasais foram

incorporados na classe das vogais nasais.

19

3.2 Descrição das bases de dados de fala

O estudo dos segmentadores e das medidas de confiança foi realizado usando três corpora

distintos: dois masculinos — bdmale e lgaspar — e um corpus feminino — bdfemale. As bases

de dados bdmale e bdfemale foram gravadas no âmbito do projecto BDFALA [Martins et al.,

1998; Trancoso et al., 1997] em condições semelhantes: oradores não profissionais, falantes de

português Europeu, numa sala anecóica, com os mesmos textos. A terceira base de dados —

lgaspar — foi recolhida num estúdio profissional por um locutor também este profissional, falante

da norma padrão do português Europeu. Esta base de dados foi gravada no âmbito do projecto

AUDIOLING [de Macedo et al., 2001].

3.2.1 Base de dados lgaspar

A base de dados lgaspar tem uma duração aproximada de 87 minutos, ao longo de 724 fra-

ses, num total de 45282 fones. Como a totalidade da base de dados está alinhada manualmente,

considerou-se útil dividi-la em duas secções: 4/5 para o estudo do desempenho dos segmenta-

dores e afinação das medidas de confiança, e 1/5 para os testes. O critério seguido para dividir a

base de dados foi escolher frases, de forma aleatória, até um conjunto contabilizar 20% do total

de fones, não fazendo distinção entre classes fonéticas.

O conjunto de treino tem uma duração de 67 minutos de fala, divididos em 587 frases. O nú-

mero de transições fonéticas no corpus de treino, organizadas por classes, encontra-se indicado

na Tabela 3.2. No Anexo B encontram-se as tabelas referentes à totalidade da base de dados,

assim como à base de dados de teste.

A distribuição dos fones por classes encontra-se representado na Tabela 3.1. Verifica-se que,

como expectável, cerca de metade dos fones presentes no corpus são vogais. Os diferentes tipos

de transições fonéticas existentes na base de dados encontram-se representados na Tabela 3.2.

Tabela 3.1: Descrição das classes fonéticas. A classe das vogais nasais engloba não só estas mastambém os ditongos nasais.

Classe Fonética Fones

Vogais i, e, E, a, 6, @, O, o, u;Glides (ou semivogais) j, w

Vogais Nasais i~, e~, 6~, o~, u~, 6~j~, 6~w~, u~j~ e o~j~;Líquidas l, l~, L, r, R;Oclusivas p, t, k, b, d, g;

Consoantes Nasais m n e J;Fricativas f, v s; z S ZSilêncio #

20

Tabela 3.2: Número de transições fonéticas, no subconjunto de treino do corpus lgaspar

Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio

Vogal 554 633 102 1271 3211 2468 3136 1036Semivogal 727 8 148 32 267 73 139 32V. Nasal 183 3 70 70 468 46 1223 154C. Nasal 1503 50 379 20 39 11 36 19Fricativa 2189 187 541 203 340 135 1088 522Líquida 1924 142 276 163 259 23 527 190Oclusiva 4515 352 588 78 410 690 188 21Silêncio 816 51 112 220 210 58 505 —

3.2.2 Base de dados bdmale

A base de dados bdmale é um subconjunto do material gravado por um locutor do sexo mas-

culino, não–profissional, falante da norma padrão do Português Europeu [Martins et al., 1998].

Este corpus é composto por 600 frases foneticamente ricas — correspondendo a 51 minutos de

fala (incluindo silêncios). Destas apenas 120 estão anotadas ao nível fonético (cerca de 9 minu-

tos, correspondendo a 6744 fones). Definiram-se os seguintes subconjuntos com esta base de

dados:

treino de modelos acústicos: para o treino dos modelos acústicos (caso das ferramentas

ehmm e HTK) e adaptação dos pesos da rede neuronal (no caso do Audimus) usou-se

a base de dados completa (600 frases);

análise dos segmentadores/medidas de confiança: apenas foram usadas as frases para as

quais há anotação manual disponível, ou seja, as 120 frases. A Tabela 3.3 representa a

distribuição de transições fonéticas nesta base de dados.

Devido ao pouco material disponível nesta base de dados não se reservou nenhum subcon-

junto para testes às medidas de confiança.

Tabela 3.3: Número de transições fonéticas no subconjunto anotado manualmente da base de dadosbdmale

Vogal Glide V. Nasal C. Nasal Fricativa Líquida Oclusiva #

Vogal 99 107 26 219 559 458 607 139Glide 125 2 28 6 31 20 36 8V. Nasal 33 0 10 22 119 9 283 16C. Nasal 275 14 67 8 18 9 12 2Fricativa 472 31 118 41 61 38 195 65Líquida 372 30 80 39 82 12 98 28Oclusiva 722 62 141 37 119 193 70 19# 106 10 21 27 30 2 56 —

3.2.3 Base de dados bdfemale

Este corpus é um subconjunto do recolhido no âmbito do projecto BDFala. A oradora, à

semelhança do corpus anterior, é não profisional, sendo falante da norma padrão do Português

21

Europeu. A dimensão do corpus é de 52 minutos de fala (600 frases), dos quais 10 minutos estão

anotados manualmente, divididos em 120 frases (6738 transições fonéticas). À semelhança

da bdmale, usou-se a totalidade para treino de modelos acústicos, e a porção para a qual há

segmentação manual para avaliação dos segmentadores e estudo das medidas de confiança.

Também à semelhança do que foi feito com a base de dados bdmale, não se reservou nenhum

subconjunto para testes finais.

Tabela 3.4: Número de transições fonéticas corpus bdfemale


Vogal 98 115 31 216 540 467 587 124Semivogal 138 0 32 9 32 19 34 9V. Nasal 33 2 10 22 115 9 283 16C. Nasal 268 13 68 10 20 10 13 6Fricativa 463 34 116 45 69 37 198 61Líquida 365 34 78 37 81 7 110 31Oclusiva 714 63 138 35 144 192 74 14Silêncio 94 11 16 29 26 2 71 —

3.3 Sequências fonéticas

O alinhamento automático apresenta dois desafios distintos: a detecção da sequência foné-

tica existente nas elocuções e a identificação das fronteiras entre os segmentos (segmentação

do sinal de fala).

A Tabela 3.5 representa o número de fones existentes em todas as bases de dados, nos sub-

conjuntos utilizados para avaliar as ferramentas de segmentação fonética. Pode verificar-se que

as percentagens de unidades são similares para todas as base de dados. Esta tabela foi con-

truída tendo em conta a anotação fonética manual. Verifica-se que as bases de dados bdmale e

bdfemale, apesar de ambos os locutores terem lido os mesmos textos e em condições similares,

tendo os dois oradores a mesma pronúncia, têm número de fones diferente. As diferenças verifi-

cadas resultam de formas diferentes de pronunciar certas palavras, muitas vezes consequência

de débitos de fala mais elevados, que podem levar à ocorrência de episódios de redução fonética.

Esta questão remete-nos para a problemática da detecção das sequências fonéticas. Tanto

o DTW como o ehmm necessitam de saber a transcrição fonética a priori. O HTK pode ser

usado em conjugação (tal como em Oliveira et al. [2008]; Paulo et al. [2008]; Weiss et al. [2007])

com um segmentador baseado em WFST [Paulo & Oliveira, 2005]. O Audimus também tem um

descodificador baseado em WFST, pelo que também permite pronúncias alternativas. Visto que

o enfoque deste trabalho é a avaliação da segmentação e respectiva confiança, optou-se por não

avaliar a qualidade da detecção da sequência fonética, dado que são dois problemas distintos.

O processo de alinhamento parte sempre de uma sequência fonética base: caso exista uma

transcrição fonética manual, é esta a adoptada. Se esta não existe — caso dos conjuntos de

22

Tabela 3.5: Distribuição de fones por classes, segmentações manuais de todos os corpus

lgaspar bdmale bdfemale

Vogal 12411 (34.8%) 2214 (32.8%) 2178 (32.3%)Semivogal 1426 (4.0%) 256 (3.8%) 273 (4.1%)V. Nasal 2217 (6.2%) 492 (7.3%) 490 (7.3%)C. Nasal 2057 (5.8%) 405 (6.0%) 408 (6.1%)Fricativa 5205 (14.6%) 1021 (15.1%) 1023 (15.2%)Líquida 3504 (9.8%) 741 (11.0%) 743 (11.0%)Oclusiva 6842 (19.2%) 1363 (20.2%) 1374 (20.4%)Silêncio 1973 (5.5%) 252 (3.7%) 249 (3.7%)

treino das bases de dados bdmale e bdfemale — usa-se a sequência fonética predita pelo Audi-

mus.

3.4 Bases de dados de alinhamentos em SQL

Para armazenar os dados de forma eficiente as bases de dados de segmentações utilizou-se

uma base de dados acedida através de SQL. Optou-se por usar o sistema de gestão de bases

de dados SQLite pelas seguintes razões:

• é facilmente embebível em aplicações (está contido numa biblioteca C com cerca de

500kB);

• é extremamente leve em termos computacionais, visto que ao embebê-la na aplicação —

compilando juntamente com a respectiva biblioteca — todas as funções ficam acessíveis

por simples chamadas internas, o que reduz a latência no acesso à base de dados;

• como cada base de dados é armazenada em ficheiros de texto, a gestão dos múltiplos

conjuntos de torna-se extremamente simples;

• é gratuita e open–source.

Usou-se a linguagem de prototipagem Python, e o módulo pysqlite do interface com bases de

dados DBAPI2 para comunicar com as bases de dados.

O processo de construção das bases de dados em SQL segue o seguinte procedimento:

1. Normalização dos formatos de saída de todos os segmentadores fonéticos, incluindo as

segmentações manuais;

2. alinhamento das sequências fonéticas em relação à referência — no caso de haver ma-

nual, será esta a referência; caso contrário usa-se a segmentação produzida pelo Audimus.

Este alinhamento entre sequências fonéticas faz-se recorrendo à ferramenta MulevAnnot,

desenvolvida em C++;

3. criação dos ficheiros com os dados a introduzir nas bases de dados SQL. A criação destes

ficheiros é feita com uma função em Scheme, interpretado em Festival, dado que é nesta

fase que se insere igualmente a informação linguística necessária, nomeadamente o tipo

de classe fonética a que cada fone pertence.

23

As tabelas SQL com os resultados de cada segmentador são constituídas pelas seguintes

colunas (cada linha da tabela refere-se a um segmento fonético):

ph_id identificador universal do segmento (Integer Primary Key);

ph_name nome do segmento (String);

ph_end tempo do fim do segmento, em segundos (Float);

ph_dur duração total do segmento, em segundos (Float);

ph_class classe fonética do segmento (String);

n_ph_type classe fonética do próximo segmento (String);

filename nome do ficheiro (String);

type tipo de fone, em relação à referência (String);

A vantagem de usar uma base de dados SQL, em relação a processar os alinhamentos indivi-

dualmente ou em listas de texto, é enorme em termos de velocidade de consulta à base de dados

e, especialmente, por permitir a construção de novas procuras rápida e facilmente — facilitando

assim a extracção de novos dados e o cruzamento de resultados entre vários alinhadores. No

entanto existe o problema da introdução dos dados. É fundamental que estes sejam inseridos de

forma a que o identificador universal do fone (ph_id) identifique a mesma unidade em todas as

tabelas. Optou-se por forçar a sequência fonética fornecida aos segmentadores, de forma a que

a pronúncia de todas as frases seja igual. Esta permissa é fundamental para que as bases de

dados construídas em SQL estejam correctas e para que os resultados sejam fiáveis.

No entanto, e mesmo forçando as sequências fonéticas, podem ocorrer pequenos desvios,

dependendo do comportamento dos alinhadores. Neste trabalho tanto o eHmm como o DTW

tiveram problemas em seguir a sequência fonética que lhes foi fornecida. Como a voz sintética

usada com o DTW é uma voz de difones é fundamental que todas as frases se iniciem (e ter-

minem) com um silêncio — os difones de início são sempre compostos por silêncio–fone, e os

de final são do tipo fone–silêncio. Apesar de ser comum processar os ficheiros audio de forma

a garantir que, tanto no início como no fim exista uma zona de silêncio de 100ms, alguns dos

ficheiros das bases de dados usadas não cumpriam este requisito. Nestes casos foi necessário

introduzir silêncios artificiais na segmentação de referência fornecida ao DTW.

Também o eHmm, devido ao seu modo de funcionamento, tem um problema similar. Para cor-

rer o eHmm, e apesar de lhe ser fornecida uma sequência fonética de referência, é necessário

treinar o modelo da pausa curta opcional (/ssil/) — como descrito na Sec. 2.4. Após o alinha-

mento podem existir vários casos da inserção deste fone, mesmo no caso das segmentações

de referência serem manuais: para tal basta que uma palavra comece com uma oclusiva surda,

por exemplo. Para corrigir esta questão dividiu-se a duração do /ssil/ de forma igual pelos dois

segementos adjacentes.

24

De forma a tornar os algoritmos de criação das bases de dados em SQL mais robustos às

diferenças entre sequências fonéticas foi criada a coluna type. Esta pode tomar os seguintes

valores:

nor: indica um segmento normal, i.e., caso em que os fones em ambos as segmentações (a

que está a ser inserida e a de referência) são iguais;

sub: quando ocorrem substituições de fones, i.e., no caso em que um fone numa das transcri-

ções corresponde outro fone noutra;

del: quando ocorre o apagamento de um fone na sequência fonética de teste, ou seja, quando

um segmento na transcrição de referência não tem correspondente;

ins: quando ocorre uma inserção, i.e., quando na sequência fonética de teste existe um seg-

mento sem correspondência na referência. Na realidade, os casos de inserções dão origem

a uma base de dados extra (caso tal não acontecesse o identificador ph_id nas tabelas de

teste teria mais entradas que na tabela de referência.

De forma a poder identificar correctamente estes casos, é necessário fazer um mapeamento

dos fones de duas sequências fonéticas. Este mapeamento não é, muitas vezes, directo — po-

dem ser inseridos/apagados mais que um fone de seguida. Assim sendo, recorreu-se a um algo-

ritmo que pesa os mapeamentos entre diferentes classes fonéticas, diferenciando-as de acordo

com as suas características acústicas. Por exemplo, uma consoante não pode alinhar com uma

vogal — ou seja, não pode ocorrer uma substituição de uma consoante por uma vogal, e vice–

versa. Para mapear as sequências fonéticas usou-se a ferramenta MulevAnnot, desenvolvida no

L2F em C++, e que tira partido das bibliotecas Edinburgh Speech Tools (EST).

Para despistar possíveis erros na construção das bases de dados foi implementada uma

função que permite detectar se, dadas duas tabelas SQL com segmentações da mesma base de

dados, as entradas com o mesmo ph_id identificam o mesmo segmento.

A informação do erro de um segmentador em relação à referência pode ser introduzida direc-

tamente na base de dados. No entanto, como quando se iniciou este trabalho — e o desenho

das bases de dados — não havia ainda um escolha definitiva sobre o tipo de erro a considerar —

absoluto, relativo, ou mesmo outra medida, como o OverLap, apresentado em Paulo & Oliveira

[2004]. De qualquer forma é fácil alterar o tipo de medidas de erro no código do desenvolvidas

no âmbito deste trabalho.

25

Capítulo 4

Segmentador de Referência

A fase inicial do trabalho consiste no estudo dos diversos alinhadores descritos anteriormente,

no Cap. 2. Efectuaram-se diversas avaliações, quer a nível macroscópico, analisando o compor-

tamento no total de uma base de dados, que com maior detalhe, analisando os diferentes tipos

de transições fonéticas. Esta análise permite identificar as transições onde cada segmentador

obtém melhores resultados que os restantes, independentemente dos seus resultados métodos

do alinhador serem mais ou menos satisfatórios.

Após uma caracterização detalhada de cada ferramenta de segmentação, procede-se à cons-

trução de um segmentador que pela combinação dos segmentadores individuais permita maxi-

mizar os resultados destes — denominado segmentador de referência.

Na primeira secção deste capítulo descrevem-se os testes efectuados para caracterizar cada

um dos alinhadores, assim como as metodologias utilizadas. Na segunda secção descreve-se o

procedimento de construção do segmentador de referência.

4.1 Desempenho individual dos alinhadores

Uma medida geralmente usada na área de processamento de fala para avaliar os resultados

de alinhadores fonéticos é a percentagem de fronteiras de fones correctamente marcadas em

relação às fronteiras alinhadas manualmente. Normalmente considera-se correcta uma fronteira

aquela com um erro à referência inferior a 20 ms — este é um valor globalmente aceite como

limiar máximo aceitável de erro, acima do qual se considera que o erro de fronteira do fone é

significativo [Jarifi et al., 2006, 2008].

De uma forma geral, um segmentador pode ser caracterizado pelo valor médio da soma do

módulo dos seus erros individuais. Este valor, denominado média do erro absoluto (AME), é

calculado de acordo com a seguinte expressão (em que e representa o erro de cada fronteira

do segmentador à fronteira manual, calculado subtraindo o instante temporal da primeira ao da

manual):

27

AME =1n

n∑i=0

|e|

Outras medidas são igualmente usadas por se considerarem importantes para caracterizar as

distribuições de erro de cada um dos alinhadores, apesar de muitas delas não virem a ser usadas

no decorer deste trabalho, como discutido anteriormente. São estas:

• AME: já descrito anteriormente, é uma das medidas mais usadas para descrever o com-

portamento global de um alinhador;

• erro quadrático médio (RMSE): medida de erro que permite ter, em simultâneo, uma noção

do viés e da variância do erro;

• erro médio (e): esta medida permite indicar se a distribuição dos erros tem algum viés

(bias). Um valor de viés positivo indica que o segmentador em teste coloca as fronteiras

depois do segmentador de referência, verificando-se o inverso para valores negativos de

bias;

• desvio padrão (σ): é igualmente uma medida útil por permitir adquirir a noção da dispersão

dos erros;

• percentagens de segmentos com erros inferiores a 10 e 20 ms.

Na Tabela 4.1 encontram-se os resultados de várias medidas do erro dos alinhadores em relação

às segmentações manuais. Esta está dividida em três subtabelas, com os resultados referentes

a bases de dados diferentes. Analisando com detalhe esta tabela, algumas das conclusões mais

importantes que podem ser tiradas são as seguintes:

• na base de dados lgaspar o Audimus e o HTK obtêm os melhores resultados, quer em

termos de AME, quer em termos de erro quadrático médio, quer em percentagem de fones

com erro inferior a 20ms;

• nas bases de dados bdmale e bdfemale os melhores alinhadores são os baseados em

treino de modelos de Markov — o HTK e o eHmm.

• o MAF–DTW é, o segmentador que apresenta os piores resultados em todas as bases de

dados, sendo muito piores na lgaspar que nas restantes. Uma possível justificação para

estes resultados prende-se com as características acústicas de gravação das bases de

dados — a voz sintética usada no DTW foi gravada nas mesmas condições acústicas que

as bases de dados bdmale e bdfemale.

Os gráficos que representam a percentagem cumulativa de segmentos com erro inferior a um

determinado limiar — em função desse mesmo limiar — são outra forma usual de avaliar o com-

portamento de segmentadores fonéticos. De forma rápida permitem que se conclua sobre a

percentagem de segmentos abaixo de um limiar de erro. Na Figura 4.1 encontram-se repre-

sentados estes mesmos gráficos para cada alinhador, com testes efectuados nas três bases de

28

Tabela 4.1: Comportamento global dos segmentadores nas três bases de dados de treino. AME indicao erro médio absoluto, RMSE o erro quadrático médio, e o erro médio, σ o desvio padrão, <10ms e<20ms indicam a percentagem de segmentos com erro inferior a 10 e 20 ms, respectivamente

(a) BD lgaspar

AME (ms) RMSE (ms) e (ms) σ (ms) <10ms (%) <20ms (%)

Audimus 15.25 22.59 -3.20 16.67 47.9 75.5DTW 41.82 118.19 -13.42 110.54 41.6 63.5eHmm 20.68 33.30 -4.58 26.10 47.1 67.6HTK 15.42 24.10 1.88 18.52 49.7 76.5

(b) BD bdfemale


Audimus 17.19 24.92 8.69 18.04 40.3 68.7DTW 21.38 37.45 0.86 30.75 43.9 67.6eHmm 13.64 22.45 6.79 17.83 58.1 79.6HTK 15.15 22.48 9.09 16.61 46.1 74.1

(c) BD bdmale


Audimus 17.90 27.17 10.80 20.44 39.7 67.8DTW 22.65 42.57 -0.30 36.05 41.0 65.1eHmm 16.78 29.31 7.45 24.03 52.1 74.3HTK 17.44 28.10 10.17 22.04 41.4 70.5

dados. Estes resultados permitem secundar os obtidos na Tabela 4.1. Na Figura 4.1(a), que re-

presenta a evolução dos erros na base de dados lgaspar, verifica-se que ao fim de 60ms tanto o

DTW como o eHmm ainda têm uma percentagem considerável de transições com erro superior a

esse limite — o que evidencia uma percentagem elevada de erros graves. Se no caso do eHmm

apenas nesta base de dados se verifica este comportamento, já o DTW se comporta assim nas

outras duas bases de dados — Figs. 4.1(b) e 4.1(c). Este comportamento por parte do DTW

era já esperado, como discutido em Kominek et al. [2003], devido à quantidade superior de erros

grosseiros que o DTW comete. Esta observação é confirmada pelos resultados de desvio padrão

e de RMSE apresentados na Tabela 4.1.

Da análise da Tabela 4.1 e da Figura 4.1 constata-se que o comportamento de cada alinhador

varia sensivelmente de acordo com as características das bases de dados de treino/teste. Várias

razões podem ser apontadas para tal, tendo em conta o facto de cada base de dados ser de um

locutor diferente, e de as condições acústicas em que foram recolhidas serem distintas.

A base de dados lgaspar é a que tem maior dimensão, o que garante uma maior variedade e

cobertura de todos os fones. O locutor desta base de dados é um locutor profissional, o que —

em princípio — indica que as gravações são mais homogéneas que no caso de locutores não–

profissionais. As bases de dados bdfemale e bdmale foram gravadas em condições acústicas

29

similares, por dois locutores não profissionais, por um falante do sexo masculino e um falante do

sexo feminino.

De notar que os resultados obtidos com a base de dados lgaspar serão sempre prioritários

nos casos em que se considera que as restantes bases de dados não têm um número suficiente

de transições de um determinado tipo — casos das transições semivogal–semivogal, consoante

nasal–silêncio, silêncio–líquida e vogal nasal–semivogal (se bem que esta última transição seja

extermamente rara em todas as bases de dados).

Acresce a estas diferenças uma que talvez possa ter maior influência nos resultados: as pos-

síveis diferenças de critérios de anotação manual entre as bases de dados bdmale e bdfemale,

que foram anotadas conjuntamente, e a base de dados lgaspar, anotadas seguindo os mesmos

critérios mas por diferentes linguistas.

No entanto, não é fácil efectuar estas generalizações, uma vez que o comportamento dos

alinhadores não é completamente regular — não se pode dizer que haja nenhum francamente

superior aos restantes para determinada classe fonética.

De forma a poder caracterizar de forma mais completa cada alinhador, calculou-se o número

de fronteiras correctamente marcadas — i.e. aquelas cujo erro é inferior a 20ms em relação ao

alinhamento manual. Este estudo foi feito para cada tipo de transição fonética, de acordo com o

especificado anteriormente. Os resultados deste estudo encontram-se no Anexo C.

4.2 Ordenamento dos alinhadores fonéticos

Esta fase consiste na comparação dos diferentes alinhadores por tipo de transição fonética,

para todas as bases de dados. Com este estudo pretende-se definir um segmentador de referên-

cia, i.e., o melhor alinhador possível construído a partir da combinação dos alinhadores. Tendo

em conta que o comportamento dos segmentadores é muito diferente para cada tipo de fronteira,

tal como evidenciado na Sec. 4.1, é possível tirar partido das suas especificidades individuais,

definindo uma configuração que maximize o rendimento de cada ferramenta individual.

A Tabela 4.2 representa a ordenação dos segmentadores para todas as transições e em todas

as bases de dados estudadas. Esta tabela foi construída a partir dos resultados apresentados

no Anexo C. Neste anexo apresentam-se as Tabelas C.1, C.2 e C.3 com os resultados de todos

os segmentadores para todos os tipos de transições.

Da análise da Tabela 4.2 verifica-se que os resultados dos alinhadores são bastante hete-

rogéneos. Apenas em 19% dos tipos de transição os dois melhores alinhadores são iguais em

todas as bases de dados. Ao relaxar a condição e procurando o número transições nas quais

o par é o mesmo em pares de bases de dados, atinge-se uma cobertura máxima de 80% dos

casos.

30

(a) Base de dados lgaspar

(b) Base de dados bdfemale

(c) Base de dados bdmale

Figura 4.1: Evolução da percentagem de segmentos abaixo de um limiar de erro31

Tabela 4.2: Ordenação dos alinhadores de acordo com o tipo de transição nas três bases de dados.As letras representam a inicial de cada segmentador: A–Audimus, D–DTW, E–EHMM e H–HTK.

(a) lgaspar


Vogal A, H, D A, H, D A, E, H A, H, E E, A, H A, H, E A, H, D D, H, ASemivogal H, A, E A, E, D H, A, E H, A, D E, A, H A, H, E H, A, D E, H, DV. Nasal H, A, E H, E, A A, E, H A, H, E A, E, H A, E, H A, H, D D, H, AC. Nasal H, A, E H, A, E H, A, E H, E, A E, A, H E, H, A H, E, A H, E, AFricativa H, E, D H, D, E H, E, A A, E, H A, E, D E, A, H D, A, H D, E, HLíquida H, A, E A, H, E H, A, E A, E, H E, A, H E, A, H A, H, E A, H, DOclusiva H, A, D H, D, A H, A, D E, H, A H, E, A H, A, E H, E, A H, E, ASilêncio D, H, E E, D, A E, H, D E, D, H E, H, D E, A, H A, D, H E, H, D

(b) bdfemale


Vogal A, E, H A, H, E E, H, A E, D, H E, D, A H, E, D E, A, H E, H, ASemivogal A, H, E E, H, D A, E, H E, A, H E, D, A D, E, H D, E, A H, E, AV. Nasal H, E, A H, A, E E, A, H E, A, D E, A, H E, H, D E, D, H A, H, EC. Nasal E, H, A H, E, A E, A, H E, H, D E, A, H E, H, A D, E, H D, E, HFricativa H, E, D E, D, H H, E, D E, A, D H, E, A E, H, D E, A, H H, E, ALíquida H, E, A A, E, H H, E, A E, H, D H, E, A A, E, H E, H, A E, H, AOclusiva D, E, H D, E, H H, D, A E, D, A H, E, A H, E, A H, E, D E, D, HSilêncio D, E, H H, A, E H, E, A E, D, H E, H, A E, H, A H, E, A E, H, D

(c) bdmale


Vogal A, H, E A, H, E E, A, H E, D, A E, D, A E, A, D E, D, A A, D, ESemivogal A, H, E E, A, H A, E, H E, A, H E, A, D E, A, H A, E, H A, E, HV. Nasal E, H, A E, H, D E, A, H E, A, H E, A, H E, H, D E, H, D D, A, EC. Nasal H, A, E E, H, A H, A, E H, E, D E, H, A H, E, A E, H, A D, E, HFricativa E, H, D D, E, A E, H, A D, A, E H, E, A E, D, A A, E, H E, H, ALíquida H, E, A H, E, A H, E, A E, H, A E, H, D E, H, D E, A, H E, D, AOclusiva D, A, H E, D, H D, H, E E, D, A H, E, A H, A, E H, E, A E, D, HSilêncio D, H, E D, E, H H, D, E E, H, D E, H, D E, H, D H, A, D E, H, D

32

Tabela 4.3: Configuração do segmentador de referência (S0)


Vogal Aud Aud eHmm eHmm eHmm HTK Aud HTKSemivogal Aud Aud Aud Aud eHmm eHmm Aud eHmmV. Nasal HTK HTK Aud Aud eHmm eHmm HTK DTWC. Nasal HTK HTK Aud HTK eHmm HTK eHmm DTWFricativa HTK DTW eHmm eHmm HTK eHmm Aud eHmmLíquida HTK Aud HTK eHmm eHmm eHmm Aud eHmmOclusiva HTK DTW HTK eHmm HTK HTK HTK eHmmSilêncio DTW DTW HTK eHmm eHmm eHmm HTK —

Esta constatação leva-nos à problemática da escolha da configuração do segmentador de

referência.

4.3 Configuração de referência

Devido aos resultados heterogéneos apresentados pelos alinhadores nas diferentes bases

de dados — nomeadamente às baixas taxas de concordância — é necessário escolher a con-

figuração do segmentador de referência para maximizar os resultados em todas as bases de

dados. Pretende-se que este alinhador seja o mais generalista possível, não estando demasiado

adaptado a uma base de dados específica.

Assim, para cada tipo de transição escolheu-se o alinhador com a maior soma de percen-

tagens de acerto nas diferentes bases de dados. Desta forma, deu-se o mesmo peso relativo

a todas as bases de dados. A razão para tal deve-se à diferença de dimensões das bases

de dados, nomeadamente entre a base de dados lgaspar, que tem 36222 transições (no sub-

conjunto de treino), ao passo que os corpora bdmale e bdfemale têm 6744 e 6738 transições,

respectivamente. Ou seja, a base de dados lgaspar tem cinco vezes mais material que cada uma

das outras bases de dados consideradas individualmente, e mais de duas vezes e meia quando

consideradas em conjunto.

Ao definir qual o melhor segmentador somando as fronteiras correctas e dividindo pelo total de

fronteiras das três bases de dados estar-se-ia a pesar em demasia a base de dados lgaspar. Por

outro lado, ao efectuar esta operação somando as percentagens dentro de cada base de dados,

está-se a dar igual peso a cada corpus — com prejuízo para a lgaspar — mais assegurando que

a configuração obtida é mais generalista que se se adoptar a solução alternativa.

As configurações dos segmentadores S1 e S2 — 2a e 3a combinações de segmentadores ge-

neralistas com melhores resultados, respectivamente — encontram-se no Anexo D. Na Figura 4.3

pode observar-se a percentagem cumulativa de fronteiras abaixo de um determinado limiar de

erro, em função desse mesmo limiar, para os segmentadores de referência S0 e S1, em cada

uma das bases de dados. Nesta figura encontra-se também representada, para cada base de

dados, a curva respeitante ao segmentador óptimo para essa mesma base de dados (retirado

33

directamente dos resultados da Tabela 4.2). Em todos os gráficos verifica-se que, de acordo com

o esperado, o segmentador S0 apresenta piores resultados que o segmentador óptimo.

De notar também que tanto nos casos bdmale e bdfemale o segmentador optimizado a cada

uma destas bases de dados passa a ter piores resultados que o segmentador S0, sensivel-

mente a partir dos 30ms. Este comportamento deve-se às configurações terem sido escolhidas

de forma a optimizar o número máximo de fronteiras abaixo dos 20ms, não sendo garantido o

comportamento do segmentador a partir desse limiar.

Na Tabela 4.4 estuda-se o comportamento de cada configuração de referência possível. Para

cada base de dados apresentam-se os resultados do segmentador S0 geral, assim como das

configurações adaptadas para a própria base de dados, da mesma forma que para as restantes.

Tendo em conta forma como o segmentador de referência foi configurado (descrita anterior-

mente neste capítulo) seria de esperar uma maior degradação dos resultados na base de dados

lgaspar. No entanto, como se pode ver na Tabela 4.4(a) esta degradação foi de cerca de 3% (de

82,5% para 79,6%), valor semelhante ao caso bdmale — representado na Tabela 4.4(c), pas-

sando de 78,1% para 75,6%). Já na base de dados bdfemale — Tabela 4.4(b) — a degradação

foi a menor dos três casos, obtendo com a configuração óptima 82.3% e com a configuração S0

geral 80.4% das fronteiras abaixo do limiar de erro de 20ms.

Verifica-se igualmente que a grande diferença ocorre da base de dados lgaspar para as bases

de dados bdfemale e bdmale. A configuração óptima da base de dados bdmale é a que obtém o

segundo melhor resultado na base de dados bdfemale, e vice–versa. Já a configuração óptima

para a base de dados lgaspar obtém resultados extremamente baixos nestas duas bases de

dados. O análogo verifica-se: as configurações óptimas bdmale e bdfemale têm desempenhos

pobres na base de dados lgaspar.

No entanto verifica-se que a configuração S0 geral obtém resultados satisfatórios em todas

as bases de dados. Ao comparar os resultados da Tabela 4.4 com os da Tabela 4.1 verifica-se

que com esta configuração se consegue melhorar a percentagem de fronteiras correctamente

detectadas em todas as bases de dados em relação a qualquer alinhador fonético individual. Os

ganhos variam entre os 0,8% (no caso da bdfemale) e os 3,1% (na base de dados lgaspar).

34

Tabela 4.4: Comparação das várias configurações do segmentador de referência

(a) BD lgaspar


S0 (lgaspar) 16.32 52.54 2.58 49.95 57.5 82.5S0 (geral) 15.05 31.95 2.60 28.18 54.6 79.6S0 (bdmale) 21.38 57.12 6.66 52.96 50.9 72.4S0 (bdfemale) 21.29 54.59 7.25 50.27 50.7 71.6

(b) BD bdfemale


S0 (bdfemale) 12.66 21.84 -5.60 17.80 60.0 82.3S0 (bdmale) 13.52 23.95 -6.10 19.76 59.6 81.1S0 (geral) 13.25 21.73 -6.69 17.23 55.5 80.4S0 (lgaspar) 15.00 23.04 -8.35 17.49 49.7 74.2

(c) BD bdmale


S0 (bdmale) 15.32 28.91 -6.48 24.51 54.9 78.1S0 (bdfemale) 15.61 28.87 -6.51 24.29 52.9 76.2S0 (geral) 15.66 28.42 -8.05 23.72 49.5 75.6S0 (lgaspar) 21.29 54.59 7.25 50.27 50.7 71.6

35

(a) Base de dados lgaspar

(b) Base de dados bdfemale

(c) Base de dados bdmale

Figura 4.2: Evolução da percentagem de segmentos abaixo de um limiar de erro. Gráficos que compa-ram o desempenho do segmentador de referência generalista (S0) com o segmentador de referênciaóptimo de cada BD

36

Capítulo 5

Medidas de Confiança

No capítulo anterior estudou-se a construção de um segmentador de referência. Neste capí-

tulo descrevem-se as formas investigadas combinar os segmentadores descritos anteriormente

para detectar erros de segmentação, quer ao nível do fone, quer ao nível da frase.

5.1 Confiança baseada na concordância de segmentadores

Com base nas configurações dos segmentadores S0 e S1, cujas configurações e resultados

foram apresentados no capítulo anterior, pretende-se neste capítulo estudar medidas de confi-

ança baseadas na concordância entre estes dois segmentadores.

A configuração do alinhador de referência (S0), representada na Tabela 4.3, é a que obtém

melhores resultados para uma maior variedade de bases de dados, pelo que são os resultados

deste segmentador que são usados para segmentar as bases de dados. Os alinhamentos ge-

rados com a configuração S1 são usados como segundas estimativas do posicionamento das

fronteiras do alinhador de referência. Como para cada tipo tipo de transição fonética as fronteiras

colocadas por S0 e S1 são geradas por ferramentas diferentes, parte-se da hipótese que, que

quando as fronteiras colocadas por S0 e S1 estão colocadas próximas uma da outra, o erro de

S0 à segmentação manual deverá ser baixo.

5.1.1 Identificação do classificador binário

A Figura 5.1 representa a percentagem de fronteiras de S0 correctas (com erro inferior a 20

ms em relação à fronteira manual) em função da distância entre as fronteiras de S0 e S1 — S0S1.

Conforme esperado, verifica-se que quanto mais próximas estão as fronteiras geradas pelos dois

alinhadores de referência, maior a percentagem de fronteiras de S0 correctamente alinhadas.

Quando a distância S0S1 é inferior a 5ms, 87,2% das fronteiras de S0 estão correctas, havendo

cerca de 14,5% dos fones da base de dados que se encontram nestas condições. Entre os 5 e

10ms esta percentagem é de 88,2% (representando 17,3% da base de dados), passando para

86,6% quando S0S1 varia entre 10 e os 15 (com 19,4% da base de dados nestas condições). A

37

0 10 20 30 40 50 60 70 80

S0S1 (ms)

0

20

40

60

80

100

% de fronteiras S0 correctas% da base de dados

Figura 5.1: Percentagem de fronteiras de S0 correctas; a cinzento escuro encontra-se a percentagemde fronteiras na base de dados, ambos em função da distância entre S0 e S1 (S0S1). Conjunto deteste lgaspar.

partir da distância S0S1 superior a 25ms a percentagem de fronteiras de S0 correctas começa

a diminuir de forma mais acentuada: quando S0 e S1 distam entre 25 a 30ms, a percentagem

de fronteiras de S0 correctamente alinhadas passa para 59,24%, representando apenas 7,7% da

base de dados.

Este comportamento era expectável: quanto maior a concordância dos segmentadores —

menor a distância S0S1 — maior a probabilidade dos segmentos estarem correctamente alinha-

dos. No entanto, ainda da análise da Figura 5.1 observa-se que há uma percentagem significativa

de fronteiras que são colocadas a menos de 5ms uma da outra pelos dois segmentadores e que

se encontram mal alinhadas.

Várias razões podem ser responsáveis por este comportamento, nomeadamente diferenças

na aplicação dos critérios manuais ou diferenças entre os critérios manuais e os usados pelos

alinhadores automáticos.

Apesar de terem ocorrido mudanças de critérios de segmentação entre a anotação das di-

ferentes bases de dados — foram alinhadas por peritos diferentes, além de que entre projectos

algumas das convenções foram alteradas. No entanto não é certo que haja diferença de critérios

dentro da mesma base de dados. Assume assim maior relevência mais a segunda hipótese: que

os alinhadores fonéticos utilizem referências diferentes dos peritos.

Por outro lado, há também o problema dos critérios de segmentação manual definidos para

certos tipos de transição serem convenções que pouco reflectem o observado no sinal de fala.

A título de exemplo: na base de dados lgaspar, a crase de /6/ e /6/, e que habitualmente é

pronunciada /a/, é anotada como dois segmentos /6/ de igual duração, cada qual com metade

da duração total do segmento resultante. No entanto os alinhadores automáticos, ao seguir o

38

duplo /6/, vão alinhar um deles com a duração mínima possível para um fone, e o outro com a

duração restante. Neste caso o erro resultante é muito elevado. Este efeito ocorre, por exemplo,

na frase “fica a meio”.

Na Figura 5.2 estão representados alguns casos em que ambos os melhores segmentadores

concordam exactamente na localização da fronteira mas esta tem um erro superior a 20ms. No

caso específico da Figura 5.2(a) o fone /m/ é marcado pelos dois alinhadores aos 1,570s, quando

na segmentação manual se encontra cerca de 30ms antes (cerca dos 1,54s). Já na Figura 5.2(b)

é a fronteira final do fone /E/ que se encontra marcada pelo eHmm como pelo Audimus na

mesma localização (4,260s), 20 ms antes da marcação manual (4.280s).

No entanto estes são apenas dois dos vários casos existentes de segmentadores fonéticos

cujos resultados têm forte concordância, mas que apresentam um erro elevado em relação à

referência manual.

Verifica-se desta forma que a distância entre S0 e S1 pode ser usada como indicador de

confiança na marcação da fronteira de um fone. Adoptando a distância entre estes dois segmen-

tadores como classificador binário, é fundamental estudar como varia a sua capacidade discri-

minatória. No entanto é de esperar que o seu desempenho possa ressentir-se dos problemas

indicados anteriormente.

5.1.2 Capacidade discriminatória do classificador

Esta problema é um problema de classificação binário, em que os resultados são divididos

em duas classes: positivos (P), no caso em que se assume uma fronteira estar correcta (há

confiança), e negativos (N), caso contrário. Os resultados da saída de um classificador deste tipo

são quatro:

Verdadeiro Positivo (TP): quando é classificado como positivo (há confiança) e a transição é

correcta (S1 a menos que 20ms da manual);

Verdadeiro Negativo (TN): segmento classificado como negativo, sendo um segmento com erro

superior a 20ms (portanto errado);

Falso Positivo (FP) quando o segmento está errado mas é classificado como positivo; este tipo

de erro é também chamado erro do tipo I;

Falso Negativo (FN) caso o segmento esteja correctamente alinhado, mas é classificado como

negativo; este tipo de erro é apelidado erro do tipo II.

Uma das técnicas mais utilizadas no estudo da capacidade discriminatória de classificadores

binários é a análise da curva Receiver Operating Characteristic (ROC). Esta curva representa a

variação da taxa de verdadeiros positivos (TPR) em função da taxa de falsos positivos (FPR), à

medida que se varia o limiar de discriminação — neste caso a distância entre S0 e S1. Estas

duas medidas são calculadas da seguinte forma:

39

(a) O fone /m/ encontra-se mal alinhado tanto pelo eHmm (1a transcrição) como pelo HTK (2a

transcrição)

(b) O fone /E/ encontra-se mal alinhado tanto pelo Audimus (1a transcrição) como pelo HTK(1a transcrição)

Figura 5.2: Detalhes da análise no wavesurfer de dois segmentos problemáticos. Secção de frasesda base de dados lgaspar. São visíveis, de baixo para cima, a forma de onda, o alinhamento manual,o da configuração S0, o de S1 e o espectograma.

40

TPR =TP

TP + FN(5.1)

FPR =FP

FP + TN(5.2)

A TPR indica-nos a sensibilidade (sensitivity ) do classificador, que pode ser interpretada como

uma taxa de detecção (ou de acerto). Por seu lado a FPR indica a taxa da falsos alarmes, ou

seja, o valor simétrico da especificidade (specificity ).

Um bom classificador é aquele que garante pontos de funcionamento com uma sensibilidade

máxima à custa do mínimo de falsos alarmes. O classificador óptimo terá uma taxa de detecção

de 100%, com uma taxa de falsos alarmes de 0%. Analisando uma curva ROC, compreende-se

intuitivamente que quanto maior a área por baixo da curva, melhor.

Dado que se assume haver confiança na marcação de uma fronteira quando a distância entre

S0 e S1 é inferior a um limiar — aquele que se varia para traçar a curva — é intuitivo concluir o

seguinte:

• ao usar um limiar baixo, i.e., uma distância curta entre os dois segmentadores, serão clas-

sificados poucos segmentos como positivos (confiança). Por outro lado, nestes casos, a

taxa de falsos positivos será baixa, e no limite ocorre um máximo de erros do tipo II;

• ao aumentar o limiar em demasia a taxa de acerto também aumenta (são muitos os seg-

mentos correctamente identificados), mas à custa de uma grande aumento da taxa de

falsos alarmes. No limite teremos o caso em que todos os segmentos são classificados

como positivos — ou seja, um máximo de erros do tipo I.

Na Figura 5.3 pode-se observar a curva ROC para a base de dados de teste lgaspar. Da aná-

lise desta curva verifica-se que o classificador estudado tem uma melhor zona de funcionamento

entre quando S0 e S1 distam entre 10ms e 20ms: no primeiro obtém-se uma taxa de detecção

(TPR) de 57%, à custa de uma taxa de falsos alarmes de 30%. Quando a distância S0 S1 é de

20ms obtém-se 81% de taxa de detecção, mas com uma taxa de falsos alarme de 53%.

A matriz de confusão do ponto de funcionamento de 15ms (considera-se uma fronteira de S0

correcta quando a sua distância à fronteira marcada por S1 é inferior a 15ms) está representada

na Tabela 5.1.

5.2 Classificador baseado na duração

De forma a avaliar o desempenho do classificador apresentado anteriormente resolveu-se

estudar um novo discriminador, apenas baseado na duração média dos segmentos.

Esta medida pode ser usada como medida de confiança para despistar segmentos mal alinha-

dos [Figueira & Santos, 2006; Kominek et al., 2003], sendo aplicada da seguinte forma: calcula-

41

0.0 0.2 0.4 0.6 0.8 1.0FPR

0.0

0.2

0.4

0.6

0.8

1.0

TPR

0

5

10

15

20

2530

50 60

Figura 5.3: Curva ROC para o classificador baseado na concordância entre S0 e S1, na base de dadosde teste lgaspar. A linha a tracejado representa a linha de não–discriminação (decisão aleatória). Osvalores junto à curva representam a distância entre os segmentadores (ms) abaixo da qual se temconfiança numa fronteira.

Tabela 5.1: Matriz de confusão para o classificador baseado na concordância entre S0 e S1.Considera-se haver confiança numa fronteira quando a distância entre S0 1 S1 é inferior a 15ms.Base de dados de teste lgaspar. As colunas p e n indicam o número de valores positivos e negativosreais, ao passo que p’ e n’ indicam, respectivamente, as saídas positiva e negativa do classificador.

p n Total

p’ 5001 754 5755n’ 2091 1077 3168

Total 7092 1831

se a duração média x e o desvio padrão σx de cada fone na base de dados, definindo um limiar

acima do qual se considera provável um segmento estar mal alinhado. Desta forma, um fone

com duração dx é aceite se dx < x+aσx, em que a é um limiar variável — normalmente um valor

entre 1 e 2.

Ao calcular a duração média de cada tipo de segmento é fulcral distinguir entre vogais acen-

tuadas e não acentuadas, pois a duração das primeiras é muito superior à das últimas. Por

exemplo, nas palavras vívere e viver, o /i/ é acentuado na primeira e não o é na segunda

palavra, o que se reflecte na sua duração.

A capacidade discriminadora deste classificador foi avaliada recorrendo igualmente à análise

ROC, fazendo variar o limiar a entre 0 e 2. A Figura 5.4 representa a curva ROC deste classifica-

dor, usando a base de dados de teste lgaspar, tendo as estatísticas de duração sido calculadas

42

usando a base de dados de treino lgaspar (usando as segmentações automáticas obtidas com o

segmentador de referência S0).

Como se pode ver pela Figura 5.4, a curva ROC demonstra que este classificador tem um

desempenho inferior ao apresentado na secção anterior, baseado na distância entre os segmen-

tadores de referência S0 e S1.

0.0 0.2 0.4 0.6 0.8 1.00.0

0.2

0.4

0.6

0.8

1.0

0.1

0.3

0.5

0.7

0.9

1.2

1.6

Figura 5.4: Curva ROC para o classificador baseado na duração média dos segmentos. Os valoresindicados junto à curva representam o limiar a. A linha auxiliar a tracejado indica a linha de não–discriminação.

Na análise da curva ROC da Figura 5.4, os pontos de funcionamento mais úteis situam-se

quando a assume valores assume valores entre 0,1 e 0,8 — valores para os quais a taxa de

detecção varia entre 62,2% e 84,9%, à custa de uma taxa de falsos alarmes entre 51,9% e

68,3%.

Tendo em conta estes valores, na Tabela 5.2 apresenta-se a matriz de confusão para este

classificador, no ponto de funcionamento com a = 0.8. Verifica-se um número significativo de

erros do tipo I, o que seria de esperar, dado o relaxamento do critério. No entanto, este tipo

de erros é o mais nefasto para os objectivos deste trabalho — segmentos com erros grosseiros

(acima de 20ms) marcados como correctos.

Ainda assim, o facto de ser um método que pode ser aplicado a qualquer conjunto de segmen-

tações fonéticas de forma rápida justifica o interesse no seu estudo. Torna-se assim pertinente a

sua análise em conjunto com o classificador baseado na distância entre segmentadores. Dado

se verificou existir, em 11% dos casos de concordância entre os dois melhores resultados obti-

dos automaticamente, um erro superior a 20ms em relação à segmentação manual, considera-se

43

Tabela 5.2: Matriz de confusão para o classificador baseado na duração. Base de dados de testelgaspar. O ponto de funcionamento escolhido foi a = 0.8

p n Total

p’ 6021 1251 7272n’ 1071 580 1651

Total 7092 1831

importante usar critério baseado em duração como auxiliar para corrigir este tipo de erros gros-

seiros.

5.3 Classificador misto

Nesta secção apresenta-se um novo classificador, que combina os métodos apresentados

nas secções anteriores: um classificador baseado na distância entre os dois segmentadores de

referência e que usa uma correcção baseada na duração média dos segmentos.

Se, por um lado, os resultados do classificador baseado na distância entre S0 e S1 apontam

para uma boa capacidade de detectar segmentos incorrectos, o uso do classificador baseado

na média permite detectar mais segmentos correctos e diminuir muito o número de segmentos

incorrectamente classificados como negativos.

Foram assim testados dois tipos de classificadores mistos:

disjuntivo em que foi aplicada a operação lógica disjunção (OR) aos vectores de confiança

binária devolvidos pelos dois classificadores;

conjuntivo em que foi aplicada a operação lógica conjunção (AND) aos vectores de confiança

binária devolvidos pelos dois classificadores;

Como se pode verificar pelas matrizes de confusão apresentadas nas Tabela 5.3 e Tabela 5.4,

onde se podem observar os resultados de vários pontos de funcionamento dos classificadores

misto conjuntivo e disjuntivo, respectivamente, conclui-se que usando este último o número de

TP aumenta significativamente, aumentando também o número de falsos positivos (erros do tipo

I). Diminui-se assim muito a capacidade de detectar segmentos errados (TN) quando comparado

com o classificador baseado na distância entre segmentadores ou ao misto por conjunção dos

resultados.

Fica assim patente que para este estudo será melhor usar o classificador misto baseado

na conjunção dos resultados dos classificadores baseados em duração e na distância entre as

fronteiras dos dois segmentadores de referência (S0S1). Na Figura 5.5 encontra-se representada

a curva ROC para este classificador, usando a base de dados de teste lgaspar. Usam-se dois

valores diferentes da constante a para traçar a curva: a = 0.8 e a = 1. Verifica-se que os pontos

mais interessantes de funcionamento, para ambas as curvas, se situam quando a distância entre

os segmentadores S0 e S1 varia entre os 15 e os 30ms.

44

Tabela 5.3: Classificador misto conjuntivo (AND)

(a) 15ms, a =0.8

p n

p’ 4282 470n’ 2810 1361

(b) 20ms, a =0.8

p n

p’ 4926 470n’ 2166 1210

(c) 15ms, a = 1

p n

p’ 4453 514n’ 2639 1317

(d) 20ms, a = 1

p n

p’ 5121 676n’ 1971 1155

Tabela 5.4: Classificador misto disjunto (OR)

(a) 15ms, a =0.8

p n

p’ 6740 1535n’ 352 296

(b) 20ms, a =0.8

p n

p’ 6840 1594n’ 252 237

(c) 15ms, a = 1

p n

p’ 6823 1584n’ 269 247

(d) 20ms, a = 1

p n

p’ 6899 1632n’ 193 199

45

0.0 0.2 0.4 0.6 0.8 1.0FPR

0.0

0.2

0.4

0.6

0.8

1.0

TPR

0

5

10

15

20

2530

5060

0

5

10

15

20

2530

5060

S0S1, a=0.8S0S1, a=1

Figura 5.5: Curva ROC para o classificador misto disjunto, usando a base de dados de teste lgas-par. A ponteado encontra-se representada a linha de não–discriminação. Os valores junto à curvarepresentam a distância entre os segmentadores (ms) abaixo da qual se tem confiança numa fronteira.

5.4 Medidas de confiança ao nível da frase

Nas secções anteriores verificou-se que o classificador baseado na duração média dos seg-

mentos comete muitos erros do tipo I — classifica muitos segmentos mal alinhados como estando

correctos — tal como o misto baseado na disjunção dos resultados dos classificadores de dis-

tância e média de durações. Como tal, nesta secção apenas são estudados os classificadores

simples — baseado na distância entre S0 e S1 — e o classificador misto baseado na conjunção

dos resultados dos classificadores simples e baseado na duração.

O principal objectivo deste trabalho é permitir detectar erros graves na base de dados. Anali-

sar uma frase permite uma noção de mais alto nível que a análise segmental, para além de ser

uma forma mais útil de usar os resultados obtidos. No entanto outra razão está subjacente à

análise de frases: quando há erros grosseiros — o que é muito comum quando, por exemplo, há

problemas de normalização ou presença de ruído — estes afectam vários fones de seguida. As-

sim, uma frase com muitos erros (ou seja, com uma grande percentagem de segmentos errados)

é uma frase que deve ser sinalizada — seja para posterior análise manual ou simplesmente para

ser descartada da construção de uma nova voz.

Com base nos resultados de cada classificador é calculado um resultado (score) de confiança

para cada uma das frases do inventário. Este valor é o valor percentual de segmentos na frase

para nos quais o classificador tem confiança — i.e., se para uma frase com 100 fones, 60 são

46

classificados como positivos pelo classificador, esta frase terá um resultado de confiança de 60%.

Na Tabela 5.5 encontram-se os resultados obtidos com 4 classificadores diferentes: Simples

— apenas baseado na distância S0S1 — e três classificadores mistos — em que o valor do

limiar a toma três valores: 1, 1,5 e 2. Nesta tabela faz-se variar o limiar de confiança da distância

S0S1 entre 15 e 35ms, em intervalos de 5ms. Para cada configuração diferente, apresentam-

se os resultados da média e desvio padrão do erro absoluto dos resultados de confiança de

cada frase em relação à percentagem de segmentos correctos na segmentação gerada por pelo

segmentador de referência (S0).

Tabela 5.5: Erro médio e desvio padrão dos resultados de confiança nas frases do corpus de testelgaspar

Simples M (a=1) M (a=1,5) M (a=2)

e σ e σ e σ e σ

15 ms 15,68 8,45 25,01 8,73 20,70 8,75 18,57 8,7920 ms 7,36 6,84 16,44 8,65 11,76 8,40 9,54 8,1525 ms 6,79 5,48 9,53 7,58 6,08 6,22 6,25 5,8830 ms 8,84 6,18 7,47 6,46 5,71 5,14 6,94 5,5435 ms 11,31 6,44 6,51 5,57 6,33 5,07 8,59 5,70

Verifica-se que o melhor resultado, quer em termos de erro médio quer em termos de desvio

padrão desse erro se obtém com o classificador misto, usando a constante a = 1, 5 e um limiar de

confiança de 30ms. Verifica-se igualmente que um valor de a superior a 1 é mais útil que valores

menores. Da mesma forma, pode observar-se que o limite de 15ms é muito exíguo, obtendo

resultados mais baixos que com valores mais elevados de distância.

Na Figura 5.4 apresenta-se um gráfico do resultado de confiança por frase em função da

percentagem de fones correctos por frase, para o conjunto de teste lgaspar. Usa-se o classifi-

cador cuja configuração foi descrita anteriormente (usando a constante a = 1, 5 e um limiar de

confiança de 30ms). O factor de correlação entre estes dois conjuntos é de 0,648, o que é um

resultado razoável.

Observa-se que a maioria das frases tem uma percentagem de fones correctos em torno dos

80%, e que nesta zona a dispersão do resultado de confiança não é muito elevada. No entanto,

nas frases em que a percentagem de segmentos correctos é mais baixa, o classificador tem um

pior desempenho. De forma a poder ser mais conclusivo seria útil efectuar mais testes com um

conjunto maior de frases, para saber se o classificador tem sempre um mau desempenho nas

piores frases ou se os casos indicados são outliers.

De forma a exemplificar o uso deste classificador (a = 1, 5 e um limiar de confiança de 30ms),

faz-se variar o limiar do resultado de confiança acima do qual uma frase é aceite, rejeitando as

frases com um resultado de confiança inferior ao limiar estabelecido. Na Figura 5.4 representa-se

a evolução do valor médio de segmentos correctos por frase, em função da variação do limiar

confiança escolhido. A média de segmentos correctos de todas as frases é de 78,7% — é este

47

o valor médio de segmentos correctos quando o limiar de confiança é de 45% — casos em que

todas as frases são aceites. Verifica-se que quando o limiar do resultado de confiança é de 60%,

a média de fones correctos nas frases aceites é de 79,6%. Quando o limiar aumenta para 70%,

a média de fones correctos por frase em que se considera haver confiança sobe para 81,1%.

De notar que quando o limiar do resultado de confiança é de 90% ocorre um mínimo local na

variação da média de segmentos correctos por frase. Este valor deve-se ao facto de, nesta zona,

o número de frases ser já baixo: de um total de 127 frases estudadas, 102 estão acima do limiar

de resultado de confiança de 75%, ao passo que há somente 20 frases acima do limiar de 85%,

e 2 frases acima dos 90%.

Verifica-se desta forma que, seleccionando conjuntos de frases em com base no seu resultado

de confiança, permite que haja uma melhoria na percentagem de segmentos correctos nesse

mesmo conjunto de frases.

0 20 40 60 80 100

Segmentos correctos por frase (%)

0

20

40

60

80

100

Res

ulta

dode

confi

anca

porf

rase

(%)

Figura 5.6: Resultado de confiança em função da percentagem de segmentos correctos, por frase

48

0 20 40 60 80 100Limiar de confianca (%)

75

80

85

90

95

100

Valo

rmed

iode

segm

ento

sco

rrec

tos

porf

rase

(%)

Figura 5.7: Média de segmentos correctos por frase, em função do limiar de confiança

49

Capítulo 6

Conclusão

Este trabalho nasce da necessidade de poder seleccionar, numa base de dados de fala, sub-

conjuntos de frases em cuja segmentação haja confiança. Para atingir este objectivo escolheu-se

uma abordagem baseada na combinação de várias ferramentas de segmentação fonética, e na

hipótese de da sua proximidade se poder concluir sobre se a fronteira de um fone está ou não

bem colocada.

Como medida de acerto, adoptou-se a percentagem de segmentos com erro inferior a 20ms.

As razões que levaram a esta decisão prendem-se com o facto de, para um correcto funciona-

mento de sintetizadores por concatenação de unidades, a localização exacta da fronteira não ser

um factor crítico: um erro grande na segmentação de um fone é normalmente mais grave que

vários erros pequenos. Além disso, os próprios algoritmos de geração de forma de onda procu-

ram zonas espectrais onde a concatenação possa ser realizada de forma mais suave, podendo

desviar-se de um a dois períodos da fronteira — o que, numa voz masculina com um f0 médio

de 120Hz pode significar um desvio de 8 a 16 ms em relação à localização inicial da fronteira.

No entanto é extremamente importante detectar frases com muitos erros grosseiros.

Inicialmente estudaram-se vários algoritmos de segmentação fonética. A escolha dos algo-

ritmos deveu-se à familiaridade do uso destes dentro do grupo onde o trabalho foi realizado.

Apenas uma das ferramentas, o eHmm, não era utilizada antes de se iniciar o trabalho.

Dado que o trabalho foi realizado com quatro ferramentas diferentes, trabalhando com 4 ba-

ses de dados em simultâneo, foi de extrema importância a decisão de guardar todos os dados

numa base de dados SQL. No entanto, esta decisão acarretou algumas dificuldades numa fase

inicial, por implicar que as sequências fonéticas devolvidas pelas quatro ferramentas fossem ri-

gorosamente iguais.

A avaliação das ferramentas de segmentação fonética foi realizada de acordo com o tipo de

transição entre classes fonéticas. Os tipos de transição para os quais se verificaram maiores difi-

culdades para são transições do tipo vogal–vogal, vogal–consoante vogal–líquida, oclusiva–glide,

glide–consoante oclusiva–consoante glide–líquida, consoante nasal–oclusiva e nasal–líquida.

Estes resultados são consistentes com os obtidos por outros autores, [Carvalho, 2004], sendo

51

muitas destas transições problemáticas mesmo para os anotadores manuais. As detecções de

silêncio também tiveram baixos resultados.

A abordagem estudada para combinar os alinhadores permitiu ganhos na percentagem de

fronteiras correctamente alinhadas. O principal segementador de referência (S0) foi escolhido

de forma a ter uma configuração o mais robusta possível ao tipo de dados — maximizando os

resultados nas três bases de dados, e não só numa delas. Esta decisão acarreta uma perda de

desempenho, mas por outro lado permite que a configuração escolhida possa ser usada noutras

bases de dados com alguma confiança.

Deste relatório foram omitidas outras abordagens de configuração igualmente estudadas,

como calcular médias de pares e trios de alinhadores, como descrito em Figueira & Oliveira

[2008]. A média de pares de alinhadores permite melhorar ainda mais os resultados obtidos. No

entanto, para poder ser usada de forma conveniente, teria de se ter maior informação sobre o

viés dos alinhadores em cada transição, informação essa que, opção, não foi usada no decorrer

deste trabalho.

No capítulo referente às medidas de confiança, estudou-se de que forma se podem combinar

os resultados das configurações de referência para indicar valores de confiança na segmentação.

O método estudado que melhores resultados obteve baseia-se na distância entre as fronteiras

colocadas pelas duas melhores configurações de referência. Estudou-se igualmente um clas-

sificador baseado na duração média dos segmentos, verificando-se que tem um desempenho

pior que o classificador baseado nas distância. No entanto, os resultados obtidos pela conjunção

destes classificadores permite melhores resultados que os obtidos por cada um individualmente.

Um dos resultados esperados deste trabalho era, dado um corpus de fala do qual não se tem

nenhuma informação manual sobre o alinhamento fonético, poder seleccionar de forma automá-

tica um subconjunto de frases nas quais se tenha um determinado valor de confiança. Verificou-

se que existe um factor de correlação de 65% entre os resultados de confiança e a percentagem

de fones correctos por frase, o que indica uma boa capacidade de classificação das frases.

No entanto, após análise mais detalhada, verificou-se que é nas frases com pior qualidade de

segmentação que o classificador tem erros com maior amplitude. Mais testes, com um maior

conjunto de teste, poderiam ajudar a esclarecer melhor o verdadeiro desempenho deste tipo de

medidas.

6.1 Trabalho Futuro

De forma a poder obter melhores resultados é necessário melhorar o desempenho dos ali-

nhadores. No entanto, esta questão pode ser explorada de várias formas: para além de testar

diferentes parâmetros dos segmentadores, é fundamental compreender bem porque razão os ali-

nhadores cometem erros sistemáticos. Uma das soluções para este problema pode passar por

52

treinar modelos com adaptação ao orador usando algum do material anotado manualmente — de

forma a que mais facilmente os segmentadores aprendam os tipos de transição, e à semelhança

do realizado em Jarifi et al. [2006, 2008]. No caso do DTW é ainda necessário rever os critérios

de segmentação usados na construção da voz de referência. Outro estudo que pode trazer uma

melhoria aos resultados é o estudo do “bias” de cada alinhador para cada tipo de transição, de

forma a corrigir possíveis erros sistemáticos cometidos pelas ferramentas.

De forma a avaliar a confiança em segmentações, outras medidas podem ser usadas, base-

adas em medidas acústicas, como estudado em vários trabalhos, nomeadamente em Paulo &

Oliveira [2004] e em Nefti et al. [2003].

Um teste importante que é necessário efectuar é a construção de uma voz sintética usando

um subconjunto de frases escolhidas em função do seu resultado de confiança — de forma a

verificar se o facto de escolher apenas frases com valor de confiança elevado tem influência

positiva na qualidade da síntese.

Uma outra direcção de trabalho futuro é aplicar este método a sequências fonéticas, i.e.,

dadas várias sequências fonéticas atribuir valores de confiança a cada uma delas.

53

Referências

Amaral, R., P. Carvalho, D. Caseiro, I. Trancoso, & L. C. Oliveira (1999, September). Anotaçõo fo-

nética automática de corpora de fala transcritos ortograficamente. In PROPOR’99 - IV Encontro

para o Processamento Computacional da Língua Portuguesa Escrita e Falada.

Black, A. W. & K. A. Lenzo (2006). Building Synthetic Voices. http://www.festvox.org: Language

Technologies Institute, Carnegie Mellon University and Cepstral, LLC. For FestVox 2.1 Edition.

Carvalho, P., I. Trancoso, & L. C. Oliveira (1998). Automatic segment alignment for concatena-

tive speech synthesis in portuguese. In Proc. of the 10th Portuguese Conference on Pattern

Recognition, RECPAD’98, pp. 221–226.

Carvalho, P. M. (2004, September). Determinação automática de segmentos para síntese de fala

por concatenação.

Caseiro, D. A. & I. Trancoso (2002, September). Using dynamic wfst composition for recognizing

broadcast news. In ICSLP’2002 - 7th International Conference on Spoken Language Proces-

sing (Interspeech’2002).

de Macedo, M. E., M. Gonzaga, A. I. Rosa, & S. Antunes (1998–2001). Projecto AUDIOLING–

LP língua portuguesa: som e pronúncia. Website. http://www.clul.ul.pt/sectores/

linguistica_de_corpus/projecto_audioling.php.

Figueira, L. & L. C. Oliveira (2008). Comparison of phonetic segmentation tools for european

portuguese. In PROPOR’08—Computational Processing of the Portuguese Language, Aveiro,

Portugal, pp. 252–255.

Figueira, L. A. & A. M. Santos (2006, Julho). Voicebuilder—Construção de novas vozes para

síntese de fala. Technical report, Instituto Superior Técnico, Universidade Técnica de Lisboa.

Huggins-Daines, D. & A. Rudnicky (2006, September). A constrained baum-welch algorithm for

improved and efficient training. In Interspeech’2006—9th International Conference on Spoken

Language Processing, Pittsburg, USA.

Jarifi, S., D. Pastor, & O. Rosec (2006). Cooperation between global and local methods for auto-

matic segmentation of speech synthesis corpora. In Interspeech - ICSLP 2006 : International

55

http://www.clul.ul.pt/sectores/linguistica_de_corpus/projecto_audioling.php

http://www.clul.ul.pt/sectores/linguistica_de_corpus/projecto_audioling.php

Conference on Spoken Language Processing September 17-21, Pittsburgh PA, USA. SC -

Dépt. Signal et Communications (Institut TELECOM ; TELECOM Bretagne), FT - France Télé-

com, Division R&D, Lannion (France Télécom).

Jarifi, S., D. Pastor, & O. Rosec (2008, january). A fusion approach for automatic speech seg-

mentation of large corpora with application to speech synthesis. Speech communication 50(1),

67 – 80.

Kawai, H. & T. Toda (2004). An evaluation of automatic phone segmentation for concatenative

speech synthesis. In Proc. IEEE ICASSP2004.

Kominek, J., C. Bennett, & A. W. Black (2003, September). Evaluating and correcting phoneme

segmentation for unit selection synthesis. In European Conference on Speech Communica-

tion and Technology – Proc. of the 8th European Conference, EUROSPEECH 2003, Genéve,

Switzerland.

Kominek, J. & A. W. Black (2004). A family-of-models approach to hmm-based segmentation for

unit selection speech synthesis. In Interspeech, pp. 1385–1388.

Malfrére, F., O. Deroo, T. Dutoit, & C. Ris (2003). Phonetic alignment: speech synthesis-based

vs. viterbi-based. Speech Commun. 40(4), 503–515.

Martins, C., I. Mascarenhas, H. Meinedo, J. P. Neto, L. Oliveira, C. Ribeiro, & M. do Céu Viana

(1998, March). Spoken language corpora for speech recognition and synthesis in european

portuguese. Lisbon, pp. 357–364.

Matousek, J., D. Tihelka, & J. Psutka (2003, September). Automatic segmentation for czech

concatenative speech synthesis using statistical approach with boundary-specific correction. In

8th European Conf. on Speech Communication and Technology (Eurospeech 2003), pp. 301–

304.

Meinedo, H. (2008, February). Audio Pre-processing and Speech Recognition for Braodcast

News. Ph. D. thesis, IST.

Meinedo, H., D. Caseiro, J. P. Neto, & I. Trancoso (June 2003). Audimus.media: A broadcast

news speech recognition system for the european portuguese language. In PROPOR’2003

- VI Encontro para o Processamento Computacional da Língua Portuguesa Escrita e Falada

(Springer ed.)., pp. 9–17.

Nefti, S., O. Boeffard, & T. Moudenc (2003). Confidence measures for phonetic segmentation of

continuous speech. In EuroSpeech 2003, pp. 897–900.

56

Neto, J. & H. Meinedo (2000). Combination of acoustic models in continuous speech recognition

hybrid systems. In ICSLP’2000 - 6th International Conference on Spoken Language Proces-

sing, Beijing, China.

Neto, J. P., C. Martins, H. Meinedo, & L. B. Almeida (1999, September). Audimus - sistema de

reconhecimento de fala contínua para o português europeu. In PROPOR’99 - IV Encontro para

o Processamento Computacional da Língua Portuguesa Escrita e Falada.

Nicodem, M. V., S. G. Kafka, R. S. Jr., & R. Seara (2008). Boundary refining aiming at speech

synthesis applications. In PROPOR, pp. 71–80.

Oliveira, L., S. Paulo, L. Figueira, C. Mendes, A. Nunes, & J. Godinho (2008, May). Methodologies

for designing and recording speech databases for corpus based synthesis. In Proceedings of

the Sixth International Language Resources and Evaluation (LREC’08), Marrakech, Morocco.

Paulo, S., L. A. Figueira, C. Mendes, & L. C. Oliveira (2008, September). The INESC-ID blizzard

entry: Unsupervised voice building and synthesis.

Paulo, S. & L. C. Oliveira (2002, September). Multilevel annotation of speech signals using weigh-

ted finite state transducers. In 2002 IEEE Workshop on Speech Synthesis.

Paulo, S. & L. C. Oliveira (2003, September). DTW-based phonetic alignment using multiple

acoustic features. In European Conference on Speech Communication and Technology – Proc.

of the 8th European Conference, EUROSPEECH 2003, Genéve, Switzerland.

Paulo, S. & L. C. Oliveira (2004, October). Automatic phonetic alignment and its confidence

measures. In 4th International Conference EsTAL, pp. 36–34.

Paulo, S. & L. C. Oliveira (2005). Generation of word alternative pronountiations using weighted

finite state transducers. In Interspeech.

Prahallad, K., A. Black, & M. Ravishankar (2006, May). Sub-phonetic modeling for capturing

pronunciation variations for conversational speech synthesis. In ICASSP.

Rabiner, L. (1989). A tutorial on hidden markov models and selected applications in speech

recognition. Proceedings of the IEEE 77, 257–286.

Sakoe, H. & S. Chiba (1984). Dynamic programming algorithm optimization for spoken word

recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-26(1),

43–49.

Toledano, D., L. Gomez, & L. Grande (2003, Nov.). Automatic phonetic segmentation. Speech

and Audio Processing, IEEE Transactions on 11(6), 617–625.

57

Trancoso, I., M. do Céu Viana, I. Mascarenhas, & P. Carvalho (1997, June). Bdfala final report.

Technical report, INESC-ID.

Weiss, C., S. Paulo, L. A. Figueira, & L. C. Oliveira (2007, August). Blizzard entry: Integrated

voice building and synthesis for unit-selection TTS.

Young, S., D. Ollason, V. Valtchev, & P. Woodland (2002). The HTK Book (for HTK Version 3.2).

Cambridge University Engineering Department.

58

Apêndice A

Alfabeto fonético para o dialectopadrão do Português Europeu

Tabela A.1: Alfabeto fonético para o dialecto padrão do Português Europeu

Alfabeto Fonetico para o Dialecto Padrao do PortuguesEuropeu

Luıs Caldas de Oliveira

[email protected]

AFI SAM-PA Grafemas Exemplo AFI SAM-PA Grafemas Exemploi i i,ı,y,e vi [vı] p p p pa [pa]

e e e,e ve [ve] b b b bem [bé ]� E e,e pe [p´� ] t t t tu [tu]a a a,a,a pa [pa] d d d dou [do]� 6 a cama [c � m � ] k k c,k casa [kaz � ]�

@ e de [d�] g g g gato [gatu]

� O o,o po [p � ]o o o,o avo [ � vo] f f f f e [f´� ]u u u,u tudo [tudu] v v v ve [ve]j j i,e pai [paj] s s s,c,c sol [s �� ]w w u,o pau [paw] z z z,s,x casa [kaz � ]�

S ch,s,z,x chave [�av�]

ı i˜ i,ı sim [s´ı ] � Z j,g,s,z,x ja [ � a]

e e˜ e,e pente [pét�]

� 6˜ a,a,e branco [br˜� ku] l l l la [la]

o o˜ o,o,o ponte [pót�] � l˜ l mal [ma � ]

u u˜ u,u atum [ � tú] � L lh valha [va � � ] j˜ i,e poe [pó]

w w˜ o mao [m˜� w] m m m mao [m˜� w]

n n n nao [n˜� w] J nh senha [s �� ]

� r r caro [ka � u] R r carro [ka

u]

1

59

Apêndice B

Distribuição das transiçõesfonéticas na base de dados lgaspar

(a) Número de transições fonéticas, corpus completo lgaspar


Vogal 709 776 129 1595 4035 3082 3947 1301Seivogal 894 9 177 37 325 89 168 36V. Nasal 226 4 89 89 583 59 1520 186C. Nasal 1877 62 470 25 49 13 41 23Fricativa 2757 214 665 247 416 176 1350 661Líquida 2452 171 340 207 313 30 667 239Oclusiva 5623 436 742 94 508 893 240 23Silêncio 1036 63 143 266 256 77 626 2

(b) Número de transições fonéticas, subcorpus de teste lgaspar


Vogal 155 143 27 324 824 614 811 265Semivogal 167 1 29 5 58 16 29 4V. Nasal 43 1 19 19 115 13 297 32C. Nasal 374 12 91 5 10 2 5 4Fricativa 568 27 124 44 76 41 262 139Líquida 528 29 64 44 54 7 140 49Oclusiva 1108 84 154 16 98 203 52 2Silêncio 220 12 31 46 46 19 121 1

61

Apêndice C

Percentagem de segmentos comerro inferior a 20ms

Neste anexo incluem-se as tabelas que descrevem a percentagem de segmentos com erro

absoluto inferior a 20ms em todas as bases de dados.

63

Tabela C.1: Percentagem de segmentos com erro absoluto menor que 20ms, na base de dados lgas-par

(a) Audimus


Vogal 63.2 70.8 54.9 88.4 88.0 80.9 88.3 28.1Semivogal 70.7 100.0 61.5 96.9 91.4 75.3 80.6 18.8V. Nasal 61.7 33.3 51.4 77.1 91.7 87.0 81.3 13.6C. Nasal 79.4 74.0 91.0 55.0 82.1 72.7 61.1 68.4Fricativa 81.3 38.5 83.2 87.2 61.8 84.4 77.7 10.7Líquida 68.4 78.2 72.5 82.8 79.5 69.6 83.5 44.2Oclusiva 86.6 70.5 90.5 60.3 82.4 87.2 60.6 38.1Silêncio 7.0 51.0 27.7 9.5 58.6 58.6 63.0 0.0

(b) DTW



(c) eHmm



(d) HTK



64

Tabela C.2: Percentagem de segmentos com erro absoluto menor que 20ms, na base de dados bdfe-male

(a) Audimus


Vogal 58.2 67.8 54.8 44.4 75.4 36.8 76.8 28.2Semivogal 76.1 — 90.6 66.7 90.6 31.6 70.6 44.4V. Nasal 45.5 100.0 70.0 77.3 77.4 33.3 36.4 31.2C. Nasal 84.0 53.8 85.3 50.0 85.0 50.0 38.5 0.0Fricativa 82.1 58.8 87.9 66.7 63.8 83.8 91.9 42.6Líquida 72.3 85.3 65.4 40.5 74.1 100.0 70.9 25.8Oclusiva 82.8 54.0 87.7 42.9 84.0 86.5 56.8 21.4Silêncio 54.3 81.8 81.2 6.9 65.4 50.0 52.1 —

(b) DTW



(c) eHmm



(d) HTK



65

Tabela C.3: Percentagem de segmentos com erro absoluto menor que 20ms, na base de dados bd-male

(a) Audimus


Vogal 63.6 72.9 65.4 63.0 78.4 44.8 67.2 24.5Semivogal 77.6 100.0 71.4 83.3 83.9 45.0 88.9 62.5V. Nasal 63.6 — 90.0 63.6 81.5 0.0 38.9 18.8C. Nasal 85.5 78.6 89.6 62.5 72.2 66.7 58.3 0.0Fricativa 77.3 48.4 86.4 70.7 54.1 68.4 92.3 69.2Líquida 78.8 76.7 71.2 71.8 73.2 41.7 68.4 17.9Oclusiva 80.9 61.3 66.7 35.1 73.9 81.3 60.0 5.3Silêncio 10.4 10.0 14.3 3.7 33.3 0.0 48.2 —

(b) DTW



(c) eHMM



(d) HTK



66

Apêndice D

Configuração dos segmentadoresS1 e S2

Tabela D.1: Configuração do 2o segmentador de referência (S1)


Vogal htk htk audimus audimus audimus audimus htk ehmmSemivogal htk ehmm ehmm ehmm audimus audimus ehmm htkV. Nasal audimus audimus ehmm ehmm audimus htk dtw audimusC. Nasal ehmm ehmm htk ehmm htk ehmm htk ehmmFricativa ehmm ehmm htk audimus audimus audimus htk htkLíquida audimus htk audimus htk htk audimus htk audimusOclusiva dtw ehmm dtw dtw ehmm audimus ehmm htkSilêncio ehmm ehmm ehmm dtw htk htk audimus —

Tabela D.2: Configuração do 3o segmentador de referência (S2)


Vogal ehmm ehmm htk htk dtw ehmm dtw dtwSemivogal ehmm dtw htk htk dtw htk htk audimusV. Nasal ehmm ehmm htk htk htk audimus ehmm htkC. Nasal audimus audimus ehmm audimus audimus audimus audimus htkFricativa dtw htk dtw dtw ehmm htk dtw audimusLíquida ehmm ehmm ehmm audimus audimus htk ehmm htkOclusiva audimus htk audimus audimus audimus ehmm audimus dtwSilêncio htk htk dtw htk dtw audimus dtw —

67

medidas de confiança em segmentação automática de fala · síntese de fala, segmentação...

Documents