medidas de confiança em segmentação automática de fala · síntese de fala, segmentação...
TRANSCRIPT
Medidas de Confiançana Segmentação Automática de Fala
Luís António Dias Mestre Figueira
Dissertação para obtenção do Grau de Mestre emEngenharia Electrotécnica e de Computadores
JúriPresidente: Professor Doutor Carlos SilvestreOrientador: Professor Doutor Luís Caldas de OliveiraVogais: Professor Doutor António Serralheiro
Doutora Maria do Céu Viana
Novembro de 2008
Agradecimentos
Gostaria de agradecer, antes do mais, ao Professor Luís Caldas a oportunidade que me deu
de fazer este trabalho, e em especial pelo acompanhamento, ajuda, discussões e muitas ideias,
que muito me ajudaram ao longo desta pequena maratona.
Um sincero obrigado ao Engenheiro Sérgio Paulo por todas as ideias, críticas, sugestões e
tarefas que me deu no dia–a–dia.
Uma palavra de apreço também ao Carlos Mendes, à Profa. Isabel Mascarenhas, e a todos os
colegas do L2F, Inesc, Tecnovoz e VoiceInteraction que sempre me acompanharam e ajudaram.
E, claro, aos meus pais, ao Helder, à Sofia e a todos os amigos e familiares mais próximos:
um sincero obrigado pela paciência e apoio que me transmitiram, e que em muito me ajudou a
realizar este trabalho.
Resumo
O alinhamento fonético de bases de dados de fala é uma tarefa crítica na construção de
vozes para sintetizadores de fala. A qualidade destas vozes depende fortemente da exactidão
da segmentação fonética.
Este trabalho estuda a combinação de diferentes ferramentas de segmentação fonética como
forma de medir a confiança na segmentação fonética de uma base de dados de gravações.
Cada ferramenta de segmentação usada foi cuidadosamente estudada, medindo o seu de-
sempenho na marcação das fronteiras para todos os segmentos fonéticos do corpus. Os seg-
mentos foram agrupados em classes, estudando os resultados para cada par de transições entre
classes. Após esta análise exploratória, estudaram-se novas ferramentas resultantes da combi-
nação dos segmentadores fonéticos individuais, tirando partido dos desempenhos para cada tipo
de transição fonética.
Baseado nas combinações entre alinhadores é proposto um método para avaliar a confiança
na segmentação de conjuntos de frases de uma base de dados de fala.
Palavras Chave
Síntese de Fala, Segmentação Fonética Automática, Medidas de Confiança, Modelos de Mar-
kov Não Observáveis, Alinhamento Temporal Dinâmico
iii
Abstract
The phonetic segmentation of speech databases is a critical task in building synthetic voices
for speech synthesis engines. The quality of theses voices is highly dependent on the accuracy
of the phonetic segmentation task.
This work studies the combination of multiple phonetic segmentation tools as a method of
measuring the confidence on the phonetic segmentation of sentences of a speech recordings
database.
Each segmentation tool was studied thoroughly, measuring its performance in locating bound-
aries for all the phonetic segments in the corpus. The phonetic segments were grouped into
classes and the location of the boundaries between each phone class pair was evaluated. After
this exploratory analysis, new segmentation tools were studied by combining the individual tools,
taking advantage of their better performance for specific phonetic transition types.
Based on this combination of tools, a method for evaluating the confidence on the segmenta-
tion of the set of sentences on a speech corpus is proposed.
Keywords
Speech Synthesis, Automatic Phonetic Segmentation, Confidence Measures, Hidden Markov
Models, Dynamic Time Warping
v
Conteúdo
1 Introdução 1
1.1 Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Organização do relatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Alinhadores Fonéticos Utilizados 7
2.1 Alinhador baseado em síntese (MAF–DTW) . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 Geração do sinal sintético de referência . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Extracção de características e alinhamento . . . . . . . . . . . . . . . . . . . . 9
2.2 Alinhador baseado em treino de HMM . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Parametrização do sinal de fala . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Treino e adaptação dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 Alinhamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Audimus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1 Modelos de língua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.2 Adaptação dos modelos acústicos . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 eHMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Bases de Dados 19
3.1 Classes Fonéticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Descrição das bases de dados de fala . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1 Base de dados lgaspar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.2 Base de dados bdmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.3 Base de dados bdfemale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Sequências fonéticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 Bases de dados de alinhamentos em Structured Query Language (SQL) . . . . . 23
4 Segmentador de Referência 27
4.1 Desempenho individual dos alinhadores . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 Ordenamento dos alinhadores fonéticos . . . . . . . . . . . . . . . . . . . . . . . . 30
vii
4.3 Configuração de referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5 Medidas de Confiança 37
5.1 Confiança baseada na concordância de segmentadores . . . . . . . . . . . . . . . 37
5.1.1 Identificação do classificador binário . . . . . . . . . . . . . . . . . . . . . . . . 37
5.1.2 Capacidade discriminatória do classificador . . . . . . . . . . . . . . . . . . . . 39
5.2 Classificador baseado na duração . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3 Classificador misto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.4 Medidas de confiança ao nível da frase . . . . . . . . . . . . . . . . . . . . . . . . 46
6 Conclusão 51
6.1 Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Referências 55
A Alfabeto fonético para o dialecto padrão do Português Europeu 59
B Distribuição das transições fonéticas na base de dados lgaspar 61
C Percentagem de segmentos com erro inferior a 20ms 63
D Configuração dos segmentadores S1 e S2 67
viii
Lista de Figuras
2.1 Funcionamento do algoritmo MAF–DTW . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Esquema de um modelo de Markov não–observável do tipo esquerda–direita . . . 11
2.3 Esquema de funcionamento do segmentador baseado no HTK . . . . . . . . . . . 12
2.4 Esquemas de funcionamento do HInit . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5 Diagrama de blocos do sistema Audimus . . . . . . . . . . . . . . . . . . . . . . . 14
4.1 Evolução da percentagem de segmentos abaixo de um limiar de erro . . . . . . . 31
4.2 Evolução da percentagem de segmentos abaixo de um limiar de erro. Gráficos que
comparam o desempenho do segmentador de referência generalista (S0) com o
segmentador de referência óptimo de cada BD . . . . . . . . . . . . . . . . . . . . 36
5.1 Fronteiras correctas alinhadas por S0, em função de S0S1 . . . . . . . . . . . . . 38
5.2 Detalhes da análise no wavesurfer de dois segmentos problemáticos . . . . . . . . 40
5.3 Curva ROC para o classificador baseado na concordância entre S0 e S1 . . . . . 42
5.4 Curva ROC para o classificador baseado na duração média . . . . . . . . . . . . . 43
5.5 Curva ROC para o classificador misto conjuntivo . . . . . . . . . . . . . . . . . . . 46
5.6 Resultado de confiança em função da percentagem de segmentos correctos, por
frase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.7 Média de segmentos correctos por frase, em função do limiar de confiança . . . . 49
ix
Lista de Tabelas
2.1 Características acústicas usadas no alinhador MAF–DTW . . . . . . . . . . . . . . 9
3.1 Descrição das classes fonéticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Número de transições fonéticas, no subconjunto de treino do corpus lgaspar . . . 21
3.3 Número de transições fonéticas no subconjunto anotado manualmente da base de
dados bdmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.4 Número de transições fonéticas corpus bdfemale . . . . . . . . . . . . . . . . . . . 22
3.5 Distribuição de fones por classes, segmentações manuais de todos os corpus . . 23
4.1 Comportamento global dos segmentadores . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Ordenação dos alinhadores de acordo com o tipo de transição . . . . . . . . . . . 32
4.3 Configuração do segmentador de referência (S0) . . . . . . . . . . . . . . . . . . . 33
4.4 Comparação das várias configurações do segmentador de referência . . . . . . . 35
5.1 Matriz de confusão para o classificador baseado na concordância entre S0 e S1 . 42
5.2 Matriz de confusão para o classificador baseado na duração . . . . . . . . . . . . 44
5.3 Classificador misto conjuntivo (AND) . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.4 Classificador misto disjunto (OR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.5 Erro médio e desvio padrão dos resultados de confiança nas frases do corpus de
teste lgaspar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
A.1 Alfabeto fonético para o dialecto padrão do Português Europeu . . . . . . . . . . . 59
C.1 Percentagem de segmentos com erro menor que 20ms, BD lgaspar . . . . . . . . 64
C.2 Percentagem de segmentos com erro menor que 20ms, bdfemale . . . . . . . . . 65
C.3 Percentagem de segmentos com erro menor que 20ms, bdmale . . . . . . . . . . 66
D.1 Configuração do 2o segmentador de referência (S1) . . . . . . . . . . . . . . . . . 67
D.2 Configuração do 3o segmentador de referência (S2) . . . . . . . . . . . . . . . . . 67
xi
Lista de Acrónimos
DTW Dynamic Time Warping
EST Edinburgh Speech Tools
HMM Hidden Markov Models
HTK Hidden Markov Model Toolkit
MFCC Mel–frequency cepstral coefficients
MLP Perceptrão Multi–Camada
SQL Structured Query Language
TTS Text–To–Speech
WFST Weighted Finite State Transducers
ROC Receiver Operating Characteristic
xiii
Capítulo 1
Introdução
Os sintetizadores baseados em concatenação de unidades são actualmente os mais usados
na área da síntese de fala, especialmente devido ao nível de desenvolvimento tecnológico atin-
gido que permite, quer em termos de processamento, quer de capacidade de armazenamento, a
construção de bases de dados mais extensas, possibilitando um discurso sintético mais natural
e perceptível.
Em grande parte das situações a qualidade da voz produzida a pelos sistemas de concate-
nação de unidades depende do correcto tratamento da base de dados de fala. A construção e
tratamento desta base de dados é a fase em que reside a maior parte do esforço dispendido para
produzir síntese de qualidade em sistemas Text–To–Speech (TTS).
Antes da gravação da base de dados é necessário desenhar as frases (prompts) a fornecer
aos locutores — de acordo com vários critérios, desde o domínio das vozes como o tipo de
prosódia desejada — e escolher os locutores. O processo de gravação em si é também muito
sensível: é fundamental que não haja ruído, e que o locutor seja consistente na forma como lê
— razão pela qual muitas vezes se recorre a locutores profissionais. Após a fase de gravação da
base de dados inicia-se o enriquecimento desta, de forma a produzir o inventário de fala. Para
tal procede-se a várias operações, como a extracção de características acústicas dos sinais de
fala — Mel–frequency cepstral coefficients (MFCC), f0, energia — ou o cálculo de pitchmarks.
É também nesta fase que é realizado o alinhamento fonético das frases que constituem o
conjunto das gravações de fala. O alinhamento fonético é o processo de detecção das fronteiras
entre fones — tipos distintos de sons — em sinais de fala. Esta fase é crucial, pois a qualidade
da síntese depende, em larga medida, da exactidão com que são marcadas fronteiras temporais
das unidades a serem usadas pelo sintetizador.
Numa avaliação perceptual descrita em Kawai & Toda [2004], na qual foram comparados os
resultados de segmentadores construídos com bases de dados segmentadas manual e automa-
ticamente, verificou-se que a qualidade da fala produzida a partir das segmentações manuais é
superior. No entanto, dado a grande quantidade de fala necessária para construir vozes com boa
qualidade, é impraticável proceder-se ao seu o alinhamento manual. A anotação manual, ainda
1
que usada somente para correcção de erros resultantes da anotação automática, requer sóli-
dos conhecimentos de linguística e o domínio das ferramentas informáticas actualmente usadas
nesta área. Trata-se igualmente de uma tarefa extremamente morosa, pelo que muito dispen-
diosa. Além do mais, a anotação manual carece de normas padrão amplamente aceites na
comunidade de linguistíca, o que pode conduzir à falta de coerência na aplicação dos critérios
de segmentação entre diversos anotadores [Amaral et al., 1999; Carvalho, 2004]. Surge assim
a necessidade utilização de técnicas automáticas fiáveis para realizar esta tarefa, de forma a
minimizar a posterior intervenção humana neste processo.
1.1 Estado da Arte
Existem várias técnicas diferentes para segmentar o sinal de fala, sendo dois os tipos de
sistemas de uso mais generalizado: sistemas baseados em treino de modelos estatísticos e
sistemas baseados em síntese de fala.
Os sistemas baseados em treino de modelos acústicos, nomeadamente Hidden Markov
Models (HMM), são sobejamente usados em processamento de fala, essencialmente por to-
marem em consideração a variação estatística do sinal de fala [Malfrére et al., 2003]. No entanto,
para além de ser computacionalmente pesada, um dos problemas da segmentação usando HMM
é necessitar de um alinhamento fonético inicial (bootstrapping) ou de um conjunto de modelos
já razoavelmente adaptados ao orador. Uma vantagem dos alinhadores baseados em síntese,
usando o algoritmo Dynamic Time Warping (DTW), é não haver necessidade de treino de mo-
delos acústicos, tornando o processo de alinhamento mais rápido. Por outro lado, para se poder
utilizar esta técnica, é necessário que exista uma voz sintética da mesma língua na qual se
pretende trabalhar.
De acordo com Kominek et al. [2003]; Malfrére et al. [2003], não é possível afirmar que uma
abordagem seja francamente superior à outra. Nenhum destes métodos apresenta resultados
significativamente melhores que o outro, tendo ambos as suas especificidades: o alinhamento
baseado em síntese — aplicando o algoritmo DTW — é cerca de 70% das vezes mais preciso que
o sistema de HMM — mas é mais provável que cometa um número superior de erros grosseiros.
O sistema baseado em HMM é assim mais fiável, mas menos preciso. Para colmatar esta falta
de precisão, existem vários trabalhos na área do refinamento local das fronteiras colocadas pelos
segmentadores baseados em HMM [Matousek et al., 2003; Nicodem et al., 2008; Toledano et al.,
2003].
Um erro grosseiro de segmentação tem um impacto na qualidade perceptual da fala sinte-
tizada, muito mais significativo que muitos erros pequenos. Para além disso, a dimensão das
bases de dados actualmente usadas em síntese de fala — muitas vezes com mais de 8 horas de
material gravado por apenas um locutor, ainda que com material de diferentes contextos [Oliveira
2
et al., 2008] — permite construir vozes com boa qualidade sem haver necessidade de usar todo
o material disponível. Torna-se assim possível seleccionar de uma base de dados apenas as
frases desejadas, escolhendo só aquelas para as quais se tem maior confiança na segmentação
fonética. Assume assim grande importância a capacidade de detectar erros grosseiros na base
de dados.
No trabalho apresentado em Kominek et al. [2003] estuda-se a relação entre os resultados
obtidos com um método de segmentação baseado em HMM e um algoritmo DTW, concluindo
que os erros de ambos não estão fortemente correlacionados, pelo que a sua combinação pode
ser usada para detectar segmentos problemáticos. É estudado um sistema que se baseia na
distribuição dos erros nas duas ferramentas e na sua estatística — média e desvio padrão —
para identificar segmentos que possam necessitar de correcção manual. Ainda neste trabalho
são estudas as comparações entre as fronteiras dos dois segmentadores, assim como das du-
rações de cada segmento, de forma a remeter para inspecção/correcção manual as frases que
apresentem maior número de possíveis erros de segemntação.
Em Kominek & Black [2004] é apresentado um segmentador baseado em HMM, que usa vá-
rios modelos acústicos para cada tipo de fone. Esta abordagem, devidamente intitulada “family–
of–models”, usa modelos adaptados a vários falantes — com e sem contexto (trifones) — efec-
tuando várias estimativas da localização das fronteiras para cada fone. O estudo da variância
destas estimativas permite reduzir o número de outliers, melhorando de forma significativa a
qualidade da voz de selecção de unidades construída a partir destas segmentações.
Nos artigos Jarifi et al. [2006, 2008] é apresentado um sistema que combina simultaneamente
três ferramentas de alinhamento automático. É efectuado um estudo do comportamento destes
segmentadores em termos de transições fonéticas, de forma a afinar pesos de selecção das
ferramentas. Através da combinação ponderada dos resultados de três métodos automáticos de
segmentação fonética, os autores atingem resultados superiores aos obtidos com qualquer uma
das ferramentas individuais estudadas.
1.2 Objectivos
O objectivo deste trabalho é avaliar a segmentação fonética gerada por diferentes ferramentas
automáticas, usando a combinação desses resultados para classificar a confiança na qualidade
da segmentação fonética.
Dado que existe uma grande variedade de ferramentas de alinhamento fonético disponíveis,
é importante encontrar formas combinar os seus resultados. Numa fase inicial deste trabalho
reúne-se um conjunto de alinhadores disponíveis no laboratório e estuda-se o seu desempe-
nho, comparando os seus resultados com uma base de dados de referência — alinhada à mão.
3
Este estudo conduz à criação de um novo segmentador cuja configuração depende do tipo de
transição fonética em questão — um segmentador de referência .
É com base na configuração obtida para o segmentador de referência que se calculam as
medidas de confiança. Estas são baseadas na distância entre as várias configurações estuda-
das para o segmentador de referência. Como comparação, neste trabalho faz-se também um
estudo de medidas de confiança baseadas em estatísticas simples das segmentações fonéticas
— média e desvio padrão da duração dos fones. Estudam-se igualmente formas de conjugar
ambos os tipos de medidas.
Um dos principais objectivos deste trabalho é permitir a detecção de frases problemáticas
no inventário — casos em que tipicamente há vários segmentos consecutivos com erros de
segmentação. A identificação destas frases é útil para detectar anomalias nas bases de dados
e/ou nas ferramentas usadas, como:
• o locutor lê o texto que lhe é fornecido de forma diferente da prevista;
• o texto tem erros de normalização;
• há presença de ruído na gravação;
• mau funcionamento das próprias ferramentas de segmentação.
Após a detecção das frases do inventário em que o nível de confiança é mais baixo, é possível
tomar a devida acção: verificá-las manualmente, de forma a corrigir o problema — casos de
problemas de normalização, p.e. — , ou retirá-las do inventário, caso não seja possível corrigir
os seus problemas sem recurso ao alinhamento manual.
Apesar deste trabalho ter um capítulo dedicado na íntegra à descrição dos segmentadores
fonéticos usados, a abordagem que se pretendeu tomar foi o desenho de um algoritmo que
funcione independentemente das ferramenta escolhidas. Neste trabalho optou-se por trabalhar
com 4 alinhadores fonéticos de características distintas: 3 baseados em adaptação de modelos
acústicos ao orador — Audimus, eHmm e HTK — sendo os dois últimos baseados em HMM e o
primeiro em redes neuronais. Usou-se também um alinhador baseado em síntese, o DTW.
1.3 Organização do relatório
No próximo capítulo deste relatório apresentam-se as ferramentas de segmentação usadas.
No Capítulo 3 descrevem-se as bases de dados de fala utilizadas ao longo do trabalho.
No Capítulo 2 são descritas as ferramentas de segmentação fonética usadas, assim como a
base de dados de alinhamentos construída.
No Capítulo 4 as ferramentas de segmentação fonética são avaliadas em detalhe, sendo
descrita a metodologia usada para construir o segmentador de referência. Neste capítulo são
apresentados resultados obtidos com todas as ferramentas, quer nas bases de dados de treino
quer nas de teste.
4
No Capítulo 5 é efectuado um estudo sobre algumas medidas de confiança baseadas quer
na duração média dos segmentos, quer na combinação dos segmentadores de referência.
Finalmente, no último capítulo deste trabalho apresentam-se as principais conclusões, assim
como possíveis direcções de trabalho futuro.
5
Capítulo 2
Alinhadores Fonéticos Utilizados
Neste capítulo descrevem-se os vários alinhadores fonéticos utilizados neste projecto, assim
como a configuração usada em cada um. Foram usadas quatro ferramentas de segmentação
fonética apresentando características distintas: um segmentador baseado em síntese, dois ba-
seados em treino de Hidden Markov Models (HMM) e, finalmente, um outro baseado em redes
neuronais. Note-se que duas destas ferramentas — o MAF–DTW e o HTK — foram usadas nos
algoritmos de construção de vozes para síntese de fala [Figueira & Santos, 2006], razão pela
qual o seu funcionamento é explicado com maior detalhe neste capítulo. No que diz respeito ao
Audimus, este é um reconhecedor de fala desenvolvido pelo grupo L2F. Por sua vez, o eHmm
é um alinhador fonético desenvolvido na Universidade de Carnegie Mellon, e distribuído com o
sistema de construção de vozes Festvox [Black & Lenzo, 2006].
2.1 Alinhador baseado em síntese (MAF–DTW)
A segmentação baseada em síntese parte da seguinte premissa: para se alinhar fonetica-
mente um sinal de fala, usando como informação adicional a transcrição ortográfica, gera-se
uma forma de onda artificial, usando um sistema TTS. Seguidamente, extraem-se vectores de
coeficientes acústicos de ambos os sinais, de forma a parametrizar as duas formas de onda —
o original e o artificial. O melhor alinhamento entre as sequências de vectores de característi-
cas acústicas dos sinais sintético e gravado é obtido recorrendo ao algoritmo DTWs [Sakoe &
Chiba, 1984], obtendo-se como resultado final a identificação das fronteiras dos fones no sinal
original. Este algoritmo calcula o referido alinhamento minimizando a distância acumulada entre
os vectores de características de ambos os sinais. Com base nesse alinhamento e na informa-
ção temporal do sinal sintético, é possivel mapear as fronteiras dos segmentos fonéticos do eixo
temporal do sinal sintético para o eixo temporal do sinal gravado, obtendo-se assim as fronteiras
dos segmentos do material gravado.
Acrescente-se neste trabalho é usada uma variante do algoritmo DTW clássico — o MAF–
DTW (do inglês Multiple Acoustic Feature based DTW–Algorithm [Paulo & Oliveira, 2003]). Nesta
7
abordagem, a distância acústica entre dois fones é calculada usando pares distintos de carac-
terísticas dependentes do tipo de transição fonética. Este processo melhora o desempenho do
algoritmo DTW tradicional — que usa sempre o mesmo tipo de características independente-
mente do tipo de transição fonética. Na Figura 2.1 encontra-se um esquema do funcionamento
deste algoritmo, ignorando a geração da sequência fonética (conversão grafema–fonema), assu-
mindo assim que esta já é conhecida.
S ina l de fa la or ig inal
Algoritmo DTW
S ina l de fa la s in tét ico
Segmentação fonét ica do s inal de fa la or ig inal
Extracção de características
Extracção de características
Geração dosinal sintético
Sequênc ia fonét ica
Sequênc ia fonét ica do s inal s intét ico Ident i f i cação tempora l das f ron te i ras en t re segmentos Ident i f icação da c lasse acúst ica dos fones
Figura 2.1: Funcionamento do algoritmo de segmentação baseado em síntese (MAF–DTW)
2.1.1 Geração do sinal sintético de referência
No que diz respeito ao sinal sintético de referência, este é gerado com o sistema de TTS do
Festival — sistema de síntese de fala desenvolvido pela Universidade de Edinburgo. No caso de
a base de dados a alinhar ser em Português Europeu, a voz utilizada é de um falante masculino
pertencente à variante padrão do Português Europeu. A voz usada neste processo de síntese
deve ser o mais parecida possível com a nova voz que se pretende criar, devido à influência que
pode ter nos resultados do alinhamento. Para a obtenção de melhores resultados, o ideal é usar
uma voz de um locutor do mesmo sexo e falante do mesmo dialecto.
Esta é uma voz de concatenação de difones, para que não existam descontinuidades nas
fronteiras entre fones (a concatenação dos difones é feita no centro dos fones), e porque neste
tipo de vozes é conhecida com exactidão a localização da fronteira entre os fones. Também não
é efectuado qualquer pós–processamento do sinal — seja filtragem ou manipulação prosódica
— de forma a não distorcer o sinal sintético.
8
2.1.2 Extracção de características e alinhamento
As distâncias acústicas entre os sinais original e sintetizado são calculadas a partir de coe-
ficientes acústicos. Assim sendo, torna-se necessário parametrizar os dois tipos de sinal. Para
tal usam-se janelas espaçadas de 5ms, calculando os seguintes parâmetros acústicos: coefici-
entes MFCC, coeficientes de predição linear (LPC) e energia. Em seguida é aplicado o algoritmo
DTW, cujas entradas são o sinal sintetizado — com o respectivo alinhamento fonético — e o
natural e, ainda, os ficheiros contendo os respectivos coeficientes acústicos. Desta forma o DTW
é aplicado usando uma matriz com as distâncias euclidianas entre as janelas dos sinais sintético
e natural. Esta matriz é construída de forma iterativa, sendo feita par de fones a par de fones.
De acordo com a classe fonética da transição entre os fones do sinal sintético, escolhe-se o par
de características acústicas que melhor identifica a fronteira entre segmentos [Paulo & Oliveira,
2003].
De seguida, calcula-se a distância euclideana entre estes vectores de características, preen-
chendo a matriz de distâncias. Construída esta matriz, que estabelece a correspondência entre
as janelas dos dois sinais, extrai-se a função que calcula o mapeamento não linear entre os dois
sinais.
Na Tabela 2.1 encontram-se os pares de características acústicas usados neste trabalho para
calcular as distâncias, para os vários tipos de transições fonéticas. No MAF–DTW (para Por-
tuguês Europeu) distinguem-se as seguintes classes fonéticas: vogal, nasal, fricativa, líquida
lateral, líquida vibrante, oclusiva e silêncio. Na implementação original do algoritmo, descrita
em Paulo & Oliveira [2003], são usados outros tipos de características acústicas para obter me-
lhores resultados — nomeadamente formantes e taxa de cruzamento por zero — que não são
usados nesta implementação. A razão desta escolha tem como objectivo facilitar o seu uso inde-
pendentemente do sexo do falante (as formante calculadas para falantes masculinos dão resulta-
dos mais fiáveis que para femininos). Relativamente a este trabalho usou-se a implementação do
MAF–DTW que se encontra apresentada de forma mais detalhada em Figueira & Santos [2006].
Tabela 2.1: Características acústicas usadas no alinhador MAF–DTW, de acordo com o tipo de transi-ção entre segmentos
Nasal Fricativa Líquida Lateral Oclusiva Silêncio Vogal Líq. Vibr.
Nasal mfcc, lsf mfcc, mfcc mfcc, en lsf, en mfcc, en mfcc, mfcc mfcc, enFricativa lsf, lsf en, mfcc mfcc, en lsf, en mfcc, en lsf, lsf lsf, enLíquida Lateral lsf, en lsf, en lsf, lsf en, mfcc mfcc, en en, mfcc —Oclusiva lsf, en lsf, lsf lsf, en mfcc, mfcc lsf, mfcc mfcc, en en, enSilêncio lsf, en lsf, en lsf, en lsf, en — lsf, en —Vogal mfcc, en mfcc, lsf mfcc, en lsf, en mfcc, en lsf, mfcc en, enLíq. Vibrante mfcc, mfcc lsf, lsf — en, en lsf, en en, en —
9
2.2 Alinhador baseado em treino de HMM
Os HMM são uma ferramenta estatística extremamente usada na área do processamento da
fala, em especial na área do reconhecimento, desde há várias décadas, devido à sua natureza
probabilística e à existência de algoritmos poderosos de ajuste automático dos parâmetros dos
modelos de forma iterativa. Nestes, considera-se o sinal estacionário (em intervalos de curta
duração) pelo que se pode parametrizar o sinal usando intervalos de tempo fixos.
Um processo de Markov é um processo estocástico (X), caracterizado por uma sequência de
estados Xi (de agora em diante denominado por xi) e pelas probabilidades de transição entre
estes (aij), e que exibe a seguinte propriedade fundamental: a probabilidade de transição do
estado xi para o estado xi+1 depende apenas do estado anterior, e não de toda a sequência de
estados passados, ou seja:
P (Xi+1 = x|X0 = x0, X1 = x1, . . . , Xi = xi) = P (Xi+1 = x|Xi = xi) (2.1)
Um modelo de Markov não observável é definido por Rabiner [1989] como um par de processos
estocásticos (máquina de estados finita) M = (X,O,Π), em que o processo X é uma cadeia
de Markov de primeira ordem não directamente observável (escondida) e que apenas pode ser
observado através do processo O, que representa a sequência de variáveis aleatórias que assu-
mem valores no espaço de observações, com determinada probabilidade de emissão bi em cada
um dos estados. A distribuição inicial de probabilidades representa-se por Π.
Em processamento da fala, as observações são vectores de coeficientes acústicos do sinal
de fala, representando os estados qualquer unidade fonética. Adopta-se geralmente um modelo
do tipo esquerda–direita, onde o índice do estado aumenta (ou permanece o mesmo) à medida
que o tempo aumenta — ver Figura2.2.
Desta forma, cada estado tem uma distribuição de probabilidade de acordo com as observa-
ções possíveis; logo, a partir da análise da sequência de observações gerada, é possivel estimar
a sequência de estados que esteve na sua origem.
Os Mel–frequency cepstral coefficients (MFCC) são obtidos aplicando a transformada de Fou-
rier a janelas (tipicamente de Hamming) do sinal de fala, descorrelacionando o espectro com a
transformada de coseno discreta, sendo frequentemente usados para fazer a parametrização es-
pectral de sinais de fala. Os estados de um HMM podem ser caracterizados por uma distribuição
estatística — misturas Gaussianas — associadas à verosimilhança de cada vector de observa-
ções [Young et al., 2002]. Cada estado, — tipicamente fones ou palavras — tem uma diferente
distribuição de observações.
A topologia dos HMM usados é a seguinte: tipo esquerda–direita com 5 estados, sendo cada
estado composto por 8 misturas gaussianas. O primeiro e último estados são não–emissores,
10
como se pode ver na ver Figura2.2. O único modelo em que não se adopta esta topologia é para
o modelo dos silêncios inferiores a 50ms (silêncio curto, /sp/), composto apenas por 3 estados.
a12 a23 a34 a 45
a22 a33 a44
1 2 3 4 5
a24 a35
b2( ) b3( ) b4( )
a13
Figura 2.2: HMM esquerda–direita simplificado [Young et al., 2002]
Este segmentador necessita de uma segmentação fonética para inicializar o treino iterativo
dos modelos. É com base nestes alinhamentos que se treina o primeiro HMM. Neste trabalho,
o HTK usa alinhamentos produzidos pelo MAF–DTW; contudo, qualquer outro alinhamento pode
ser fornecido pelo segmentador, sendo que quanto melhor a for a sua qualidade, mais precisas
são as estimações dos modelos treinados a partir dele, o por sua vez conduz a uma melhor
segmentação do sinal de fala Carvalho et al. [1998].
O modo de funcionamento do alinhador pode ser resumido da seguinte forma: inicialmente
procede-se à parametrização acústica dos sinais de fala. De seguida, e de forma iterativa,
treinam-se os modelos (inicialmente os modelos genéricos, posteriormente os modelos treina-
dos numa iteração anterior). Os modelos treinados são usados para descodificar a sequência
fonética fornecida. Esta sequência fonética é posteriormente usada para efectuar um novo treino
de modelos. Este procedimento é iterativo, e realizado até que se considere ter atingido a con-
vergência. O funcionamento desta segemntador encontra-se esquematizado na Figura 2.3.
O treino dos HMM é efectuado de forma sequencial. Primeiro os HMM são inicializados
a partir das transcrições fonéticas provenientes do último alinhamento e do modelo de HMM
calculado — que tanto pode ser um modelo padrão, como um modelo resultante de um ciclo de
treino.
2.2.1 Parametrização do sinal de fala
O primeiro passo desta fase é a parametrização dos sinais de áudio. Esta operação é efectu-
ada recorrendo à ferramenta HCopy — distribuída com o conjunto de ferramentas Hidden Markov
Model Toolkit (HTK). Cada vector de coeficientes é composto por 12 coeficientes MFCC, respec-
tivos coeficientes delta de primeira e segunda ordem, e, cada um destes conjuntos, o respectivo
valor de energia (coeficiente de ordem zero), num total de 39 coeficientes por vector. Todas
as ferramentas HTK usam estes vectores de observações para estimação dos modelos, pelo
11
H M M " canón i co "
H M M t r e i n a d o
A l i n h a m e n t o f o n é t i c o
N
S
A l i n h a m e n t o f o n é t i c o
Treino(HInit +HRest)
Al inhamento(HVite)
Convergência?
A l i n h a m e n t o f o n é t i c o i n i c i a l
A l i n h a m e n t o f o n é t i c o
Figura 2.3: Esquema de funcionamento do segmentador baseado no HTK
que estes não voltam a ser calculados. O espaçamento entre vectores é de 5ms e estes são
calculados janelas de Hamming com largura de 20ms.
2.2.2 Treino e adaptação dos modelos
O treino dos HMM é preferencialmente feito com base em modelos adaptados ao orador.
Caso estes não existam, parte-se de um modelo geral, que indica a topologia do HMM — ta-
manho dos vectores, tipo de parâmetros e número de estados e misturas. A topologia utilizada
foi a tradicional: modelos do tipo esquerda–direita, com 5 estados cada (3 estados centrais) e 8
misturas por estado, excepto no caso dos ditongos e do fone /o~/, em que, devido sua à raridade
de ocorrência apenas se usam 6 misturas gaussianas.
A inicialização dos modelos é feita com a ferramenta HInit, distribuída com o HTK. O princípio
de funcionamento do HInit baseia-se no conceito de um HMM como gerador de vectores de
fala, podendo-se considerar cada ficheiro de treino (contendo a parametrização efectuada ao
sinal) como o resultado (output) do HMM cujos parâmetros se pretendem estimar. Logo, se o
estado gerador de cada vector do conjunto de treino fosse conhecido, os valores desconhecidos
de médias e variâncias poderiam ser estimados pesando todos os vectores associados a cada
estado [Young et al., 2002]. Este método é implementado segundo um esquema iterativo como
descrito na Figura 2.4(a), em que o algoritmo de Viterbi é usado para determinar a sequência
de estados mais provável que corresponde a cada observação, sendo os parâmetros do HMM
estimados em seguida, inicializando assim o modelo de cada fone isoladamente. Esta operação
é feita iterativamente, até se atingir convergência ou um número máximo de iterações.
O HInit tem a opção de efectuar a segmentação inicial e uniforme dos ficheiros de transcri-
ção. No entanto, como é usado tendo sempre à entrada uma segmentação fonética de todos
12
os ficheiros — oriunda do alinhamento inicial baseado em síntese ou do alinhamento usando o
HVite nas iterações posteriores, não necessita desta segmentação inicial, procedendo somente à
actualização do modelo. No entanto, caso se detectem problemas nesta abordagem, esta opção
pode ser desactivada, de forma a que o HInit faça a segmentação uniforme das transcrições.
Viterbi Segmentation
Update HMM Parameters
Prototype HMM
Converged?No
Yes
Initialised HMM
Uniform Segmentation
Initialise Parameters
(a) Funcionamento
InputHMM Def(ih.1)
OutputHMM Def(ih.2)
HInit
000 103 eh024 091 ih092 134 t135 182 th
000 023 s024 091 ih092 134 t135 182 th
000 056 ih024 091 ih092 134 t135 182 th
000 023 b024 091 ih092 134 t135 182 th
000 016 a024 091 ih092 134 t135 182 th
000 023 b024 091 ih092 134 t135 182 ih
data/tr1.mfc
data/tr2.mfc
data/tr3.mfc
data/tr4.mfc
data/tr5.mfc
data/tr6.mfc
labs/tr1.lab
labs/tr2.lab
labs/tr3.lab
labs/tr4.lab
labs/tr5.lab
labs/tr6.lab
(b) Processamento de ficheiros
Figura 2.4: Esquemas de funcionamento do HInit [Young et al., 2002]
Uma vez inicializado o HMM, usa-se o algoritmo de Baum–Welsh, que calcula a probabilidade
de estar num estado em cada instante. O valor de probabilidade assim calculado é usado para
actualizar os parâmetros do HMM. A entrada desta ferramenta são os modelos inicializados pelo
HInit, assim como as transcrições fonéticas e os coeficientes acústicos.
No final de cada treino de modelos, é feito o tratamento dos silêncios. Tendo como referência
a topologia representada na Figura 2.2, altera-se o modelo do silêncio normal (/sil/) criando
duas novas transições, uma do estado 2 para o estado 4, e outra do estado 4 para o estado
2, de forma a que o seu modelo se torne mais robusto. Ao adicionar estas transições, pode-se
assim transitar do estado 4 para o estado 2, absorvendo o ruído impulsivo das gravações [Young
et al., 2002]. Para efectuar esta operação usa-se a ferramenta HHed, editor de modelos do
HTK. Constrói-se também o modelo HMM para o silêncio curto (/sp/), composto por apenas um
estado, o estado central do /sil/.
2.2.3 Alinhamento
O passo seguinte consiste no alinhamento das transcrições a partir dos HMM treinados. Este
procedimento é realizado pela ferramenta HVite. À saída desta etapa, são criadas as transcrições
13
fonéticas para cada uma das elocuções. É necessário fornecer ao HVite um dicionário de (word
level lattice), com as transcrições fonéticas ao da palavra, para todo o corpus. De acordo com
as pronúncias do dicionário e com base nos modelos treinados anteriormente, o HVite escolhe
a pronúncia que melhor espelha a respectiva realização acústica, produzindo um novo alinha-
mento. Os novos alinhamentos produzidos pelo HVite são todos gravados num único ficheiro,
pelo que é necessário proceder à separação das transcrições em ficheiros individuais. Ao dividir
os ficheiros, realiza-se igualmente uma análise das transcrições de forma a corrigir alguns erros
ocorridos no alinhamento, nomeadamente o apagamento de silêncios contíguos, substituindo-os
por apenas um silêncio, ou o tratamento dos silêncios antes das oclusivas surdas (/p/, /t/ e /k/)
— estes fones são caracterizados por uma zona de silêncio quase total (oclusão) antes da zona
de explosão, pelo que um erro muito comum no alinhamento por HMM é identificar esta zona de
silêncio como sendo um silêncio curto.
O ciclo de treino/alinhamento é efectuado de forma iterativa até que se atinja a convergência.
Considera-se que esta foi atingida caso menos de 0,5% dos fones tenham uma diferença superior
a 5 ms entre duas iterações sucessivas do algoritmo.
2.3 Audimus
O Audimus é um sistema de reconhecimento de fala desenvolvido no grupo L2F. Trata-se de
um sistema híbrido que combina as capacidades discriminativas de classificação de padrões de
um Perceptrão Multi–Camada (MLP) com as capacidades de modelação dos processos de HMM
para modelar a natureza temporal do sinal de fala [Neto & Meinedo, 2000; Neto et al., 1999].
Figura 2.5: Diagrama de blocos do sistema Audimus Meinedo [2008]
Para os modelos acústicos são utilizados 3 diferentes métodos de extracção de caracterís-
ticas: PLP (Perceptual Linear Prediction), Log-Rasta (Relative Spectral) e MSG (Modulation-
filtered Spectogram). Nos dois primeiros métodos é utilizada uma janela de contexto de 7 tramas,
extraindo-se um conjunto de 12 coeficientes com o logaritmo da energia e as suas primeiras de-
rivadas temporais, resultando num vector com um total de 26 elementos. No terceiro método é
utilizada uma janela com 9 tramas, extraindo-se 14 coeficientes. Estes são submetidos a dois
filtros (passa-baixo e passa-banda), que são concatenados, gerando um conjunto de 28 elemen-
14
tos. Todos estes processos de extracção de características funcionam sobre o mesmo conjunto
de 38 fones representativos da língua portuguesa, mais 2 representativos de silêncio e respira-
ções. Posteriormente, serão combinados para formar um único MLP, utilizado no processo de
descodificação [Meinedo et al., 2003].
O processo de descodificação de fala do Audimus faz corresponder ao sinal acústico a repre-
sentação ortográfica da frase que foi produzida. Escolhe a sua hipótese com base num voca-
bulário finito composto por palavras que podem ser reconhecidas, e num modelo de língua que
apresenta um conjunto de restrições à forma como as palavras se relacionam entre si.
2.3.1 Modelos de língua
Os modelos de língua podem ser compostos por regras formais linguísticas ou por modelos
estocásticos. Os modelos com base em regras, além de serem computacionalmente exigentes,
tendem a ser demasiado restritivos para utilização em fala espontânea, caracterizada por fre-
quentes construções frásicas gramaticalmente incorrectas. Assim, em reconhecimento de fala,
é muito mais usual a introdução de modelos de língua com base em modelos estocásticos, em
que se realiza uma distribuição de probabilidades para cada elemento ou conjunto de elementos
verificados num conjunto de treino. Para criar este modelo, é necessário utilizar grandes quan-
tidades de material de treino para obter estatísticas válidas, que permitam construir modelos de
língua estocasticamente robustos.
O sistema de descodificação do Audimus é baseado na aplicação de Weighted Finite State
Transducers (WFST) a reconhecedores de fala de grande vocabulário. É construído um único
WFST que resulta da composição dos vários transdutores, representando componentes como
os modelos acústicos, dependência de contexto, o léxico e o modelo de língua. Importa refe-
rir que esta composição é realizada fora do processo de descodificação. Outra característica
muito importante do processo de descodificação utilizando WFST consiste no facto do espaço
de procura ser criado dinamicamente, ajustando-se ao segmento que está a ser descodificado
no momento. Esta solução revela-se uma forma elegante de reunir as mais diversas fontes de
informação para serem utilizadas no processo de descodificação, além de permitir obter redu-
ções até 6 vezes no tempo de processamento [Caseiro & Trancoso, 2002]. Como desvantagem,
verifica-se a necessidade de grandes quantidades de memória no processo de composição.
2.3.2 Adaptação dos modelos acústicos
Para além da transcrição fonética, fornece-se igualmente um modelo acústico generalista ao
Audimus, com base no qual é feita a primeira segmentação fonética. Este modelo genérico foi
treinado com um corpus de cerca de 70 horas de fala, recolhidas de emissões de programas
televisivos da RTP entre Outubro de 2000 Janeiro de 2001. Trata-se assim de fala de vários
oradores, de ambos os sexos, e recolhido em condições acústicas heterogéneas. Este corpus
15
foi segmentado automaticamente, tendo os modelos sido treinados após a verificação manual do
mesmo. Este modelo tem uma taxa de erro ao nível da palavra (WER) de cerca de 18% [Meinedo
et al., 2003], quando usado com uma rede com a configuração de 182 entradas, 1000 estados
centrais e 40 saídas — 38 fones, silêncio e respiração.
Após a segmentação fonética inicial, baseada no modelo acústico genérico descrito anteri-
ormente, procede-se à adaptação deste modelo ao orador. Para tal, efectua-se um treino de
rede, com 90% da base de dados a segmentar, reservando-se os restantes 10% para conjunto
de validação cruzada. Este ciclo de treino dos pesos da rede neuronal seguido de segmentação
é efecuado de forma iterativa, e pára quando menos que 1% dos fones sofre alterções em duas
iterações sucessivas — altura em que se considera que o treino estabilizou.
2.4 eHMM
O eHMM [Prahallad et al., 2006] é um alinhador fonético desenvolvido na Universidade de Car-
negie Mellon. Faz parte integrante do conjunto de ferramentas Festvox [Black & Lenzo, 2006] —
desde a sua versão 2.1, lançada em 2006, tendo vindo substituir o já conhecido sistema Sphinx-
Train como alinhador optimizado para trabalhar com bases de dados de síntese de fala [Black
& Lenzo, 2006]. Esta ferramenta pode usar três topologias diferentes de modelos. Na topo-
logia da configuração por omissão (mod0), os modelos são do tipo esquerda–direita, em que
os estados são ligados de forma ergódica. A segunda configuração possível (mod1) obtém-se
ligando todos os estados entre si, não diferenciando entre estados para a esquerda ou para a di-
reita — criando assim modelos completamente ligados (do inglês fully–connected). Uma terceira
topologia (mod2) consiste em ligar todos os estados a todos os estados subsequentes (forward–
connected). No entanto, das experiências efectuadas em Huggins-Daines & Rudnicky [2006];
Prahallad et al. [2006] verificou-se que para segmentar bases de dados para síntese de fala a
melhor performance é obtida com a topologia mod0 — i.e. a topologia do tipo esquerda–direita.
É necessário fornecer ao eHmm uma segmentação de referência com a informação do ali-
nhamento entre as palavras que constituem a frase e os fones que as constituem. O eHmm
necessita desta para treinar uma pausa curta entre todas as palavras ao longo das várias itera-
ções de treino de modelos. Esta pausa é opcional, pois no fim do treino — quando os modelos
acústicos convergem — é tomada uma decisão acerca de manter ou não as pausas opcionais.
Esta estrutura multinível — fonético, silábico, palavras e frase, entre outros — é gerada recor-
rendo à ferramenta MuLA, descrita em [Paulo & Oliveira, 2002]. A capacidade de inserir e apagar
silêncios entre palavras com precisão [Huggins-Daines & Rudnicky, 2006], assim como o facto
de adaptar modelos ao orador de forma não–supervisionada torna o eHmm uma ferramenta ex-
tremamente útil para segmentar fala.
16
A configuração usada para o eHmm foi a configuração por omissão: 2 gaussianas por estado,
13 coeficientes MFCC e modelos do tipo esquerda–direita — topologia do tipo mod0.
17
Capítulo 3
Bases de Dados
Neste capítulo descrevem-se os dados usados neste trabalho. Foram usadas três bases de
dados distintas, recolhidas no âmbito de dois projectos diferentes. Duas das bases de dados
foram recolhidas nas mesmas condições no âmbito do mesmo projecto, com um orador de cada
sexo. A terceira base de dados, com maior quantidade de material, foi recolhida posteriormente,
apresentando melhores condições acústicas. O orador desta é do sexo masculino.
Ao longo deste trabalho, os alinhadores fonéticos serão avaliados não só em termos de com-
portamento global — ou seja, no conjunto de todas as transições fonéticas de uma base de dados
— mas também de forma mais detalhada, ao analisar o comportamento de cada alinhador em
todos os conjuntos de transições entre classes fonéticas. Assim, inicialmente procede-se à des-
crição do conjunto de fones e das classes fonéticas — i.e., conjuntos de fones com características
acústicas semelhantes.
Note-se que são igualmente descritas as opções tomadas em termos de organização dos
dados, nomeadamente em relação à determinação das sequências fonéticas.
3.1 Classes Fonéticas
Como referido anteriormente, a avaliação dos alinhadores fonéticos é feita calculando o erro
na fronteira entre fones. De forma a proceder a uma avaliação suficientemente detalhada avalia-
se o comportamento dos segmentadores fonéticos em diferentes classes fonéticas. Uma descri-
ção mais completa dos fones existentes no português Europeu encontra-se no Anexo A. Por sua
vez, o conjunto de classes fonéticas adoptadas neste trabalho encontra-se descrito na Tabela 3.1.
A escolha dos tipos de transição fonética baseou-se na adoptada em Paulo & Oliveira [2003].
No entanto, em relação a esse trabalho, a classe das vogais foi separada nas classes vogal,
vogal nasal e glides orais. Devido à dificuldade em segmentar as glides nasais (/j~/ e /w~/), e
como estas só ocorrem em contexto de ditongo, optou-se por usar os ditongos nasais (/6~j~/,
/6~w~/, /u~j~/ e /o~j~/). Devido às suas características acústicas, os ditongos nasais foram
incorporados na classe das vogais nasais.
19
3.2 Descrição das bases de dados de fala
O estudo dos segmentadores e das medidas de confiança foi realizado usando três corpora
distintos: dois masculinos — bdmale e lgaspar — e um corpus feminino — bdfemale. As bases
de dados bdmale e bdfemale foram gravadas no âmbito do projecto BDFALA [Martins et al.,
1998; Trancoso et al., 1997] em condições semelhantes: oradores não profissionais, falantes de
português Europeu, numa sala anecóica, com os mesmos textos. A terceira base de dados —
lgaspar — foi recolhida num estúdio profissional por um locutor também este profissional, falante
da norma padrão do português Europeu. Esta base de dados foi gravada no âmbito do projecto
AUDIOLING [de Macedo et al., 2001].
3.2.1 Base de dados lgaspar
A base de dados lgaspar tem uma duração aproximada de 87 minutos, ao longo de 724 fra-
ses, num total de 45282 fones. Como a totalidade da base de dados está alinhada manualmente,
considerou-se útil dividi-la em duas secções: 4/5 para o estudo do desempenho dos segmenta-
dores e afinação das medidas de confiança, e 1/5 para os testes. O critério seguido para dividir a
base de dados foi escolher frases, de forma aleatória, até um conjunto contabilizar 20% do total
de fones, não fazendo distinção entre classes fonéticas.
O conjunto de treino tem uma duração de 67 minutos de fala, divididos em 587 frases. O nú-
mero de transições fonéticas no corpus de treino, organizadas por classes, encontra-se indicado
na Tabela 3.2. No Anexo B encontram-se as tabelas referentes à totalidade da base de dados,
assim como à base de dados de teste.
A distribuição dos fones por classes encontra-se representado na Tabela 3.1. Verifica-se que,
como expectável, cerca de metade dos fones presentes no corpus são vogais. Os diferentes tipos
de transições fonéticas existentes na base de dados encontram-se representados na Tabela 3.2.
Tabela 3.1: Descrição das classes fonéticas. A classe das vogais nasais engloba não só estas mastambém os ditongos nasais.
Classe Fonética Fones
Vogais i, e, E, a, 6, @, O, o, u;Glides (ou semivogais) j, w
Vogais Nasais i~, e~, 6~, o~, u~, 6~j~, 6~w~, u~j~ e o~j~;Líquidas l, l~, L, r, R;Oclusivas p, t, k, b, d, g;
Consoantes Nasais m n e J;Fricativas f, v s; z S ZSilêncio #
20
Tabela 3.2: Número de transições fonéticas, no subconjunto de treino do corpus lgaspar
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 554 633 102 1271 3211 2468 3136 1036Semivogal 727 8 148 32 267 73 139 32V. Nasal 183 3 70 70 468 46 1223 154C. Nasal 1503 50 379 20 39 11 36 19Fricativa 2189 187 541 203 340 135 1088 522Líquida 1924 142 276 163 259 23 527 190Oclusiva 4515 352 588 78 410 690 188 21Silêncio 816 51 112 220 210 58 505 —
3.2.2 Base de dados bdmale
A base de dados bdmale é um subconjunto do material gravado por um locutor do sexo mas-
culino, não–profissional, falante da norma padrão do Português Europeu [Martins et al., 1998].
Este corpus é composto por 600 frases foneticamente ricas — correspondendo a 51 minutos de
fala (incluindo silêncios). Destas apenas 120 estão anotadas ao nível fonético (cerca de 9 minu-
tos, correspondendo a 6744 fones). Definiram-se os seguintes subconjuntos com esta base de
dados:
treino de modelos acústicos: para o treino dos modelos acústicos (caso das ferramentas
ehmm e HTK) e adaptação dos pesos da rede neuronal (no caso do Audimus) usou-se
a base de dados completa (600 frases);
análise dos segmentadores/medidas de confiança: apenas foram usadas as frases para as
quais há anotação manual disponível, ou seja, as 120 frases. A Tabela 3.3 representa a
distribuição de transições fonéticas nesta base de dados.
Devido ao pouco material disponível nesta base de dados não se reservou nenhum subcon-
junto para testes às medidas de confiança.
Tabela 3.3: Número de transições fonéticas no subconjunto anotado manualmente da base de dadosbdmale
Vogal Glide V. Nasal C. Nasal Fricativa Líquida Oclusiva #
Vogal 99 107 26 219 559 458 607 139Glide 125 2 28 6 31 20 36 8V. Nasal 33 0 10 22 119 9 283 16C. Nasal 275 14 67 8 18 9 12 2Fricativa 472 31 118 41 61 38 195 65Líquida 372 30 80 39 82 12 98 28Oclusiva 722 62 141 37 119 193 70 19# 106 10 21 27 30 2 56 —
3.2.3 Base de dados bdfemale
Este corpus é um subconjunto do recolhido no âmbito do projecto BDFala. A oradora, à
semelhança do corpus anterior, é não profisional, sendo falante da norma padrão do Português
21
Europeu. A dimensão do corpus é de 52 minutos de fala (600 frases), dos quais 10 minutos estão
anotados manualmente, divididos em 120 frases (6738 transições fonéticas). À semelhança
da bdmale, usou-se a totalidade para treino de modelos acústicos, e a porção para a qual há
segmentação manual para avaliação dos segmentadores e estudo das medidas de confiança.
Também à semelhança do que foi feito com a base de dados bdmale, não se reservou nenhum
subconjunto para testes finais.
Tabela 3.4: Número de transições fonéticas corpus bdfemale
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 98 115 31 216 540 467 587 124Semivogal 138 0 32 9 32 19 34 9V. Nasal 33 2 10 22 115 9 283 16C. Nasal 268 13 68 10 20 10 13 6Fricativa 463 34 116 45 69 37 198 61Líquida 365 34 78 37 81 7 110 31Oclusiva 714 63 138 35 144 192 74 14Silêncio 94 11 16 29 26 2 71 —
3.3 Sequências fonéticas
O alinhamento automático apresenta dois desafios distintos: a detecção da sequência foné-
tica existente nas elocuções e a identificação das fronteiras entre os segmentos (segmentação
do sinal de fala).
A Tabela 3.5 representa o número de fones existentes em todas as bases de dados, nos sub-
conjuntos utilizados para avaliar as ferramentas de segmentação fonética. Pode verificar-se que
as percentagens de unidades são similares para todas as base de dados. Esta tabela foi con-
truída tendo em conta a anotação fonética manual. Verifica-se que as bases de dados bdmale e
bdfemale, apesar de ambos os locutores terem lido os mesmos textos e em condições similares,
tendo os dois oradores a mesma pronúncia, têm número de fones diferente. As diferenças verifi-
cadas resultam de formas diferentes de pronunciar certas palavras, muitas vezes consequência
de débitos de fala mais elevados, que podem levar à ocorrência de episódios de redução fonética.
Esta questão remete-nos para a problemática da detecção das sequências fonéticas. Tanto
o DTW como o ehmm necessitam de saber a transcrição fonética a priori. O HTK pode ser
usado em conjugação (tal como em Oliveira et al. [2008]; Paulo et al. [2008]; Weiss et al. [2007])
com um segmentador baseado em WFST [Paulo & Oliveira, 2005]. O Audimus também tem um
descodificador baseado em WFST, pelo que também permite pronúncias alternativas. Visto que
o enfoque deste trabalho é a avaliação da segmentação e respectiva confiança, optou-se por não
avaliar a qualidade da detecção da sequência fonética, dado que são dois problemas distintos.
O processo de alinhamento parte sempre de uma sequência fonética base: caso exista uma
transcrição fonética manual, é esta a adoptada. Se esta não existe — caso dos conjuntos de
22
Tabela 3.5: Distribuição de fones por classes, segmentações manuais de todos os corpus
lgaspar bdmale bdfemale
Vogal 12411 (34.8%) 2214 (32.8%) 2178 (32.3%)Semivogal 1426 (4.0%) 256 (3.8%) 273 (4.1%)V. Nasal 2217 (6.2%) 492 (7.3%) 490 (7.3%)C. Nasal 2057 (5.8%) 405 (6.0%) 408 (6.1%)Fricativa 5205 (14.6%) 1021 (15.1%) 1023 (15.2%)Líquida 3504 (9.8%) 741 (11.0%) 743 (11.0%)Oclusiva 6842 (19.2%) 1363 (20.2%) 1374 (20.4%)Silêncio 1973 (5.5%) 252 (3.7%) 249 (3.7%)
treino das bases de dados bdmale e bdfemale — usa-se a sequência fonética predita pelo Audi-
mus.
3.4 Bases de dados de alinhamentos em SQL
Para armazenar os dados de forma eficiente as bases de dados de segmentações utilizou-se
uma base de dados acedida através de SQL. Optou-se por usar o sistema de gestão de bases
de dados SQLite pelas seguintes razões:
• é facilmente embebível em aplicações (está contido numa biblioteca C com cerca de
500kB);
• é extremamente leve em termos computacionais, visto que ao embebê-la na aplicação —
compilando juntamente com a respectiva biblioteca — todas as funções ficam acessíveis
por simples chamadas internas, o que reduz a latência no acesso à base de dados;
• como cada base de dados é armazenada em ficheiros de texto, a gestão dos múltiplos
conjuntos de torna-se extremamente simples;
• é gratuita e open–source.
Usou-se a linguagem de prototipagem Python, e o módulo pysqlite do interface com bases de
dados DBAPI2 para comunicar com as bases de dados.
O processo de construção das bases de dados em SQL segue o seguinte procedimento:
1. Normalização dos formatos de saída de todos os segmentadores fonéticos, incluindo as
segmentações manuais;
2. alinhamento das sequências fonéticas em relação à referência — no caso de haver ma-
nual, será esta a referência; caso contrário usa-se a segmentação produzida pelo Audimus.
Este alinhamento entre sequências fonéticas faz-se recorrendo à ferramenta MulevAnnot,
desenvolvida em C++;
3. criação dos ficheiros com os dados a introduzir nas bases de dados SQL. A criação destes
ficheiros é feita com uma função em Scheme, interpretado em Festival, dado que é nesta
fase que se insere igualmente a informação linguística necessária, nomeadamente o tipo
de classe fonética a que cada fone pertence.
23
As tabelas SQL com os resultados de cada segmentador são constituídas pelas seguintes
colunas (cada linha da tabela refere-se a um segmento fonético):
ph_id identificador universal do segmento (Integer Primary Key);
ph_name nome do segmento (String);
ph_end tempo do fim do segmento, em segundos (Float);
ph_dur duração total do segmento, em segundos (Float);
ph_class classe fonética do segmento (String);
n_ph_type classe fonética do próximo segmento (String);
filename nome do ficheiro (String);
type tipo de fone, em relação à referência (String);
A vantagem de usar uma base de dados SQL, em relação a processar os alinhamentos indivi-
dualmente ou em listas de texto, é enorme em termos de velocidade de consulta à base de dados
e, especialmente, por permitir a construção de novas procuras rápida e facilmente — facilitando
assim a extracção de novos dados e o cruzamento de resultados entre vários alinhadores. No
entanto existe o problema da introdução dos dados. É fundamental que estes sejam inseridos de
forma a que o identificador universal do fone (ph_id) identifique a mesma unidade em todas as
tabelas. Optou-se por forçar a sequência fonética fornecida aos segmentadores, de forma a que
a pronúncia de todas as frases seja igual. Esta permissa é fundamental para que as bases de
dados construídas em SQL estejam correctas e para que os resultados sejam fiáveis.
No entanto, e mesmo forçando as sequências fonéticas, podem ocorrer pequenos desvios,
dependendo do comportamento dos alinhadores. Neste trabalho tanto o eHmm como o DTW
tiveram problemas em seguir a sequência fonética que lhes foi fornecida. Como a voz sintética
usada com o DTW é uma voz de difones é fundamental que todas as frases se iniciem (e ter-
minem) com um silêncio — os difones de início são sempre compostos por silêncio–fone, e os
de final são do tipo fone–silêncio. Apesar de ser comum processar os ficheiros audio de forma
a garantir que, tanto no início como no fim exista uma zona de silêncio de 100ms, alguns dos
ficheiros das bases de dados usadas não cumpriam este requisito. Nestes casos foi necessário
introduzir silêncios artificiais na segmentação de referência fornecida ao DTW.
Também o eHmm, devido ao seu modo de funcionamento, tem um problema similar. Para cor-
rer o eHmm, e apesar de lhe ser fornecida uma sequência fonética de referência, é necessário
treinar o modelo da pausa curta opcional (/ssil/) — como descrito na Sec. 2.4. Após o alinha-
mento podem existir vários casos da inserção deste fone, mesmo no caso das segmentações
de referência serem manuais: para tal basta que uma palavra comece com uma oclusiva surda,
por exemplo. Para corrigir esta questão dividiu-se a duração do /ssil/ de forma igual pelos dois
segementos adjacentes.
24
De forma a tornar os algoritmos de criação das bases de dados em SQL mais robustos às
diferenças entre sequências fonéticas foi criada a coluna type. Esta pode tomar os seguintes
valores:
nor: indica um segmento normal, i.e., caso em que os fones em ambos as segmentações (a
que está a ser inserida e a de referência) são iguais;
sub: quando ocorrem substituições de fones, i.e., no caso em que um fone numa das transcri-
ções corresponde outro fone noutra;
del: quando ocorre o apagamento de um fone na sequência fonética de teste, ou seja, quando
um segmento na transcrição de referência não tem correspondente;
ins: quando ocorre uma inserção, i.e., quando na sequência fonética de teste existe um seg-
mento sem correspondência na referência. Na realidade, os casos de inserções dão origem
a uma base de dados extra (caso tal não acontecesse o identificador ph_id nas tabelas de
teste teria mais entradas que na tabela de referência.
De forma a poder identificar correctamente estes casos, é necessário fazer um mapeamento
dos fones de duas sequências fonéticas. Este mapeamento não é, muitas vezes, directo — po-
dem ser inseridos/apagados mais que um fone de seguida. Assim sendo, recorreu-se a um algo-
ritmo que pesa os mapeamentos entre diferentes classes fonéticas, diferenciando-as de acordo
com as suas características acústicas. Por exemplo, uma consoante não pode alinhar com uma
vogal — ou seja, não pode ocorrer uma substituição de uma consoante por uma vogal, e vice–
versa. Para mapear as sequências fonéticas usou-se a ferramenta MulevAnnot, desenvolvida no
L2F em C++, e que tira partido das bibliotecas Edinburgh Speech Tools (EST).
Para despistar possíveis erros na construção das bases de dados foi implementada uma
função que permite detectar se, dadas duas tabelas SQL com segmentações da mesma base de
dados, as entradas com o mesmo ph_id identificam o mesmo segmento.
A informação do erro de um segmentador em relação à referência pode ser introduzida direc-
tamente na base de dados. No entanto, como quando se iniciou este trabalho — e o desenho
das bases de dados — não havia ainda um escolha definitiva sobre o tipo de erro a considerar —
absoluto, relativo, ou mesmo outra medida, como o OverLap, apresentado em Paulo & Oliveira
[2004]. De qualquer forma é fácil alterar o tipo de medidas de erro no código do desenvolvidas
no âmbito deste trabalho.
25
Capítulo 4
Segmentador de Referência
A fase inicial do trabalho consiste no estudo dos diversos alinhadores descritos anteriormente,
no Cap. 2. Efectuaram-se diversas avaliações, quer a nível macroscópico, analisando o compor-
tamento no total de uma base de dados, que com maior detalhe, analisando os diferentes tipos
de transições fonéticas. Esta análise permite identificar as transições onde cada segmentador
obtém melhores resultados que os restantes, independentemente dos seus resultados métodos
do alinhador serem mais ou menos satisfatórios.
Após uma caracterização detalhada de cada ferramenta de segmentação, procede-se à cons-
trução de um segmentador que pela combinação dos segmentadores individuais permita maxi-
mizar os resultados destes — denominado segmentador de referência.
Na primeira secção deste capítulo descrevem-se os testes efectuados para caracterizar cada
um dos alinhadores, assim como as metodologias utilizadas. Na segunda secção descreve-se o
procedimento de construção do segmentador de referência.
4.1 Desempenho individual dos alinhadores
Uma medida geralmente usada na área de processamento de fala para avaliar os resultados
de alinhadores fonéticos é a percentagem de fronteiras de fones correctamente marcadas em
relação às fronteiras alinhadas manualmente. Normalmente considera-se correcta uma fronteira
aquela com um erro à referência inferior a 20 ms — este é um valor globalmente aceite como
limiar máximo aceitável de erro, acima do qual se considera que o erro de fronteira do fone é
significativo [Jarifi et al., 2006, 2008].
De uma forma geral, um segmentador pode ser caracterizado pelo valor médio da soma do
módulo dos seus erros individuais. Este valor, denominado média do erro absoluto (AME), é
calculado de acordo com a seguinte expressão (em que e representa o erro de cada fronteira
do segmentador à fronteira manual, calculado subtraindo o instante temporal da primeira ao da
manual):
27
AME =1n
n∑i=0
|e|
Outras medidas são igualmente usadas por se considerarem importantes para caracterizar as
distribuições de erro de cada um dos alinhadores, apesar de muitas delas não virem a ser usadas
no decorer deste trabalho, como discutido anteriormente. São estas:
• AME: já descrito anteriormente, é uma das medidas mais usadas para descrever o com-
portamento global de um alinhador;
• erro quadrático médio (RMSE): medida de erro que permite ter, em simultâneo, uma noção
do viés e da variância do erro;
• erro médio (e): esta medida permite indicar se a distribuição dos erros tem algum viés
(bias). Um valor de viés positivo indica que o segmentador em teste coloca as fronteiras
depois do segmentador de referência, verificando-se o inverso para valores negativos de
bias;
• desvio padrão (σ): é igualmente uma medida útil por permitir adquirir a noção da dispersão
dos erros;
• percentagens de segmentos com erros inferiores a 10 e 20 ms.
Na Tabela 4.1 encontram-se os resultados de várias medidas do erro dos alinhadores em relação
às segmentações manuais. Esta está dividida em três subtabelas, com os resultados referentes
a bases de dados diferentes. Analisando com detalhe esta tabela, algumas das conclusões mais
importantes que podem ser tiradas são as seguintes:
• na base de dados lgaspar o Audimus e o HTK obtêm os melhores resultados, quer em
termos de AME, quer em termos de erro quadrático médio, quer em percentagem de fones
com erro inferior a 20ms;
• nas bases de dados bdmale e bdfemale os melhores alinhadores são os baseados em
treino de modelos de Markov — o HTK e o eHmm.
• o MAF–DTW é, o segmentador que apresenta os piores resultados em todas as bases de
dados, sendo muito piores na lgaspar que nas restantes. Uma possível justificação para
estes resultados prende-se com as características acústicas de gravação das bases de
dados — a voz sintética usada no DTW foi gravada nas mesmas condições acústicas que
as bases de dados bdmale e bdfemale.
Os gráficos que representam a percentagem cumulativa de segmentos com erro inferior a um
determinado limiar — em função desse mesmo limiar — são outra forma usual de avaliar o com-
portamento de segmentadores fonéticos. De forma rápida permitem que se conclua sobre a
percentagem de segmentos abaixo de um limiar de erro. Na Figura 4.1 encontram-se repre-
sentados estes mesmos gráficos para cada alinhador, com testes efectuados nas três bases de
28
Tabela 4.1: Comportamento global dos segmentadores nas três bases de dados de treino. AME indicao erro médio absoluto, RMSE o erro quadrático médio, e o erro médio, σ o desvio padrão, <10ms e<20ms indicam a percentagem de segmentos com erro inferior a 10 e 20 ms, respectivamente
(a) BD lgaspar
AME (ms) RMSE (ms) e (ms) σ (ms) <10ms (%) <20ms (%)
Audimus 15.25 22.59 -3.20 16.67 47.9 75.5DTW 41.82 118.19 -13.42 110.54 41.6 63.5eHmm 20.68 33.30 -4.58 26.10 47.1 67.6HTK 15.42 24.10 1.88 18.52 49.7 76.5
(b) BD bdfemale
AME (ms) RMSE (ms) e (ms) σ (ms) <10ms (%) <20ms (%)
Audimus 17.19 24.92 8.69 18.04 40.3 68.7DTW 21.38 37.45 0.86 30.75 43.9 67.6eHmm 13.64 22.45 6.79 17.83 58.1 79.6HTK 15.15 22.48 9.09 16.61 46.1 74.1
(c) BD bdmale
AME (ms) RMSE (ms) e (ms) σ (ms) <10ms (%) <20ms (%)
Audimus 17.90 27.17 10.80 20.44 39.7 67.8DTW 22.65 42.57 -0.30 36.05 41.0 65.1eHmm 16.78 29.31 7.45 24.03 52.1 74.3HTK 17.44 28.10 10.17 22.04 41.4 70.5
dados. Estes resultados permitem secundar os obtidos na Tabela 4.1. Na Figura 4.1(a), que re-
presenta a evolução dos erros na base de dados lgaspar, verifica-se que ao fim de 60ms tanto o
DTW como o eHmm ainda têm uma percentagem considerável de transições com erro superior a
esse limite — o que evidencia uma percentagem elevada de erros graves. Se no caso do eHmm
apenas nesta base de dados se verifica este comportamento, já o DTW se comporta assim nas
outras duas bases de dados — Figs. 4.1(b) e 4.1(c). Este comportamento por parte do DTW
era já esperado, como discutido em Kominek et al. [2003], devido à quantidade superior de erros
grosseiros que o DTW comete. Esta observação é confirmada pelos resultados de desvio padrão
e de RMSE apresentados na Tabela 4.1.
Da análise da Tabela 4.1 e da Figura 4.1 constata-se que o comportamento de cada alinhador
varia sensivelmente de acordo com as características das bases de dados de treino/teste. Várias
razões podem ser apontadas para tal, tendo em conta o facto de cada base de dados ser de um
locutor diferente, e de as condições acústicas em que foram recolhidas serem distintas.
A base de dados lgaspar é a que tem maior dimensão, o que garante uma maior variedade e
cobertura de todos os fones. O locutor desta base de dados é um locutor profissional, o que —
em princípio — indica que as gravações são mais homogéneas que no caso de locutores não–
profissionais. As bases de dados bdfemale e bdmale foram gravadas em condições acústicas
29
similares, por dois locutores não profissionais, por um falante do sexo masculino e um falante do
sexo feminino.
De notar que os resultados obtidos com a base de dados lgaspar serão sempre prioritários
nos casos em que se considera que as restantes bases de dados não têm um número suficiente
de transições de um determinado tipo — casos das transições semivogal–semivogal, consoante
nasal–silêncio, silêncio–líquida e vogal nasal–semivogal (se bem que esta última transição seja
extermamente rara em todas as bases de dados).
Acresce a estas diferenças uma que talvez possa ter maior influência nos resultados: as pos-
síveis diferenças de critérios de anotação manual entre as bases de dados bdmale e bdfemale,
que foram anotadas conjuntamente, e a base de dados lgaspar, anotadas seguindo os mesmos
critérios mas por diferentes linguistas.
No entanto, não é fácil efectuar estas generalizações, uma vez que o comportamento dos
alinhadores não é completamente regular — não se pode dizer que haja nenhum francamente
superior aos restantes para determinada classe fonética.
De forma a poder caracterizar de forma mais completa cada alinhador, calculou-se o número
de fronteiras correctamente marcadas — i.e. aquelas cujo erro é inferior a 20ms em relação ao
alinhamento manual. Este estudo foi feito para cada tipo de transição fonética, de acordo com o
especificado anteriormente. Os resultados deste estudo encontram-se no Anexo C.
4.2 Ordenamento dos alinhadores fonéticos
Esta fase consiste na comparação dos diferentes alinhadores por tipo de transição fonética,
para todas as bases de dados. Com este estudo pretende-se definir um segmentador de referên-
cia, i.e., o melhor alinhador possível construído a partir da combinação dos alinhadores. Tendo
em conta que o comportamento dos segmentadores é muito diferente para cada tipo de fronteira,
tal como evidenciado na Sec. 4.1, é possível tirar partido das suas especificidades individuais,
definindo uma configuração que maximize o rendimento de cada ferramenta individual.
A Tabela 4.2 representa a ordenação dos segmentadores para todas as transições e em todas
as bases de dados estudadas. Esta tabela foi construída a partir dos resultados apresentados
no Anexo C. Neste anexo apresentam-se as Tabelas C.1, C.2 e C.3 com os resultados de todos
os segmentadores para todos os tipos de transições.
Da análise da Tabela 4.2 verifica-se que os resultados dos alinhadores são bastante hete-
rogéneos. Apenas em 19% dos tipos de transição os dois melhores alinhadores são iguais em
todas as bases de dados. Ao relaxar a condição e procurando o número transições nas quais
o par é o mesmo em pares de bases de dados, atinge-se uma cobertura máxima de 80% dos
casos.
30
(a) Base de dados lgaspar
(b) Base de dados bdfemale
(c) Base de dados bdmale
Figura 4.1: Evolução da percentagem de segmentos abaixo de um limiar de erro31
Tabela 4.2: Ordenação dos alinhadores de acordo com o tipo de transição nas três bases de dados.As letras representam a inicial de cada segmentador: A–Audimus, D–DTW, E–EHMM e H–HTK.
(a) lgaspar
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal A, H, D A, H, D A, E, H A, H, E E, A, H A, H, E A, H, D D, H, ASemivogal H, A, E A, E, D H, A, E H, A, D E, A, H A, H, E H, A, D E, H, DV. Nasal H, A, E H, E, A A, E, H A, H, E A, E, H A, E, H A, H, D D, H, AC. Nasal H, A, E H, A, E H, A, E H, E, A E, A, H E, H, A H, E, A H, E, AFricativa H, E, D H, D, E H, E, A A, E, H A, E, D E, A, H D, A, H D, E, HLíquida H, A, E A, H, E H, A, E A, E, H E, A, H E, A, H A, H, E A, H, DOclusiva H, A, D H, D, A H, A, D E, H, A H, E, A H, A, E H, E, A H, E, ASilêncio D, H, E E, D, A E, H, D E, D, H E, H, D E, A, H A, D, H E, H, D
(b) bdfemale
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal A, E, H A, H, E E, H, A E, D, H E, D, A H, E, D E, A, H E, H, ASemivogal A, H, E E, H, D A, E, H E, A, H E, D, A D, E, H D, E, A H, E, AV. Nasal H, E, A H, A, E E, A, H E, A, D E, A, H E, H, D E, D, H A, H, EC. Nasal E, H, A H, E, A E, A, H E, H, D E, A, H E, H, A D, E, H D, E, HFricativa H, E, D E, D, H H, E, D E, A, D H, E, A E, H, D E, A, H H, E, ALíquida H, E, A A, E, H H, E, A E, H, D H, E, A A, E, H E, H, A E, H, AOclusiva D, E, H D, E, H H, D, A E, D, A H, E, A H, E, A H, E, D E, D, HSilêncio D, E, H H, A, E H, E, A E, D, H E, H, A E, H, A H, E, A E, H, D
(c) bdmale
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal A, H, E A, H, E E, A, H E, D, A E, D, A E, A, D E, D, A A, D, ESemivogal A, H, E E, A, H A, E, H E, A, H E, A, D E, A, H A, E, H A, E, HV. Nasal E, H, A E, H, D E, A, H E, A, H E, A, H E, H, D E, H, D D, A, EC. Nasal H, A, E E, H, A H, A, E H, E, D E, H, A H, E, A E, H, A D, E, HFricativa E, H, D D, E, A E, H, A D, A, E H, E, A E, D, A A, E, H E, H, ALíquida H, E, A H, E, A H, E, A E, H, A E, H, D E, H, D E, A, H E, D, AOclusiva D, A, H E, D, H D, H, E E, D, A H, E, A H, A, E H, E, A E, D, HSilêncio D, H, E D, E, H H, D, E E, H, D E, H, D E, H, D H, A, D E, H, D
32
Tabela 4.3: Configuração do segmentador de referência (S0)
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal Aud Aud eHmm eHmm eHmm HTK Aud HTKSemivogal Aud Aud Aud Aud eHmm eHmm Aud eHmmV. Nasal HTK HTK Aud Aud eHmm eHmm HTK DTWC. Nasal HTK HTK Aud HTK eHmm HTK eHmm DTWFricativa HTK DTW eHmm eHmm HTK eHmm Aud eHmmLíquida HTK Aud HTK eHmm eHmm eHmm Aud eHmmOclusiva HTK DTW HTK eHmm HTK HTK HTK eHmmSilêncio DTW DTW HTK eHmm eHmm eHmm HTK —
Esta constatação leva-nos à problemática da escolha da configuração do segmentador de
referência.
4.3 Configuração de referência
Devido aos resultados heterogéneos apresentados pelos alinhadores nas diferentes bases
de dados — nomeadamente às baixas taxas de concordância — é necessário escolher a con-
figuração do segmentador de referência para maximizar os resultados em todas as bases de
dados. Pretende-se que este alinhador seja o mais generalista possível, não estando demasiado
adaptado a uma base de dados específica.
Assim, para cada tipo de transição escolheu-se o alinhador com a maior soma de percen-
tagens de acerto nas diferentes bases de dados. Desta forma, deu-se o mesmo peso relativo
a todas as bases de dados. A razão para tal deve-se à diferença de dimensões das bases
de dados, nomeadamente entre a base de dados lgaspar, que tem 36222 transições (no sub-
conjunto de treino), ao passo que os corpora bdmale e bdfemale têm 6744 e 6738 transições,
respectivamente. Ou seja, a base de dados lgaspar tem cinco vezes mais material que cada uma
das outras bases de dados consideradas individualmente, e mais de duas vezes e meia quando
consideradas em conjunto.
Ao definir qual o melhor segmentador somando as fronteiras correctas e dividindo pelo total de
fronteiras das três bases de dados estar-se-ia a pesar em demasia a base de dados lgaspar. Por
outro lado, ao efectuar esta operação somando as percentagens dentro de cada base de dados,
está-se a dar igual peso a cada corpus — com prejuízo para a lgaspar — mais assegurando que
a configuração obtida é mais generalista que se se adoptar a solução alternativa.
As configurações dos segmentadores S1 e S2 — 2a e 3a combinações de segmentadores ge-
neralistas com melhores resultados, respectivamente — encontram-se no Anexo D. Na Figura 4.3
pode observar-se a percentagem cumulativa de fronteiras abaixo de um determinado limiar de
erro, em função desse mesmo limiar, para os segmentadores de referência S0 e S1, em cada
uma das bases de dados. Nesta figura encontra-se também representada, para cada base de
dados, a curva respeitante ao segmentador óptimo para essa mesma base de dados (retirado
33
directamente dos resultados da Tabela 4.2). Em todos os gráficos verifica-se que, de acordo com
o esperado, o segmentador S0 apresenta piores resultados que o segmentador óptimo.
De notar também que tanto nos casos bdmale e bdfemale o segmentador optimizado a cada
uma destas bases de dados passa a ter piores resultados que o segmentador S0, sensivel-
mente a partir dos 30ms. Este comportamento deve-se às configurações terem sido escolhidas
de forma a optimizar o número máximo de fronteiras abaixo dos 20ms, não sendo garantido o
comportamento do segmentador a partir desse limiar.
Na Tabela 4.4 estuda-se o comportamento de cada configuração de referência possível. Para
cada base de dados apresentam-se os resultados do segmentador S0 geral, assim como das
configurações adaptadas para a própria base de dados, da mesma forma que para as restantes.
Tendo em conta forma como o segmentador de referência foi configurado (descrita anterior-
mente neste capítulo) seria de esperar uma maior degradação dos resultados na base de dados
lgaspar. No entanto, como se pode ver na Tabela 4.4(a) esta degradação foi de cerca de 3% (de
82,5% para 79,6%), valor semelhante ao caso bdmale — representado na Tabela 4.4(c), pas-
sando de 78,1% para 75,6%). Já na base de dados bdfemale — Tabela 4.4(b) — a degradação
foi a menor dos três casos, obtendo com a configuração óptima 82.3% e com a configuração S0
geral 80.4% das fronteiras abaixo do limiar de erro de 20ms.
Verifica-se igualmente que a grande diferença ocorre da base de dados lgaspar para as bases
de dados bdfemale e bdmale. A configuração óptima da base de dados bdmale é a que obtém o
segundo melhor resultado na base de dados bdfemale, e vice–versa. Já a configuração óptima
para a base de dados lgaspar obtém resultados extremamente baixos nestas duas bases de
dados. O análogo verifica-se: as configurações óptimas bdmale e bdfemale têm desempenhos
pobres na base de dados lgaspar.
No entanto verifica-se que a configuração S0 geral obtém resultados satisfatórios em todas
as bases de dados. Ao comparar os resultados da Tabela 4.4 com os da Tabela 4.1 verifica-se
que com esta configuração se consegue melhorar a percentagem de fronteiras correctamente
detectadas em todas as bases de dados em relação a qualquer alinhador fonético individual. Os
ganhos variam entre os 0,8% (no caso da bdfemale) e os 3,1% (na base de dados lgaspar).
34
Tabela 4.4: Comparação das várias configurações do segmentador de referência
(a) BD lgaspar
AME (ms) RMSE (ms) e (ms) σ (ms) <10ms (%) <20ms (%)
S0 (lgaspar) 16.32 52.54 2.58 49.95 57.5 82.5S0 (geral) 15.05 31.95 2.60 28.18 54.6 79.6S0 (bdmale) 21.38 57.12 6.66 52.96 50.9 72.4S0 (bdfemale) 21.29 54.59 7.25 50.27 50.7 71.6
(b) BD bdfemale
AME (ms) RMSE (ms) e (ms) σ (ms) <10ms (%) <20ms (%)
S0 (bdfemale) 12.66 21.84 -5.60 17.80 60.0 82.3S0 (bdmale) 13.52 23.95 -6.10 19.76 59.6 81.1S0 (geral) 13.25 21.73 -6.69 17.23 55.5 80.4S0 (lgaspar) 15.00 23.04 -8.35 17.49 49.7 74.2
(c) BD bdmale
AME (ms) RMSE (ms) e (ms) σ (ms) <10ms (%) <20ms (%)
S0 (bdmale) 15.32 28.91 -6.48 24.51 54.9 78.1S0 (bdfemale) 15.61 28.87 -6.51 24.29 52.9 76.2S0 (geral) 15.66 28.42 -8.05 23.72 49.5 75.6S0 (lgaspar) 21.29 54.59 7.25 50.27 50.7 71.6
35
(a) Base de dados lgaspar
(b) Base de dados bdfemale
(c) Base de dados bdmale
Figura 4.2: Evolução da percentagem de segmentos abaixo de um limiar de erro. Gráficos que compa-ram o desempenho do segmentador de referência generalista (S0) com o segmentador de referênciaóptimo de cada BD
36
Capítulo 5
Medidas de Confiança
No capítulo anterior estudou-se a construção de um segmentador de referência. Neste capí-
tulo descrevem-se as formas investigadas combinar os segmentadores descritos anteriormente
para detectar erros de segmentação, quer ao nível do fone, quer ao nível da frase.
5.1 Confiança baseada na concordância de segmentadores
Com base nas configurações dos segmentadores S0 e S1, cujas configurações e resultados
foram apresentados no capítulo anterior, pretende-se neste capítulo estudar medidas de confi-
ança baseadas na concordância entre estes dois segmentadores.
A configuração do alinhador de referência (S0), representada na Tabela 4.3, é a que obtém
melhores resultados para uma maior variedade de bases de dados, pelo que são os resultados
deste segmentador que são usados para segmentar as bases de dados. Os alinhamentos ge-
rados com a configuração S1 são usados como segundas estimativas do posicionamento das
fronteiras do alinhador de referência. Como para cada tipo tipo de transição fonética as fronteiras
colocadas por S0 e S1 são geradas por ferramentas diferentes, parte-se da hipótese que, que
quando as fronteiras colocadas por S0 e S1 estão colocadas próximas uma da outra, o erro de
S0 à segmentação manual deverá ser baixo.
5.1.1 Identificação do classificador binário
A Figura 5.1 representa a percentagem de fronteiras de S0 correctas (com erro inferior a 20
ms em relação à fronteira manual) em função da distância entre as fronteiras de S0 e S1 — S0S1.
Conforme esperado, verifica-se que quanto mais próximas estão as fronteiras geradas pelos dois
alinhadores de referência, maior a percentagem de fronteiras de S0 correctamente alinhadas.
Quando a distância S0S1 é inferior a 5ms, 87,2% das fronteiras de S0 estão correctas, havendo
cerca de 14,5% dos fones da base de dados que se encontram nestas condições. Entre os 5 e
10ms esta percentagem é de 88,2% (representando 17,3% da base de dados), passando para
86,6% quando S0S1 varia entre 10 e os 15 (com 19,4% da base de dados nestas condições). A
37
0 10 20 30 40 50 60 70 80
S0S1 (ms)
0
20
40
60
80
100
% de fronteiras S0 correctas% da base de dados
Figura 5.1: Percentagem de fronteiras de S0 correctas; a cinzento escuro encontra-se a percentagemde fronteiras na base de dados, ambos em função da distância entre S0 e S1 (S0S1). Conjunto deteste lgaspar.
partir da distância S0S1 superior a 25ms a percentagem de fronteiras de S0 correctas começa
a diminuir de forma mais acentuada: quando S0 e S1 distam entre 25 a 30ms, a percentagem
de fronteiras de S0 correctamente alinhadas passa para 59,24%, representando apenas 7,7% da
base de dados.
Este comportamento era expectável: quanto maior a concordância dos segmentadores —
menor a distância S0S1 — maior a probabilidade dos segmentos estarem correctamente alinha-
dos. No entanto, ainda da análise da Figura 5.1 observa-se que há uma percentagem significativa
de fronteiras que são colocadas a menos de 5ms uma da outra pelos dois segmentadores e que
se encontram mal alinhadas.
Várias razões podem ser responsáveis por este comportamento, nomeadamente diferenças
na aplicação dos critérios manuais ou diferenças entre os critérios manuais e os usados pelos
alinhadores automáticos.
Apesar de terem ocorrido mudanças de critérios de segmentação entre a anotação das di-
ferentes bases de dados — foram alinhadas por peritos diferentes, além de que entre projectos
algumas das convenções foram alteradas. No entanto não é certo que haja diferença de critérios
dentro da mesma base de dados. Assume assim maior relevência mais a segunda hipótese: que
os alinhadores fonéticos utilizem referências diferentes dos peritos.
Por outro lado, há também o problema dos critérios de segmentação manual definidos para
certos tipos de transição serem convenções que pouco reflectem o observado no sinal de fala.
A título de exemplo: na base de dados lgaspar, a crase de /6/ e /6/, e que habitualmente é
pronunciada /a/, é anotada como dois segmentos /6/ de igual duração, cada qual com metade
da duração total do segmento resultante. No entanto os alinhadores automáticos, ao seguir o
38
duplo /6/, vão alinhar um deles com a duração mínima possível para um fone, e o outro com a
duração restante. Neste caso o erro resultante é muito elevado. Este efeito ocorre, por exemplo,
na frase “fica a meio”.
Na Figura 5.2 estão representados alguns casos em que ambos os melhores segmentadores
concordam exactamente na localização da fronteira mas esta tem um erro superior a 20ms. No
caso específico da Figura 5.2(a) o fone /m/ é marcado pelos dois alinhadores aos 1,570s, quando
na segmentação manual se encontra cerca de 30ms antes (cerca dos 1,54s). Já na Figura 5.2(b)
é a fronteira final do fone /E/ que se encontra marcada pelo eHmm como pelo Audimus na
mesma localização (4,260s), 20 ms antes da marcação manual (4.280s).
No entanto estes são apenas dois dos vários casos existentes de segmentadores fonéticos
cujos resultados têm forte concordância, mas que apresentam um erro elevado em relação à
referência manual.
Verifica-se desta forma que a distância entre S0 e S1 pode ser usada como indicador de
confiança na marcação da fronteira de um fone. Adoptando a distância entre estes dois segmen-
tadores como classificador binário, é fundamental estudar como varia a sua capacidade discri-
minatória. No entanto é de esperar que o seu desempenho possa ressentir-se dos problemas
indicados anteriormente.
5.1.2 Capacidade discriminatória do classificador
Esta problema é um problema de classificação binário, em que os resultados são divididos
em duas classes: positivos (P), no caso em que se assume uma fronteira estar correcta (há
confiança), e negativos (N), caso contrário. Os resultados da saída de um classificador deste tipo
são quatro:
Verdadeiro Positivo (TP): quando é classificado como positivo (há confiança) e a transição é
correcta (S1 a menos que 20ms da manual);
Verdadeiro Negativo (TN): segmento classificado como negativo, sendo um segmento com erro
superior a 20ms (portanto errado);
Falso Positivo (FP) quando o segmento está errado mas é classificado como positivo; este tipo
de erro é também chamado erro do tipo I;
Falso Negativo (FN) caso o segmento esteja correctamente alinhado, mas é classificado como
negativo; este tipo de erro é apelidado erro do tipo II.
Uma das técnicas mais utilizadas no estudo da capacidade discriminatória de classificadores
binários é a análise da curva Receiver Operating Characteristic (ROC). Esta curva representa a
variação da taxa de verdadeiros positivos (TPR) em função da taxa de falsos positivos (FPR), à
medida que se varia o limiar de discriminação — neste caso a distância entre S0 e S1. Estas
duas medidas são calculadas da seguinte forma:
39
(a) O fone /m/ encontra-se mal alinhado tanto pelo eHmm (1a transcrição) como pelo HTK (2a
transcrição)
(b) O fone /E/ encontra-se mal alinhado tanto pelo Audimus (1a transcrição) como pelo HTK(1a transcrição)
Figura 5.2: Detalhes da análise no wavesurfer de dois segmentos problemáticos. Secção de frasesda base de dados lgaspar. São visíveis, de baixo para cima, a forma de onda, o alinhamento manual,o da configuração S0, o de S1 e o espectograma.
40
TPR =TP
TP + FN(5.1)
FPR =FP
FP + TN(5.2)
A TPR indica-nos a sensibilidade (sensitivity ) do classificador, que pode ser interpretada como
uma taxa de detecção (ou de acerto). Por seu lado a FPR indica a taxa da falsos alarmes, ou
seja, o valor simétrico da especificidade (specificity ).
Um bom classificador é aquele que garante pontos de funcionamento com uma sensibilidade
máxima à custa do mínimo de falsos alarmes. O classificador óptimo terá uma taxa de detecção
de 100%, com uma taxa de falsos alarmes de 0%. Analisando uma curva ROC, compreende-se
intuitivamente que quanto maior a área por baixo da curva, melhor.
Dado que se assume haver confiança na marcação de uma fronteira quando a distância entre
S0 e S1 é inferior a um limiar — aquele que se varia para traçar a curva — é intuitivo concluir o
seguinte:
• ao usar um limiar baixo, i.e., uma distância curta entre os dois segmentadores, serão clas-
sificados poucos segmentos como positivos (confiança). Por outro lado, nestes casos, a
taxa de falsos positivos será baixa, e no limite ocorre um máximo de erros do tipo II;
• ao aumentar o limiar em demasia a taxa de acerto também aumenta (são muitos os seg-
mentos correctamente identificados), mas à custa de uma grande aumento da taxa de
falsos alarmes. No limite teremos o caso em que todos os segmentos são classificados
como positivos — ou seja, um máximo de erros do tipo I.
Na Figura 5.3 pode-se observar a curva ROC para a base de dados de teste lgaspar. Da aná-
lise desta curva verifica-se que o classificador estudado tem uma melhor zona de funcionamento
entre quando S0 e S1 distam entre 10ms e 20ms: no primeiro obtém-se uma taxa de detecção
(TPR) de 57%, à custa de uma taxa de falsos alarmes de 30%. Quando a distância S0 S1 é de
20ms obtém-se 81% de taxa de detecção, mas com uma taxa de falsos alarme de 53%.
A matriz de confusão do ponto de funcionamento de 15ms (considera-se uma fronteira de S0
correcta quando a sua distância à fronteira marcada por S1 é inferior a 15ms) está representada
na Tabela 5.1.
5.2 Classificador baseado na duração
De forma a avaliar o desempenho do classificador apresentado anteriormente resolveu-se
estudar um novo discriminador, apenas baseado na duração média dos segmentos.
Esta medida pode ser usada como medida de confiança para despistar segmentos mal alinha-
dos [Figueira & Santos, 2006; Kominek et al., 2003], sendo aplicada da seguinte forma: calcula-
41
0.0 0.2 0.4 0.6 0.8 1.0FPR
0.0
0.2
0.4
0.6
0.8
1.0
TPR
0
5
10
15
20
2530
50 60
Figura 5.3: Curva ROC para o classificador baseado na concordância entre S0 e S1, na base de dadosde teste lgaspar. A linha a tracejado representa a linha de não–discriminação (decisão aleatória). Osvalores junto à curva representam a distância entre os segmentadores (ms) abaixo da qual se temconfiança numa fronteira.
Tabela 5.1: Matriz de confusão para o classificador baseado na concordância entre S0 e S1.Considera-se haver confiança numa fronteira quando a distância entre S0 1 S1 é inferior a 15ms.Base de dados de teste lgaspar. As colunas p e n indicam o número de valores positivos e negativosreais, ao passo que p’ e n’ indicam, respectivamente, as saídas positiva e negativa do classificador.
p n Total
p’ 5001 754 5755n’ 2091 1077 3168
Total 7092 1831
se a duração média x e o desvio padrão σx de cada fone na base de dados, definindo um limiar
acima do qual se considera provável um segmento estar mal alinhado. Desta forma, um fone
com duração dx é aceite se dx < x+aσx, em que a é um limiar variável — normalmente um valor
entre 1 e 2.
Ao calcular a duração média de cada tipo de segmento é fulcral distinguir entre vogais acen-
tuadas e não acentuadas, pois a duração das primeiras é muito superior à das últimas. Por
exemplo, nas palavras vívere e viver, o /i/ é acentuado na primeira e não o é na segunda
palavra, o que se reflecte na sua duração.
A capacidade discriminadora deste classificador foi avaliada recorrendo igualmente à análise
ROC, fazendo variar o limiar a entre 0 e 2. A Figura 5.4 representa a curva ROC deste classifica-
dor, usando a base de dados de teste lgaspar, tendo as estatísticas de duração sido calculadas
42
usando a base de dados de treino lgaspar (usando as segmentações automáticas obtidas com o
segmentador de referência S0).
Como se pode ver pela Figura 5.4, a curva ROC demonstra que este classificador tem um
desempenho inferior ao apresentado na secção anterior, baseado na distância entre os segmen-
tadores de referência S0 e S1.
0.0 0.2 0.4 0.6 0.8 1.00.0
0.2
0.4
0.6
0.8
1.0
0.1
0.3
0.5
0.7
0.9
1.2
1.6
Figura 5.4: Curva ROC para o classificador baseado na duração média dos segmentos. Os valoresindicados junto à curva representam o limiar a. A linha auxiliar a tracejado indica a linha de não–discriminação.
Na análise da curva ROC da Figura 5.4, os pontos de funcionamento mais úteis situam-se
quando a assume valores assume valores entre 0,1 e 0,8 — valores para os quais a taxa de
detecção varia entre 62,2% e 84,9%, à custa de uma taxa de falsos alarmes entre 51,9% e
68,3%.
Tendo em conta estes valores, na Tabela 5.2 apresenta-se a matriz de confusão para este
classificador, no ponto de funcionamento com a = 0.8. Verifica-se um número significativo de
erros do tipo I, o que seria de esperar, dado o relaxamento do critério. No entanto, este tipo
de erros é o mais nefasto para os objectivos deste trabalho — segmentos com erros grosseiros
(acima de 20ms) marcados como correctos.
Ainda assim, o facto de ser um método que pode ser aplicado a qualquer conjunto de segmen-
tações fonéticas de forma rápida justifica o interesse no seu estudo. Torna-se assim pertinente a
sua análise em conjunto com o classificador baseado na distância entre segmentadores. Dado
se verificou existir, em 11% dos casos de concordância entre os dois melhores resultados obti-
dos automaticamente, um erro superior a 20ms em relação à segmentação manual, considera-se
43
Tabela 5.2: Matriz de confusão para o classificador baseado na duração. Base de dados de testelgaspar. O ponto de funcionamento escolhido foi a = 0.8
p n Total
p’ 6021 1251 7272n’ 1071 580 1651
Total 7092 1831
importante usar critério baseado em duração como auxiliar para corrigir este tipo de erros gros-
seiros.
5.3 Classificador misto
Nesta secção apresenta-se um novo classificador, que combina os métodos apresentados
nas secções anteriores: um classificador baseado na distância entre os dois segmentadores de
referência e que usa uma correcção baseada na duração média dos segmentos.
Se, por um lado, os resultados do classificador baseado na distância entre S0 e S1 apontam
para uma boa capacidade de detectar segmentos incorrectos, o uso do classificador baseado
na média permite detectar mais segmentos correctos e diminuir muito o número de segmentos
incorrectamente classificados como negativos.
Foram assim testados dois tipos de classificadores mistos:
disjuntivo em que foi aplicada a operação lógica disjunção (OR) aos vectores de confiança
binária devolvidos pelos dois classificadores;
conjuntivo em que foi aplicada a operação lógica conjunção (AND) aos vectores de confiança
binária devolvidos pelos dois classificadores;
Como se pode verificar pelas matrizes de confusão apresentadas nas Tabela 5.3 e Tabela 5.4,
onde se podem observar os resultados de vários pontos de funcionamento dos classificadores
misto conjuntivo e disjuntivo, respectivamente, conclui-se que usando este último o número de
TP aumenta significativamente, aumentando também o número de falsos positivos (erros do tipo
I). Diminui-se assim muito a capacidade de detectar segmentos errados (TN) quando comparado
com o classificador baseado na distância entre segmentadores ou ao misto por conjunção dos
resultados.
Fica assim patente que para este estudo será melhor usar o classificador misto baseado
na conjunção dos resultados dos classificadores baseados em duração e na distância entre as
fronteiras dos dois segmentadores de referência (S0S1). Na Figura 5.5 encontra-se representada
a curva ROC para este classificador, usando a base de dados de teste lgaspar. Usam-se dois
valores diferentes da constante a para traçar a curva: a = 0.8 e a = 1. Verifica-se que os pontos
mais interessantes de funcionamento, para ambas as curvas, se situam quando a distância entre
os segmentadores S0 e S1 varia entre os 15 e os 30ms.
44
Tabela 5.3: Classificador misto conjuntivo (AND)
(a) 15ms, a =0.8
p n
p’ 4282 470n’ 2810 1361
(b) 20ms, a =0.8
p n
p’ 4926 470n’ 2166 1210
(c) 15ms, a = 1
p n
p’ 4453 514n’ 2639 1317
(d) 20ms, a = 1
p n
p’ 5121 676n’ 1971 1155
Tabela 5.4: Classificador misto disjunto (OR)
(a) 15ms, a =0.8
p n
p’ 6740 1535n’ 352 296
(b) 20ms, a =0.8
p n
p’ 6840 1594n’ 252 237
(c) 15ms, a = 1
p n
p’ 6823 1584n’ 269 247
(d) 20ms, a = 1
p n
p’ 6899 1632n’ 193 199
45
0.0 0.2 0.4 0.6 0.8 1.0FPR
0.0
0.2
0.4
0.6
0.8
1.0
TPR
0
5
10
15
20
2530
5060
0
5
10
15
20
2530
5060
S0S1, a=0.8S0S1, a=1
Figura 5.5: Curva ROC para o classificador misto disjunto, usando a base de dados de teste lgas-par. A ponteado encontra-se representada a linha de não–discriminação. Os valores junto à curvarepresentam a distância entre os segmentadores (ms) abaixo da qual se tem confiança numa fronteira.
5.4 Medidas de confiança ao nível da frase
Nas secções anteriores verificou-se que o classificador baseado na duração média dos seg-
mentos comete muitos erros do tipo I — classifica muitos segmentos mal alinhados como estando
correctos — tal como o misto baseado na disjunção dos resultados dos classificadores de dis-
tância e média de durações. Como tal, nesta secção apenas são estudados os classificadores
simples — baseado na distância entre S0 e S1 — e o classificador misto baseado na conjunção
dos resultados dos classificadores simples e baseado na duração.
O principal objectivo deste trabalho é permitir detectar erros graves na base de dados. Anali-
sar uma frase permite uma noção de mais alto nível que a análise segmental, para além de ser
uma forma mais útil de usar os resultados obtidos. No entanto outra razão está subjacente à
análise de frases: quando há erros grosseiros — o que é muito comum quando, por exemplo, há
problemas de normalização ou presença de ruído — estes afectam vários fones de seguida. As-
sim, uma frase com muitos erros (ou seja, com uma grande percentagem de segmentos errados)
é uma frase que deve ser sinalizada — seja para posterior análise manual ou simplesmente para
ser descartada da construção de uma nova voz.
Com base nos resultados de cada classificador é calculado um resultado (score) de confiança
para cada uma das frases do inventário. Este valor é o valor percentual de segmentos na frase
para nos quais o classificador tem confiança — i.e., se para uma frase com 100 fones, 60 são
46
classificados como positivos pelo classificador, esta frase terá um resultado de confiança de 60%.
Na Tabela 5.5 encontram-se os resultados obtidos com 4 classificadores diferentes: Simples
— apenas baseado na distância S0S1 — e três classificadores mistos — em que o valor do
limiar a toma três valores: 1, 1,5 e 2. Nesta tabela faz-se variar o limiar de confiança da distância
S0S1 entre 15 e 35ms, em intervalos de 5ms. Para cada configuração diferente, apresentam-
se os resultados da média e desvio padrão do erro absoluto dos resultados de confiança de
cada frase em relação à percentagem de segmentos correctos na segmentação gerada por pelo
segmentador de referência (S0).
Tabela 5.5: Erro médio e desvio padrão dos resultados de confiança nas frases do corpus de testelgaspar
Simples M (a=1) M (a=1,5) M (a=2)
e σ e σ e σ e σ
15 ms 15,68 8,45 25,01 8,73 20,70 8,75 18,57 8,7920 ms 7,36 6,84 16,44 8,65 11,76 8,40 9,54 8,1525 ms 6,79 5,48 9,53 7,58 6,08 6,22 6,25 5,8830 ms 8,84 6,18 7,47 6,46 5,71 5,14 6,94 5,5435 ms 11,31 6,44 6,51 5,57 6,33 5,07 8,59 5,70
Verifica-se que o melhor resultado, quer em termos de erro médio quer em termos de desvio
padrão desse erro se obtém com o classificador misto, usando a constante a = 1, 5 e um limiar de
confiança de 30ms. Verifica-se igualmente que um valor de a superior a 1 é mais útil que valores
menores. Da mesma forma, pode observar-se que o limite de 15ms é muito exíguo, obtendo
resultados mais baixos que com valores mais elevados de distância.
Na Figura 5.4 apresenta-se um gráfico do resultado de confiança por frase em função da
percentagem de fones correctos por frase, para o conjunto de teste lgaspar. Usa-se o classifi-
cador cuja configuração foi descrita anteriormente (usando a constante a = 1, 5 e um limiar de
confiança de 30ms). O factor de correlação entre estes dois conjuntos é de 0,648, o que é um
resultado razoável.
Observa-se que a maioria das frases tem uma percentagem de fones correctos em torno dos
80%, e que nesta zona a dispersão do resultado de confiança não é muito elevada. No entanto,
nas frases em que a percentagem de segmentos correctos é mais baixa, o classificador tem um
pior desempenho. De forma a poder ser mais conclusivo seria útil efectuar mais testes com um
conjunto maior de frases, para saber se o classificador tem sempre um mau desempenho nas
piores frases ou se os casos indicados são outliers.
De forma a exemplificar o uso deste classificador (a = 1, 5 e um limiar de confiança de 30ms),
faz-se variar o limiar do resultado de confiança acima do qual uma frase é aceite, rejeitando as
frases com um resultado de confiança inferior ao limiar estabelecido. Na Figura 5.4 representa-se
a evolução do valor médio de segmentos correctos por frase, em função da variação do limiar
confiança escolhido. A média de segmentos correctos de todas as frases é de 78,7% — é este
47
o valor médio de segmentos correctos quando o limiar de confiança é de 45% — casos em que
todas as frases são aceites. Verifica-se que quando o limiar do resultado de confiança é de 60%,
a média de fones correctos nas frases aceites é de 79,6%. Quando o limiar aumenta para 70%,
a média de fones correctos por frase em que se considera haver confiança sobe para 81,1%.
De notar que quando o limiar do resultado de confiança é de 90% ocorre um mínimo local na
variação da média de segmentos correctos por frase. Este valor deve-se ao facto de, nesta zona,
o número de frases ser já baixo: de um total de 127 frases estudadas, 102 estão acima do limiar
de resultado de confiança de 75%, ao passo que há somente 20 frases acima do limiar de 85%,
e 2 frases acima dos 90%.
Verifica-se desta forma que, seleccionando conjuntos de frases em com base no seu resultado
de confiança, permite que haja uma melhoria na percentagem de segmentos correctos nesse
mesmo conjunto de frases.
0 20 40 60 80 100
Segmentos correctos por frase (%)
0
20
40
60
80
100
Res
ulta
dode
confi
anca
porf
rase
(%)
Figura 5.6: Resultado de confiança em função da percentagem de segmentos correctos, por frase
48
0 20 40 60 80 100Limiar de confianca (%)
75
80
85
90
95
100
Valo
rmed
iode
segm
ento
sco
rrec
tos
porf
rase
(%)
Figura 5.7: Média de segmentos correctos por frase, em função do limiar de confiança
49
Capítulo 6
Conclusão
Este trabalho nasce da necessidade de poder seleccionar, numa base de dados de fala, sub-
conjuntos de frases em cuja segmentação haja confiança. Para atingir este objectivo escolheu-se
uma abordagem baseada na combinação de várias ferramentas de segmentação fonética, e na
hipótese de da sua proximidade se poder concluir sobre se a fronteira de um fone está ou não
bem colocada.
Como medida de acerto, adoptou-se a percentagem de segmentos com erro inferior a 20ms.
As razões que levaram a esta decisão prendem-se com o facto de, para um correcto funciona-
mento de sintetizadores por concatenação de unidades, a localização exacta da fronteira não ser
um factor crítico: um erro grande na segmentação de um fone é normalmente mais grave que
vários erros pequenos. Além disso, os próprios algoritmos de geração de forma de onda procu-
ram zonas espectrais onde a concatenação possa ser realizada de forma mais suave, podendo
desviar-se de um a dois períodos da fronteira — o que, numa voz masculina com um f0 médio
de 120Hz pode significar um desvio de 8 a 16 ms em relação à localização inicial da fronteira.
No entanto é extremamente importante detectar frases com muitos erros grosseiros.
Inicialmente estudaram-se vários algoritmos de segmentação fonética. A escolha dos algo-
ritmos deveu-se à familiaridade do uso destes dentro do grupo onde o trabalho foi realizado.
Apenas uma das ferramentas, o eHmm, não era utilizada antes de se iniciar o trabalho.
Dado que o trabalho foi realizado com quatro ferramentas diferentes, trabalhando com 4 ba-
ses de dados em simultâneo, foi de extrema importância a decisão de guardar todos os dados
numa base de dados SQL. No entanto, esta decisão acarretou algumas dificuldades numa fase
inicial, por implicar que as sequências fonéticas devolvidas pelas quatro ferramentas fossem ri-
gorosamente iguais.
A avaliação das ferramentas de segmentação fonética foi realizada de acordo com o tipo de
transição entre classes fonéticas. Os tipos de transição para os quais se verificaram maiores difi-
culdades para são transições do tipo vogal–vogal, vogal–consoante vogal–líquida, oclusiva–glide,
glide–consoante oclusiva–consoante glide–líquida, consoante nasal–oclusiva e nasal–líquida.
Estes resultados são consistentes com os obtidos por outros autores, [Carvalho, 2004], sendo
51
muitas destas transições problemáticas mesmo para os anotadores manuais. As detecções de
silêncio também tiveram baixos resultados.
A abordagem estudada para combinar os alinhadores permitiu ganhos na percentagem de
fronteiras correctamente alinhadas. O principal segementador de referência (S0) foi escolhido
de forma a ter uma configuração o mais robusta possível ao tipo de dados — maximizando os
resultados nas três bases de dados, e não só numa delas. Esta decisão acarreta uma perda de
desempenho, mas por outro lado permite que a configuração escolhida possa ser usada noutras
bases de dados com alguma confiança.
Deste relatório foram omitidas outras abordagens de configuração igualmente estudadas,
como calcular médias de pares e trios de alinhadores, como descrito em Figueira & Oliveira
[2008]. A média de pares de alinhadores permite melhorar ainda mais os resultados obtidos. No
entanto, para poder ser usada de forma conveniente, teria de se ter maior informação sobre o
viés dos alinhadores em cada transição, informação essa que, opção, não foi usada no decorrer
deste trabalho.
No capítulo referente às medidas de confiança, estudou-se de que forma se podem combinar
os resultados das configurações de referência para indicar valores de confiança na segmentação.
O método estudado que melhores resultados obteve baseia-se na distância entre as fronteiras
colocadas pelas duas melhores configurações de referência. Estudou-se igualmente um clas-
sificador baseado na duração média dos segmentos, verificando-se que tem um desempenho
pior que o classificador baseado nas distância. No entanto, os resultados obtidos pela conjunção
destes classificadores permite melhores resultados que os obtidos por cada um individualmente.
Um dos resultados esperados deste trabalho era, dado um corpus de fala do qual não se tem
nenhuma informação manual sobre o alinhamento fonético, poder seleccionar de forma automá-
tica um subconjunto de frases nas quais se tenha um determinado valor de confiança. Verificou-
se que existe um factor de correlação de 65% entre os resultados de confiança e a percentagem
de fones correctos por frase, o que indica uma boa capacidade de classificação das frases.
No entanto, após análise mais detalhada, verificou-se que é nas frases com pior qualidade de
segmentação que o classificador tem erros com maior amplitude. Mais testes, com um maior
conjunto de teste, poderiam ajudar a esclarecer melhor o verdadeiro desempenho deste tipo de
medidas.
6.1 Trabalho Futuro
De forma a poder obter melhores resultados é necessário melhorar o desempenho dos ali-
nhadores. No entanto, esta questão pode ser explorada de várias formas: para além de testar
diferentes parâmetros dos segmentadores, é fundamental compreender bem porque razão os ali-
nhadores cometem erros sistemáticos. Uma das soluções para este problema pode passar por
52
treinar modelos com adaptação ao orador usando algum do material anotado manualmente — de
forma a que mais facilmente os segmentadores aprendam os tipos de transição, e à semelhança
do realizado em Jarifi et al. [2006, 2008]. No caso do DTW é ainda necessário rever os critérios
de segmentação usados na construção da voz de referência. Outro estudo que pode trazer uma
melhoria aos resultados é o estudo do “bias” de cada alinhador para cada tipo de transição, de
forma a corrigir possíveis erros sistemáticos cometidos pelas ferramentas.
De forma a avaliar a confiança em segmentações, outras medidas podem ser usadas, base-
adas em medidas acústicas, como estudado em vários trabalhos, nomeadamente em Paulo &
Oliveira [2004] e em Nefti et al. [2003].
Um teste importante que é necessário efectuar é a construção de uma voz sintética usando
um subconjunto de frases escolhidas em função do seu resultado de confiança — de forma a
verificar se o facto de escolher apenas frases com valor de confiança elevado tem influência
positiva na qualidade da síntese.
Uma outra direcção de trabalho futuro é aplicar este método a sequências fonéticas, i.e.,
dadas várias sequências fonéticas atribuir valores de confiança a cada uma delas.
53
Referências
Amaral, R., P. Carvalho, D. Caseiro, I. Trancoso, & L. C. Oliveira (1999, September). Anotaçõo fo-
nética automática de corpora de fala transcritos ortograficamente. In PROPOR’99 - IV Encontro
para o Processamento Computacional da Língua Portuguesa Escrita e Falada.
Black, A. W. & K. A. Lenzo (2006). Building Synthetic Voices. http://www.festvox.org: Language
Technologies Institute, Carnegie Mellon University and Cepstral, LLC. For FestVox 2.1 Edition.
Carvalho, P., I. Trancoso, & L. C. Oliveira (1998). Automatic segment alignment for concatena-
tive speech synthesis in portuguese. In Proc. of the 10th Portuguese Conference on Pattern
Recognition, RECPAD’98, pp. 221–226.
Carvalho, P. M. (2004, September). Determinação automática de segmentos para síntese de fala
por concatenação.
Caseiro, D. A. & I. Trancoso (2002, September). Using dynamic wfst composition for recognizing
broadcast news. In ICSLP’2002 - 7th International Conference on Spoken Language Proces-
sing (Interspeech’2002).
de Macedo, M. E., M. Gonzaga, A. I. Rosa, & S. Antunes (1998–2001). Projecto AUDIOLING–
LP língua portuguesa: som e pronúncia. Website. http://www.clul.ul.pt/sectores/
linguistica_de_corpus/projecto_audioling.php.
Figueira, L. & L. C. Oliveira (2008). Comparison of phonetic segmentation tools for european
portuguese. In PROPOR’08—Computational Processing of the Portuguese Language, Aveiro,
Portugal, pp. 252–255.
Figueira, L. A. & A. M. Santos (2006, Julho). Voicebuilder—Construção de novas vozes para
síntese de fala. Technical report, Instituto Superior Técnico, Universidade Técnica de Lisboa.
Huggins-Daines, D. & A. Rudnicky (2006, September). A constrained baum-welch algorithm for
improved and efficient training. In Interspeech’2006—9th International Conference on Spoken
Language Processing, Pittsburg, USA.
Jarifi, S., D. Pastor, & O. Rosec (2006). Cooperation between global and local methods for auto-
matic segmentation of speech synthesis corpora. In Interspeech - ICSLP 2006 : International
55
Conference on Spoken Language Processing September 17-21, Pittsburgh PA, USA. SC -
Dépt. Signal et Communications (Institut TELECOM ; TELECOM Bretagne), FT - France Télé-
com, Division R&D, Lannion (France Télécom).
Jarifi, S., D. Pastor, & O. Rosec (2008, january). A fusion approach for automatic speech seg-
mentation of large corpora with application to speech synthesis. Speech communication 50(1),
67 – 80.
Kawai, H. & T. Toda (2004). An evaluation of automatic phone segmentation for concatenative
speech synthesis. In Proc. IEEE ICASSP2004.
Kominek, J., C. Bennett, & A. W. Black (2003, September). Evaluating and correcting phoneme
segmentation for unit selection synthesis. In European Conference on Speech Communica-
tion and Technology – Proc. of the 8th European Conference, EUROSPEECH 2003, Genéve,
Switzerland.
Kominek, J. & A. W. Black (2004). A family-of-models approach to hmm-based segmentation for
unit selection speech synthesis. In Interspeech, pp. 1385–1388.
Malfrére, F., O. Deroo, T. Dutoit, & C. Ris (2003). Phonetic alignment: speech synthesis-based
vs. viterbi-based. Speech Commun. 40(4), 503–515.
Martins, C., I. Mascarenhas, H. Meinedo, J. P. Neto, L. Oliveira, C. Ribeiro, & M. do Céu Viana
(1998, March). Spoken language corpora for speech recognition and synthesis in european
portuguese. Lisbon, pp. 357–364.
Matousek, J., D. Tihelka, & J. Psutka (2003, September). Automatic segmentation for czech
concatenative speech synthesis using statistical approach with boundary-specific correction. In
8th European Conf. on Speech Communication and Technology (Eurospeech 2003), pp. 301–
304.
Meinedo, H. (2008, February). Audio Pre-processing and Speech Recognition for Braodcast
News. Ph. D. thesis, IST.
Meinedo, H., D. Caseiro, J. P. Neto, & I. Trancoso (June 2003). Audimus.media: A broadcast
news speech recognition system for the european portuguese language. In PROPOR’2003
- VI Encontro para o Processamento Computacional da Língua Portuguesa Escrita e Falada
(Springer ed.)., pp. 9–17.
Nefti, S., O. Boeffard, & T. Moudenc (2003). Confidence measures for phonetic segmentation of
continuous speech. In EuroSpeech 2003, pp. 897–900.
56
Neto, J. & H. Meinedo (2000). Combination of acoustic models in continuous speech recognition
hybrid systems. In ICSLP’2000 - 6th International Conference on Spoken Language Proces-
sing, Beijing, China.
Neto, J. P., C. Martins, H. Meinedo, & L. B. Almeida (1999, September). Audimus - sistema de
reconhecimento de fala contínua para o português europeu. In PROPOR’99 - IV Encontro para
o Processamento Computacional da Língua Portuguesa Escrita e Falada.
Nicodem, M. V., S. G. Kafka, R. S. Jr., & R. Seara (2008). Boundary refining aiming at speech
synthesis applications. In PROPOR, pp. 71–80.
Oliveira, L., S. Paulo, L. Figueira, C. Mendes, A. Nunes, & J. Godinho (2008, May). Methodologies
for designing and recording speech databases for corpus based synthesis. In Proceedings of
the Sixth International Language Resources and Evaluation (LREC’08), Marrakech, Morocco.
Paulo, S., L. A. Figueira, C. Mendes, & L. C. Oliveira (2008, September). The INESC-ID blizzard
entry: Unsupervised voice building and synthesis.
Paulo, S. & L. C. Oliveira (2002, September). Multilevel annotation of speech signals using weigh-
ted finite state transducers. In 2002 IEEE Workshop on Speech Synthesis.
Paulo, S. & L. C. Oliveira (2003, September). DTW-based phonetic alignment using multiple
acoustic features. In European Conference on Speech Communication and Technology – Proc.
of the 8th European Conference, EUROSPEECH 2003, Genéve, Switzerland.
Paulo, S. & L. C. Oliveira (2004, October). Automatic phonetic alignment and its confidence
measures. In 4th International Conference EsTAL, pp. 36–34.
Paulo, S. & L. C. Oliveira (2005). Generation of word alternative pronountiations using weighted
finite state transducers. In Interspeech.
Prahallad, K., A. Black, & M. Ravishankar (2006, May). Sub-phonetic modeling for capturing
pronunciation variations for conversational speech synthesis. In ICASSP.
Rabiner, L. (1989). A tutorial on hidden markov models and selected applications in speech
recognition. Proceedings of the IEEE 77, 257–286.
Sakoe, H. & S. Chiba (1984). Dynamic programming algorithm optimization for spoken word
recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-26(1),
43–49.
Toledano, D., L. Gomez, & L. Grande (2003, Nov.). Automatic phonetic segmentation. Speech
and Audio Processing, IEEE Transactions on 11(6), 617–625.
57
Trancoso, I., M. do Céu Viana, I. Mascarenhas, & P. Carvalho (1997, June). Bdfala final report.
Technical report, INESC-ID.
Weiss, C., S. Paulo, L. A. Figueira, & L. C. Oliveira (2007, August). Blizzard entry: Integrated
voice building and synthesis for unit-selection TTS.
Young, S., D. Ollason, V. Valtchev, & P. Woodland (2002). The HTK Book (for HTK Version 3.2).
Cambridge University Engineering Department.
58
Apêndice A
Alfabeto fonético para o dialectopadrão do Português Europeu
Tabela A.1: Alfabeto fonético para o dialecto padrão do Português Europeu
Alfabeto Fonetico para o Dialecto Padrao do PortuguesEuropeu
Luıs Caldas de Oliveira
AFI SAM-PA Grafemas Exemplo AFI SAM-PA Grafemas Exemploi i i,ı,y,e vi [vı] p p p pa [pa]
e e e,e ve [ve] b b b bem [b´e ]� E e,e pe [p´� ] t t t tu [tu]a a a,a,a pa [pa] d d d dou [do]� 6 a cama [c � m � ] k k c,k casa [kaz � ]�
@ e de [d�] g g g gato [gatu]
� O o,o po [p � ]o o o,o avo [ � vo] f f f f e [f´� ]u u u,u tudo [tudu] v v v ve [ve]j j i,e pai [paj] s s s,c,c sol [s ��� ]w w u,o pau [paw] z z z,s,x casa [kaz � ]�
S ch,s,z,x chave [�av�]
ı i˜ i,ı sim [s´ı ] � Z j,g,s,z,x ja [ � a]
e e˜ e,e pente [p´et�]
� 6˜ a,a,e branco [br˜� ku] l l l la [la]
o o˜ o,o,o ponte [p´ot�] � l˜ l mal [ma � ]
u u˜ u,u atum [ � t´u] � L lh valha [va � � ] j˜ i,e poe [p´o]
w w˜ o mao [m˜� w] m m m mao [m˜� w]
n n n nao [n˜� w] J nh senha [s ��� ]
� r r caro [ka � u] R r carro [ka
u]
1
59
Apêndice B
Distribuição das transiçõesfonéticas na base de dados lgaspar
(a) Número de transições fonéticas, corpus completo lgaspar
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 709 776 129 1595 4035 3082 3947 1301Seivogal 894 9 177 37 325 89 168 36V. Nasal 226 4 89 89 583 59 1520 186C. Nasal 1877 62 470 25 49 13 41 23Fricativa 2757 214 665 247 416 176 1350 661Líquida 2452 171 340 207 313 30 667 239Oclusiva 5623 436 742 94 508 893 240 23Silêncio 1036 63 143 266 256 77 626 2
(b) Número de transições fonéticas, subcorpus de teste lgaspar
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 155 143 27 324 824 614 811 265Semivogal 167 1 29 5 58 16 29 4V. Nasal 43 1 19 19 115 13 297 32C. Nasal 374 12 91 5 10 2 5 4Fricativa 568 27 124 44 76 41 262 139Líquida 528 29 64 44 54 7 140 49Oclusiva 1108 84 154 16 98 203 52 2Silêncio 220 12 31 46 46 19 121 1
61
Apêndice C
Percentagem de segmentos comerro inferior a 20ms
Neste anexo incluem-se as tabelas que descrevem a percentagem de segmentos com erro
absoluto inferior a 20ms em todas as bases de dados.
63
Tabela C.1: Percentagem de segmentos com erro absoluto menor que 20ms, na base de dados lgas-par
(a) Audimus
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 63.2 70.8 54.9 88.4 88.0 80.9 88.3 28.1Semivogal 70.7 100.0 61.5 96.9 91.4 75.3 80.6 18.8V. Nasal 61.7 33.3 51.4 77.1 91.7 87.0 81.3 13.6C. Nasal 79.4 74.0 91.0 55.0 82.1 72.7 61.1 68.4Fricativa 81.3 38.5 83.2 87.2 61.8 84.4 77.7 10.7Líquida 68.4 78.2 72.5 82.8 79.5 69.6 83.5 44.2Oclusiva 86.6 70.5 90.5 60.3 82.4 87.2 60.6 38.1Silêncio 7.0 51.0 27.7 9.5 58.6 58.6 63.0 0.0
(b) DTW
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 41.0 50.2 35.3 57.6 70.9 44.4 73.6 36.3Semivogal 49.2 62.5 51.4 78.1 76.0 30.1 70.5 21.9V. Nasal 35.5 0.0 28.6 51.4 73.7 26.1 60.4 35.7C. Nasal 60.7 50.0 67.5 30.0 66.7 54.5 38.9 21.1Fricativa 84.4 82.4 83.0 80.3 47.1 66.7 78.7 34.3Líquida 47.9 39.4 45.7 46.0 51.0 39.1 50.5 24.2Oclusiva 81.6 72.7 86.6 52.6 63.2 64.6 38.3 33.3Silêncio 76.1 64.7 50.9 45.9 68.1 31.0 34.7 0.0
(c) eHmm
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 37.2 49.3 49.0 85.2 90.4 61.5 55.5 15.6Semivogal 56.3 87.5 60.1 71.9 92.9 49.3 66.2 46.9V. Nasal 48.1 33.3 44.3 62.9 87.6 63.0 36.8 11.7C. Nasal 79.0 68.0 87.9 65.0 94.9 100.0 72.2 73.7Fricativa 88.2 81.8 96.9 83.7 47.9 89.6 39.2 13.8Líquida 59.6 64.8 56.5 78.5 82.2 78.3 60.7 22.1Oclusiva 81.5 68.5 80.3 73.1 82.4 84.8 67.6 57.1Silêncio 69.1 66.7 88.4 88.2 83.3 81.0 30.1 100.0
(d) HTK
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 49.8 50.9 44.1 87.5 76.9 75.5 85.5 30.8Semivogal 71.7 50.0 66.2 100.0 83.1 64.4 87.1 37.5V. Nasal 63.4 66.7 41.4 75.7 87.0 58.7 63.1 27.9C. Nasal 89.7 76.0 94.2 80.0 69.2 100.0 75.0 84.2Fricativa 94.0 84.0 97.6 82.8 45.6 80.0 72.2 11.7Líquida 80.0 74.6 84.4 67.5 68.3 39.1 78.2 38.4Oclusiva 92.3 81.8 91.2 60.3 82.9 88.6 68.1 66.7Silêncio 69.4 33.3 74.1 12.7 68.1 44.8 30.9 100.0
64
Tabela C.2: Percentagem de segmentos com erro absoluto menor que 20ms, na base de dados bdfe-male
(a) Audimus
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 58.2 67.8 54.8 44.4 75.4 36.8 76.8 28.2Semivogal 76.1 — 90.6 66.7 90.6 31.6 70.6 44.4V. Nasal 45.5 100.0 70.0 77.3 77.4 33.3 36.4 31.2C. Nasal 84.0 53.8 85.3 50.0 85.0 50.0 38.5 0.0Fricativa 82.1 58.8 87.9 66.7 63.8 83.8 91.9 42.6Líquida 72.3 85.3 65.4 40.5 74.1 100.0 70.9 25.8Oclusiva 82.8 54.0 87.7 42.9 84.0 86.5 56.8 21.4Silêncio 54.3 81.8 81.2 6.9 65.4 50.0 52.1 —
(b) DTW
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 44.9 40.0 38.7 64.4 79.8 41.3 72.1 22.6Semivogal 55.8 — 56.2 33.3 93.8 68.4 85.3 0.0V. Nasal 33.3 50.0 60.0 59.1 67.0 33.3 66.4 18.8C. Nasal 72.4 46.2 70.6 70.0 40.0 30.0 76.9 66.7Fricativa 87.9 79.4 94.0 64.4 47.8 86.5 78.8 39.3Líquida 56.4 44.1 52.6 45.9 66.7 71.4 64.5 16.1Oclusiva 88.8 77.8 89.1 62.9 61.8 63.0 63.5 35.7Silêncio 93.6 72.7 62.5 48.3 42.3 0.0 47.9 —
(c) eHmm
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 53.1 59.1 67.7 80.1 93.9 46.5 83.6 44.4Semivogal 71.7 — 75.0 88.9 93.8 63.2 82.4 44.4V. Nasal 57.6 50.0 70.0 77.3 95.7 44.4 66.8 18.8C. Nasal 88.4 76.9 89.7 80.0 100.0 80.0 69.2 16.7Fricativa 94.2 85.3 98.3 80.0 66.7 94.6 94.4 82.0Líquida 79.7 76.5 70.5 94.6 86.4 85.7 80.0 51.6Oclusiva 86.7 76.2 73.9 68.6 91.0 87.0 78.4 57.1Silêncio 85.1 72.7 87.5 96.6 92.3 100.0 54.9 —
(d) HTK
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 48.0 66.1 67.7 46.3 68.3 47.1 73.4 37.1Semivogal 73.2 — 71.9 44.4 78.1 31.6 64.7 55.6V. Nasal 63.6 100.0 60.0 54.5 69.6 33.3 62.2 25.0C. Nasal 86.9 84.6 80.9 80.0 80.0 70.0 38.5 0.0Fricativa 95.0 73.5 99.1 51.1 85.5 86.5 86.9 83.6Líquida 83.3 73.5 84.6 81.1 87.7 71.4 71.8 35.5Oclusiva 85.7 54.0 91.3 22.9 93.1 94.8 79.7 28.6Silêncio 77.7 100.0 93.8 44.8 80.8 50.0 83.1 —
65
Tabela C.3: Percentagem de segmentos com erro absoluto menor que 20ms, na base de dados bd-male
(a) Audimus
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 63.6 72.9 65.4 63.0 78.4 44.8 67.2 24.5Semivogal 77.6 100.0 71.4 83.3 83.9 45.0 88.9 62.5V. Nasal 63.6 — 90.0 63.6 81.5 0.0 38.9 18.8C. Nasal 85.5 78.6 89.6 62.5 72.2 66.7 58.3 0.0Fricativa 77.3 48.4 86.4 70.7 54.1 68.4 92.3 69.2Líquida 78.8 76.7 71.2 71.8 73.2 41.7 68.4 17.9Oclusiva 80.9 61.3 66.7 35.1 73.9 81.3 60.0 5.3Silêncio 10.4 10.0 14.3 3.7 33.3 0.0 48.2 —
(b) DTW
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 32.3 35.5 42.3 67.1 81.4 42.6 67.5 23.0Semivogal 53.6 50.0 57.1 33.3 77.4 35.0 72.2 0.0V. Nasal 30.3 — 30.0 59.1 67.2 22.2 58.0 31.2C. Nasal 75.6 71.4 80.6 62.5 66.7 44.4 41.7 50.0Fricativa 79.4 58.1 85.6 70.7 50.8 76.3 83.6 35.4Líquida 53.2 53.3 47.5 46.2 76.8 41.7 55.1 17.9Oclusiva 83.7 72.6 85.8 40.5 56.3 56.5 54.3 31.6Silêncio 93.4 80.0 85.7 59.3 53.3 50.0 44.6 —
(c) eHMM
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 53.5 58.9 69.2 91.3 87.3 51.5 73.0 22.3Semivogal 60.0 100.0 67.9 83.3 93.5 60.0 86.1 50.0V. Nasal 63.6 — 90.0 63.6 93.3 77.8 69.3 0.0C. Nasal 85.1 92.9 86.6 62.5 100.0 66.7 66.7 0.0Fricativa 84.5 48.4 94.1 68.3 55.7 84.2 91.8 75.4Líquida 79.0 83.3 77.5 87.2 78.0 75.0 69.4 17.9Oclusiva 76.9 75.8 76.6 73.0 86.6 75.6 60.0 36.8Silêncio 63.2 70.0 71.4 74.1 86.7 100.0 41.1 —
(d) HTK
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal 59.6 70.1 61.5 57.1 72.6 41.0 65.7 19.4Semivogal 69.6 50.0 57.1 33.3 71.0 40.0 77.8 37.5V. Nasal 63.6 — 70.0 59.1 75.6 44.4 60.1 0.0C. Nasal 90.2 92.9 89.6 75.0 94.4 77.8 66.7 0.0Fricativa 82.0 41.9 88.1 61.0 57.4 65.8 89.7 73.8Líquida 84.9 86.7 87.5 79.5 78.0 66.7 62.2 3.6Oclusiva 80.3 64.5 82.3 27.0 87.4 83.9 68.6 21.1Silêncio 65.1 60.0 95.2 70.4 73.3 50.0 67.9 —
66
Apêndice D
Configuração dos segmentadoresS1 e S2
Tabela D.1: Configuração do 2o segmentador de referência (S1)
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal htk htk audimus audimus audimus audimus htk ehmmSemivogal htk ehmm ehmm ehmm audimus audimus ehmm htkV. Nasal audimus audimus ehmm ehmm audimus htk dtw audimusC. Nasal ehmm ehmm htk ehmm htk ehmm htk ehmmFricativa ehmm ehmm htk audimus audimus audimus htk htkLíquida audimus htk audimus htk htk audimus htk audimusOclusiva dtw ehmm dtw dtw ehmm audimus ehmm htkSilêncio ehmm ehmm ehmm dtw htk htk audimus —
Tabela D.2: Configuração do 3o segmentador de referência (S2)
Vogal Semivogal V. Nasal C. Nasal Fricativa Líquida Oclusiva Silêncio
Vogal ehmm ehmm htk htk dtw ehmm dtw dtwSemivogal ehmm dtw htk htk dtw htk htk audimusV. Nasal ehmm ehmm htk htk htk audimus ehmm htkC. Nasal audimus audimus ehmm audimus audimus audimus audimus htkFricativa dtw htk dtw dtw ehmm htk dtw audimusLíquida ehmm ehmm ehmm audimus audimus htk ehmm htkOclusiva audimus htk audimus audimus audimus ehmm audimus dtwSilêncio htk htk dtw htk dtw audimus dtw —
67