fala e movimentação facial em avatares

Post on 07-Aug-2015

43 Views

Category:

Education

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Fala e Movimentação Facialem Avatares

Alexandre Magno Macielmagnomaciel@hotmail.com

Ricardo de Oliveira Schmidtschmidt@gprt.ufpe.br

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Módulo Text-To-Speech

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Definição: “Geração automática pelo computador de formas de onda de voz” [TAH05]

• Outras denominações: Sistema de resposta vocal ou Text-To-Speech (TTS)

• Dilema: Produção X Reprodução

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Processo de síntese de voz:

Pré-processamento Conversãoortográfico-fonética

Processamentoprosódico

SínteseTextoSinal

de voz

Baixo nível Alto nível

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Processo de síntese de voz:

– Normalização:

encontrar equivalentes “por extenso”

ex: símbolos ($ %), datas, pontuação (, .)

Pré-processamento Conversãoortográfico-fonética

Processamentoprosódico

SínteseTextoSinal

de voz

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Processo de síntese de voz:

– Conversão ortográfico-fonética:

encontrar seqüência correta de fonemas

ex: letra “x” -> xumbo, exame, tórax

“o piloto morreu”; “eu piloto bem”

Pré-processamento Conversãoortográfico-fonética

Processamentoprosódico

SínteseTextoSinal

de voz

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Processo de síntese de voz:

– Cálculo de intensidade e duração

ex: pausas entre palavras, entonação (sentenças declarativas, imperativas e interrogativas)

Pré-processamento Conversãoortográfico-fonética

Processamentoprosódico

SínteseTextoSinal

de voz

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Processo de síntese de voz:

– Geração do áudio– Estratégias: concatenativa

formantesarticulatória

Pré-processamento Conversãoortográfico-fonética

Processamentoprosódico

SínteseTextoSinal

de voz

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Geração do áudio:– Síntese concatenativa : segmentos de áudio

pré-gravadas a partir de um inventário de unidades previamente construído.

– Tamanho das unidades: • Palavras• Silabas (Demissílabas)• Fones (Difones)

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Geração do áudio:– Síntese de formantes: modelo acústico que

forma o áudio de acordo com uma série de parâmetros

– Síntese articulatória: gera o sinal de voz através da modelação das características físicas, anatômicas e fisiológicas do aparelho humano produtor de voz

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Trabalhos realizados:– Simões, 1999 (dissertação - UNICAMP)

• Dicionário de 2450 unidades• Síntese concatenativa• Voz masculina

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Trabalhos realizados:– Carvalho, 2005 (INESC)

• DIXI• Síntese concatenativa• Dicionário de 4000 unidades• Vozes masculina e feminina

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Trabalhos realizados:– DOSVOX (UFRJ) ... 2008

• Auxílio deficientes físicos• Software livre

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Trabalhos realizados:– MATRACA (UFCG) ... 2008

• Auxílio deficientes físicos• Software livre

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Síntese de voz

• Aplicações Comerciais– IBM ViaVoice 8.0– NUANCE Dragon Systems– Jaws for Windows

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Módulo Extração de Fonemas

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

• Processo de reconhecimento de padrões

Extração de Fonemas

[FEC02]

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Extração de Fonemas

• Extração de Parâmetros:– Dar representatividade– Compactar (redução dimensionalidade)– Simplicidade computacional

• Principais Parâmetros:– Energia por segmento;– Taxa cruzamento por zero;– Número total e diferença entre picos;– Coeficiente de Correlação Normalizado.

[FEC02]

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Extração de Fonemas

• Extração de Parâmetros– Pré-Processamento:

• Pré-ênfase (filter)• Segmentação (frames)• Janelamento (stationary)

Palavra “zero” após pré-ênfase Segmento Janelamento

[FEC02]

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Extração de Fonemas

• Extração de Parâmetros:

– Principais técnicas: [DIM06]

• Mel Frequency Cepstral Coding (MFCC)• Linear Predictive Coding (LPC) • Perceptual Linear Predictive (PLP)

– Experimentos:• Comparador: HMM• Base de dados:

– 11 locutores(7 MS,4 WS);– Treino: 3300 locuções;– Teste: 880 locuções;– Frases: 300

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Extração de Fonemas

• Comparação dos Padrões:

– Determinísticas:• Dynamic Time Warping;• Quantização Vetorial;• Redes Neurais.

– Estatísticas• Função Densidade Probabilidade;• Modelos de Markov Escondidos.

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Extração de Fonemas

• Trabalhos Realizados– Fechine, 2002 (UFCG)

• Reconhecimento de Locutor• Independente do Texto• Base própria, 20 locutores• 20 sentenças por locutor• Parâmetros LPC (12)• Híbrido (QV + HMM)

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Extração de Fonemas

• Trabalhos Realizados– Rustein, 1998 (UNICAMP)

• Reconhecimento de fala• Independente de Locutor• Base própria, 30 locutores• 10 sentenças por locutor• Parâmetros diversos• Redes Neurais

Backpropagation

Kohonen

Quantização Vetorial

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Interpretação de Visemas

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Interpretação de Visemas

• Associação entre fonemas/vogais e seus respectivos visemas

• Parâmetros emocionais

• Energia

• Parâmetros de animação

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Etapa de Animação

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Etapa de Animação

• Construção da animação

• Síntese de video ou técnicas de keyframing

• Parâmetros ao modelo da face associados ao áudio

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Aminação Facial

• Parametrização ideal para os sistemas de animação facial

• Satisfazer todos os requisitos para um sistema de animação facial não é fácil

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Aminação Facial

• Facilidade de uso– Número de parâmetros, complexidade e

intuitividade– Maior a flexibilidade, maior a complexidade

• Sutileza– Movimentos suaves

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Aminação Facial

• Abstração de alto-nível– Controlar a face com alto-nível de abstração– Textos com marcações

• Previsibilidade– O resultado da combinação de parâmetros

deve ser previsível

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Aminação Facial

• Portabilidade– Troca fácil de modelos faciais– Reuso de conjuntos de parâmetros

• Medição dos parâmetros– Descritos em unidades físicas que possam ser

visualmente medidas na face• Eficiência

– Comunicação através da rede

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Trabalhos

1. Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis

2. InterFace: Um Sistema de Animação Interativa de Rostos Humanos

3. Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil

4. Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Trabalhos

1. Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis

2. InterFace: Um Sistema de Animação Interativa de Rostos Humanos

3. Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil

4. Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Animação

• Parâmetros pré-calculados– Qualquer modelo possa ser animado– Usados pelo algoritmo de deformação– Definidos offline (antes da execução em tempo

real)– Captura de pontos através de ferramentas

• Feature Points• Vértices vizinhos (pesos)

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Animação

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Animação

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Animação

• Busca pelas respectivas FAPs

– Facial Animation Parameters

– Por exemplo:• Instrução para abrir a boca

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Animação

• Algoritmo de deformação

– Integração dos elementos do processo

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Animação

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Animação

Offline

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Animação

Módulos daAnálise fonética

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Animação

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Animação

PadrãoMPEG-4

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Trabalhos

1. Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis

2. InterFace: Um Sistema de Animação Interativa de Rostos Humanos

3. Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil

4. Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

InterFace

• Java e Virtual Reality Modeling Language

• Sistema interativo para criação de diferentes expressões faciais

• Animação entre as expressões– Técnicas de composição digital de imagens

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

InterFace

• Dividido em 2 módulos:

– Criação de Expressões• Suporte para a criação das ações

– Animação Facial• Simulação do ator virtual através das 3 camadas

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

InterFace

O que é Entrada Saída

Expressões Biblioteca básica ou modeladas

Qual expressão e intensidade

Modificação do rosto virtual

Ações Ações definidas (olhos, lábios, etc)

Quais ações executar

Expressões e intensidades à camada de expressões

Inteligência Quais ações realizar

Usuário, roteiro, I.A., síntese de voz

Quais ações realizar à camada de ações

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

InterFace

• Cada expressão criada individualmente– Objetos que compõe o rosto

• Expressão neutra

• Biblioteca básica de expressões

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

InterFace

• Biblioteca básica de expressões

– Conjunto de expressões simples

– Nem muitas, nem poucas

– Combinadas para criar expressões complexas• Vetor de diferenças• Valores de intensidade

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

InterFace

Ahh Ohh esquerda direita

Dúvida

X Y Z

Rotação

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

InterFace

Expressões básicas

Expressões combinadas

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

InterFace

• Ações

– Piscar, falar um fonema, cantar, chorar, dormir, espirrar, ...

– Construídas através das expressões• Valores de intensidade

– Grupos de ações• Duas ações de um mesmo grupo podem ser executadas ao

mesmo tempo

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

InterFace

• Exemplos de grupos de ações

– Não intencionais• Respirar ou piscar os olhos

– Emoções• Chorar, sorrir ou dormir

– Sincronismo de movimentos labiais

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Trabalhos

1. Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis

2. InterFace: Um Sistema de Animação Interativa de Rostos Humanos

3. Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil

4. Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Objetivos

• Definição de representações para os padrões visuais de movimentação articulatória– Ou seja, visemas

• Visemas dependentes do contexto fonético

• Modelos para movimentação temporomandibular e do tecido dos lábios– Elevação, depressão, protrusão e retração– Deformações

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Movimentação Facial

• Idéia de pontos de interesse e referência

• Gerados através da captura de video

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Movimentação Facial

• Articulação temporomandibular

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Movimentação Facial

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Trabalhos

1. Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis

2. InterFace: Um Sistema de Animação Interativa de Rostos Humanos

3. Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil

4. Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Objetivos

• Sistema para geração de expressões faciais dinâmicas

– Variações ao longo do tempo– Ligadas à emoções, fala e fenômenos afetivos– Sincronismo com fala– Face tridimensional realista

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Sistema

• VeeM (Virtual emotion-to-expression Model)

– Modelo de emoção para personagens virtuais falantes

– Conceito de hipercubo emocional no espaço canônico do R4

• Combinação de expressões básicas para gerar emoções derivadas

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Sistema

• DynaFeX (Dynamic Facial eXpression)

– Para validação do VeeM

– Autoria e apresentação de animações faciais

– Processo de fala para sincronismo entre fonemas e visemas

– Malha poligonal tridimensional (baseada no modelo de animação MPEG-4)

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Familias de emoção

Robert Plutchik

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

VeeM

Alegria-Tristeza

combinada com

Medo-Raiva

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

VeeM

Alegria-Tristeza

combinada com

Confiança-

Abominação

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

VeeM e Parametrização Ideal

• VeeM em relação à parametrização ideal

– Combinação de emoções

– Emoções mapeadas em uma expressão única

– Manipulação do hipercubo emocional é fácil e direta

– Representação da expressão pode ser mapeada para uma descrição de alto-nível

– VeeM é independente de face

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

MPEG-4

• MPEG-4 para especificação de uma face– Definição de parâmetros (face neutra)

• Olhar na direção do eixo z• Músculos da face relaxados• Pálpebras tangentes à íris• Pupila medindo um terço do diâmetro da íris• Lábios em contato (com linha na altura dos cantos)• Boca fechada com dentes se tocando• Língua plana na horizontal com ponta tocando o

limite dos dentes

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

MPEG-4

• A partir de Feature Points (pontos chaves)– Parâmetros de Animação Facial (FAPs)

• Animação de pontos chaves característicos• Representação de visemas e emoções

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

MPEG-4

• Visemas e Lip-Sync no MPEG-4

– Transição de um visema para outro é através da combinação (blending) com um peso associado a cada um deles

– Variação da intensidade de 0 a 63

Visema final = visema1 x (blend/63) + visema2 x (blend/63)

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

MPEG-4

• Combinação de visemas– Cuidando as propriedades das FPs

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

DynaFeX

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Referências

1. TATHAM, M., “Developments in Speech Systems” Editora Wiley, 2005.

2. SIMÕES, F.O., “Implementação de um Sistema de Conversão Texto-Fala para o Português do Brasil”. Dissertação de Mestrado, UNICAMP, 1999.

3. DIMITRU, C.O., et al. “A Comparative Study of Feature Extraction Methods Applied to Continuous Speech Recognition in Romanian Language”. ELMAR, 2006.

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Referências

4. FECHINE, J.M. “Reconhecimento Automático de Identidade Vocal Utilizando Modelagem Híbrida: Paramétrica e Estatística”, UFCG, 2002.

5. RUSTEIN, F.O. “Sistema de Reconhecimento de Fala Baseado em Redes Neurais Artificiais” Tese de doutorado,UNICAMP, 1998.

6. FIUZA, M.; Monteiro, M.; Dourato, C.; Soares, J.; Barroso, G. “Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis,” III CONNEPI, 2008.

Alexandre Maciel e Ricardo Schmidt {magnomaciel@hotmail.com; schmidt@gprt.ufpe.br}

Referências

7. WEY, J. “InterFace: Um Sistema de Animação Interativa de Rostos Humanos,” Dissertação de mestrado, Escola Politécnica, USP, 1999.

8. MARTINO, J. de. “Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil,” Tese de doutorado, DCA/FEEC UNICAMP, 2005.

9. RODRIGUES, P. “Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala,” Tese de doutorado, Departamento de Informática, PUC-RJ, 2007.

Fala e Movimentação Facialem Avatares

Alexandre Magno Macielmagnomaciel@hotmail.com

Ricardo de Oliveira Schmidtschmidt@gprt.ufpe.br

top related