análise do artigo: affectiva-mit facial expression dataset (am-fed): naturalistic and spontaneous...

Affectiva-MIT Facial Expression Dataset (AM-FED): Naturalistic and

Spontaneous Facial Expressions Collected In-the-Wild

Daniel McDuff, Rana El Kaliouby, Thibaud Senechal, May Amr, Jeffrey F. Cohn, Rosalind Picard Affectiva Inc., Waltham, MA, USA

MIT Media Lab, Cambridge, MA, USA Robotics Institute, Carnegie Mellon University, Pittsburgh, PA, USA

Article presentation and analysis

by Raquel Salcedo GomesPhd. Student, Programa de Pós-Graduação em Informática na Educação

Universidade Federal do Rio Grande do Sul

• Objetivo do artigo: apresentação do Affectiva-MIT Facial Expression Dataset.

• Aplicações: o reconhecimento automático de expressões faciais, ligado à computação afetiva, possui aplicações médicas, psicológicas, educacionais e comerciais.

• Inovação proposta: a pesquisa é geralmente realizada em ambientes controlados, mas com a ubiquidade das câmeras, há interesse na coleta de dados em contextos naturalísticos, o que o AM-FED busca oferecer.

Conjunto de dados sobre expressões faciais em contextos autênticos

Teoria

• Facial Action Coding System (Ekman e colaboradores): maior catálogo existente de unidades de ação facial (AUs), que correspondem a cada movimento independente da face.

• O FACS permite a medição e a contagem da atividade facial de um modo objetivo, confiável e quantitativo, sendo usado para distinguir diferenças sutis em movimentos faciais.

• Pelo alto nível de detalhe no esquema de codificação, o FACS possibilita a identificação de novos comportamentos não detectados em outros esquemas.

• Metodologicamente, 2 catalogadores certificados no FACS identificam as AUs e apenas a concordância entre eles é computada, para maior confiabilidade.

1. Vídeos faciais: 242 vídeos de webcam gravados em condições do “mundo real”.2. Frames catalogados: 168,359 frames catalogados para a presença de 10 AUs simétricas do FACS, 4 AUs assimétricas (unilaterais), 2 movimentos de cabeça, sorriso, expressividade, falhas na detecção de características e gênero. 3. Pontos traçados: pontos de referência automaticamente traçados para 168,359 frames. 4. Respostas auto-relatadas: familiaridade, grau de apreciação e desejo de assistir novamente aos vídeos que geraram o estímulo.5. Classificação de medidas padrão: desempenho padronizado de sorriso, algoritmos de detecção de AU2 e AU4 neste conjunto de dados e desdobramentos da classificação padrão.

Conteúdo do AM-FED dataset

•CK+: condições controladas, maior catálogo e mais comum, 593 gravações, 10,708 frames, FACS, 6 emoções básicas

•MMI: condições controladas e não controladas, 1395 sequências de vídeo manualmente codificadas em AUs

•RU-FACS: dados de 100 participantes de uma tarefas de 2,5 minutos, controverso, pois deviam tentar esconder sua verdadeira opinião

•Genki-4K: 4000 imagens estáticas disponíveis na internet classificadas como sorridentes e não sorridentes

• UNBC-McMaster Pain:•Multi-PIE: condições controladas de coleta,15 câmeras, 18 flashes, 6 expressões + neutra

• JAFFE e Semaine: condições controladas, sem catalogação de FACS

Revisão bibliográfica - outros conjuntos de dados

Dados coletados online

Metodologia 1 - coleta dos dados

Metodologia 1I - codificação das FACs

Cada vídeo foi catalogado independentemente, frame-by-frame, por ao menos 3 avaliadores de FACS devidamente treinados de um time de 16 avaliadores.

• As catalogações foram posteriormente classificadas por outro avaliador de FACS e as discrepâncias foram revisadas. Para a catalogação, foi utilizado um sistema de classificação de vídeo baseado na web (ViDL), projetado especialmente para análise de dados afetivos. Foi utilizada uma versão do ViDL desenvolvida pelo grupo Affectiva.

• Os codificadores catalogaram a presença de AU2, AU4, AU5, AU9, AU12 (unilateral e bilateral), AU14 (unilateral e bilateral), AU15, AU17, AU18 e AU26. Sorrisos foram catalogados e distintos no código AU12, pois este pode ocorrer em expressões não necessariamente classificadas como sorrisos (um trejeito, por exemplo). O código de expressividade descreve a presença de expressão facial não neutra. O código de rastreamento indica um no qual o Nevenvision facial feature tracker (licenciado pela Google), detecta pontos fornecidos pelo corpus, compondo um total de 168,359 frames catalogados pelas FACS.

• Assume-se a presença de um código se 50% dos avaliadores concordarem sobre ele e assume-se sua ausência se 100% dos avaliadores concordarem sobre ela, de modo que não foram usados frames que não se encaixam nesses critérios durante a catalogação.


Resultados

234 pessoas responderam à perguntas de aprovação da atividade (Você gostou do vídeo?), 219 à de familiaridade (Você já o tinha assistido?) e 94 àquela sobre desejo (Você gostaria de assisti-lo novamente?)

Resultados

Conclusões e continuidade da pesquisa

• O AMFED constitui-se como um recurso rico e extensivamente classificado para pesquisadores atuando na área de reconhecimento de expressões faciais.

• O conjunto de dados contém um grande número de frames com a presença validada de AUs e outros códigos. Os mais comuns são sorrisos, AU2, AU4 e AU17.

• A pesquisa demonstra que a detecção precisa de ações faciais é possível, mas há espaço para melhorias, visto que há inúmeros exemplos desafiadores.

• Os códigos permitem testar muitas outros tipos de AUs em dados naturalísticos.

• O artigo alcançou os objetivos propostos? ☺

• A fundamentação foi de fato utilizada? ☺

• Qual a contribuição para o estado da arte da ciência? Fornecer dados, resultados e recursos metodológicos a outros pesquisadores. Demonstrar a possibilidade de avaliação quantitativa das AUs provenientes do FACS. Permitir a ampliação do FACS mediante a identificação de novos códigos.

Minha análise

• Quais as perspectivas e estudos futuros? O uso mais eficiente desse tipo de pesquisa e seus resultados, além do aperfeiçoamento dos elementos de catalogação.

• E quanto à clareza do texto (escrita e encadeamento das ideias)? O texto foi detalhadamente revisado, apresentando acurácia linguística, coerência e coesão. As ideias estão desencadeadas de forma progressiva, colaborando para a compreensão do leitor. No entanto, a profusão de dados metodológicos requer algumas releituras do leitor para melhor compreensão.

Minha análise

• Acompanhamento dos níveis de motivação e investimento de estudantes em cursos online.

• Avaliação de graus de interação em webaulas e webconferências.

• Verificação da comunicação não verbal e marcas prosódicas na expressão facial de aprendizes de línguas estrangeiras durante práticas de uso da língua em cursos online ou presenciais.

• Linguística: Análise da Conversa, Estudos do Discurso, Linguística da Enunciação, Fonética e Fonologia, Sociolinguística, Linguística de Corpus.

• Avaliação de jogos eletrônicos pela expressividade dos jogadores.

Minha análise - e na educação e outras áreas?

análise do artigo: affectiva-mit facial expression dataset (am-fed): naturalistic and spontaneous...

Science