anotacao de corpus

33
Anotação de corpus Fernando A. A. Nóbrega e Nathan S. Hartmann Universidade de São Paulo (NILC/ICMC/USP) 30/09/2015

Upload: nathan-hartmann

Post on 08-Apr-2017

162 views

Category:

Science


0 download

TRANSCRIPT

Anotação de corpus

Fernando A. A. Nóbrega e Nathan S. Hartmann

Universidade de São Paulo (NILC/ICMC/USP)

30/09/2015

Introdução Imersão Prática References

Agenda

Introdução→ O que é anotação de córpus

→ Tipos de anotação

→ Anotação de córpus e mercado de trabalho

Imersão→ Detalhes mais técnicos sobre a anotação

Prática→ Demonstrações

→ Algumas práticas para exercitar

Introdução Imersão Prática References

Introdução

O que é Anotação de Córpus?1 Anotação: Tarefa (geralmente, manual) comobjetivo de explicitar diferentes níveis deconhecimento

→ Pode ser semimanual

→ Fazemos isso o tempo todo

2 Córpus: Uma coleção de objetoslinguísticos para uso em aplicações de PLNSantos 2008

IV SPL e IX SPLIN 1/22

Introdução Imersão Prática References

Introdução

IV SPL e IX SPLIN 1/22

Introdução Imersão Prática References

Introdução

O que é Anotação de Córpus?1 Anotação: Tarefa (geralmente, manual) comobjetivo de explicitar diferentes níveis deconhecimento

→ Pode ser semimanual

→ Fazemos isso o tempo todo

2 Córpus: Uma coleção de objetoslinguísticos para uso em aplicações de PLNSantos 2008

IV SPL e IX SPLIN 1/22

Introdução Imersão Prática References

Introdução

Anotação de CórpusTarefa (geralmente, manual) com objetivo deexplicitar diferentes níveis de conhecimentoao rotular os objetos armazenados no córpus

IV SPL e IX SPLIN 1/22

Introdução Imersão Prática References

Anotação de Córpus na Academia

Geralmente, utilizada para descrever algumfenômeno linguístico e/ou para fins deautomatização computacionalVariados níveis de conhecimento

1 Etiquetação/validação de etiquetasmorfossintáticas

2 Geração/validação de Árvores sintáticas3 Desambiguação de sentidos4 Papéis semânticos5 Polaridade de reviews, sentenças, etc.6 Segmentação de subtópicos7 Identificação de Relações Discursivas8 Identificação de erros em resumos

Onde publicar: STIL, PROPOR, LREC, ELC,...

IV SPL e IX SPLIN 2/22

Introdução Imersão Prática References

Anotação de córpus no Mercado

Amazon Mechanical Turk

Apple

Google

IV SPL e IX SPLIN 3/22

Introdução Imersão Prática References

Dificuldades

Basta ligar o computador e sairanotando....?

NÃO!!!!

É um projeto com várias questões envolvidas

1 Quem e quantos serão os anotadores?2 Qual o conhecimento dos anotadores natarefa?

3 A tarefa de anotação é bem definida?4 É necessário treinar os anotadores? Sesim, como?

5 Qual será o local da anotação (reuniões,online)?

6 Qual a frequência das ”reuniões“?7 Qual a validade da tarefa (concordância)?8 Qual o objetivo do recurso?

IV SPL e IX SPLIN 4/22

Introdução Imersão Prática References

Dificuldades

Basta ligar o computador e sairanotando....?

NÃO!!!!É um projeto com várias questões envolvidas

1 Quem e quantos serão os anotadores?2 Qual o conhecimento dos anotadores natarefa?

3 A tarefa de anotação é bem definida?4 É necessário treinar os anotadores? Sesim, como?

5 Qual será o local da anotação (reuniões,online)?

6 Qual a frequência das ”reuniões“?7 Qual a validade da tarefa (concordância)?8 Qual o objetivo do recurso?

IV SPL e IX SPLIN 4/22

Introdução Imersão Prática References

Dificuldades

Basta ligar o computador e sairanotando....?

NÃO!!!!É um projeto com várias questões envolvidas

1 Quem e quantos serão os anotadores?2 Qual o conhecimento dos anotadores natarefa?

3 A tarefa de anotação é bem definida?4 É necessário treinar os anotadores? Sesim, como?

5 Qual será o local da anotação (reuniões,online)?

6 Qual a frequência das ”reuniões“?7 Qual a validade da tarefa (concordância)?8 Qual o objetivo do recurso?

IV SPL e IX SPLIN 4/22

Introdução Imersão Prática References

Anotação é somente coisa de linguísta?!

Depende da natureza da tarefa.

Público GeralApontar a qualidade de um produto -Ruim-Bom, 0-5, etc.Identificar localidades, nomes de pessoas,etc.

Público EspecíficoAnotar papéis semânticos.Identificar traços de demência em textos.Reconhecimento de língua materna por voz(estrangeiros)

IV SPL e IX SPLIN 5/22

Introdução Imersão Prática References

Mais alguns detalhes

Defindo a tarefa

Validando a anotação - Concordância

Quando refinar a tarefa?

Recursos necessários

IV SPL e IX SPLIN 6/22

Introdução Imersão Prática References

Definição da tarefa

O que é efetivamente a tarefa (semambiguidade e brechas para dúvidas)

→ Definição de um manual de anotação -diretrizes

→ Geralmente, refinado durante a tarefa

IV SPL e IX SPLIN 7/22

Introdução Imersão Prática References

Concordância na anotação

Normalmente mais de uma pessoa anota ummesmo conjunto de dados

Importante, pois indica convergência,padronização (”qualidade“)

Percentual de concordância

Medida Kappa mais frequentemente usada→ Desconsidera o acaso

→ Há ferramentas online:http://vassarstats.net/kappa.html1

1Algumas são parciaisIV SPL e IX SPLIN 8/22

Introdução Imersão Prática References

Concordância com Kappa

Como usar

Instalar o interpretador Perl

Formatar os dados de anotação em um arquivoCSV usando TAB

→ Fácil usando Excel, OpenOffice

Executar com: perl kappaDiagnosis.pl“resumo-anotacao.txt” > saida.txt

→ Necessária Instalação do Perl

IV SPL e IX SPLIN 9/22

Introdução Imersão Prática References

Calculando kappa

Anotador1 Anotador2Sent1 A ASent2 B ASent3 A ASent4 B ASent5 B A

- A BA 2 0B 3 0

Percentual: 40%

Kappa: -0.429

IV SPL e IX SPLIN 10/22

Introdução Imersão Prática References

Concordância com adjudicação

IV SPL e IX SPLIN 11/22

Introdução Imersão Prática References

Prática

Agora vamos praticar!

Vocês verão que:

Podemos utilizar diversos ambientes paraanotação

→ Alguns são mais simples, outros com maisfuncionalidades

Algumas tarefas são mais simples do queoutras

→ Algumas tarefas até demandam treinamento

IV SPL e IX SPLIN 12/22

Introdução Imersão Prática References

Prática - Análise de Sentimentos

Objetivo: Determinar a polaridade de umasentença em relação à uma entidade

Polaridade: Negativa, Neutra e Positiva

Entrada: Pares formados por sentença eentidade

Ferramenta: Google Docs(http://migre.me/rFAdE)

Concordância

IV SPL e IX SPLIN 13/22

Introdução Imersão Prática References

Prática - Anotação de Papéis Semânticos

Anotação de Papéis Semânticos (APS):

Detecta os eventos descritos nas sentenças e osparticipantes destes eventos.

Eventos são realizados por predicados (aqui,verbos).Participantes são chamados de argumentos.

Exemplo:Para a sentença “João quebrou a janela com apedra.”, temos o evento “quebrar” e seusparticipantes, “João”, “a janela” e “a pedra”.

IV SPL e IX SPLIN 14/22

Introdução Imersão Prática References

Prática - Anotação de Papéis SemânticosAnotação de Papéis Semânticos (simplificada)

O agente da ação do verbo

O paciente da ação do verbo

O instrumento da ação do verbo

A maneira com que a ação é feita

A localidade da ocorrência da ação

Tempo, ou quando a ação ocorreu

A causa da ocorrência da ação

Marcação de negação da da ação

Exemplo:[Hoje cedoTempo], [lá em casaLocal], [JoãoAgente] [quebrouVerbo][a janelaPaciente] [com a pedraInstrumento] [porque estavaestressadoCausa].

IV SPL e IX SPLIN 15/22

Introdução Imersão Prática References

Prática - Anotação de Papéis SemânticosAnotação de Papéis Semânticos (simplificada)

O agente da ação do verbo

O paciente da ação do verbo

O instrumento da ação do verbo

A maneira com que a ação é feita

A localidade da ocorrência da ação

Tempo, ou quando a ação ocorreu

A causa da ocorrência da ação

Marcação de negação da da ação

Exemplo:[Hoje cedoArgM−Tmp], [lá em casaArgM−Loc], [JoãoArg0][quebrouV] [a janelaArg1] [com a pedraArg2] [porque estavaestressadoArgM−Cau].

IV SPL e IX SPLIN 15/22

Introdução Imersão Prática References

Prática - Anotação de Papéis Semânticos

Para essa tarefa temos:

Um manual de anotação (diretrizes)

Repositório para consulta

Ferramenta de suporte a anotação

Pessoal especializado

Anotação duplo-cego

Discordâncias resolvidas pelo adjudicador

IV SPL e IX SPLIN 16/22

Introdução Imersão Prática References

Prática - Anotação de Papéis Semânticos

IV SPL e IX SPLIN 17/22

Introdução Imersão Prática References

Prática - Anotação de Papéis SemânticosFerramenta de Anotação Salto

Plataforma gráfica para anotação em córpus

Pode ser utilizada para anotação depropósito geração sobre treebanks

Além de proporcionar uma anotação fácil eintuitiva, ela possui o recurso de auxílioà adjudicação

Desenvolvida por Burchardt et al. 2006

IV SPL e IX SPLIN 18/22

Introdução Imersão Prática References

Brat

Ferramenta “online”

Usada em diversos trabalhos→ Correferência, Dependência Sintática,

Entidade Mencionada, Extração de Eventos,Identificação de Erros, etc.

http://brat.nlplab.org/→ Necessário Python

Anota itens (palavras, sintagmas, trechos)e relações

IV SPL e IX SPLIN 19/22

Introdução Imersão Prática References

Configuração

Vários modelos prontos na Web

Organizado em Arquivos e sessõesREADME →descrição da tarefaannotation.conf →O que será anotadotools.conf →Configuração da ferramentavisual.conf →Configuração visual (cores eefeitos)

→ Mais detalhes em:http://brat.nlplab.org/configuration.html

IV SPL e IX SPLIN 20/22

Introdução Imersão Prática References

Aquivos básicos

tools.conf[options]Tokens tokenizer:whitespaceSentences splitter:newlineAnnotation-log logfile:<NONE>

visual.conf[labels]

[drawing]SPAN-DEFAULT borderColor:darken, fgColor:blue

IV SPL e IX SPLIN 21/22

Introdução Imersão Prática References

Aquivos básicos

annotation.conf[spans]...[entities]...[relations]...[events]...[attributes]...

IV SPL e IX SPLIN 22/22

Introdução Imersão Prática References

Obrigado!Por hoje é só

Introdução Imersão Prática References

Referências

Burchardt, Aljoscha et al. (2006). ‘SALTO: Aversatile multi-level annotation tool’. In:Proceedings of LREC-2006. Genoa, Italy.

Santos, Diana (2008). ‘Avanços da Linguísticade Corpus do Brasil’. In: ed. byStella E. O. Tagnin and Oto Araújo Vale.Humanitas. Chap. Corporizando AlgumasQuestões, pp. 41-66.

Prática - Identificação de Subtópicos

Objetivo: Identificar os segmentos desubtópicos de um texto

Subtópico: Uma sequência de sentenças queabordam um mesmo tema/tópico

Ferramenta: Editor de texto de suapreferência

Concordância?→ Nem sempre necessitamos utilizar Kappa