o sistema cage para reconhecimento de referências geográficas em textos na língua portuguesa
DESCRIPTION
O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa. Bruno Martins, Marcirio Chaves e Mário J. Silva, Universidade de Lisboa. Motivação. Documentos ricos em informação geográfica - PowerPoint PPT PresentationTRANSCRIPT
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 1
O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na
Língua Portuguesa
Bruno Martins, Marcirio Chaves eMário J. Silva,
Universidade de Lisboa
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 2
Motivação• Documentos ricos em informação geográfica
• Recente interesse em ferramentas de
recuperação de informação “geográficas”
• Reconhecer e desambiguar referências a
nomes de locais é um requisito fundamental
• Sistema CaGE no contexto do GeoTumba!
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 3
Tratamento de Referências Geográficas e o HAREM
• Alguns estudos iniciais sobre o problema– Workshop on the analysis of geographic references– Workshop on geographical information retrieval
• Não existe corpus de referência para avaliação– Classificação semântica dos locais em tipos geográficos– Anotações com coordenadas ou conceitos numa ontologia– Textos na língua Portuguesa
• HAREM permite avaliar reconhecimento simples
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 4
Sumário da apresentação
• Motivação
• Recursos usados pelo sistema CaGE
• Arquitectura do sistema CaGE
• Adaptações feitas para o HAREM
• Experiências e Resultados no (Mini)HAREM
• Conclusões
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 5
Recursos usados pelo CaGE
• Ontologia geográfica– GeoNetPT + uma ontologia “global”– Codificam nomes geográficos e relações entre eles
• Lista de excepções– Palavras muito frequentes, nomes de pessoas– Tentativa de eliminar falsos positivos
• Lista de padrões de reconhecimento– Obtida a partir de “expressões geográficas”
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 6
As ontologias geográficas
• GKB/GEO-NET-PT
• Info. pública
• Codificada em OWL
• Disponível online
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 7
Ambiguidade nas ontologias
Ambiguiade nos nomes geográficos!
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 8
Nomes Geográficos nas ontologias
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 9
As expressões geográficase a lista de excepções
• Tipos identificadores geográficos na ontologia• Relações espaciais de vários tipos
– localizado em, perto de, a sul de, …
• Baseada em trabalhos anteriores – e.g. Tiago Delboni ou Janet Kohler
• Lista de nomes comuns e palavras frequentes• Frequência num corpus Web (usando
capitalização) e experimentação
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 10
Sumário da apresentação
• Motivação
• Recursos usados pelo sistema CaGE
• Arquitectura do sistema CaGE
• Adaptações feitas para o HAREM
• Experiências e Resultados no (Mini)HAREM
• Conclusões
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 11
Arquitectura do CaGEAtomização
Identificação
Desam
biguaçã
o
Resultados
Pipeline de operações para o reconhecimento
e desambiguação de referências geográficas
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 12
Sumário da apresentação
• Motivação
• Recursos usados pelo sistema CaGE
• Arquitectura do sistema CaGE
• Adaptações feitas para o HAREM
• Experiências e Resultados no (Mini)HAREM
• Conclusões
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 13
Adaptações para o HAREM
• Marcação SGML do sistema CaGE substituída por marcação mais simples do HAREM– Usar tags <LOCAL> em vez de <PLACE type=“administrative” subtype=“city” id=“geoID-323>
• Padrões de reconhecimento diferentes– Apenas locais capitalizados– Locais que não se encontrem na ontologia
• Não incluir os prefixos em minúsculas– cidade de <LOCAL>Lisboa</LOCAL>
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 14
Sumário da apresentação
• Motivação
• Recursos usados pelo sistema CaGE
• Arquitectura do sistema CaGE
• Adaptações feitas para o HAREM
• Experiências e Resultados no (Mini)HAREM
• Conclusões
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 15
Experiências no (Mini)HAREM
• Avaliação de apenas um cenário selectivo– Reconhecimento simples de entidades do tipo local
• Duas submissões– Utilização da ontologia GeoNetPT– Utilização de GeoNetPT + Ontologia mundial
No primeiro HAREM verificamos que muitas entidades do tipo local correspondem a países e
cidades estrangeiras importantes
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 16
Resultados no (Mini)HAREM
Total Identificados Correctos Correctos
Parcial
Espúrias Em Falta
PT 893 686 469
52.5%
50
5.6%
169
18.9%
379
42.4%
PT
+
M
893 696 486
54.4%
49
5.5%
163
18.2%
363
40.6%
Ontologia PT+mundial consistentemente melhor
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 17
Resultados no (Mini)HAREM
Precisão Abrangência Medida
F
Erro
Combinado
Sobre
Geração
Sub
Geração
PT 0.70 0.54 0.60 0.55 0.25 0.42
PT
+
M0.71 0.55 0.62 0.53 0.23 0.41
T
O
P0.92 0.74 0.71 0.44 0 0.23
Ontologia PT+mundial consistentemente melhor
Por variante de texto, melhor precisão BR e melhor abrangência PT
Sistema comportou-se mal em textos técnicos
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 18
Análise dos resultados• Ainda há muito a melhorar no CaGE
• Mais regras, mais nomes na lista de excepções?
• Ainda há muito a analisar nos resultados do HAREM
• Especificidades da tarefa de avaliação – Locais do tipo correio não eram reconhecidos
• Computacionalmente pesado, reconhecidos parcialmente.– Locais do tipo virtual não eram reconhecidos
• Não correspondem a uma localização física.– Locais do tipo alargado não eram reconhecidos
• Não correspondem a uma localização física.– Locais dentro de organizações reconhecidos
• Câmara Municipal de Braga.
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 19
Sumário da apresentação
• Motivação
• Recursos usados pelo sistema CaGE
• Arquitectura do sistema CaGE
• Adaptações feitas para o HAREM
• Experiências e Resultados no (Mini)HAREM
• Conclusões
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 20
Conclusões• Sistema CaGE desenvolvido para um
contexto específico que não o do HAREM
• Experiência de participação no HAREM foi muito positiva, apesar das limitações
• Melhorias significativas em relação ao primeira edição do HAREM
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 21
Futuro do HAREM• Anotação “geográfica” da colecção dourada
– Locais associadas a conceitos numa ontologia
– Coordenadas geográficas?
• Novos tipos para a classificação semântica
– Continente, país, distrito, cidade, avenida, rua, …
• HTML e maior volume de dados
– Colecção dourada são apenas 893 locais
• Performance computacional levada em conta
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 22
Obrigado pela atenção
http://xldb.fc.ul.pt (grupo de investigação)http://xldb.di.fc.ul.pt/geonetpt/ (ontologia)