o sistema cage e a participação no segundo harem
DESCRIPTION
O sistema CaGE e a participação no segundo HAREM. Bruno Martins Instituto Superior Técnico, Technical University of Lisbon. Motivação. As referências geográficas e temporais ocorrem com abundância sobre documentos textuais (e.g., páginas Web, RSS feeds, …) - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/1.jpg)
O sistema CaGE e a participação no segundo HAREM
Bruno Martins
Instituto Superior Técnico, Technical University of Lisbon
![Page 2: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/2.jpg)
Motivação• As referências geográficas e temporais ocorrem com abundância sobre
documentos textuais (e.g., páginas Web, RSS feeds, …)
• A extracção da informação geo-temporal (e.g., nomes de locais e nomes de períodos temporais) presente nos textos pode servir de suporte para serviços de indexação/pesquisa/navegação com base em critérios geo-temporais.
• Ambiguidade é o maior problema:• Diferentes nomes para o mesmo local• Locais diferentes com o mesmo nome• Mesmo nome para locais e outras entidades• Variações ao longo do tempo e do espaço
O sistema CaGE aborda o problema do reconhecimento e desambiguação
de referências geo-temporais
Associar as referências presentes nos textos a entradas num almanaque
![Page 3: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/3.jpg)
Resumo da apresentação
• Motivação
• Apresentação do sistema CaGE
• Especificidades das referências geo-temporais
• Um serviço Web com base no sistema CaGE
• Participação no HAREM 2 e resultados obtidos
• Conclusões e trabalho futuro
![Page 4: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/4.jpg)
Apresentação do sistema CaGE
• Reconhecimento de entidades mencionadas com base em dicionários (i.e., almanaques) e regras
• Extensão para desambiguação de nomes de locais e nomes de períodos temporais, com base em heurísticas e um almanaque específico desenvolvido no projecto DIGMAP
• Extensão para atribuição de âmbitos geográficos a documentos, com base nos locais reconhecidos no texto
Não necessita dados de treino (apenas dicionários específicos), fácil de adaptar a outras línguas e tarefas de reconhecimento.
![Page 5: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/5.jpg)
Dicionários usados pelo sistema CaGE
• Nomes de pessoas, organizações e periodos temporais– Base de dados REPENTINO (REPositório para reconhecimento de ENtidades NOmeadas)
– Internet Movie DataBase– Wikipedia (e.g., listas de períodos temporais e de nomes comuns)– ECAI TimePeriod directory (traduções para Português)– Dicionários distribuídos com o sistema de IE/REM Balie
• Nomes de locais– GeoNET (combinação do GeoNET-PT e ML)– Base de dados disponibilizada pelo www.geonames.org– Nomes no almanaque do projecto DIGMAP– Lista de excepções construída manualmente
![Page 6: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/6.jpg)
Funcionamento do CaGE
• Reconhecimento de entidades mencionadas– Atomização dos textos– Janela deslizante sobre os átomos identificados no texto (até 6 palavras)– EMs começam com maiúsculas e não ocorrem apenas no início de frases.– Mapeamento da EM máxima com entidades presentes nos dicionários– Expressões regulares para algumas entidades temporais (e.g., datas)
• Ambiguidade entre vários tipos de entidades– Regras desenvolvidas manualmente, utilizando palavras adjacentes– Classificação round-robin entre os vários tipos possíveis
• Tratamento das entidades geográficas e temporais– Desambiguação e “grounding” com base em almanaque específico
![Page 7: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/7.jpg)
O almanaque usado na desambiguação das referências geo-temporais
• Base de dados de locais e períodos temporais– Nomes, coordenadas, períodos, relações e outras informações
• Pode ser acedido por um serviço Web XML (interface ADL)• Integra dados de múltiplas fontes (e.g. geonames.org)
http://gaz.digmap.eu/
Estatística Valor
Locais 7,034,538
Nomes de locais 15,026,983
Tipos de locais 210
Periodos temporais 1,989
Nomes periodos temp. 3,782
Locais com coordenadas 66,211,38
Tipos de relações 5
Locais com relações 431,397
Número de relações 866,019
Relações entre locais e periodos 1,989
![Page 8: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/8.jpg)
Específicidades das referências geográficas e temporais
• Desambiguação e grounding das referências a locais– Pesquisar no almanaque os locais com o mesmo nome e tipo– Ordenar possibilidades com base na heurística “um sentido por defeito”
• Locais mais gerais (e.g., países e continentes) têm preferência
– Ajustes com base na heurística “referências relacionadas”• Locais no mesmo documento estão semanticamente relacionados (e.g., parte-de)
• Desambiguação e grouding das referências temporais– Regras para converter as representações textuais das datas– Pesquisar no almanaque os nomes de períodos temporais
• Atribuição de âmbitos aos documentos– Entrada no almanaque que melhor combina os locais reconhecidos– Intervalo de tempo que cobre os vários intervalos reconhecidos no texto
![Page 9: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/9.jpg)
Atribuição de âmbitos geográficos
EuropaEuropa
EspanhaEspanha PortugalPortugal
MadridMadrid BarcelonaBarcelona LisboaLisboa PortoPortoweightx weighty
(weightx*0.75)+(weighty*0.75)
(weightx*0.752)+(weighty*0.752)
• Algoritmo simples que explora as relações hierárquicas (Amitay et al., 2005)
• Pesos iniciais correspondentes às ocorrências no texto são propagados através das relações hierárquicas definidas entre as entradas do almanaque
• Função quadrática para ajustar os pesos de acordo com o nível hierárquico
![Page 10: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/10.jpg)
Um serviço Web baseado no CaGE• Serviço Web XML online em http://geoparser.digmap.eu
– Serviço segue a OGC’s Geoparser draft implementation specification– Suporta ainda os formatos HAREM, geoRSS and SpatialML (com XSLTs)
• Interface para exploração de feeds RSS com TimeLines+Mapas• Locais e períodos temporais ligados a entradas no almanaque
– Nomes de locais e âmbitos dos documentos associados a coordenadas– Períodos temporais e âmbitos temporais associados a intervalos de tempo
![Page 11: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/11.jpg)
Participação no segundo HAREM
• Quatro runs submetidas ao segundo HAREM
1. Vários dicionários, locais no almanaque específico• Apenas os locais presentes no almanaque usado na desambiguação e
grounding foram anotados pelo sistema
2. Vários dicionários, excepto lista de excepções
3. Apenas dicionários de locais e períodos temporais• Não eram reconhecidos os restantes tipos de entidades
4. Vários dicionários
![Page 12: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/12.jpg)
Resultados experimentais
• Resultados obtidos no primeiro HAREM– Versão anterior do sistema CaGE lidando apenas com reconhecimento de locais– Dicionários baseados apenas no GeoNET
• Resultados obtidos no HAREM2, cenário 2– Considera vários tipos de entidades (i.e., locais, tempo, organizações e pessoas) e sub-
tipos para as entidades do tipo local
• Resultados obtidos no HAREM2, cenário 5– Considera apenas entidades do tipo local, excepto o sub-tipo VIRTUAL
• Experiências focando na atribuição de âmbitos– Experiências com 511 documentos (i.e., registos bibliográficos do projecto DIGMAP)
manualmente atribuídos a âmbitos geográficos e temporais
![Page 13: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/13.jpg)
Resultados no primeiro HAREM
• Participação num cenário limitado à identificação de entidades do tipo local• Semelhante ao cenário selectivo 5 do segundo HAREM
Resultados modestos obtidos no HAREM e no MiniHAREM, com uma diferença de cerca de 0.1 em termos da medida-F para com o melhor sistema participante
![Page 14: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/14.jpg)
Resultados no cenário selectivo 2
Classificação Posição Precisão Abrangência Medida-F MaxCD MaxSis
4 14 0.4264 0.407 0.4164 10489.2103 10012.6786
1 16 0.4277 0.4025 0.4148 10489.2103 9871.3095
2 17 0.4226 0.4059 0.4141 10489.2103 10074.4286
3 20 0.3883 0.35 0.3682 10489.2103 9455.5744
Melhores resultados 0.7347 0.5893 0.6325
Identificação Posição Precisão Abrangência Medida-F Sobre-ger Sub-ger TotalEMCD TotalEMSis
4 16 0.4615 0.4553 0.4584 0.5385 0.5447 5538.3333 5463.5
1 17 0.4643 0.452 0.4581 0.5357 0.548 5538.3333 5391.5
2 18 0.4576 0.4547 0.4562 0.5424 0.5453 5538.3333 5503.5
3 20 0.4225 0.3929 0.4072 0.5775 0.6071 5538.3333 5151.1667
Melhores resultados 0.8561 0.7127 0.6813
Diferença de aprox. 0.2 em termos da medida-F para com o melhor resultado
![Page 15: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/15.jpg)
Resultados no cenário selectivo 5
Identificação Posição Precisão Abrangência Medida-F Sobre-ger Sub-ger TotalEMCD TotalEMSis
4 11 0.5198 0.6788 0.5888 0.4802 0.3212 1418 1851.5
2 12 0.5091 0.6802 0.5823 0.4909 0.3198 1418 1894.5
1 13 0.5049 0.6781 0.5788 0.4951 0.3219 1418 1904.5
3 14 0.5084 0.6689 0.5777 0.4916 0.3311 1418 1865.5
Melhores resultados 0,7186 0,7856 0,6572
Classificação Posição Precisão Abrangência Medida-F MaxCD MaxSis
4 11 0.5267 0.5844 0.554 2087.8214 2316.5774
2 12 0.5196 0.5851 0.5504 2087.8214 2351.3274
1 13 0.5147 0.5802 0.5455 2087.8214 2353.747
3 14 0.5178 0.5754 0.5451 2087.8214 2319.8274
Melhores resultados 0,7080 0,70236 0,6246
Diferença de aprox. 0.1 na medida-F para o melhor resultado
Diferença de aprox. 0.1 na medida-F em relação ao MiniHAREM
Resultados ligueiramente melhores que no cenário selectivo 2
![Page 16: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/16.jpg)
Resultados na atribuição de âmbitos• Documentos na colecção de teste manualmente atribuídos a uma caixa delimitadora
• Medir a diferença entre os âmbitos geográficos atribuídos manual- e automaticamente
•A baseline 1 corresponde ao âmbito mais frequente e baseline 2 à área mais abrangente
Âmbitos geográficos atribuídos a mais de 75% dos documentos, e em mais de 50% dos casos com um erro inferior a 25Km
![Page 17: O sistema CaGE e a participação no segundo HAREM](https://reader035.vdocuments.mx/reader035/viewer/2022062408/56813760550346895d9eefce/html5/thumbnails/17.jpg)
Conclusões e Trabalho Futuro
O sistema CaGE e a participação no segundo HAREM– Reconhecer referências geo-temporais em documentos textuais.– Atribuir âmbitos aos documentos com base nas referências.– Disponível como um serviço Web produzindo anotações XML.– Resultados modestos no segundo HAREM.
Trabalho futuro• Melhorar precisão e abrangência do sistema
– Almanaques já têm uma boa cobertura, o foco deve estar em regras.
• Melhor avaliação da atribuição de âmbitos a documentos.• Melhorar tratamento de referências temporais (TimeML).