Ferramenta de indexação e recuperação de
documentos eletrônicos utilizando Oracle
InterMediaAcadêmico: Emerson ImmianovskyOrientador: Prof. Alexander R. Valdameri
Roteiro
• Introdução• Objetivos• Fundamentação• Trabalhos correlatos• Desenvolvimento• Operacionalidade• Conclusões
Introdução
• Bibliotecas tradicionais• Bibliotecas digitais• Sistemas atuais• Métodos de indexação
Objetivos
• Sistema de busca por conteúdo• Indexação biblioteca FURB e outras
instituições• Refinamento das pesquisas• Interface de administração do sistema• Verificação de problemas no sistema
Bibliotecas digitais
• Conceito• Evolução• Arquitetura• Bibliotecas digitais existentes
Interface biblioteca digital
• Sistema de busca• Opções de busca• Ergonomia• Simplicidade• Eficiência
Oracle InterMedia
• O que é?• Instalação• Tipos de indexação• Documentos suportados• Funcionamento• Oracle Text
Oracle InterMedia
Fonte: (ORACLE, 2005b).
Interface biblioteca UNICAMP
Interface biblioteca FURB
Trabalhos correlatos
• iSmart - ITGis Softwares e Equipamentos (1999)
• Sistema de gerenciamento geográfico -SOUZA, AMARO e CASTRO (2005)
• Viseu Digital – Victor Martins (2005)• Google Acadêmico - Google Inc. (2006)
Requisitos
• Pesquisas por conteúdo• Integração com biblioteca da FURB e
outras instituições através da Internet• Listar resultados por relevância• Pesquisar nos resultados• Visualização e download• Administração• Indexação automática e manual com
otimização
Visão geral
Funcionamento da pesquisa
Especificação
• Diagrama de Caso de Uso• Diagrama de Classes• Diagrama de Atividades• Diagrama de Entidade Relacionamento
Diagrama de Casos de Uso
Diagrama de Classes
Diagrama de atividades
Diagrama de Dados
Implementação
• Ferramentas utilizadas– Web TomCat 5.5
– SGBD Oracle 10G Express Edition– Oracle InterMedia 10G
– IDE NetBeans 5.5
• Linguagem– Java 1.5– JSP
Pesquisa com Oracle InterMedia
Indexação pelo Oracle InterMedia
Exemplos de otimizaçãoRápida
Total
Índice Fragmentado Índice otimizado
palavra1 doc1 doc2 doc3 palavra1 doc1 doc2 doc3
palavra2 doc6 palavra2 doc6
palavra3 doc1 doc6 palavra2 doc4 doc5
palavra2 doc4 doc5 palavra3 doc1 doc6
Palavra3 doc5 palavra3 doc5
Índice Fragmentado Índice otimizado
palavra1 doc1 doc2 doc3 palavra1 doc1 doc2 doc3
palavra2 doc6 palavra2 doc6 doc4 doc5
palavra3 doc1 doc6 palavra3 doc1 doc6 doc5
palavra2 doc4 doc5
palavra3 doc5
Exemplos de otimizaçãoRecriação
Índice Fragmentado Índice otimizado
palavra1 doc1 doc2 doc3 palavra1 doc1 doc2 doc3
palavra2 doc6 palavra2 doc4 doc5 doc6
palavra3 doc1 doc6 palavra3 doc1 doc5 doc6
palavra2 doc4 doc5
palavra3 doc5
Operacionalidade
• Acesso irrestrito– Principal
– Pesquisa básica– Pesquisa avançada
– Lista de resultados– Pesquisa nos
resultados
• Acesso restrito– Parâmetros gerais
– Repositórios– Restrições
– Indexação– LOGs
Acesso principal
Lista de resultados
Parâmetros gerais
Indexação e Otimização
Operadores de pesquisa
Operador Símbolo Descrição Exemplo
e &Usado para localizar documentos que possuem pelo menos uma ocorrência para cada termo informado
Documentos que tenham as palavras 'cão' e 'gato'. Expressão: 'cãe&gato'
ou |Usado para localizar documentos que possuem pelo menos uma ocorrência de qualquer um dos termos informados
Documentos que tenham qualquer das palavras 'cão' ou 'gato'. Expressão: 'cão|gato'
negacao ~Usado para localizar documentos que possuem um termo e que não possua um outro termo
Documentos que tenham a palavra 'animal' e que não tenha a palavra 'cão'. Expressão: 'animal~cão'
lista ,Usado para localizar docuemntos que possuem um lista de termos
Documentos que tenhas as palavras 'cão', 'gato' e 'rato'. Expressão: 'cão,gato,rato'
igual = Usado para localizar documentos com equivalencia de termos
Documentos que tenham a expressão 'cães são animais dóceis' ou 'gatos são animais dóceis'. Expressão: 'cães=gatos são animais dóceis'
Resultados e discussões
• Performance• Relevância• Integração• Indexação documentos remotos
Conclusões
• Excelente ferramenta de pesquisa acadêmica
• Potencial do Oracle InterMedia• Integração• Objetivos alcançados
Extensões
• Construção de agentes de localização e indexação WEB
• Mecanismo de autenticação para sites restritos
• Possibilitar novos tipos de documentos
Relevância Pessoal
• Aprendizado acadêmico• Contribuição profissional• Realização pessoal
Demonstração do Sistema