engenhos de busca web equipe: rafael corrêa e igor goes {rcls, igp}
TRANSCRIPT
![Page 1: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/1.jpg)
Engenhos de Busca WebEquipe: Rafael Corrêa e Igor Goes
{rcls, igp}
![Page 2: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/2.jpg)
RoteiroEvolução Web e Desafios;Arquitetura;Evolução da Busca;Rankeamento;
Authorities, Hubs, Hits, PageRank e Hilltop;Spiders; Estratégias de Busca;Indexação;Browsing;Metabuscas;Conclusão.
![Page 3: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/3.jpg)
Evolução WebGigantesco e ubíquo banco de dados, sem
estrutura definida.Como se comunicar ?
![Page 4: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/4.jpg)
Evolução Web1990 - Tim Berners-Lee do CERN(Conseil
Européen pour la Recherche Nucleaire) cria o WWW;
Libwww, Erwise, Voilawww, Mosaic(NCSA), etc...
![Page 5: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/5.jpg)
Evolução WebEm 1993, havia aproximadamente 50 sites;Abril de 2008, segundo pesquisas da Netcraft
Survey, existem 165.719.150 sites.
![Page 6: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/6.jpg)
DesafiosDados:Descentralização;Volatilidade;Volume;Redundancia;Qualidade.
![Page 7: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/7.jpg)
ArquiteturasSistemas RI padrão + WEBPrincipais arquiteturas
Arquitetura centralizadaArquitetura distribuída
![Page 8: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/8.jpg)
Arquitetura Centralizada
Query Engine
IndexIndexer
Web
![Page 9: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/9.jpg)
Arquitetura CentralizadaArquitetura CentralizadaPrincipais problemas:
Sobrecarga dos servidoresAumento de tráfego (spiders)Informação recolhida sem coordenação
![Page 10: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/10.jpg)
Arquitetura Distribuída
![Page 11: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/11.jpg)
Evolução da Busca1993 – Spiders foram criados para coletar
URL’s;1994 – Yahoo
Coleta manual de sites;Hierarquia de tópicos.
1995 – AltavistaGrande capacidade de processamento de queries;Suportando booleanos, frases e operadores.
![Page 12: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/12.jpg)
Evolução da Busca1998 – Google
Análise dos links;PageRank;Authorities.
2004 - Google ScholarBusca especializada;Artigos cientifícos;Dados estruturados.
![Page 13: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/13.jpg)
AuthoritiesDefinição: são páginas que são reconhecidas
por proverem informações significantes, confiáveis e úteis sobre um determinado tópico
Busca informação desejada dentro dos sites
![Page 14: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/14.jpg)
AuthoritiesAuthorities for query: “Java”
java.sun.comcomp.lang.java FAQ
Authorities for query “search engine”Yahoo.comExcite.comLycos.comAltavista.com
Authorities for query “Gates”Microsoft.comroadahead.com
![Page 15: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/15.jpg)
HubsDefinição: termo para o grupo que une todos
os sites web que recebem grande quantidade de links e que por sua vez fazem laço com páginas web que consideram importantes.
Ou seja, são páginas de índices que provêem grande quantidade de links úteis para páginas de conteúdo relevante
![Page 16: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/16.jpg)
Authorities e HubsNa definição de Jon Kleinberg, de hubs e
autoridades: uma boa autoridade será uma página apontada por bons hubs e um bom hub será uma página que aponta para boas autoridades.
![Page 17: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/17.jpg)
HITS (Hyperlink Induced Topic Search)Tenta determinar hubs e autoridades em um
tópico particular através da análise de um grafo relevante da web
É baseado em fatos recursivos pois hubs apontam para autoridades e autoridades são apontadas por hubs.
O peso de cada link dependerá dos índices hub e authority da página em que se encontra. O processo de cálculo é recursivo e pode envolver bilhões de páginas. Quando de sua concepção, o algoritmo mostrou-se impraticável.
![Page 18: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/18.jpg)
Construindo um subgrafoHubs apontam para muitas autoridades.Autoridades são apontadas por muitos hubs.
Hubs Authorities
![Page 19: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/19.jpg)
PageRankAtribui um peso para cada elemento
“hiperlincado”. Os links são como votos.Quanto mais apontamentos a página tiver,
maior vai ser o page rank dela.
![Page 20: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/20.jpg)
PageRankMedida de importância de uma página para o Google.Download da barra de ferramentas do Google.
![Page 21: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/21.jpg)
Page Rank
![Page 22: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/22.jpg)
PageRankFalhas:
Qualquer página contida no índice, aumentava o PageRank da página que recebia o link.
Webmasters estavam comprando links, para aumentar seu pagenRank
E uma vez tendo contruído um site de alto pagerank, ficava fácil para os webmasters construírem outros sitese, de imediato, apontar links de suas próprias páginas e conseguir um bom posicionamento inicial.
Solução: Algoritmo Hilltop
![Page 23: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/23.jpg)
Algoritmo HilltopO Hilltop procura detectar hosts afiliados; se
um link apontar para uma página em um host afiliado, o valor do link é descontado.
Hosts afiliados = mesmos primeiros três octetos de endereço IPEx.: Hosts com IPs 200.109.112.132 e
200.109.112.132 (ou qualquer outro host de IP 200.109.112.xxx) são considerados afiliados
![Page 24: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/24.jpg)
Algoritmo HilltopO hilltop deixa claro que se eu quiser ter bom
posicionamento do meu site de filmes é muito melhor eu ter um link em mdb.com (um expert no tópico filmes) do que um link em nature.com
![Page 25: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/25.jpg)
Spiders (Robots/Bots/Crawlers)Procuram informações nos sitesEntram nas páginas e lêem o conteúdo assim
como os internautas.Não avaliam o site propriamente.Avaliam o código que o gera.O código deve estar em perfeita sintonia com
os critérios que esses programas utilizam.
25
![Page 26: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/26.jpg)
Spiders (Robots/Bots/Crawlers)Alguns desses critérios:
Indexação Banco de dados é criado para cada termo de busca e
são relacionadas as paginas Quando se faz a busca, a spider recorre a esse banco
de dados.
Html- as ferramentas de buscam entendem melhor.
Links- Quanto mais sites tiverem links para a página, mais relevante será essa página.
26
![Page 27: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/27.jpg)
Estratégias de Busca
27
Busca em Largura
![Page 28: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/28.jpg)
Estratégias de Busca
28
Busca em Profundidade
![Page 29: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/29.jpg)
Prós e Contras…Busca em largura requer muita memória para
guardar todos os nós do nível anteriorporém é o método padrão utilizado.
Busca em profundidade necessita de menos memóriaporém pode se “perder” em um único nó, dada
a alta conectividade da Web.
29
![Page 30: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/30.jpg)
Directed/Focused Spidering
Selecionam as páginas mais “interessantes” primeiro.Direcionado aos Links
30
![Page 31: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/31.jpg)
Spidering direcionado ao LinkMonitora links e verifica o in-degree e out-
degree de cada página encontrada.
31
![Page 32: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/32.jpg)
Spidering direcionado ao LinkBusca na fila primeiramente páginas
populares que são apontadas por muitos links (authorities).
Busca na fila primeiramente páginas “sumário”com muitos links (hubs).
32
![Page 33: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/33.jpg)
Indexação
![Page 34: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/34.jpg)
AnáliseAnálise do FormatoReconhecimento de LinguagemProcessamento de Linguagem Natural
Eliminação de stopwordsOperações de normalização
Pontuação, espaços, uppercase,...TokenizationReconhecimento da SeçãoIndexação de Meta Tag
34
![Page 35: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/35.jpg)
Busca no Arquivo de ÍndicesConsulta é respondida através de busca
binária no arquivo de índicesConsulta formada por várias palavras
o sistema recupera os índices para cada palavra isolada
os resultados da recuperação são combinados para gerar a resposta final
35
![Page 36: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/36.jpg)
BrowsingDiretórios Web
Pequena cobertura geralmente menos de 1% das páginas
Links geralmente possuem conteúdos mais relevantes
Alguns são focados em um domínio específicoMuitas ferramentas de busca são híbridas
Exemplo: Yahoo!
36
![Page 37: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/37.jpg)
BrowsingDiretórios Web
Vantagens Documentos mais relevantes Possibilidade de armazenar o conteúdo de todas
as páginas classificadas, por serem em menores quantidades
Desvantagens Nem todos os documentos são classificados Documentos mudam constantemente Tentativas de classificação automática não são
100% efetivas
37
![Page 38: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/38.jpg)
MetabuscasServidores Web que enviam uma consulta
a vários motores de busca, diretórios Web e outros bancos de dados
Coletam as respostas e unificam o resultado
VantagensHabilidade em unificar resultados de várias
origensUtilização de uma interface única
38
![Page 39: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}](https://reader036.vdocuments.mx/reader036/viewer/2022070507/570638471a28abb8238f3d6d/html5/thumbnails/39.jpg)
ConclusãoA Internet cresce de forma rápida e não
estruturadaNecessidade de ferramentas de RI mais
eficientesAumento da demanda de armazenamento e
processamento de sistemas de RIApesar dos avanços, é muito difícil resolver
estes problemas de forma definitiva
39