engenhos de busca web equipe: rafael corrêa e igor goes {rcls, igp}

39
Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Upload: lua-da-costa

Post on 07-Apr-2016

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Engenhos de Busca WebEquipe: Rafael Corrêa e Igor Goes

{rcls, igp}

Page 2: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

RoteiroEvolução Web e Desafios;Arquitetura;Evolução da Busca;Rankeamento;

Authorities, Hubs, Hits, PageRank e Hilltop;Spiders; Estratégias de Busca;Indexação;Browsing;Metabuscas;Conclusão.

Page 3: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Evolução WebGigantesco e ubíquo banco de dados, sem

estrutura definida.Como se comunicar ?

Page 4: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Evolução Web1990 - Tim Berners-Lee do CERN(Conseil

Européen pour la Recherche Nucleaire) cria o WWW;

Libwww, Erwise, Voilawww, Mosaic(NCSA), etc...

Page 5: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Evolução WebEm 1993, havia aproximadamente 50 sites;Abril de 2008, segundo pesquisas da Netcraft

Survey, existem 165.719.150 sites.

Page 6: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

DesafiosDados:Descentralização;Volatilidade;Volume;Redundancia;Qualidade.

Page 7: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

ArquiteturasSistemas RI padrão + WEBPrincipais arquiteturas

Arquitetura centralizadaArquitetura distribuída

Page 8: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Arquitetura Centralizada

Query Engine

IndexIndexer

Web

Page 9: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Arquitetura CentralizadaArquitetura CentralizadaPrincipais problemas:

Sobrecarga dos servidoresAumento de tráfego (spiders)Informação recolhida sem coordenação

Page 10: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Arquitetura Distribuída

Page 11: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Evolução da Busca1993 – Spiders foram criados para coletar

URL’s;1994 – Yahoo

Coleta manual de sites;Hierarquia de tópicos.

1995 – AltavistaGrande capacidade de processamento de queries;Suportando booleanos, frases e operadores.

Page 12: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Evolução da Busca1998 – Google

Análise dos links;PageRank;Authorities.

2004 - Google ScholarBusca especializada;Artigos cientifícos;Dados estruturados.

Page 13: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

AuthoritiesDefinição: são páginas que são reconhecidas

por proverem informações significantes, confiáveis e úteis sobre um determinado tópico

Busca informação desejada dentro dos sites

Page 14: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

AuthoritiesAuthorities for query: “Java”

java.sun.comcomp.lang.java FAQ

Authorities for query “search engine”Yahoo.comExcite.comLycos.comAltavista.com

Authorities for query “Gates”Microsoft.comroadahead.com

Page 15: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

HubsDefinição: termo para o grupo que une todos

os sites web que recebem grande quantidade de links e que por sua vez fazem laço com páginas web que consideram importantes.

Ou seja, são páginas de índices que provêem grande quantidade de links úteis para páginas de conteúdo relevante

Page 16: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Authorities e HubsNa definição de Jon Kleinberg, de hubs e

autoridades: uma boa autoridade será uma página apontada por bons hubs e um bom hub será uma página que aponta para boas autoridades.

Page 17: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

HITS (Hyperlink Induced Topic Search)Tenta determinar hubs e autoridades em um

tópico particular através da análise de um grafo relevante da web

É baseado em fatos recursivos pois hubs apontam para autoridades e autoridades são apontadas por hubs.

O peso de cada link dependerá dos índices hub e authority da página em que se encontra. O processo de cálculo é recursivo e pode envolver bilhões de páginas. Quando de sua concepção, o algoritmo mostrou-se impraticável.

Page 18: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Construindo um subgrafoHubs apontam para muitas autoridades.Autoridades são apontadas por muitos hubs.

Hubs Authorities

Page 19: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

PageRankAtribui um peso para cada elemento

“hiperlincado”. Os links são como votos.Quanto mais apontamentos a página tiver,

maior vai ser o page rank dela.

Page 20: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

PageRankMedida de importância de uma página para o Google.Download da barra de ferramentas do Google.

Page 21: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Page Rank

Page 22: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

PageRankFalhas:

Qualquer página contida no índice, aumentava o PageRank da página que recebia o link.

Webmasters estavam comprando links, para aumentar seu pagenRank

E uma vez tendo contruído um site de alto pagerank, ficava fácil para os webmasters construírem outros sitese, de imediato, apontar links de suas próprias páginas e conseguir um bom posicionamento inicial.

Solução: Algoritmo Hilltop

Page 23: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Algoritmo HilltopO Hilltop procura detectar hosts afiliados; se

um link apontar para uma página em um host afiliado, o valor do link é descontado.

Hosts afiliados = mesmos primeiros três octetos de endereço IPEx.: Hosts com IPs 200.109.112.132 e

200.109.112.132 (ou qualquer outro host de IP 200.109.112.xxx) são considerados afiliados

Page 24: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Algoritmo HilltopO hilltop deixa claro que se eu quiser ter bom

posicionamento do meu site de filmes é muito melhor eu ter um link em mdb.com (um expert no tópico filmes) do que um link em nature.com

Page 25: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Spiders (Robots/Bots/Crawlers)Procuram informações nos sitesEntram nas páginas e lêem o conteúdo assim

como os internautas.Não avaliam o site propriamente.Avaliam o código que o gera.O código deve estar em perfeita sintonia com

os critérios que esses programas utilizam.

25

Page 26: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Spiders (Robots/Bots/Crawlers)Alguns desses critérios:

Indexação Banco de dados é criado para cada termo de busca e

são relacionadas as paginas Quando se faz a busca, a spider recorre a esse banco

de dados.

Html- as ferramentas de buscam entendem melhor.

Links- Quanto mais sites tiverem links para a página, mais relevante será essa página.

26

Page 27: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Estratégias de Busca

27

Busca em Largura

Page 28: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Estratégias de Busca

28

Busca em Profundidade

Page 29: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Prós e Contras…Busca em largura requer muita memória para

guardar todos os nós do nível anteriorporém é o método padrão utilizado.

Busca em profundidade necessita de menos memóriaporém pode se “perder” em um único nó, dada

a alta conectividade da Web.

29

Page 30: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Directed/Focused Spidering

Selecionam as páginas mais “interessantes” primeiro.Direcionado aos Links

30

Page 31: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Spidering direcionado ao LinkMonitora links e verifica o in-degree e out-

degree de cada página encontrada.

31

Page 32: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Spidering direcionado ao LinkBusca na fila primeiramente páginas

populares que são apontadas por muitos links (authorities).

Busca na fila primeiramente páginas “sumário”com muitos links (hubs).

32

Page 33: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Indexação

Page 34: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

AnáliseAnálise do FormatoReconhecimento de LinguagemProcessamento de Linguagem Natural

Eliminação de stopwordsOperações de normalização

Pontuação, espaços, uppercase,...TokenizationReconhecimento da SeçãoIndexação de Meta Tag

34

Page 35: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

Busca no Arquivo de ÍndicesConsulta é respondida através de busca

binária no arquivo de índicesConsulta formada por várias palavras

o sistema recupera os índices para cada palavra isolada

os resultados da recuperação são combinados para gerar a resposta final

35

Page 36: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

BrowsingDiretórios Web

Pequena cobertura geralmente menos de 1% das páginas

Links geralmente possuem conteúdos mais relevantes

Alguns são focados em um domínio específicoMuitas ferramentas de busca são híbridas

Exemplo: Yahoo!

36

Page 37: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

BrowsingDiretórios Web

Vantagens Documentos mais relevantes Possibilidade de armazenar o conteúdo de todas

as páginas classificadas, por serem em menores quantidades

Desvantagens Nem todos os documentos são classificados Documentos mudam constantemente Tentativas de classificação automática não são

100% efetivas

37

Page 38: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

MetabuscasServidores Web que enviam uma consulta

a vários motores de busca, diretórios Web e outros bancos de dados

Coletam as respostas e unificam o resultado

VantagensHabilidade em unificar resultados de várias

origensUtilização de uma interface única

38

Page 39: Engenhos de Busca Web Equipe: Rafael Corrêa e Igor Goes {rcls, igp}

ConclusãoA Internet cresce de forma rápida e não

estruturadaNecessidade de ferramentas de RI mais

eficientesAumento da demanda de armazenamento e

processamento de sistemas de RIApesar dos avanços, é muito difícil resolver

estes problemas de forma definitiva

39