frederico brito fernandes - [email protected] agentes inteligentes - cin ufpe novembro 2000
TRANSCRIPT
![Page 2: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/2.jpg)
2
Sistemas tradicionais de Recuperação de Informação (RI) usam termos para indexação e recuperação dos dados (há 20 anos !!!)
Termos são palavras ou conjuntos de palavras de um documento
Indexação armazenamento da informação nas bases de índice
Recuperação
BI BIdocs. termo1 - doc1, doc3,...
termo2 - doc41, ... ... - ...
Arquivos Invertidos
+ BI BIInformação
Armazenada = docs.relevantes
Necessidade do Usuário(palavras-chave, profile, etc)
![Page 3: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/3.jpg)
3
Stop List lista de palavras comuns, irrelevantes
Term Frequency-Inverse Document Frequency (TFIDF): atribuição de peso aos termos
Artigos: a, os, ...Pronomes: meu, aquele, ...Advérbios: muito, bem, ...
...
)(log)()(
DF
DTFTFIDF
TF(w): freqüência da palavra w no doc.DF(w): freqüência de w em DD = total de documentos
CONNECTCONNECTEDCONNECTINGCONNECTIONCONNECTIONS
Stemming e n-grams redução de termos. Ex:
![Page 4: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/4.jpg)
4
Precisão Documentos relevantes retornados dividido pelo número total de retornados
Cobertura Total de documentos relevantes retornados dividido pelo número total dos relevantes
Todos os Documentos
Documentos Relevantes
Documentos Retornados
Relevantes Retornados
by Flávia ([email protected])
![Page 5: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/5.jpg)
5
Outros Conceitos:
Robô (ou spider) programas que percorrem links na web,
geralmente com objetivo de indexá-la
Corpus conjunto de documentos etiquetados
Filtragem à partir do profile(gosto) do usuário, documentos
interessantes são selecionados
Routing faz a mesma coisa que filtragem, a medida que os
documentos vão sendo adicionados ao Corpus
Arquivo invertido termos (índices) mapeando os documentos
em que aparecem
![Page 6: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/6.jpg)
6
Base de Índice banco de dados de um sistema de índices
Similaridade o grau de quanto 2 documentos são semelhantes
Co-Citação (co-citation) dois documentos são citados por um
mesmo documento
Thesaurus identifica o relacionamento entre termos
Trec (Text Retrieval Conference) conferência de IR para
demonstração de experimentos com grandes banco de dados,
banco de dados multimídia, etc
![Page 7: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/7.jpg)
7
Engenhos de BuscaEx: Radix, Altavista
BI BIÍndices + URLs
Usuário
Interface
Robôs
web
Documentos +
URLs
palavras-chavepalavras-chave Busca
Consulta
Casamento de Termos
Resultado
Stop List inde
xaçã
ore
cupe
raçã
o
![Page 8: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/8.jpg)
8
Representação Física de Documentos Textuais Digitais Texto completo
Difícil de manipular Centróide - conjunto de termos com pesos associados ou não
Perda de semântica
“Se o desonesto soubesse a vantagem de ser honesto,
ele seria honesto ao menos por desonestidade.”
Sócrates
honesto 2desonesto 1soubesse 1vantagem 1seria 1menos 1desonestidade 1
CentróideCentróide
![Page 9: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/9.jpg)
9
Motivação: que documentos são relevantes a uma consulta do usuário ? Ou qual o grau de semelhança entre dois documentos ? Surgiu a necessidade de criar modelos para interpretar e manipular documentos
Representação Lógica (Modelos) de Documentos Textuais Digitais
Framework para manipular e interpretar documentos Várias abordagens: teoria dos conjuntos, álgebra linear, probabilidade, etc Ex: Vector Space
Mostraremos alguns deles !!
doc2
doc1
booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 10: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/10.jpg)
10
Definição Formal de modelo em IR: É definido pela quádrupla [ D, Q, ƒ, R(qi,dj) ]
D - visão lógica dos documentosQ - visão lógica da query do usuárioƒ - um framework para modelar essas representações e seus relacionamentosR(qi,dj) - uma função que associa um número real com uma query qi Q e um documento dj D
ObsObs.: Para simplificação, considere Q = D, e R(qi,dj) = Sim
booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 11: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/11.jpg)
Modelos Clássicos de IR: Booleano documentos são representados como um conjunto de termos que aparecem no documento Vector Space como um vetor em um espaço t-dimensional Probabilista baseado na teoria da probabilidade
Derivações: Booleano Fuzzy, Booleano Estendido Vector Space Vetor Generalizado, Indexação com Semântica Latente, Redes Neurais Probabilista Rede de Inferência, Rede de Crença
Alternativo: Baseado em Links algoritmos Companion e Cocitation [1]
[1] HENZINGER, M. R. & DEAN, J. Finding Related Pages in World Wide Web
booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
11
![Page 12: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/12.jpg)
D: conjunto de termos do documento, com pesos binários f: teoria dos conjuntos e álgebra booleana Sim: apenas retorna 1 (se o termo esta presente no doc.) ou 0 Ex.: sejam os k termos
Vantagem: Oferece um framework simples e elegante
Desvantagem: Determinístico: um documento é ou não relevante Problemas com Precisão e Cobertura: Resultados (muito) grandes ou pequenos e sem uma escala de relevância
BooleanoBooleano
k1 k2
k3
k1 k2 k3Documentos relevantes
booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
12
![Page 13: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/13.jpg)
13
D: um vetor f : espaço vetorial t-dimensional e operações de álgebra linear sobre vetores
As dimensões do espaço vetorial são os termos do documento Os termos recebem pesos de relevância no documento (negrito, título, etc) Esses pesos são usados como índices do vetor Modelo mais utilizado em IR
Brasil 0.3Olimpíadas 0.5Sidney 0.2
ddii
Brasil 0.2Olimpíadas 0.4Sidney 0.4
ddjj
Vector SpaceVector Space
Brasil
Olimpíadas
Sidney
di0.2
0.50.3
dj
di = 0.3 Brasil + 0.5 Olimpiadas + 0.2 Sidney
dj = 0.2 Brasil + 0.4 Olimpiadas + 0.4 Sidney
booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 14: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/14.jpg)
Sim: produto interno / produto das normas
Sim = = = 0.28
Vantagem: Oferece um framework simples e elegante Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança Em geral, seu desempenho (precisão e cobertura) supera todos os outros modelos
di • dj
|di| · |dj|
0.3 · 0.2 + 0.5 · 0.4 + 0.2 · 0.4
( 0.09 + 0.25 + 0.04 )½ · ( 0.04 + 0.16 + 0.16 )½
Vector SpaceVector Space booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
14
![Page 15: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/15.jpg)
Baseado no principio probabilístico “Dada uma query q e um documento dj em uma coleção, este modelo tenta estimar a probabilidade de que o usuário ache o documento dj interessante (i.e., relevante)
Idéia fundamental Dada uma query, existe um conjunto de documentos relevantes e outro não Esse conjunto de documentos relevantes tem certas propriedades Definimos probabilidades associadas a essas propriedades O usuário interage para definir que documentos foram ou não relevantes As probabilidades são então melhoradas
Vantagens e Desvantagens: Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança Necessidade de separar os documentos relevantes a priori 15
ProbabilistaProbabilista booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 16: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/16.jpg)
Combinação do modelo booleano com o vector space
D: um ponto no espaço
f : espaço t-dimensional e distância entre pontos
Sim : distância de dj D para o ponto 1 (no caso de AND)
Estende o modelo booleano com pesos entre [0,1]
wx,j = fx,j ·idfx
maxi idfi
16
Booleano EstendidoBooleano Estendido booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 17: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/17.jpg)
Relaxa álgebra booleana e interpreta operações booleanas em termos de distâncias algébricas (tome wx,j como x)
Sim = 1 - (1-x1)p + (x2)p + ... + (1-xm)p
m
1/p
and = 1 - (1-x1)p + (1-x2)p + ... + (1-xm)p
m
1/p
or = (x1)p + (x2)p + ... + (xm)p
m
1/p
Distância parao ponto (1,1,...,1)
Distância parao ponto (0,0,...,0)
17
Booleano EstendidoBooleano Estendido booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 18: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/18.jpg)
18
Busca documentos relevantes através do conceito, e não mais apenas por termos:
D: uma coluna da matriz termo-documento ( abaixo) f : operações com matrizes (ex. transposta t) Sim: obtido com algumas transformações
query doc1doc1termo doc2doc2
Doc1 Doc2 Doc3 ... Doc NTermo1 w11 w12 w13 ... w1n
Termo2 w21 w22 w23 ... w2n
... ... ... ... ... wTermo t wt1 wt2 wt3 ... wtn
M
M : matriz termo-documento, com pesos nas linhas e documentos nas colunas
Latent Semantic IndexingLatent Semantic Indexing booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 19: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/19.jpg)
19
Decompondo a matriz em três componentes :
Reduzindo o espaço para dimensionalidade s :
O relacionamento entre os documentos é obtido com :
Matriz que nos fornece o fator de Matriz que nos fornece o fator de similaridade entre Doc1 e todos os similaridade entre Doc1 e todos os
outros documentosoutros documentos
Sim Doc1Doc1 w11
Doc2 w21
... ... DocN wN1
M = , onde = e = K S Dt K M Mt Dt Mt M
M
Ms = Ks Ss Dt
s
Mts
= ( ) ( )tMs SsDs SsDs
Latent Semantic IndexingLatent Semantic Indexing booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 20: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/20.jpg)
20
D: um nó na rede f : rede neural com três camadas
ka
kb
kc
ka
kb
kc
kt
k1 d1
dj
Dj+1
dN
Termos deuma query
Termos de D D
Sim: wi,q wi,j
( w2i,q )½ ( w2
i,j ) ½i=1
t
i=1
t
i=1
ti=1
twi,q wi,j =
wi,q
( w2i,q )½
i=1
t
i=1
t
wi,j
( w2i,j )½
i=1
t
i=1
tPropagação 1 Propagação 2
Igual ao vector space na primeira passagem
Rede NeuralRede Neural booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 21: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/21.jpg)
21
D: como um nó f : estrutura de links, e operações como pai(d) e filho(d) Princípio Básico:
Gráfico da Vizinhança: - a partir de um documento d-
d
b b b
bf fb
ff
bfbffb
di dj
“Se existe um link de di para dj, então o autor recomenda dj e o link oferece um documento relacionado”
- Gráfico de links gerado a partir do nó d, com a ferramenta Connectivity Server -
Baseado em LinksBaseado em Links booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 22: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/22.jpg)
22
Algoritmo Companion Construção do Gráfico de Vizinhança Eliminação de Duplicatas 95% de links em comum e mais de 10 links Atribuição de pesos aos links:
Calculo do Authority e Hub:
Sim = nós com maiores Authority
1/k
1/k
1/j
1/jA B C
Dados os hosts:- A com 2 nós (k=2) - B com 1 nó (j=2)- C com 2 nós
A[n] = H[n]H[n] = A[n]
Baseado em LinksBaseado em Links booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 23: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/23.jpg)
23
Algoritmo Cocitation Dois nós são co-citados se tem o mesmo pai Grau de Co-Citação numero de pais em comum
Sim = nós com maiores graus de co-citação (F, G, E, H)
A B C D
uE F G H
1 3 2 1
Baseado em LinksBaseado em Links booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 24: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/24.jpg)
24
Conclusões
Grande diversidade de modelos Modelos híbridos (booleano probabilista, booleano estendido) Vector Space: mais utilizado e divulgado na literatura Em termos de precisão e cobertura,
Alguns modelos se mostraram mais eficientes que o
Vector Space em domínios especializados Bases grandes e heterogêneas: não se tem registro de
nenhum modelo que supere o Vector Space
booleanobooleanovetorvetor
probabilistaprobabilista
A estru
tura montada em
Sidney para receb
er
os 15,5 m
il atle
tas...
O Brasil conseguiu
6 medalhas de prata
e 6 de bronze em Sid...
ag
n
tvk
f
ModelosModelos
![Page 25: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/25.jpg)
25
Lista de Croft versus Características de AgentesLista de Croft versus Características de Agentes
Relevância do FeedbackExtração de InformaçãoRecuperação MultimídiaRecuperação EfetivaFiltering e RoutingInterface e NavegaçãoExpansão de termosEficiência e FlexibilidadeRI DistribuídaSoluções Integradas
10.9.8.7.6.5.4.3.2.1.
Adaptação Cooperação Autonomia
- Bruce Croft apresentou na revista D-Lib Magazine em Nov. de 95 [1] a lista dos 10 maiores desafios em RI -
[1] http://www.dlib.org/dlib/november95/11croft.html
![Page 26: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/26.jpg)
26
Agentes Baseados em Recuperação de Informação (ABRI)
All-in-oneFastfind
MetacrawlerMetasearchProfusion
SavvysearchWebCompass
NetBotJango
ShopBot
CARROTInfoSleuth
RetsinaSAIREUMDL
ShopBot MetaBuscaInterface Simples Interface Simples para Múltiplas Fontespara Múltiplas Fontes
KnowBotURLAgents
EachMovieFirefly
GroupLensMorse
MovieCriticPhoaks
RARE/TunesReferralWeb
SiteSeerYenta
Colaborativo
Adaptação para Adaptação para Usuários e ConteúdoUsuários e Conteúdo
BackwebMarimbaPointcast
SIFTTopicAGENTs
FishwrapMyYahoo
Syskill and Webert
RemembranceAgent Push
InterfaceAdaptativa Pró-Ativo
CompreensãoCompreensãode Conteúdode Conteúdo
ABRI
Bases (grandes)Distribuídas
Especialistaem Conteúdo
![Page 27: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/27.jpg)
27
KnowBots Provê uma linguagem de consulta para acessar várias fontes
ShopBot e-commerce MetaBusca engenhos de busca
Ex: Metacrawler : MetaBusca
Única interface Consulta vários engenhos de busca Combina os resultados
NetBot Jango : ShopBot Única interface Consulta vários sites a procura de determinados produtos: CDs, charutos Mostra uma lista de produto + preço + site
![Page 28: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/28.jpg)
28
Bases (Grandes) Distribuídas Corpus dinâmico, medido em MB (ou GB) Documentos heterogêneos: tamanhos, formatos, linguagens Arquitetura:
AgentesAgentes
}-{ }-{
}-{
}-{
}-{
}-{
feedback, consultas
documentos
feedback, consultas
documentos
MúltiplosUsuários
BI BI
BIBI
consultasdocumentos
consultasdocumentos
MúltiplasFontes de Informação
![Page 29: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/29.jpg)
29
Bases (Grandes) Distribuídas Sobre a arquitetura:
Cada usuário é representado (pelo menos) por um agente, que tem (ou obtém) o perfil ou necessidade do usuário. Problema do Profile do Usuário As consultas podem ser modificadas (ex. expandida) e enviadas para as bases. Problema do Processamento de Consultas As bases podem ter diferentes modelos de documentos e consultas. Problema da Heterogeneidade Documentos de diferentes bases precisam ser comparados e ranqueados. Problema da Fusão de Dados
![Page 30: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/30.jpg)
30
Bases (Grandes) Distribuídas Ex:
SAIRE Scalable Agent-based Information Retrieval Engine Provê acesso aos dados da NASA EOSDIS Suporte para leigos e experts Três variedades de agentes: Interface, Coordenador e Especialista em Domínios Comunicação entre agentes
http://saire.ivv.nasa.gov/saire.html
UMDL University of Michigan Digital Library Três tipos de agentes:
Interface - consultas e profile Mediador - planejamento Buscador - engenhos de busca
O usuário pode navegar através de um applet java, sob uma ontologia de informação desenvolvida por eles
http://www.si.umich.edu/UMDL/
![Page 31: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/31.jpg)
31
Filtragem Colaborativa Um sistema de filtragem colaborativo faz recomendações a um usuário de acordo com o grupo de usuários similares a ele Recomenda:
Pessoas - Yenta, ReferralWeb Produtos - Firefly, Similarities Engine, Tunes (music), EachMovie, Morse, RARE, MovieCritic (movies & videos) Leituras - Wisewire, Firefly, Fab, Phoaks
Baseado em Conteúdo vs. Recomendação Colaborativa
Documentorecomendado
Documento
gosta gosta
similar a
similar a
Recomendação Baseada em
Conteúdo
Recomendação Colaborativa
![Page 32: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/32.jpg)
32
Filtragem Colaborativa Ex:
FAB recomenda sites usando técnicas de RI adaptativa Agente: coletor, selecionador e enviador Feedback do usuário: adaptar profile e dar(tirar) crédito aos agentes Um algoritmo genético é usado para desenvolver a população de agentes coletores
Http://fab.stanford.edu
Firefly Aplicado a música, filmes, sites, livros, etc Usa vários conjuntos de vizinhos para aumentar a precisão Recomenda usuários que não gostam de um site, ou um site que um dado usuário não gosta Comprada pela Microsoft, Abril 98
![Page 33: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/33.jpg)
33
Interface Adaptativa
Ex:SysKill & Webert controla o browser adicionando painéis Facilita ao usuário avaliar um site como bom ou ruim a respeito de uma das várias classes definidas pelos usuários Pode estimar quais sites o usuário poderia gostar
![Page 34: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/34.jpg)
34
Pró-Ativo Ex:
Remembrance Agent Indexa arquivos pessoais e e-mails Sugere arquivos relevantes à tarefa que o usuário está executando Opera continuamente
Letizia Agente que navega semelhante ao usuário Usuários geralmente navegam em profundidade, enquanto Letizia navega em largura
Usa uma variedade de heurísticas para identificar sites interessantes Quando um site interessante é encontrado, é mostrado em uma janela diferente
![Page 35: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/35.jpg)
35
Pró-AtivoPUSH Ex:
TopicAGENTs Provê uma visão do agente das tarefas de recuperação de informação para o usuário Tarefas: filtragem, categorização, routing Variedade de serviços de envio:
Sites Entrada no banco de dados E-mail Fax
![Page 36: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/36.jpg)
36
Conclusões
Vantagens de Agentes baseados em Recuperação de Informação: Manipulam dinamicamente bases heterogêneas e distribuídas Melhoram a performance via agentes especializados Podem adaptar-se aos interesses e preferências dos usuários
Tecnologias já disponíveis: Linguagens e protocolos de comunicação entre agentes. Ex: KQML Métodos e algoritmos de Machine Learning etc.
Futuro: Melhorar o processamento e representação de metadados Habilidade para manipular mídias: imagens, sons, vídeos, etc Fusão inteligente de bases heterogêneas
![Page 37: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/37.jpg)
37
Em desenvolvimento no CIn-UFPE CIn-UFPE Ajuda o usuário a encontrar documentos semelhantes ao que ele está consultando/editando no momento
Plataformas: IE, Netscape e Microsof Word
Compara o conteúdo de dois documentos Representa um aumento na precisão dos documentos recuperados
Extremamente útil na Intranet de uma empresa: Padronização dos documentos
Business da empresa Facilidade para o funcionário encontrar documentos similares ao que está editando.
Economiza tempo dele mesmo e de outros
![Page 38: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/38.jpg)
38
Netscape
Active SearchActive Search
RadixRadixGoogleGoogle
}-{
Ontologia
Doc Ps
Html. . .
Web
Servidor de Consulta
Intranet
Internet
Interface
InternetExplorer
MSWord
CentróideDoc.Atual
-------- ---
Algoritmo de
Similaridade
Algoritmo de
Similaridade
StopList
Preparação doDocumento
Preparação doDocumento
DocumentoAtual
CentróidesBuscados
-------- ---
Algoritmo de
Busca
Algoritmo de
Busca
query
Lista URLs
similares
ArquiteturaArquitetura
![Page 39: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/39.jpg)
39
ProtótipoProtótipo
![Page 40: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/40.jpg)
40
Próximos Passos...
Estudar e implementar mais modelos de representação de documentos (medidas de similaridade) Realizar medições da qualidade das respostas para os diferentes modelos
Precisão, cobertura, f-measure, etc
Estudar e implementar técnicas de filtragem e clustering
![Page 41: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000](https://reader034.vdocuments.mx/reader034/viewer/2022051015/552fc14f497959413d8e3021/html5/thumbnails/41.jpg)
41
Recuperação de Informação BAEZA-YATES, Ricado, RIBEIRO-NETO, Berthier. Modern Information Retrieval JONES, Karen S., WILLET, Peter. Readings in Information Retrieval http://www.cs.kun.nl/is/edu/ir1/dir.htm http://www.ils.unc.edu/viles/inls172-s99/172-Syll-S99.html http://www.pitt.edu/~korfhage/glossary.html
Agentes baseados em Recuperação de Informação http://www.cs.umbc.edu/abir/