cartografias virtuais - mapear o ciberespaço
DESCRIPTION
virtual cartographies, how to map out ciberspace, essay on information retrievalTRANSCRIPT
Cartografias virtuais ndash mapear o ciberespaccedilo Sobre os problemas da Recolha de Informaccedilatildeo da perspectiva do utilizador1
Helena Barbas CENTRIA e DEPFCSH Universidade Nova de Lisboa
Av de Berna 26-C 1069-061 Lisboa Portugal +3517933519 ndash hebarbasfcshunlpt
Abstract Anaacutelise da arquitectura da web e do funcionamento dos motores de pesquisa relativamente agraves
necessidades do utilizador comum Necessidade de novas teorias e metodologias novos paradigmas para avaliar o comportamento humano em contextos de Recolha de Informaccedilatildeo Analysis of web architecture and browsers performance in relation with the common user needs There is a need of new paradigms and perspectives to evaluate human behaviour in IR contexts
Keywords Recolha de informaccedilatildeo interacccedilatildeo homem maacutequina estudos do usuaacuterio Information retrieval human-computer interaction user studies
INTRODUCcedilAtildeO
O primeiro requisito em todas as propostas de cocircmputo de sistemas de Recolha de Informaccedilatildeo
(IR-Information Retrieval) ndash seja da perspectiva do sistema seja da perspectiva do utilizador ndash eacute a
relevacircncia dos documentos numa colecccedilatildeo e o modo de funcionamento dos motores de pesquisa E caso a avaliaccedilatildeo natildeo se reporte a uma base de dados especiacutefica (que tem a vantagem de
permitir controlar toda a sua arquitectura de raiz [1]) a primeira grande colecccedilatildeo a ser pesquisada
eacute a Internet
1 ARQUITECTURAS O princiacutepio que presidiu agrave invenccedilatildeo da Internet ndash a possibilidade de criar um espaccedilo de
informaccedilatildeo natildeo controlado nem controlaacutevel ndash estaacute a tornar-se o seu anaacutetema por desmesura
Diariamente satildeo-lhe acrescentadas cerca de 15 milhotildees de paacuteginas das quais um utilizador
normal e assiacuteduo poderaacute ler umas 100 Estatildeo em curso vaacuterias tentativas para controlar a actual
selva do excesso de informaccedilatildeo para que seja de facto uacutetil Da parte da proacutepria Web via W3C oferecem-se sucessivos documentos que procuram
estabelecer uma seacuterie de requisitos limitaccedilotildees e princiacutepios que permitam organizar a
laquoArquitectura da Webraquo [ httpwwww3orgTRwebarch] a que nem sempre se obedece 1 Trabalho efectuado no acircmbito do Mestrado em Inteligecircncia Artificial Faculdade de Ciecircncias e Tecnologia UNLcoord Pelo Prof Luiacutes Moniz Pereira ndash Seminaacuterio de Processamento de Liacutengua Natural I ndash orientado pelo Prof Paulo Quaresma 2003 O texto foi revisto em Novembro de 2004 os laquolinksraquo e referecircncias bibliograacuteficas foram actualizados em 11 de Junho de 2006
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Da parte das instituiccedilotildees estatais e internacionais com a ONU agrave cabeccedila desenvolvem-se
diligecircncias para estabelecer uma norma ndash ISSS - Information Society Standardization System [2]
ndash que reuacutena num uacutenico coacutedigo as vaacuterias propostas jaacute aventadas mas a quantidade e diversidade
destas deixa prever que natildeo seja tatildeo cedo que se consiga um consenso mundial Da parte das universidades pode dar-se o exemplo do trabalho de Parker Rossman [3] que
esteve em Lisboa em 1999 a apresentar uma comunicaccedilatildeo ndash laquoProjectos e mapas arquitectura para
a universidade no ciberespaccediloraquo ndash [4] onde defende um laquoconsoacutercioraquo de e-meta-universidades a
contribuir para um saber comum e geral para uma mega-pesquisa ndash agrave imagem e semelhanccedila de
laquoThe Human Genome Projectraquo [httpwwwornlgovhgmis] ou laquoThe Global Knowledge
Partnershipraquo [httpwwwglobalknowledgeorg] ndash que fundamentasse a criaccedilatildeo de uma base de
dados global devidamente indexada Haacute ainda a tentativa de cartografar esse conhecimento e desenhar uma topologia a partir do
entendimento da net como uma rede de laquoroutersraquo associados por laquolinksraquo em que cada laquorouterraquo
pertenccedila a uma autoridade administrativa ou sistema autoacutenomo (AS) Soon-Hyung Yook
Hawoong Jeong e Albert-Laacuteszloacute Barabaacutesi [5] descobrem-lhe a topologia fiacutesica desenhaacutevel por
geradores e (relativamente) previsiacutevel Ou seja por mais pormenorizado que seja um modelo da Internet se os seus paracircmetros universais (a s Df) se desviarem dos que natildeo satildeo cobertos pelas mediccedilotildees a topologia de larga escala iraacute inevitavelmente diferir da Internet actual [6]
Poreacutem a topologia fiacutesica natildeo coincide necessariamente com a quantidade e tipo de
informaccedilotildees nela contida Satildeo muitas as provas da preocupaccedilatildeo com o mapear do conhecimento inserido na Web
[veja-se httpwwwcybergeographyorgatlasatlashtml por exemplo] mas a velocidade a que a
informaccedilatildeo eacute acrescentada e a sua quantidade tornam praticamente impossiacutevel estabelecer um
quadro fidedigno ou minimamente actualizado Haacute ateacute quem brinque e ofereccedila a possibilidade de
se chegar ao laquofimraquo da Internet [httpwwwshibumiorgEotI]
11 A rede escondida Entretanto as investigaccedilotildees natildeo param Em Maio de 2002 Chris Sherman divulga um estudo que
altera a ideia geral de que a net seja constituiacuteda por uma esfera de laquoclustersraquo de sites bem
interligados entre si Um novo mapa do ciberespaccedilo mostra que a Web se assemelha a um laccedilo de pescoccedilo [papillon] com limites divisoacuterios que podem tornar difiacutecil ou mesmo impossiacutevel a navegaccedilatildeo entre regiotildees de acordo com um novo estudo publicado por investigadores de AltaVista Compac e IBM As teorias preacutevias sugeriam que a Web estava altamente conectada com natildeo mais do que 19 graus de separaccedilatildeo
2
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
de um laquositeraquo Em contrapartida o novo mapa revela uma estrutura mais subtil que pode levar ao desenvolvimento de teacutecnicas de pesquisa pelos motores (searchers e crowlers) e uma maior compreensatildeo da sociologia da criaccedilatildeo de conteuacutedos e isso pode ajudar a prever a emergecircncia de novos fenoacutemenos na Web como os laquoWeb ringsraquo e laquoSpam clustersraquo [7]
Segundo esta teoria a net teraacute a seguinte a forma
laquoCoreraquo ndash [Cerne] seraacute o laquocoraccedilatildeoraquo da Web As paacuteginas no seu interior estatildeo fortemente
conectadas por laquocross-linkingraquo [interligaccedilotildees cruzadas] Satildeo os laquolinksraquo nas paacuteginas do
laquocoreraquo que permitem aos utilizadores viajar com relativa facilidade de umas para as
outras satildeo tambeacutem eles os mais provavelmente seguidos pelos laquobrowsersraquo laquoOriginationraquo ndash [De origem] paacuteginas que eventualmente permitem ao utilizador atingir o
laquocoreraquo mas que por si natildeo podem ser por ele acedidas Seratildeo paacuteginas obscuras que
ainda natildeo atraiacuteram a atenccedilatildeo da comunidade ou natildeo tecircm laquolinksraquo para as paacuteginas do
laquocoreraquo (ex Geocities e Tripod) laquoTerminationraquo ndash [Terminais] paacuteginas a que se pode aceder a partir de laquolinksraquo no laquocoreraquo
mas que natildeo tecircm ligaccedilatildeo de retorno satildeo laquodestinosraquo em si laquoDisconected pagesraquo ndash [Desligadas] podem ser ligadas a paacuteginas laquooriginationraquo
laquoterminationraquo mas natildeo eacute possiacutevel aceder-lhes directamente a partir do laquocoreraquo
Em termos percentuais para aleacutem do facto de o laquocoreraquo ser muito menor do que se
imaginava Sherman salienta as seguintes laquodescobertasraquo
1 Para qualquer paacutegina de origem ou destino escolhida ao acaso a probabilidade de que
exista um laquohiperlinkraquo a partir do laquocoreraquo eacute apenas de 24
3
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
2 Se natildeo existe um laquolinkraquo directo entre as paacuteginas escolhidas ao acaso a distacircncia meacutedia
entre elas eacute de 16 laquolinksraquo ndash ou seja um laquobrowserraquo teraacute que clicar os laquolinksraquo em 16
paacuteginas para laacute chegar Esta distacircncia eacute menor que os 19 laquolinksraquo postulados por estudos
anteriores mas exclui 76 das paacuteginas que natildeo possuem laquolinksraquo directos
3 Se existe um laquolinkraquo indirecto ndash dos que podem ser seguidos para traacutes ou para a frente
acessiacuteveis aos laquospiderscrawlersraquo mas natildeo ao utilizador de um laquobrowserraquo ndash a meacutedia da
distacircncia eacute de 6 laquolinksraquo
4 Mais de 90 das paacuteginas da Web podem ser alcanccediladas umas a partir das outras desde
que possuam laquolinksraquo reversiacuteveis Estas conclusotildees tornam-se importantes na medida em que podem orientar os modos de pesquisa
individuais e mais ainda porque confirmam a existecircncia de grandes zonas de informaccedilatildeo a que se
natildeo acede com facilidade Sobre esta laquohidden Webraquo dizia Marcia Mardiz em 2001 Actualmente a WWW conteacutem uma quantidade aproximada de 74 milhotildees de sites (OCLC 2001) Poreacutem mesmo o pesquisador mais experimentado usando o motor de pesquisa mais robusto soacute consegue aceder a cerca de 16 dessas paacuteginas (Dahn 2001) Os outros 84 da informaccedilatildeo disponiacutevel ao puacuteblico satildeo chamados de Web laquoocultaraquo laquoinvisiacutevelraquo ou laquoprofundaraquo [8]
Entende entatildeo que a laquoweb ocultaraquo eacute 500 vezes maior que a zona indexada pelos laquobrowsersraquo e
nela se encontram documentos bases de dados e servidores que natildeo usam o html Satildeo
constituiacutedas principalmente por cerca de 550 milhotildees de documentos individuais pelas
informaccedilotildees mais recentes e conteuacutedos mais especiacuteficos 95 da informaccedilatildeo natildeo sujeita a
pagamento ou inscriccedilatildeo preacutevia Em termos de conteuacutedos seratildeo artigos imagens de museus bases
de dados relatoacuterios e trabalhos de investigaccedilatildeo especializados (ERIC) ndash sendo portanto o corpo
de informaccedilatildeo com maior qualidade Natildeo saber ao certo onde e como estaacute organizado o conhecimento eacute a primeira dificuldade
a ter em conta quando de uma tentativa de Recolha de Informaccedilatildeo A segunda teraacute ver com a
existecircncia de muacuteltiplos modos de indexaccedilatildeo usados pelas diversas colecccedilotildees
12 Indexaccedilatildeo e bases de dados O denominador comum da comunicaccedilatildeo inter-humana eacute a linguagem natural ndash escrita e falada
(Cada povo tem a sua ndash o que pode indicar que o inglecircs se esteja a tornar o laquoesperantoraquo virtual)
Todas as outras formas de indexaccedilatildeo satildeo auxiliares limitados que os humanos tecircm primeiro que
aprender antes de as poderem utilizar [9] A maior parte da informaccedilatildeo na Web ateacute haacute pouco era textual Comeccedila agora a ser
superada por som imagens e filmes As novas indexaccedilotildees teratildeo ainda que passar a incluir o
4
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
processamento de informaccedilatildeo digital electroacutenica com linguagens especiacuteficas [10] Isto interferiraacute
naturalmente com os modos como se passa a fazer a pesquisa levando a que se tenha que
aprender como se podem questionar as bases de dados natildeo-textuais [11] Segundo o Grupo
MIRA a interactividade afecta naturalmente a avaliaccedilatildeo dos processos de recolha de
informaccedilatildeo O modelo claacutessico do sistema de avaliaccedilatildeo da Recolha de Informaccedilatildeo iniciado pelas experiecircncias de Cranfield e actualmente manifestas no programa TREC demonstra muito claramente as suas origens na era de sistemas de recolha por laquobatchraquo O sistema eacute visto como aceitando uma pergunta bem definida (laquoqueryraquo ou toacutepico) e produzindo um resultado bem definido (uma lista de documentos) Poreacutem com os modernos sistemas interactivos esse modelo laquoinput-outputraquo estaacute claramente a tornar-se cada vez mais inadequado como representante da situaccedilatildeo de RI Um problema dominante na investigaccedilatildeo sobre RI eacute a questatildeo de saber qual o modelo ou modelos de que precisamos para o substituir Uma possiacutevel fonte de ideias e meacutetodos seratildeo trabalhos noutras aacutereas (fora da RI) para avaliaccedilatildeo das caracteriacutesticas HCI dos sistemas Poreacutem estes trabalhos sofrem duas limitaccedilotildees pelo menos no que respeita a sua aplicabilidade agrave RI [12]
Por sua vez aquela RI depende da forma como satildeo organizadas as bases de dados Em princiacutepio
embora na sua categorizaccedilatildeo e avaliaccedilatildeo estejam dependentes do elemento humano [13] satildeo
todas HDLs (Hypermedia Digital Libraries [Bibliotecas Digitais Hipermeacutedia]) porque se fundam
no paradigma do hipermeacutedia Existem poreacutem diferenccedilas entre dois tipos baacutesicos dois sistemas
representando cada um modelo de interacccedilatildeo um ambiente de busca de informaccedilatildeo distintos No modelo da biblioteca digital hipermeacutedia (WWW) ndash os utilizadores recorrem a um uacutenico
interface (laquobrowserraquo [motor de pesquisa]) para aplicar duas estrateacutegias de busca de informaccedilatildeo
(ISS ndash Information Seeking Strategies [Estrateacutegias de busca de informaccedilatildeo]) laquobrowsingraquo e
laquoqueeryraquo [pergunta] [14] Embora de utilizaccedilatildeo mais faacutecil nele natildeo existe separaccedilatildeo entre os
laquolinksraquo e os documentos por eles referidos suportam apenas uma estrutura graacutefica baacutesica dando
a ilusatildeo de possuir outras como a hierarquizaccedilatildeo de laquoclustersraquo [agrupamentosiacutendices temaacuteticos]
de documentos Atraveacutes do laquoclusteringraquo [15] oferecido pelos laquobrowsersraquo (ex Yahoo) [16]
podem multiplicar-se as estrateacutegias de RI mas sempre por intermeacutedio de um mesmo interface Haacute
ainda a hipoacutetese de se recorrer a vaacuterios laquobrowsersraquo em simultacircneo e embora a Web natildeo ofereccedila
nenhum protocolo para interacccedilatildeo e coordenaccedilatildeo entre laquobrowsersraquo [17] existem os meta-
pesquisadores [18] que desempenham essa funccedilatildeo (o antigo httpwwwhighway61com ou o
mais recente httpwwwmetacrawlercom pex) Por seu lado alguns laquobrowsersraquo estaratildeo a
tentar ultrapassar esta dificuldade como o HotbotLycos ndash que se laquopersonalizouraquo em Janeiro de
2003 passando natildeo soacute a patentear laquofiltrosraquo como ainda a permitir a transferecircncia da pesquisa
para outros motores Inktomi Fast Google ou Teoma O segundo modelo (OHS ndash Open
Hypermedia System [Sistema hipermeacutedia aberto]) eacute uma biblioteca idecircntica em termos de
5
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)
Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos
modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados
proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos
interfaces e diversas estrateacutegias de busca [19]
1 laquobrowsingraquo de documentos simples ou cruzados
2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto
3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo
4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas
(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de
informaccedilatildeo a ser investigado
5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado
de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em
termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as
medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]
13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]
caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como
um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si
criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos
documentos) Compreende quatro moacutedulos essenciais um processador de documentos um
processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de
ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do
acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de
documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao
tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo
inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias
aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que
se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]
ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a
6
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um
laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma
forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos
casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que
passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e
descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de
meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web
Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash
considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as
necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash
AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um
sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]
E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa
automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]
Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos
obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em
laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo
problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A
RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes
(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados
oferecidos e com o modo como satildeo adicionados os documentos [39]
7
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de
que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e
partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])
emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo
laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por
meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta
interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores
subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam
devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a
mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja
ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o
mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash
desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver
com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para
um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos
URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo
recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]
Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a
informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo
dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]
mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)
variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a
funcionalidade dos laquolinksraquo acima aventada por Chis Shermann
A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova
8
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]
E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]
Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que
demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e
pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo
enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais
visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse
relativamente agrave pergunta feita
15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre
depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada
laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e
laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder
interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do
momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que
apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados
OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de
informaccedilatildeo uacutetil [51]
9
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana
(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com
possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos
laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e
devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por
duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o
sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo
analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias
especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo
alterarem a laquoqueryraquo
Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]
Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que
estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda
segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]
E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento
laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]
10
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas
laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de
resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as
possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)
som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros
permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo
especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos
sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores
de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do
utilizador comum
16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases
de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente
bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon
1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a
eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo
dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo
relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)
desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se
destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o
problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)
Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo
inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma
siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-
oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde
a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo
mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir
uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI
11
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Da parte das instituiccedilotildees estatais e internacionais com a ONU agrave cabeccedila desenvolvem-se
diligecircncias para estabelecer uma norma ndash ISSS - Information Society Standardization System [2]
ndash que reuacutena num uacutenico coacutedigo as vaacuterias propostas jaacute aventadas mas a quantidade e diversidade
destas deixa prever que natildeo seja tatildeo cedo que se consiga um consenso mundial Da parte das universidades pode dar-se o exemplo do trabalho de Parker Rossman [3] que
esteve em Lisboa em 1999 a apresentar uma comunicaccedilatildeo ndash laquoProjectos e mapas arquitectura para
a universidade no ciberespaccediloraquo ndash [4] onde defende um laquoconsoacutercioraquo de e-meta-universidades a
contribuir para um saber comum e geral para uma mega-pesquisa ndash agrave imagem e semelhanccedila de
laquoThe Human Genome Projectraquo [httpwwwornlgovhgmis] ou laquoThe Global Knowledge
Partnershipraquo [httpwwwglobalknowledgeorg] ndash que fundamentasse a criaccedilatildeo de uma base de
dados global devidamente indexada Haacute ainda a tentativa de cartografar esse conhecimento e desenhar uma topologia a partir do
entendimento da net como uma rede de laquoroutersraquo associados por laquolinksraquo em que cada laquorouterraquo
pertenccedila a uma autoridade administrativa ou sistema autoacutenomo (AS) Soon-Hyung Yook
Hawoong Jeong e Albert-Laacuteszloacute Barabaacutesi [5] descobrem-lhe a topologia fiacutesica desenhaacutevel por
geradores e (relativamente) previsiacutevel Ou seja por mais pormenorizado que seja um modelo da Internet se os seus paracircmetros universais (a s Df) se desviarem dos que natildeo satildeo cobertos pelas mediccedilotildees a topologia de larga escala iraacute inevitavelmente diferir da Internet actual [6]
Poreacutem a topologia fiacutesica natildeo coincide necessariamente com a quantidade e tipo de
informaccedilotildees nela contida Satildeo muitas as provas da preocupaccedilatildeo com o mapear do conhecimento inserido na Web
[veja-se httpwwwcybergeographyorgatlasatlashtml por exemplo] mas a velocidade a que a
informaccedilatildeo eacute acrescentada e a sua quantidade tornam praticamente impossiacutevel estabelecer um
quadro fidedigno ou minimamente actualizado Haacute ateacute quem brinque e ofereccedila a possibilidade de
se chegar ao laquofimraquo da Internet [httpwwwshibumiorgEotI]
11 A rede escondida Entretanto as investigaccedilotildees natildeo param Em Maio de 2002 Chris Sherman divulga um estudo que
altera a ideia geral de que a net seja constituiacuteda por uma esfera de laquoclustersraquo de sites bem
interligados entre si Um novo mapa do ciberespaccedilo mostra que a Web se assemelha a um laccedilo de pescoccedilo [papillon] com limites divisoacuterios que podem tornar difiacutecil ou mesmo impossiacutevel a navegaccedilatildeo entre regiotildees de acordo com um novo estudo publicado por investigadores de AltaVista Compac e IBM As teorias preacutevias sugeriam que a Web estava altamente conectada com natildeo mais do que 19 graus de separaccedilatildeo
2
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
de um laquositeraquo Em contrapartida o novo mapa revela uma estrutura mais subtil que pode levar ao desenvolvimento de teacutecnicas de pesquisa pelos motores (searchers e crowlers) e uma maior compreensatildeo da sociologia da criaccedilatildeo de conteuacutedos e isso pode ajudar a prever a emergecircncia de novos fenoacutemenos na Web como os laquoWeb ringsraquo e laquoSpam clustersraquo [7]
Segundo esta teoria a net teraacute a seguinte a forma
laquoCoreraquo ndash [Cerne] seraacute o laquocoraccedilatildeoraquo da Web As paacuteginas no seu interior estatildeo fortemente
conectadas por laquocross-linkingraquo [interligaccedilotildees cruzadas] Satildeo os laquolinksraquo nas paacuteginas do
laquocoreraquo que permitem aos utilizadores viajar com relativa facilidade de umas para as
outras satildeo tambeacutem eles os mais provavelmente seguidos pelos laquobrowsersraquo laquoOriginationraquo ndash [De origem] paacuteginas que eventualmente permitem ao utilizador atingir o
laquocoreraquo mas que por si natildeo podem ser por ele acedidas Seratildeo paacuteginas obscuras que
ainda natildeo atraiacuteram a atenccedilatildeo da comunidade ou natildeo tecircm laquolinksraquo para as paacuteginas do
laquocoreraquo (ex Geocities e Tripod) laquoTerminationraquo ndash [Terminais] paacuteginas a que se pode aceder a partir de laquolinksraquo no laquocoreraquo
mas que natildeo tecircm ligaccedilatildeo de retorno satildeo laquodestinosraquo em si laquoDisconected pagesraquo ndash [Desligadas] podem ser ligadas a paacuteginas laquooriginationraquo
laquoterminationraquo mas natildeo eacute possiacutevel aceder-lhes directamente a partir do laquocoreraquo
Em termos percentuais para aleacutem do facto de o laquocoreraquo ser muito menor do que se
imaginava Sherman salienta as seguintes laquodescobertasraquo
1 Para qualquer paacutegina de origem ou destino escolhida ao acaso a probabilidade de que
exista um laquohiperlinkraquo a partir do laquocoreraquo eacute apenas de 24
3
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
2 Se natildeo existe um laquolinkraquo directo entre as paacuteginas escolhidas ao acaso a distacircncia meacutedia
entre elas eacute de 16 laquolinksraquo ndash ou seja um laquobrowserraquo teraacute que clicar os laquolinksraquo em 16
paacuteginas para laacute chegar Esta distacircncia eacute menor que os 19 laquolinksraquo postulados por estudos
anteriores mas exclui 76 das paacuteginas que natildeo possuem laquolinksraquo directos
3 Se existe um laquolinkraquo indirecto ndash dos que podem ser seguidos para traacutes ou para a frente
acessiacuteveis aos laquospiderscrawlersraquo mas natildeo ao utilizador de um laquobrowserraquo ndash a meacutedia da
distacircncia eacute de 6 laquolinksraquo
4 Mais de 90 das paacuteginas da Web podem ser alcanccediladas umas a partir das outras desde
que possuam laquolinksraquo reversiacuteveis Estas conclusotildees tornam-se importantes na medida em que podem orientar os modos de pesquisa
individuais e mais ainda porque confirmam a existecircncia de grandes zonas de informaccedilatildeo a que se
natildeo acede com facilidade Sobre esta laquohidden Webraquo dizia Marcia Mardiz em 2001 Actualmente a WWW conteacutem uma quantidade aproximada de 74 milhotildees de sites (OCLC 2001) Poreacutem mesmo o pesquisador mais experimentado usando o motor de pesquisa mais robusto soacute consegue aceder a cerca de 16 dessas paacuteginas (Dahn 2001) Os outros 84 da informaccedilatildeo disponiacutevel ao puacuteblico satildeo chamados de Web laquoocultaraquo laquoinvisiacutevelraquo ou laquoprofundaraquo [8]
Entende entatildeo que a laquoweb ocultaraquo eacute 500 vezes maior que a zona indexada pelos laquobrowsersraquo e
nela se encontram documentos bases de dados e servidores que natildeo usam o html Satildeo
constituiacutedas principalmente por cerca de 550 milhotildees de documentos individuais pelas
informaccedilotildees mais recentes e conteuacutedos mais especiacuteficos 95 da informaccedilatildeo natildeo sujeita a
pagamento ou inscriccedilatildeo preacutevia Em termos de conteuacutedos seratildeo artigos imagens de museus bases
de dados relatoacuterios e trabalhos de investigaccedilatildeo especializados (ERIC) ndash sendo portanto o corpo
de informaccedilatildeo com maior qualidade Natildeo saber ao certo onde e como estaacute organizado o conhecimento eacute a primeira dificuldade
a ter em conta quando de uma tentativa de Recolha de Informaccedilatildeo A segunda teraacute ver com a
existecircncia de muacuteltiplos modos de indexaccedilatildeo usados pelas diversas colecccedilotildees
12 Indexaccedilatildeo e bases de dados O denominador comum da comunicaccedilatildeo inter-humana eacute a linguagem natural ndash escrita e falada
(Cada povo tem a sua ndash o que pode indicar que o inglecircs se esteja a tornar o laquoesperantoraquo virtual)
Todas as outras formas de indexaccedilatildeo satildeo auxiliares limitados que os humanos tecircm primeiro que
aprender antes de as poderem utilizar [9] A maior parte da informaccedilatildeo na Web ateacute haacute pouco era textual Comeccedila agora a ser
superada por som imagens e filmes As novas indexaccedilotildees teratildeo ainda que passar a incluir o
4
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
processamento de informaccedilatildeo digital electroacutenica com linguagens especiacuteficas [10] Isto interferiraacute
naturalmente com os modos como se passa a fazer a pesquisa levando a que se tenha que
aprender como se podem questionar as bases de dados natildeo-textuais [11] Segundo o Grupo
MIRA a interactividade afecta naturalmente a avaliaccedilatildeo dos processos de recolha de
informaccedilatildeo O modelo claacutessico do sistema de avaliaccedilatildeo da Recolha de Informaccedilatildeo iniciado pelas experiecircncias de Cranfield e actualmente manifestas no programa TREC demonstra muito claramente as suas origens na era de sistemas de recolha por laquobatchraquo O sistema eacute visto como aceitando uma pergunta bem definida (laquoqueryraquo ou toacutepico) e produzindo um resultado bem definido (uma lista de documentos) Poreacutem com os modernos sistemas interactivos esse modelo laquoinput-outputraquo estaacute claramente a tornar-se cada vez mais inadequado como representante da situaccedilatildeo de RI Um problema dominante na investigaccedilatildeo sobre RI eacute a questatildeo de saber qual o modelo ou modelos de que precisamos para o substituir Uma possiacutevel fonte de ideias e meacutetodos seratildeo trabalhos noutras aacutereas (fora da RI) para avaliaccedilatildeo das caracteriacutesticas HCI dos sistemas Poreacutem estes trabalhos sofrem duas limitaccedilotildees pelo menos no que respeita a sua aplicabilidade agrave RI [12]
Por sua vez aquela RI depende da forma como satildeo organizadas as bases de dados Em princiacutepio
embora na sua categorizaccedilatildeo e avaliaccedilatildeo estejam dependentes do elemento humano [13] satildeo
todas HDLs (Hypermedia Digital Libraries [Bibliotecas Digitais Hipermeacutedia]) porque se fundam
no paradigma do hipermeacutedia Existem poreacutem diferenccedilas entre dois tipos baacutesicos dois sistemas
representando cada um modelo de interacccedilatildeo um ambiente de busca de informaccedilatildeo distintos No modelo da biblioteca digital hipermeacutedia (WWW) ndash os utilizadores recorrem a um uacutenico
interface (laquobrowserraquo [motor de pesquisa]) para aplicar duas estrateacutegias de busca de informaccedilatildeo
(ISS ndash Information Seeking Strategies [Estrateacutegias de busca de informaccedilatildeo]) laquobrowsingraquo e
laquoqueeryraquo [pergunta] [14] Embora de utilizaccedilatildeo mais faacutecil nele natildeo existe separaccedilatildeo entre os
laquolinksraquo e os documentos por eles referidos suportam apenas uma estrutura graacutefica baacutesica dando
a ilusatildeo de possuir outras como a hierarquizaccedilatildeo de laquoclustersraquo [agrupamentosiacutendices temaacuteticos]
de documentos Atraveacutes do laquoclusteringraquo [15] oferecido pelos laquobrowsersraquo (ex Yahoo) [16]
podem multiplicar-se as estrateacutegias de RI mas sempre por intermeacutedio de um mesmo interface Haacute
ainda a hipoacutetese de se recorrer a vaacuterios laquobrowsersraquo em simultacircneo e embora a Web natildeo ofereccedila
nenhum protocolo para interacccedilatildeo e coordenaccedilatildeo entre laquobrowsersraquo [17] existem os meta-
pesquisadores [18] que desempenham essa funccedilatildeo (o antigo httpwwwhighway61com ou o
mais recente httpwwwmetacrawlercom pex) Por seu lado alguns laquobrowsersraquo estaratildeo a
tentar ultrapassar esta dificuldade como o HotbotLycos ndash que se laquopersonalizouraquo em Janeiro de
2003 passando natildeo soacute a patentear laquofiltrosraquo como ainda a permitir a transferecircncia da pesquisa
para outros motores Inktomi Fast Google ou Teoma O segundo modelo (OHS ndash Open
Hypermedia System [Sistema hipermeacutedia aberto]) eacute uma biblioteca idecircntica em termos de
5
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)
Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos
modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados
proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos
interfaces e diversas estrateacutegias de busca [19]
1 laquobrowsingraquo de documentos simples ou cruzados
2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto
3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo
4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas
(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de
informaccedilatildeo a ser investigado
5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado
de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em
termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as
medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]
13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]
caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como
um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si
criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos
documentos) Compreende quatro moacutedulos essenciais um processador de documentos um
processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de
ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do
acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de
documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao
tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo
inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias
aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que
se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]
ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a
6
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um
laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma
forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos
casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que
passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e
descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de
meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web
Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash
considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as
necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash
AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um
sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]
E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa
automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]
Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos
obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em
laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo
problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A
RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes
(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados
oferecidos e com o modo como satildeo adicionados os documentos [39]
7
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de
que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e
partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])
emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo
laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por
meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta
interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores
subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam
devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a
mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja
ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o
mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash
desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver
com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para
um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos
URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo
recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]
Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a
informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo
dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]
mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)
variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a
funcionalidade dos laquolinksraquo acima aventada por Chis Shermann
A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova
8
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]
E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]
Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que
demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e
pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo
enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais
visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse
relativamente agrave pergunta feita
15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre
depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada
laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e
laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder
interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do
momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que
apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados
OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de
informaccedilatildeo uacutetil [51]
9
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana
(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com
possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos
laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e
devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por
duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o
sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo
analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias
especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo
alterarem a laquoqueryraquo
Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]
Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que
estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda
segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]
E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento
laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]
10
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas
laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de
resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as
possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)
som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros
permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo
especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos
sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores
de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do
utilizador comum
16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases
de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente
bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon
1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a
eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo
dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo
relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)
desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se
destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o
problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)
Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo
inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma
siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-
oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde
a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo
mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir
uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI
11
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
de um laquositeraquo Em contrapartida o novo mapa revela uma estrutura mais subtil que pode levar ao desenvolvimento de teacutecnicas de pesquisa pelos motores (searchers e crowlers) e uma maior compreensatildeo da sociologia da criaccedilatildeo de conteuacutedos e isso pode ajudar a prever a emergecircncia de novos fenoacutemenos na Web como os laquoWeb ringsraquo e laquoSpam clustersraquo [7]
Segundo esta teoria a net teraacute a seguinte a forma
laquoCoreraquo ndash [Cerne] seraacute o laquocoraccedilatildeoraquo da Web As paacuteginas no seu interior estatildeo fortemente
conectadas por laquocross-linkingraquo [interligaccedilotildees cruzadas] Satildeo os laquolinksraquo nas paacuteginas do
laquocoreraquo que permitem aos utilizadores viajar com relativa facilidade de umas para as
outras satildeo tambeacutem eles os mais provavelmente seguidos pelos laquobrowsersraquo laquoOriginationraquo ndash [De origem] paacuteginas que eventualmente permitem ao utilizador atingir o
laquocoreraquo mas que por si natildeo podem ser por ele acedidas Seratildeo paacuteginas obscuras que
ainda natildeo atraiacuteram a atenccedilatildeo da comunidade ou natildeo tecircm laquolinksraquo para as paacuteginas do
laquocoreraquo (ex Geocities e Tripod) laquoTerminationraquo ndash [Terminais] paacuteginas a que se pode aceder a partir de laquolinksraquo no laquocoreraquo
mas que natildeo tecircm ligaccedilatildeo de retorno satildeo laquodestinosraquo em si laquoDisconected pagesraquo ndash [Desligadas] podem ser ligadas a paacuteginas laquooriginationraquo
laquoterminationraquo mas natildeo eacute possiacutevel aceder-lhes directamente a partir do laquocoreraquo
Em termos percentuais para aleacutem do facto de o laquocoreraquo ser muito menor do que se
imaginava Sherman salienta as seguintes laquodescobertasraquo
1 Para qualquer paacutegina de origem ou destino escolhida ao acaso a probabilidade de que
exista um laquohiperlinkraquo a partir do laquocoreraquo eacute apenas de 24
3
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
2 Se natildeo existe um laquolinkraquo directo entre as paacuteginas escolhidas ao acaso a distacircncia meacutedia
entre elas eacute de 16 laquolinksraquo ndash ou seja um laquobrowserraquo teraacute que clicar os laquolinksraquo em 16
paacuteginas para laacute chegar Esta distacircncia eacute menor que os 19 laquolinksraquo postulados por estudos
anteriores mas exclui 76 das paacuteginas que natildeo possuem laquolinksraquo directos
3 Se existe um laquolinkraquo indirecto ndash dos que podem ser seguidos para traacutes ou para a frente
acessiacuteveis aos laquospiderscrawlersraquo mas natildeo ao utilizador de um laquobrowserraquo ndash a meacutedia da
distacircncia eacute de 6 laquolinksraquo
4 Mais de 90 das paacuteginas da Web podem ser alcanccediladas umas a partir das outras desde
que possuam laquolinksraquo reversiacuteveis Estas conclusotildees tornam-se importantes na medida em que podem orientar os modos de pesquisa
individuais e mais ainda porque confirmam a existecircncia de grandes zonas de informaccedilatildeo a que se
natildeo acede com facilidade Sobre esta laquohidden Webraquo dizia Marcia Mardiz em 2001 Actualmente a WWW conteacutem uma quantidade aproximada de 74 milhotildees de sites (OCLC 2001) Poreacutem mesmo o pesquisador mais experimentado usando o motor de pesquisa mais robusto soacute consegue aceder a cerca de 16 dessas paacuteginas (Dahn 2001) Os outros 84 da informaccedilatildeo disponiacutevel ao puacuteblico satildeo chamados de Web laquoocultaraquo laquoinvisiacutevelraquo ou laquoprofundaraquo [8]
Entende entatildeo que a laquoweb ocultaraquo eacute 500 vezes maior que a zona indexada pelos laquobrowsersraquo e
nela se encontram documentos bases de dados e servidores que natildeo usam o html Satildeo
constituiacutedas principalmente por cerca de 550 milhotildees de documentos individuais pelas
informaccedilotildees mais recentes e conteuacutedos mais especiacuteficos 95 da informaccedilatildeo natildeo sujeita a
pagamento ou inscriccedilatildeo preacutevia Em termos de conteuacutedos seratildeo artigos imagens de museus bases
de dados relatoacuterios e trabalhos de investigaccedilatildeo especializados (ERIC) ndash sendo portanto o corpo
de informaccedilatildeo com maior qualidade Natildeo saber ao certo onde e como estaacute organizado o conhecimento eacute a primeira dificuldade
a ter em conta quando de uma tentativa de Recolha de Informaccedilatildeo A segunda teraacute ver com a
existecircncia de muacuteltiplos modos de indexaccedilatildeo usados pelas diversas colecccedilotildees
12 Indexaccedilatildeo e bases de dados O denominador comum da comunicaccedilatildeo inter-humana eacute a linguagem natural ndash escrita e falada
(Cada povo tem a sua ndash o que pode indicar que o inglecircs se esteja a tornar o laquoesperantoraquo virtual)
Todas as outras formas de indexaccedilatildeo satildeo auxiliares limitados que os humanos tecircm primeiro que
aprender antes de as poderem utilizar [9] A maior parte da informaccedilatildeo na Web ateacute haacute pouco era textual Comeccedila agora a ser
superada por som imagens e filmes As novas indexaccedilotildees teratildeo ainda que passar a incluir o
4
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
processamento de informaccedilatildeo digital electroacutenica com linguagens especiacuteficas [10] Isto interferiraacute
naturalmente com os modos como se passa a fazer a pesquisa levando a que se tenha que
aprender como se podem questionar as bases de dados natildeo-textuais [11] Segundo o Grupo
MIRA a interactividade afecta naturalmente a avaliaccedilatildeo dos processos de recolha de
informaccedilatildeo O modelo claacutessico do sistema de avaliaccedilatildeo da Recolha de Informaccedilatildeo iniciado pelas experiecircncias de Cranfield e actualmente manifestas no programa TREC demonstra muito claramente as suas origens na era de sistemas de recolha por laquobatchraquo O sistema eacute visto como aceitando uma pergunta bem definida (laquoqueryraquo ou toacutepico) e produzindo um resultado bem definido (uma lista de documentos) Poreacutem com os modernos sistemas interactivos esse modelo laquoinput-outputraquo estaacute claramente a tornar-se cada vez mais inadequado como representante da situaccedilatildeo de RI Um problema dominante na investigaccedilatildeo sobre RI eacute a questatildeo de saber qual o modelo ou modelos de que precisamos para o substituir Uma possiacutevel fonte de ideias e meacutetodos seratildeo trabalhos noutras aacutereas (fora da RI) para avaliaccedilatildeo das caracteriacutesticas HCI dos sistemas Poreacutem estes trabalhos sofrem duas limitaccedilotildees pelo menos no que respeita a sua aplicabilidade agrave RI [12]
Por sua vez aquela RI depende da forma como satildeo organizadas as bases de dados Em princiacutepio
embora na sua categorizaccedilatildeo e avaliaccedilatildeo estejam dependentes do elemento humano [13] satildeo
todas HDLs (Hypermedia Digital Libraries [Bibliotecas Digitais Hipermeacutedia]) porque se fundam
no paradigma do hipermeacutedia Existem poreacutem diferenccedilas entre dois tipos baacutesicos dois sistemas
representando cada um modelo de interacccedilatildeo um ambiente de busca de informaccedilatildeo distintos No modelo da biblioteca digital hipermeacutedia (WWW) ndash os utilizadores recorrem a um uacutenico
interface (laquobrowserraquo [motor de pesquisa]) para aplicar duas estrateacutegias de busca de informaccedilatildeo
(ISS ndash Information Seeking Strategies [Estrateacutegias de busca de informaccedilatildeo]) laquobrowsingraquo e
laquoqueeryraquo [pergunta] [14] Embora de utilizaccedilatildeo mais faacutecil nele natildeo existe separaccedilatildeo entre os
laquolinksraquo e os documentos por eles referidos suportam apenas uma estrutura graacutefica baacutesica dando
a ilusatildeo de possuir outras como a hierarquizaccedilatildeo de laquoclustersraquo [agrupamentosiacutendices temaacuteticos]
de documentos Atraveacutes do laquoclusteringraquo [15] oferecido pelos laquobrowsersraquo (ex Yahoo) [16]
podem multiplicar-se as estrateacutegias de RI mas sempre por intermeacutedio de um mesmo interface Haacute
ainda a hipoacutetese de se recorrer a vaacuterios laquobrowsersraquo em simultacircneo e embora a Web natildeo ofereccedila
nenhum protocolo para interacccedilatildeo e coordenaccedilatildeo entre laquobrowsersraquo [17] existem os meta-
pesquisadores [18] que desempenham essa funccedilatildeo (o antigo httpwwwhighway61com ou o
mais recente httpwwwmetacrawlercom pex) Por seu lado alguns laquobrowsersraquo estaratildeo a
tentar ultrapassar esta dificuldade como o HotbotLycos ndash que se laquopersonalizouraquo em Janeiro de
2003 passando natildeo soacute a patentear laquofiltrosraquo como ainda a permitir a transferecircncia da pesquisa
para outros motores Inktomi Fast Google ou Teoma O segundo modelo (OHS ndash Open
Hypermedia System [Sistema hipermeacutedia aberto]) eacute uma biblioteca idecircntica em termos de
5
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)
Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos
modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados
proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos
interfaces e diversas estrateacutegias de busca [19]
1 laquobrowsingraquo de documentos simples ou cruzados
2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto
3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo
4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas
(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de
informaccedilatildeo a ser investigado
5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado
de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em
termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as
medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]
13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]
caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como
um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si
criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos
documentos) Compreende quatro moacutedulos essenciais um processador de documentos um
processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de
ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do
acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de
documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao
tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo
inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias
aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que
se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]
ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a
6
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um
laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma
forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos
casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que
passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e
descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de
meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web
Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash
considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as
necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash
AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um
sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]
E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa
automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]
Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos
obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em
laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo
problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A
RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes
(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados
oferecidos e com o modo como satildeo adicionados os documentos [39]
7
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de
que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e
partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])
emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo
laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por
meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta
interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores
subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam
devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a
mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja
ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o
mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash
desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver
com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para
um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos
URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo
recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]
Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a
informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo
dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]
mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)
variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a
funcionalidade dos laquolinksraquo acima aventada por Chis Shermann
A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova
8
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]
E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]
Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que
demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e
pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo
enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais
visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse
relativamente agrave pergunta feita
15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre
depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada
laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e
laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder
interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do
momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que
apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados
OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de
informaccedilatildeo uacutetil [51]
9
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana
(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com
possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos
laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e
devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por
duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o
sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo
analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias
especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo
alterarem a laquoqueryraquo
Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]
Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que
estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda
segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]
E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento
laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]
10
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas
laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de
resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as
possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)
som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros
permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo
especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos
sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores
de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do
utilizador comum
16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases
de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente
bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon
1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a
eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo
dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo
relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)
desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se
destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o
problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)
Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo
inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma
siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-
oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde
a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo
mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir
uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI
11
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
2 Se natildeo existe um laquolinkraquo directo entre as paacuteginas escolhidas ao acaso a distacircncia meacutedia
entre elas eacute de 16 laquolinksraquo ndash ou seja um laquobrowserraquo teraacute que clicar os laquolinksraquo em 16
paacuteginas para laacute chegar Esta distacircncia eacute menor que os 19 laquolinksraquo postulados por estudos
anteriores mas exclui 76 das paacuteginas que natildeo possuem laquolinksraquo directos
3 Se existe um laquolinkraquo indirecto ndash dos que podem ser seguidos para traacutes ou para a frente
acessiacuteveis aos laquospiderscrawlersraquo mas natildeo ao utilizador de um laquobrowserraquo ndash a meacutedia da
distacircncia eacute de 6 laquolinksraquo
4 Mais de 90 das paacuteginas da Web podem ser alcanccediladas umas a partir das outras desde
que possuam laquolinksraquo reversiacuteveis Estas conclusotildees tornam-se importantes na medida em que podem orientar os modos de pesquisa
individuais e mais ainda porque confirmam a existecircncia de grandes zonas de informaccedilatildeo a que se
natildeo acede com facilidade Sobre esta laquohidden Webraquo dizia Marcia Mardiz em 2001 Actualmente a WWW conteacutem uma quantidade aproximada de 74 milhotildees de sites (OCLC 2001) Poreacutem mesmo o pesquisador mais experimentado usando o motor de pesquisa mais robusto soacute consegue aceder a cerca de 16 dessas paacuteginas (Dahn 2001) Os outros 84 da informaccedilatildeo disponiacutevel ao puacuteblico satildeo chamados de Web laquoocultaraquo laquoinvisiacutevelraquo ou laquoprofundaraquo [8]
Entende entatildeo que a laquoweb ocultaraquo eacute 500 vezes maior que a zona indexada pelos laquobrowsersraquo e
nela se encontram documentos bases de dados e servidores que natildeo usam o html Satildeo
constituiacutedas principalmente por cerca de 550 milhotildees de documentos individuais pelas
informaccedilotildees mais recentes e conteuacutedos mais especiacuteficos 95 da informaccedilatildeo natildeo sujeita a
pagamento ou inscriccedilatildeo preacutevia Em termos de conteuacutedos seratildeo artigos imagens de museus bases
de dados relatoacuterios e trabalhos de investigaccedilatildeo especializados (ERIC) ndash sendo portanto o corpo
de informaccedilatildeo com maior qualidade Natildeo saber ao certo onde e como estaacute organizado o conhecimento eacute a primeira dificuldade
a ter em conta quando de uma tentativa de Recolha de Informaccedilatildeo A segunda teraacute ver com a
existecircncia de muacuteltiplos modos de indexaccedilatildeo usados pelas diversas colecccedilotildees
12 Indexaccedilatildeo e bases de dados O denominador comum da comunicaccedilatildeo inter-humana eacute a linguagem natural ndash escrita e falada
(Cada povo tem a sua ndash o que pode indicar que o inglecircs se esteja a tornar o laquoesperantoraquo virtual)
Todas as outras formas de indexaccedilatildeo satildeo auxiliares limitados que os humanos tecircm primeiro que
aprender antes de as poderem utilizar [9] A maior parte da informaccedilatildeo na Web ateacute haacute pouco era textual Comeccedila agora a ser
superada por som imagens e filmes As novas indexaccedilotildees teratildeo ainda que passar a incluir o
4
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
processamento de informaccedilatildeo digital electroacutenica com linguagens especiacuteficas [10] Isto interferiraacute
naturalmente com os modos como se passa a fazer a pesquisa levando a que se tenha que
aprender como se podem questionar as bases de dados natildeo-textuais [11] Segundo o Grupo
MIRA a interactividade afecta naturalmente a avaliaccedilatildeo dos processos de recolha de
informaccedilatildeo O modelo claacutessico do sistema de avaliaccedilatildeo da Recolha de Informaccedilatildeo iniciado pelas experiecircncias de Cranfield e actualmente manifestas no programa TREC demonstra muito claramente as suas origens na era de sistemas de recolha por laquobatchraquo O sistema eacute visto como aceitando uma pergunta bem definida (laquoqueryraquo ou toacutepico) e produzindo um resultado bem definido (uma lista de documentos) Poreacutem com os modernos sistemas interactivos esse modelo laquoinput-outputraquo estaacute claramente a tornar-se cada vez mais inadequado como representante da situaccedilatildeo de RI Um problema dominante na investigaccedilatildeo sobre RI eacute a questatildeo de saber qual o modelo ou modelos de que precisamos para o substituir Uma possiacutevel fonte de ideias e meacutetodos seratildeo trabalhos noutras aacutereas (fora da RI) para avaliaccedilatildeo das caracteriacutesticas HCI dos sistemas Poreacutem estes trabalhos sofrem duas limitaccedilotildees pelo menos no que respeita a sua aplicabilidade agrave RI [12]
Por sua vez aquela RI depende da forma como satildeo organizadas as bases de dados Em princiacutepio
embora na sua categorizaccedilatildeo e avaliaccedilatildeo estejam dependentes do elemento humano [13] satildeo
todas HDLs (Hypermedia Digital Libraries [Bibliotecas Digitais Hipermeacutedia]) porque se fundam
no paradigma do hipermeacutedia Existem poreacutem diferenccedilas entre dois tipos baacutesicos dois sistemas
representando cada um modelo de interacccedilatildeo um ambiente de busca de informaccedilatildeo distintos No modelo da biblioteca digital hipermeacutedia (WWW) ndash os utilizadores recorrem a um uacutenico
interface (laquobrowserraquo [motor de pesquisa]) para aplicar duas estrateacutegias de busca de informaccedilatildeo
(ISS ndash Information Seeking Strategies [Estrateacutegias de busca de informaccedilatildeo]) laquobrowsingraquo e
laquoqueeryraquo [pergunta] [14] Embora de utilizaccedilatildeo mais faacutecil nele natildeo existe separaccedilatildeo entre os
laquolinksraquo e os documentos por eles referidos suportam apenas uma estrutura graacutefica baacutesica dando
a ilusatildeo de possuir outras como a hierarquizaccedilatildeo de laquoclustersraquo [agrupamentosiacutendices temaacuteticos]
de documentos Atraveacutes do laquoclusteringraquo [15] oferecido pelos laquobrowsersraquo (ex Yahoo) [16]
podem multiplicar-se as estrateacutegias de RI mas sempre por intermeacutedio de um mesmo interface Haacute
ainda a hipoacutetese de se recorrer a vaacuterios laquobrowsersraquo em simultacircneo e embora a Web natildeo ofereccedila
nenhum protocolo para interacccedilatildeo e coordenaccedilatildeo entre laquobrowsersraquo [17] existem os meta-
pesquisadores [18] que desempenham essa funccedilatildeo (o antigo httpwwwhighway61com ou o
mais recente httpwwwmetacrawlercom pex) Por seu lado alguns laquobrowsersraquo estaratildeo a
tentar ultrapassar esta dificuldade como o HotbotLycos ndash que se laquopersonalizouraquo em Janeiro de
2003 passando natildeo soacute a patentear laquofiltrosraquo como ainda a permitir a transferecircncia da pesquisa
para outros motores Inktomi Fast Google ou Teoma O segundo modelo (OHS ndash Open
Hypermedia System [Sistema hipermeacutedia aberto]) eacute uma biblioteca idecircntica em termos de
5
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)
Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos
modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados
proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos
interfaces e diversas estrateacutegias de busca [19]
1 laquobrowsingraquo de documentos simples ou cruzados
2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto
3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo
4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas
(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de
informaccedilatildeo a ser investigado
5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado
de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em
termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as
medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]
13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]
caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como
um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si
criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos
documentos) Compreende quatro moacutedulos essenciais um processador de documentos um
processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de
ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do
acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de
documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao
tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo
inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias
aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que
se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]
ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a
6
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um
laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma
forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos
casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que
passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e
descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de
meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web
Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash
considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as
necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash
AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um
sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]
E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa
automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]
Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos
obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em
laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo
problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A
RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes
(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados
oferecidos e com o modo como satildeo adicionados os documentos [39]
7
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de
que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e
partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])
emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo
laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por
meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta
interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores
subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam
devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a
mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja
ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o
mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash
desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver
com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para
um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos
URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo
recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]
Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a
informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo
dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]
mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)
variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a
funcionalidade dos laquolinksraquo acima aventada por Chis Shermann
A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova
8
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]
E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]
Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que
demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e
pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo
enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais
visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse
relativamente agrave pergunta feita
15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre
depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada
laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e
laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder
interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do
momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que
apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados
OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de
informaccedilatildeo uacutetil [51]
9
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana
(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com
possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos
laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e
devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por
duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o
sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo
analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias
especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo
alterarem a laquoqueryraquo
Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]
Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que
estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda
segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]
E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento
laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]
10
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas
laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de
resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as
possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)
som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros
permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo
especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos
sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores
de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do
utilizador comum
16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases
de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente
bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon
1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a
eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo
dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo
relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)
desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se
destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o
problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)
Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo
inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma
siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-
oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde
a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo
mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir
uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI
11
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
processamento de informaccedilatildeo digital electroacutenica com linguagens especiacuteficas [10] Isto interferiraacute
naturalmente com os modos como se passa a fazer a pesquisa levando a que se tenha que
aprender como se podem questionar as bases de dados natildeo-textuais [11] Segundo o Grupo
MIRA a interactividade afecta naturalmente a avaliaccedilatildeo dos processos de recolha de
informaccedilatildeo O modelo claacutessico do sistema de avaliaccedilatildeo da Recolha de Informaccedilatildeo iniciado pelas experiecircncias de Cranfield e actualmente manifestas no programa TREC demonstra muito claramente as suas origens na era de sistemas de recolha por laquobatchraquo O sistema eacute visto como aceitando uma pergunta bem definida (laquoqueryraquo ou toacutepico) e produzindo um resultado bem definido (uma lista de documentos) Poreacutem com os modernos sistemas interactivos esse modelo laquoinput-outputraquo estaacute claramente a tornar-se cada vez mais inadequado como representante da situaccedilatildeo de RI Um problema dominante na investigaccedilatildeo sobre RI eacute a questatildeo de saber qual o modelo ou modelos de que precisamos para o substituir Uma possiacutevel fonte de ideias e meacutetodos seratildeo trabalhos noutras aacutereas (fora da RI) para avaliaccedilatildeo das caracteriacutesticas HCI dos sistemas Poreacutem estes trabalhos sofrem duas limitaccedilotildees pelo menos no que respeita a sua aplicabilidade agrave RI [12]
Por sua vez aquela RI depende da forma como satildeo organizadas as bases de dados Em princiacutepio
embora na sua categorizaccedilatildeo e avaliaccedilatildeo estejam dependentes do elemento humano [13] satildeo
todas HDLs (Hypermedia Digital Libraries [Bibliotecas Digitais Hipermeacutedia]) porque se fundam
no paradigma do hipermeacutedia Existem poreacutem diferenccedilas entre dois tipos baacutesicos dois sistemas
representando cada um modelo de interacccedilatildeo um ambiente de busca de informaccedilatildeo distintos No modelo da biblioteca digital hipermeacutedia (WWW) ndash os utilizadores recorrem a um uacutenico
interface (laquobrowserraquo [motor de pesquisa]) para aplicar duas estrateacutegias de busca de informaccedilatildeo
(ISS ndash Information Seeking Strategies [Estrateacutegias de busca de informaccedilatildeo]) laquobrowsingraquo e
laquoqueeryraquo [pergunta] [14] Embora de utilizaccedilatildeo mais faacutecil nele natildeo existe separaccedilatildeo entre os
laquolinksraquo e os documentos por eles referidos suportam apenas uma estrutura graacutefica baacutesica dando
a ilusatildeo de possuir outras como a hierarquizaccedilatildeo de laquoclustersraquo [agrupamentosiacutendices temaacuteticos]
de documentos Atraveacutes do laquoclusteringraquo [15] oferecido pelos laquobrowsersraquo (ex Yahoo) [16]
podem multiplicar-se as estrateacutegias de RI mas sempre por intermeacutedio de um mesmo interface Haacute
ainda a hipoacutetese de se recorrer a vaacuterios laquobrowsersraquo em simultacircneo e embora a Web natildeo ofereccedila
nenhum protocolo para interacccedilatildeo e coordenaccedilatildeo entre laquobrowsersraquo [17] existem os meta-
pesquisadores [18] que desempenham essa funccedilatildeo (o antigo httpwwwhighway61com ou o
mais recente httpwwwmetacrawlercom pex) Por seu lado alguns laquobrowsersraquo estaratildeo a
tentar ultrapassar esta dificuldade como o HotbotLycos ndash que se laquopersonalizouraquo em Janeiro de
2003 passando natildeo soacute a patentear laquofiltrosraquo como ainda a permitir a transferecircncia da pesquisa
para outros motores Inktomi Fast Google ou Teoma O segundo modelo (OHS ndash Open
Hypermedia System [Sistema hipermeacutedia aberto]) eacute uma biblioteca idecircntica em termos de
5
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)
Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos
modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados
proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos
interfaces e diversas estrateacutegias de busca [19]
1 laquobrowsingraquo de documentos simples ou cruzados
2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto
3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo
4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas
(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de
informaccedilatildeo a ser investigado
5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado
de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em
termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as
medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]
13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]
caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como
um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si
criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos
documentos) Compreende quatro moacutedulos essenciais um processador de documentos um
processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de
ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do
acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de
documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao
tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo
inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias
aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que
se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]
ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a
6
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um
laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma
forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos
casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que
passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e
descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de
meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web
Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash
considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as
necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash
AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um
sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]
E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa
automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]
Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos
obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em
laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo
problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A
RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes
(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados
oferecidos e com o modo como satildeo adicionados os documentos [39]
7
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de
que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e
partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])
emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo
laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por
meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta
interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores
subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam
devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a
mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja
ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o
mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash
desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver
com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para
um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos
URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo
recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]
Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a
informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo
dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]
mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)
variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a
funcionalidade dos laquolinksraquo acima aventada por Chis Shermann
A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova
8
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]
E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]
Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que
demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e
pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo
enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais
visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse
relativamente agrave pergunta feita
15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre
depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada
laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e
laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder
interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do
momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que
apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados
OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de
informaccedilatildeo uacutetil [51]
9
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana
(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com
possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos
laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e
devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por
duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o
sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo
analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias
especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo
alterarem a laquoqueryraquo
Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]
Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que
estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda
segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]
E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento
laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]
10
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas
laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de
resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as
possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)
som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros
permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo
especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos
sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores
de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do
utilizador comum
16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases
de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente
bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon
1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a
eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo
dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo
relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)
desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se
destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o
problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)
Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo
inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma
siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-
oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde
a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo
mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir
uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI
11
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)
Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos
modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados
proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos
interfaces e diversas estrateacutegias de busca [19]
1 laquobrowsingraquo de documentos simples ou cruzados
2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto
3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo
4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas
(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de
informaccedilatildeo a ser investigado
5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado
de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em
termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as
medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]
13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]
caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como
um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si
criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos
documentos) Compreende quatro moacutedulos essenciais um processador de documentos um
processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de
ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do
acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de
documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao
tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo
inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias
aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que
se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]
ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a
6
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um
laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma
forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos
casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que
passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e
descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de
meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web
Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash
considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as
necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash
AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um
sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]
E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa
automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]
Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos
obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em
laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo
problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A
RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes
(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados
oferecidos e com o modo como satildeo adicionados os documentos [39]
7
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de
que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e
partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])
emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo
laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por
meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta
interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores
subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam
devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a
mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja
ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o
mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash
desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver
com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para
um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos
URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo
recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]
Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a
informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo
dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]
mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)
variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a
funcionalidade dos laquolinksraquo acima aventada por Chis Shermann
A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova
8
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]
E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]
Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que
demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e
pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo
enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais
visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse
relativamente agrave pergunta feita
15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre
depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada
laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e
laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder
interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do
momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que
apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados
OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de
informaccedilatildeo uacutetil [51]
9
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana
(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com
possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos
laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e
devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por
duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o
sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo
analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias
especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo
alterarem a laquoqueryraquo
Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]
Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que
estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda
segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]
E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento
laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]
10
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas
laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de
resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as
possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)
som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros
permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo
especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos
sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores
de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do
utilizador comum
16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases
de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente
bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon
1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a
eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo
dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo
relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)
desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se
destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o
problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)
Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo
inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma
siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-
oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde
a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo
mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir
uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI
11
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um
laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma
forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos
casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que
passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e
descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de
meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web
Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash
considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as
necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash
AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um
sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]
E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa
automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]
Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos
obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em
laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo
problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A
RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes
(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados
oferecidos e com o modo como satildeo adicionados os documentos [39]
7
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de
que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e
partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])
emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo
laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por
meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta
interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores
subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam
devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a
mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja
ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o
mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash
desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver
com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para
um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos
URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo
recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]
Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a
informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo
dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]
mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)
variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a
funcionalidade dos laquolinksraquo acima aventada por Chis Shermann
A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova
8
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]
E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]
Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que
demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e
pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo
enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais
visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse
relativamente agrave pergunta feita
15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre
depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada
laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e
laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder
interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do
momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que
apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados
OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de
informaccedilatildeo uacutetil [51]
9
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana
(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com
possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos
laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e
devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por
duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o
sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo
analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias
especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo
alterarem a laquoqueryraquo
Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]
Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que
estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda
segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]
E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento
laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]
10
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas
laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de
resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as
possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)
som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros
permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo
especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos
sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores
de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do
utilizador comum
16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases
de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente
bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon
1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a
eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo
dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo
relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)
desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se
destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o
problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)
Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo
inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma
siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-
oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde
a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo
mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir
uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI
11
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de
que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e
partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])
emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo
laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por
meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta
interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores
subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam
devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a
mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja
ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o
mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash
desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver
com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para
um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos
URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo
recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]
Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a
informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo
dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]
mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)
variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a
funcionalidade dos laquolinksraquo acima aventada por Chis Shermann
A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova
8
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]
E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]
Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que
demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e
pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo
enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais
visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse
relativamente agrave pergunta feita
15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre
depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada
laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e
laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder
interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do
momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que
apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados
OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de
informaccedilatildeo uacutetil [51]
9
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana
(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com
possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos
laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e
devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por
duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o
sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo
analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias
especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo
alterarem a laquoqueryraquo
Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]
Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que
estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda
segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]
E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento
laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]
10
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas
laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de
resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as
possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)
som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros
permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo
especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos
sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores
de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do
utilizador comum
16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases
de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente
bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon
1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a
eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo
dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo
relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)
desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se
destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o
problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)
Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo
inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma
siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-
oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde
a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo
mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir
uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI
11
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]
E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]
Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que
demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e
pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo
enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais
visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse
relativamente agrave pergunta feita
15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre
depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada
laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e
laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder
interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do
momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que
apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados
OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de
informaccedilatildeo uacutetil [51]
9
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana
(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com
possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos
laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e
devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por
duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o
sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo
analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias
especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo
alterarem a laquoqueryraquo
Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]
Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que
estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda
segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]
E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento
laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]
10
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas
laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de
resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as
possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)
som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros
permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo
especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos
sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores
de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do
utilizador comum
16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases
de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente
bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon
1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a
eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo
dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo
relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)
desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se
destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o
problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)
Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo
inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma
siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-
oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde
a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo
mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir
uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI
11
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana
(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com
possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos
laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e
devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por
duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o
sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo
analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias
especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo
alterarem a laquoqueryraquo
Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]
Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que
estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda
segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]
E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento
laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]
10
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas
laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de
resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as
possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)
som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros
permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo
especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos
sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores
de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do
utilizador comum
16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases
de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente
bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon
1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a
eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo
dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo
relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)
desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se
destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o
problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)
Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo
inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma
siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-
oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde
a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo
mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir
uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI
11
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas
laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de
resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as
possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)
som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros
permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo
especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos
sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores
de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do
utilizador comum
16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases
de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente
bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon
1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a
eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo
dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo
relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)
desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se
destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o
problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)
Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo
inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma
siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-
oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde
a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo
mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir
uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI
11
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que
inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo
propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos
documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de
laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de
documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher
documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI
As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram
os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas
objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo
tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos
modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia
natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes
experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as
descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por
outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos
fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas
nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso
significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre
estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se
pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute
12
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do
sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e
resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo
Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e
medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os
sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash
Information Seeking in Context que se transformou num foacuterum de investigadores que exploram
meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si
porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo
ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se
criassem sistemas de RI que incluem interfaces graacuteficos homem-computador
suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo
mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas
ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute
contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo
objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva
cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees
natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os
resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a
populaccedilotildees mais vastas ou diferentes
satildeo demorados
natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos
sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos
que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas
pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os
construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou
comparar resultados
13
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se
estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e
meacutetodos de avaliaccedilatildeo para RI
Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e
reelaboram as perguntas de Saracevic (1995)
1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de
informaccedilatildeo nas aacutereas aplicadas
2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas
de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo
existente e agrave miriacuteade de escolhas possiacuteveis
3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso
trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o
sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas
laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva
do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns
deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para
avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo
de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers
(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada
operacional pode ser medida em termos de variaacuteveis (economia ganho maior
conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores
experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura
social crenccedilas individuais e de grupo clima organizacional ou social objectivos do
indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou
tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio
adquirir para usar e beneficiar da inovaccedilatildeo)
14
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de
esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em
pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis
Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que
sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que
nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo
paradigma
Atributo Criteacuterio Medidas
vantagem relativa
Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico
Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos
compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social
Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica
complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional
Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas
ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento
ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo
Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias
laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras
engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de
erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a
satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo
paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que
pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de
si pelas possibilidades que lhe oferece o interface
3 DA PERSPECTIVA DO UTILIZADOR
Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador
Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance
user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de
15
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers
diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as
respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo
considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do
usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos
comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria
centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de
busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo
haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro
sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida
em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o
laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por
perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro
para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento
comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a
uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um
qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca
relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber
se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo
partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar
agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma
seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute
confrontado HB Novembro 2004
16
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos
modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem
construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do
utilizador Por exemplo
Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca
orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta
o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular
modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers
como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa
o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade
Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento
o tiacutetulo o descritor o percentagem o data o endereccedilo
Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos
o soacute dos laquofidedignosraquo o como os reconhece [71]
17
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001
httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo
httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology
Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if
its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid
[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm
[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm
[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf
[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A
conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml
[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open
Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis
[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml
[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval
Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003
httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28
18
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm
[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml
[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm
[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez
2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002
httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-
seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-
europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm
[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid
[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid
[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-
dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002
httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing
the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html
[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html
[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml
[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000
httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance
of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics
19
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html
[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml
[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top
[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia
[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm
[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml
[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57
[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM
[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid
[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid
[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001
httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search
Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd
Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml
[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala
[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de
20
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-
Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas
diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm
[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf
[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of
Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml
[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp
[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf
[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000
httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002
httplrseduiuceduwpcredibilityindexhtml
21
- 3 DA PERSPECTIVA DO UTILIZADOR
-