cartografias virtuais - mapear o ciberespaço

21
Cartografias virtuais – mapear o ciberespaço Sobre os problemas da Recolha de Informação da perspectiva do utilizador 1 Helena Barbas CENTRIA e DEP/FCSH Universidade Nova de Lisboa, Av. de Berna, 26-C, 1069-061 Lisboa, Portugal, +3517933519 – [email protected] Abstract: Análise da arquitectura da web, e do funcionamento dos motores de pesquisa, relativamente às necessidades do utilizador comum. Necessidade de novas teorias e metodologias, novos paradigmas, para avaliar o comportamento humano em contextos de Recolha de Informação. Analysis of web architecture and browsers performance, in relation with the common user needs. There is a need of new paradigms and perspectives to evaluate human behaviour in IR contexts. Keywords: Recolha de informação; interacção homem máquina; estudos do usuário; Information retrieval; human-computer interaction; user studies; INTRODUÇÃO O primeiro requisito em todas as propostas de cômputo de sistemas de Recolha de Informação (IR-Information Retrieval) – seja da perspectiva do sistema, seja da perspectiva do utilizador – é a relevância dos documentos numa colecção, e o modo de funcionamento dos motores de pesquisa. E, caso a avaliação não se reporte a uma base de dados específica (que tem a vantagem de permitir controlar toda a sua arquitectura de raiz [1]), a primeira grande colecção a ser pesquisada é a Internet. 1 ARQUITECTURAS O princípio que presidiu à invenção da Internet – a possibilidade de criar um espaço de informação não controlado nem controlável – está a tornar-se o seu anátema, por desmesura. Diariamente são-lhe acrescentadas cerca de 15 milhões de páginas das quais, um utilizador normal e assíduo, poderá ler umas 100. Estão em curso várias tentativas para controlar a actual selva do excesso de informação, para que seja de facto útil. Da parte da própria Web, via W3C, oferecem-se sucessivos documentos que procuram estabelecer uma série de requisitos, limitações e princípios que permitam organizar a «Arquitectura da Web» [ http://www.w3.org/TR/webarch/ ], a que nem sempre se obedece. 1 Trabalho efectuado no âmbito do Mestrado em Inteligência Artificial, Faculdade de Ciências e Tecnologia, U.N.L.,coord. Pelo Prof. Luís Moniz Pereira – Seminário de Processamento de Língua Natural I – orientado pelo Prof. Paulo Quaresma, 2003. O texto foi revisto em Novembro de 2004, os «links» e referências bibliográficas foram actualizados em 11 de Junho de 2006.

Upload: helena-barbas

Post on 08-Mar-2016

216 views

Category:

Documents


1 download

DESCRIPTION

virtual cartographies, how to map out ciberspace, essay on information retrieval

TRANSCRIPT

Page 1: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo Sobre os problemas da Recolha de Informaccedilatildeo da perspectiva do utilizador1

Helena Barbas CENTRIA e DEPFCSH Universidade Nova de Lisboa

Av de Berna 26-C 1069-061 Lisboa Portugal +3517933519 ndash hebarbasfcshunlpt

Abstract Anaacutelise da arquitectura da web e do funcionamento dos motores de pesquisa relativamente agraves

necessidades do utilizador comum Necessidade de novas teorias e metodologias novos paradigmas para avaliar o comportamento humano em contextos de Recolha de Informaccedilatildeo Analysis of web architecture and browsers performance in relation with the common user needs There is a need of new paradigms and perspectives to evaluate human behaviour in IR contexts

Keywords Recolha de informaccedilatildeo interacccedilatildeo homem maacutequina estudos do usuaacuterio Information retrieval human-computer interaction user studies

INTRODUCcedilAtildeO

O primeiro requisito em todas as propostas de cocircmputo de sistemas de Recolha de Informaccedilatildeo

(IR-Information Retrieval) ndash seja da perspectiva do sistema seja da perspectiva do utilizador ndash eacute a

relevacircncia dos documentos numa colecccedilatildeo e o modo de funcionamento dos motores de pesquisa E caso a avaliaccedilatildeo natildeo se reporte a uma base de dados especiacutefica (que tem a vantagem de

permitir controlar toda a sua arquitectura de raiz [1]) a primeira grande colecccedilatildeo a ser pesquisada

eacute a Internet

1 ARQUITECTURAS O princiacutepio que presidiu agrave invenccedilatildeo da Internet ndash a possibilidade de criar um espaccedilo de

informaccedilatildeo natildeo controlado nem controlaacutevel ndash estaacute a tornar-se o seu anaacutetema por desmesura

Diariamente satildeo-lhe acrescentadas cerca de 15 milhotildees de paacuteginas das quais um utilizador

normal e assiacuteduo poderaacute ler umas 100 Estatildeo em curso vaacuterias tentativas para controlar a actual

selva do excesso de informaccedilatildeo para que seja de facto uacutetil Da parte da proacutepria Web via W3C oferecem-se sucessivos documentos que procuram

estabelecer uma seacuterie de requisitos limitaccedilotildees e princiacutepios que permitam organizar a

laquoArquitectura da Webraquo [ httpwwww3orgTRwebarch] a que nem sempre se obedece 1 Trabalho efectuado no acircmbito do Mestrado em Inteligecircncia Artificial Faculdade de Ciecircncias e Tecnologia UNLcoord Pelo Prof Luiacutes Moniz Pereira ndash Seminaacuterio de Processamento de Liacutengua Natural I ndash orientado pelo Prof Paulo Quaresma 2003 O texto foi revisto em Novembro de 2004 os laquolinksraquo e referecircncias bibliograacuteficas foram actualizados em 11 de Junho de 2006

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Da parte das instituiccedilotildees estatais e internacionais com a ONU agrave cabeccedila desenvolvem-se

diligecircncias para estabelecer uma norma ndash ISSS - Information Society Standardization System [2]

ndash que reuacutena num uacutenico coacutedigo as vaacuterias propostas jaacute aventadas mas a quantidade e diversidade

destas deixa prever que natildeo seja tatildeo cedo que se consiga um consenso mundial Da parte das universidades pode dar-se o exemplo do trabalho de Parker Rossman [3] que

esteve em Lisboa em 1999 a apresentar uma comunicaccedilatildeo ndash laquoProjectos e mapas arquitectura para

a universidade no ciberespaccediloraquo ndash [4] onde defende um laquoconsoacutercioraquo de e-meta-universidades a

contribuir para um saber comum e geral para uma mega-pesquisa ndash agrave imagem e semelhanccedila de

laquoThe Human Genome Projectraquo [httpwwwornlgovhgmis] ou laquoThe Global Knowledge

Partnershipraquo [httpwwwglobalknowledgeorg] ndash que fundamentasse a criaccedilatildeo de uma base de

dados global devidamente indexada Haacute ainda a tentativa de cartografar esse conhecimento e desenhar uma topologia a partir do

entendimento da net como uma rede de laquoroutersraquo associados por laquolinksraquo em que cada laquorouterraquo

pertenccedila a uma autoridade administrativa ou sistema autoacutenomo (AS) Soon-Hyung Yook

Hawoong Jeong e Albert-Laacuteszloacute Barabaacutesi [5] descobrem-lhe a topologia fiacutesica desenhaacutevel por

geradores e (relativamente) previsiacutevel Ou seja por mais pormenorizado que seja um modelo da Internet se os seus paracircmetros universais (a s Df) se desviarem dos que natildeo satildeo cobertos pelas mediccedilotildees a topologia de larga escala iraacute inevitavelmente diferir da Internet actual [6]

Poreacutem a topologia fiacutesica natildeo coincide necessariamente com a quantidade e tipo de

informaccedilotildees nela contida Satildeo muitas as provas da preocupaccedilatildeo com o mapear do conhecimento inserido na Web

[veja-se httpwwwcybergeographyorgatlasatlashtml por exemplo] mas a velocidade a que a

informaccedilatildeo eacute acrescentada e a sua quantidade tornam praticamente impossiacutevel estabelecer um

quadro fidedigno ou minimamente actualizado Haacute ateacute quem brinque e ofereccedila a possibilidade de

se chegar ao laquofimraquo da Internet [httpwwwshibumiorgEotI]

11 A rede escondida Entretanto as investigaccedilotildees natildeo param Em Maio de 2002 Chris Sherman divulga um estudo que

altera a ideia geral de que a net seja constituiacuteda por uma esfera de laquoclustersraquo de sites bem

interligados entre si Um novo mapa do ciberespaccedilo mostra que a Web se assemelha a um laccedilo de pescoccedilo [papillon] com limites divisoacuterios que podem tornar difiacutecil ou mesmo impossiacutevel a navegaccedilatildeo entre regiotildees de acordo com um novo estudo publicado por investigadores de AltaVista Compac e IBM As teorias preacutevias sugeriam que a Web estava altamente conectada com natildeo mais do que 19 graus de separaccedilatildeo

2

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

de um laquositeraquo Em contrapartida o novo mapa revela uma estrutura mais subtil que pode levar ao desenvolvimento de teacutecnicas de pesquisa pelos motores (searchers e crowlers) e uma maior compreensatildeo da sociologia da criaccedilatildeo de conteuacutedos e isso pode ajudar a prever a emergecircncia de novos fenoacutemenos na Web como os laquoWeb ringsraquo e laquoSpam clustersraquo [7]

Segundo esta teoria a net teraacute a seguinte a forma

laquoCoreraquo ndash [Cerne] seraacute o laquocoraccedilatildeoraquo da Web As paacuteginas no seu interior estatildeo fortemente

conectadas por laquocross-linkingraquo [interligaccedilotildees cruzadas] Satildeo os laquolinksraquo nas paacuteginas do

laquocoreraquo que permitem aos utilizadores viajar com relativa facilidade de umas para as

outras satildeo tambeacutem eles os mais provavelmente seguidos pelos laquobrowsersraquo laquoOriginationraquo ndash [De origem] paacuteginas que eventualmente permitem ao utilizador atingir o

laquocoreraquo mas que por si natildeo podem ser por ele acedidas Seratildeo paacuteginas obscuras que

ainda natildeo atraiacuteram a atenccedilatildeo da comunidade ou natildeo tecircm laquolinksraquo para as paacuteginas do

laquocoreraquo (ex Geocities e Tripod) laquoTerminationraquo ndash [Terminais] paacuteginas a que se pode aceder a partir de laquolinksraquo no laquocoreraquo

mas que natildeo tecircm ligaccedilatildeo de retorno satildeo laquodestinosraquo em si laquoDisconected pagesraquo ndash [Desligadas] podem ser ligadas a paacuteginas laquooriginationraquo

laquoterminationraquo mas natildeo eacute possiacutevel aceder-lhes directamente a partir do laquocoreraquo

Em termos percentuais para aleacutem do facto de o laquocoreraquo ser muito menor do que se

imaginava Sherman salienta as seguintes laquodescobertasraquo

1 Para qualquer paacutegina de origem ou destino escolhida ao acaso a probabilidade de que

exista um laquohiperlinkraquo a partir do laquocoreraquo eacute apenas de 24

3

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

2 Se natildeo existe um laquolinkraquo directo entre as paacuteginas escolhidas ao acaso a distacircncia meacutedia

entre elas eacute de 16 laquolinksraquo ndash ou seja um laquobrowserraquo teraacute que clicar os laquolinksraquo em 16

paacuteginas para laacute chegar Esta distacircncia eacute menor que os 19 laquolinksraquo postulados por estudos

anteriores mas exclui 76 das paacuteginas que natildeo possuem laquolinksraquo directos

3 Se existe um laquolinkraquo indirecto ndash dos que podem ser seguidos para traacutes ou para a frente

acessiacuteveis aos laquospiderscrawlersraquo mas natildeo ao utilizador de um laquobrowserraquo ndash a meacutedia da

distacircncia eacute de 6 laquolinksraquo

4 Mais de 90 das paacuteginas da Web podem ser alcanccediladas umas a partir das outras desde

que possuam laquolinksraquo reversiacuteveis Estas conclusotildees tornam-se importantes na medida em que podem orientar os modos de pesquisa

individuais e mais ainda porque confirmam a existecircncia de grandes zonas de informaccedilatildeo a que se

natildeo acede com facilidade Sobre esta laquohidden Webraquo dizia Marcia Mardiz em 2001 Actualmente a WWW conteacutem uma quantidade aproximada de 74 milhotildees de sites (OCLC 2001) Poreacutem mesmo o pesquisador mais experimentado usando o motor de pesquisa mais robusto soacute consegue aceder a cerca de 16 dessas paacuteginas (Dahn 2001) Os outros 84 da informaccedilatildeo disponiacutevel ao puacuteblico satildeo chamados de Web laquoocultaraquo laquoinvisiacutevelraquo ou laquoprofundaraquo [8]

Entende entatildeo que a laquoweb ocultaraquo eacute 500 vezes maior que a zona indexada pelos laquobrowsersraquo e

nela se encontram documentos bases de dados e servidores que natildeo usam o html Satildeo

constituiacutedas principalmente por cerca de 550 milhotildees de documentos individuais pelas

informaccedilotildees mais recentes e conteuacutedos mais especiacuteficos 95 da informaccedilatildeo natildeo sujeita a

pagamento ou inscriccedilatildeo preacutevia Em termos de conteuacutedos seratildeo artigos imagens de museus bases

de dados relatoacuterios e trabalhos de investigaccedilatildeo especializados (ERIC) ndash sendo portanto o corpo

de informaccedilatildeo com maior qualidade Natildeo saber ao certo onde e como estaacute organizado o conhecimento eacute a primeira dificuldade

a ter em conta quando de uma tentativa de Recolha de Informaccedilatildeo A segunda teraacute ver com a

existecircncia de muacuteltiplos modos de indexaccedilatildeo usados pelas diversas colecccedilotildees

12 Indexaccedilatildeo e bases de dados O denominador comum da comunicaccedilatildeo inter-humana eacute a linguagem natural ndash escrita e falada

(Cada povo tem a sua ndash o que pode indicar que o inglecircs se esteja a tornar o laquoesperantoraquo virtual)

Todas as outras formas de indexaccedilatildeo satildeo auxiliares limitados que os humanos tecircm primeiro que

aprender antes de as poderem utilizar [9] A maior parte da informaccedilatildeo na Web ateacute haacute pouco era textual Comeccedila agora a ser

superada por som imagens e filmes As novas indexaccedilotildees teratildeo ainda que passar a incluir o

4

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

processamento de informaccedilatildeo digital electroacutenica com linguagens especiacuteficas [10] Isto interferiraacute

naturalmente com os modos como se passa a fazer a pesquisa levando a que se tenha que

aprender como se podem questionar as bases de dados natildeo-textuais [11] Segundo o Grupo

MIRA a interactividade afecta naturalmente a avaliaccedilatildeo dos processos de recolha de

informaccedilatildeo O modelo claacutessico do sistema de avaliaccedilatildeo da Recolha de Informaccedilatildeo iniciado pelas experiecircncias de Cranfield e actualmente manifestas no programa TREC demonstra muito claramente as suas origens na era de sistemas de recolha por laquobatchraquo O sistema eacute visto como aceitando uma pergunta bem definida (laquoqueryraquo ou toacutepico) e produzindo um resultado bem definido (uma lista de documentos) Poreacutem com os modernos sistemas interactivos esse modelo laquoinput-outputraquo estaacute claramente a tornar-se cada vez mais inadequado como representante da situaccedilatildeo de RI Um problema dominante na investigaccedilatildeo sobre RI eacute a questatildeo de saber qual o modelo ou modelos de que precisamos para o substituir Uma possiacutevel fonte de ideias e meacutetodos seratildeo trabalhos noutras aacutereas (fora da RI) para avaliaccedilatildeo das caracteriacutesticas HCI dos sistemas Poreacutem estes trabalhos sofrem duas limitaccedilotildees pelo menos no que respeita a sua aplicabilidade agrave RI [12]

Por sua vez aquela RI depende da forma como satildeo organizadas as bases de dados Em princiacutepio

embora na sua categorizaccedilatildeo e avaliaccedilatildeo estejam dependentes do elemento humano [13] satildeo

todas HDLs (Hypermedia Digital Libraries [Bibliotecas Digitais Hipermeacutedia]) porque se fundam

no paradigma do hipermeacutedia Existem poreacutem diferenccedilas entre dois tipos baacutesicos dois sistemas

representando cada um modelo de interacccedilatildeo um ambiente de busca de informaccedilatildeo distintos No modelo da biblioteca digital hipermeacutedia (WWW) ndash os utilizadores recorrem a um uacutenico

interface (laquobrowserraquo [motor de pesquisa]) para aplicar duas estrateacutegias de busca de informaccedilatildeo

(ISS ndash Information Seeking Strategies [Estrateacutegias de busca de informaccedilatildeo]) laquobrowsingraquo e

laquoqueeryraquo [pergunta] [14] Embora de utilizaccedilatildeo mais faacutecil nele natildeo existe separaccedilatildeo entre os

laquolinksraquo e os documentos por eles referidos suportam apenas uma estrutura graacutefica baacutesica dando

a ilusatildeo de possuir outras como a hierarquizaccedilatildeo de laquoclustersraquo [agrupamentosiacutendices temaacuteticos]

de documentos Atraveacutes do laquoclusteringraquo [15] oferecido pelos laquobrowsersraquo (ex Yahoo) [16]

podem multiplicar-se as estrateacutegias de RI mas sempre por intermeacutedio de um mesmo interface Haacute

ainda a hipoacutetese de se recorrer a vaacuterios laquobrowsersraquo em simultacircneo e embora a Web natildeo ofereccedila

nenhum protocolo para interacccedilatildeo e coordenaccedilatildeo entre laquobrowsersraquo [17] existem os meta-

pesquisadores [18] que desempenham essa funccedilatildeo (o antigo httpwwwhighway61com ou o

mais recente httpwwwmetacrawlercom pex) Por seu lado alguns laquobrowsersraquo estaratildeo a

tentar ultrapassar esta dificuldade como o HotbotLycos ndash que se laquopersonalizouraquo em Janeiro de

2003 passando natildeo soacute a patentear laquofiltrosraquo como ainda a permitir a transferecircncia da pesquisa

para outros motores Inktomi Fast Google ou Teoma O segundo modelo (OHS ndash Open

Hypermedia System [Sistema hipermeacutedia aberto]) eacute uma biblioteca idecircntica em termos de

5

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)

Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos

modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados

proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos

interfaces e diversas estrateacutegias de busca [19]

1 laquobrowsingraquo de documentos simples ou cruzados

2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto

3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo

4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas

(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de

informaccedilatildeo a ser investigado

5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado

de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em

termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as

medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]

13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]

caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como

um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si

criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos

documentos) Compreende quatro moacutedulos essenciais um processador de documentos um

processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de

ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do

acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de

documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao

tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo

inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias

aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que

se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]

ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a

6

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um

laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma

forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos

casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que

passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e

descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de

meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web

Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash

considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as

necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash

AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um

sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]

E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa

automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]

Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos

obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em

laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo

problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A

RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes

(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados

oferecidos e com o modo como satildeo adicionados os documentos [39]

7

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de

que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e

partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])

emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo

laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por

meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta

interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores

subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam

devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a

mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja

ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o

mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash

desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver

com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para

um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos

URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo

recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]

Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a

informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo

dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]

mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)

variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a

funcionalidade dos laquolinksraquo acima aventada por Chis Shermann

A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova

8

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]

E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]

Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que

demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e

pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo

enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais

visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse

relativamente agrave pergunta feita

15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre

depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada

laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e

laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder

interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do

momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que

apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados

OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de

informaccedilatildeo uacutetil [51]

9

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana

(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com

possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos

laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e

devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por

duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o

sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo

analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias

especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo

alterarem a laquoqueryraquo

Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]

Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que

estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda

segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]

E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento

laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]

10

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas

laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de

resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as

possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)

som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros

permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo

especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos

sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores

de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do

utilizador comum

16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases

de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente

bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon

1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a

eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo

dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo

relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)

desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se

destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o

problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)

Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo

inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma

siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-

oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde

a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo

mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir

uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI

11

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 2: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Da parte das instituiccedilotildees estatais e internacionais com a ONU agrave cabeccedila desenvolvem-se

diligecircncias para estabelecer uma norma ndash ISSS - Information Society Standardization System [2]

ndash que reuacutena num uacutenico coacutedigo as vaacuterias propostas jaacute aventadas mas a quantidade e diversidade

destas deixa prever que natildeo seja tatildeo cedo que se consiga um consenso mundial Da parte das universidades pode dar-se o exemplo do trabalho de Parker Rossman [3] que

esteve em Lisboa em 1999 a apresentar uma comunicaccedilatildeo ndash laquoProjectos e mapas arquitectura para

a universidade no ciberespaccediloraquo ndash [4] onde defende um laquoconsoacutercioraquo de e-meta-universidades a

contribuir para um saber comum e geral para uma mega-pesquisa ndash agrave imagem e semelhanccedila de

laquoThe Human Genome Projectraquo [httpwwwornlgovhgmis] ou laquoThe Global Knowledge

Partnershipraquo [httpwwwglobalknowledgeorg] ndash que fundamentasse a criaccedilatildeo de uma base de

dados global devidamente indexada Haacute ainda a tentativa de cartografar esse conhecimento e desenhar uma topologia a partir do

entendimento da net como uma rede de laquoroutersraquo associados por laquolinksraquo em que cada laquorouterraquo

pertenccedila a uma autoridade administrativa ou sistema autoacutenomo (AS) Soon-Hyung Yook

Hawoong Jeong e Albert-Laacuteszloacute Barabaacutesi [5] descobrem-lhe a topologia fiacutesica desenhaacutevel por

geradores e (relativamente) previsiacutevel Ou seja por mais pormenorizado que seja um modelo da Internet se os seus paracircmetros universais (a s Df) se desviarem dos que natildeo satildeo cobertos pelas mediccedilotildees a topologia de larga escala iraacute inevitavelmente diferir da Internet actual [6]

Poreacutem a topologia fiacutesica natildeo coincide necessariamente com a quantidade e tipo de

informaccedilotildees nela contida Satildeo muitas as provas da preocupaccedilatildeo com o mapear do conhecimento inserido na Web

[veja-se httpwwwcybergeographyorgatlasatlashtml por exemplo] mas a velocidade a que a

informaccedilatildeo eacute acrescentada e a sua quantidade tornam praticamente impossiacutevel estabelecer um

quadro fidedigno ou minimamente actualizado Haacute ateacute quem brinque e ofereccedila a possibilidade de

se chegar ao laquofimraquo da Internet [httpwwwshibumiorgEotI]

11 A rede escondida Entretanto as investigaccedilotildees natildeo param Em Maio de 2002 Chris Sherman divulga um estudo que

altera a ideia geral de que a net seja constituiacuteda por uma esfera de laquoclustersraquo de sites bem

interligados entre si Um novo mapa do ciberespaccedilo mostra que a Web se assemelha a um laccedilo de pescoccedilo [papillon] com limites divisoacuterios que podem tornar difiacutecil ou mesmo impossiacutevel a navegaccedilatildeo entre regiotildees de acordo com um novo estudo publicado por investigadores de AltaVista Compac e IBM As teorias preacutevias sugeriam que a Web estava altamente conectada com natildeo mais do que 19 graus de separaccedilatildeo

2

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

de um laquositeraquo Em contrapartida o novo mapa revela uma estrutura mais subtil que pode levar ao desenvolvimento de teacutecnicas de pesquisa pelos motores (searchers e crowlers) e uma maior compreensatildeo da sociologia da criaccedilatildeo de conteuacutedos e isso pode ajudar a prever a emergecircncia de novos fenoacutemenos na Web como os laquoWeb ringsraquo e laquoSpam clustersraquo [7]

Segundo esta teoria a net teraacute a seguinte a forma

laquoCoreraquo ndash [Cerne] seraacute o laquocoraccedilatildeoraquo da Web As paacuteginas no seu interior estatildeo fortemente

conectadas por laquocross-linkingraquo [interligaccedilotildees cruzadas] Satildeo os laquolinksraquo nas paacuteginas do

laquocoreraquo que permitem aos utilizadores viajar com relativa facilidade de umas para as

outras satildeo tambeacutem eles os mais provavelmente seguidos pelos laquobrowsersraquo laquoOriginationraquo ndash [De origem] paacuteginas que eventualmente permitem ao utilizador atingir o

laquocoreraquo mas que por si natildeo podem ser por ele acedidas Seratildeo paacuteginas obscuras que

ainda natildeo atraiacuteram a atenccedilatildeo da comunidade ou natildeo tecircm laquolinksraquo para as paacuteginas do

laquocoreraquo (ex Geocities e Tripod) laquoTerminationraquo ndash [Terminais] paacuteginas a que se pode aceder a partir de laquolinksraquo no laquocoreraquo

mas que natildeo tecircm ligaccedilatildeo de retorno satildeo laquodestinosraquo em si laquoDisconected pagesraquo ndash [Desligadas] podem ser ligadas a paacuteginas laquooriginationraquo

laquoterminationraquo mas natildeo eacute possiacutevel aceder-lhes directamente a partir do laquocoreraquo

Em termos percentuais para aleacutem do facto de o laquocoreraquo ser muito menor do que se

imaginava Sherman salienta as seguintes laquodescobertasraquo

1 Para qualquer paacutegina de origem ou destino escolhida ao acaso a probabilidade de que

exista um laquohiperlinkraquo a partir do laquocoreraquo eacute apenas de 24

3

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

2 Se natildeo existe um laquolinkraquo directo entre as paacuteginas escolhidas ao acaso a distacircncia meacutedia

entre elas eacute de 16 laquolinksraquo ndash ou seja um laquobrowserraquo teraacute que clicar os laquolinksraquo em 16

paacuteginas para laacute chegar Esta distacircncia eacute menor que os 19 laquolinksraquo postulados por estudos

anteriores mas exclui 76 das paacuteginas que natildeo possuem laquolinksraquo directos

3 Se existe um laquolinkraquo indirecto ndash dos que podem ser seguidos para traacutes ou para a frente

acessiacuteveis aos laquospiderscrawlersraquo mas natildeo ao utilizador de um laquobrowserraquo ndash a meacutedia da

distacircncia eacute de 6 laquolinksraquo

4 Mais de 90 das paacuteginas da Web podem ser alcanccediladas umas a partir das outras desde

que possuam laquolinksraquo reversiacuteveis Estas conclusotildees tornam-se importantes na medida em que podem orientar os modos de pesquisa

individuais e mais ainda porque confirmam a existecircncia de grandes zonas de informaccedilatildeo a que se

natildeo acede com facilidade Sobre esta laquohidden Webraquo dizia Marcia Mardiz em 2001 Actualmente a WWW conteacutem uma quantidade aproximada de 74 milhotildees de sites (OCLC 2001) Poreacutem mesmo o pesquisador mais experimentado usando o motor de pesquisa mais robusto soacute consegue aceder a cerca de 16 dessas paacuteginas (Dahn 2001) Os outros 84 da informaccedilatildeo disponiacutevel ao puacuteblico satildeo chamados de Web laquoocultaraquo laquoinvisiacutevelraquo ou laquoprofundaraquo [8]

Entende entatildeo que a laquoweb ocultaraquo eacute 500 vezes maior que a zona indexada pelos laquobrowsersraquo e

nela se encontram documentos bases de dados e servidores que natildeo usam o html Satildeo

constituiacutedas principalmente por cerca de 550 milhotildees de documentos individuais pelas

informaccedilotildees mais recentes e conteuacutedos mais especiacuteficos 95 da informaccedilatildeo natildeo sujeita a

pagamento ou inscriccedilatildeo preacutevia Em termos de conteuacutedos seratildeo artigos imagens de museus bases

de dados relatoacuterios e trabalhos de investigaccedilatildeo especializados (ERIC) ndash sendo portanto o corpo

de informaccedilatildeo com maior qualidade Natildeo saber ao certo onde e como estaacute organizado o conhecimento eacute a primeira dificuldade

a ter em conta quando de uma tentativa de Recolha de Informaccedilatildeo A segunda teraacute ver com a

existecircncia de muacuteltiplos modos de indexaccedilatildeo usados pelas diversas colecccedilotildees

12 Indexaccedilatildeo e bases de dados O denominador comum da comunicaccedilatildeo inter-humana eacute a linguagem natural ndash escrita e falada

(Cada povo tem a sua ndash o que pode indicar que o inglecircs se esteja a tornar o laquoesperantoraquo virtual)

Todas as outras formas de indexaccedilatildeo satildeo auxiliares limitados que os humanos tecircm primeiro que

aprender antes de as poderem utilizar [9] A maior parte da informaccedilatildeo na Web ateacute haacute pouco era textual Comeccedila agora a ser

superada por som imagens e filmes As novas indexaccedilotildees teratildeo ainda que passar a incluir o

4

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

processamento de informaccedilatildeo digital electroacutenica com linguagens especiacuteficas [10] Isto interferiraacute

naturalmente com os modos como se passa a fazer a pesquisa levando a que se tenha que

aprender como se podem questionar as bases de dados natildeo-textuais [11] Segundo o Grupo

MIRA a interactividade afecta naturalmente a avaliaccedilatildeo dos processos de recolha de

informaccedilatildeo O modelo claacutessico do sistema de avaliaccedilatildeo da Recolha de Informaccedilatildeo iniciado pelas experiecircncias de Cranfield e actualmente manifestas no programa TREC demonstra muito claramente as suas origens na era de sistemas de recolha por laquobatchraquo O sistema eacute visto como aceitando uma pergunta bem definida (laquoqueryraquo ou toacutepico) e produzindo um resultado bem definido (uma lista de documentos) Poreacutem com os modernos sistemas interactivos esse modelo laquoinput-outputraquo estaacute claramente a tornar-se cada vez mais inadequado como representante da situaccedilatildeo de RI Um problema dominante na investigaccedilatildeo sobre RI eacute a questatildeo de saber qual o modelo ou modelos de que precisamos para o substituir Uma possiacutevel fonte de ideias e meacutetodos seratildeo trabalhos noutras aacutereas (fora da RI) para avaliaccedilatildeo das caracteriacutesticas HCI dos sistemas Poreacutem estes trabalhos sofrem duas limitaccedilotildees pelo menos no que respeita a sua aplicabilidade agrave RI [12]

Por sua vez aquela RI depende da forma como satildeo organizadas as bases de dados Em princiacutepio

embora na sua categorizaccedilatildeo e avaliaccedilatildeo estejam dependentes do elemento humano [13] satildeo

todas HDLs (Hypermedia Digital Libraries [Bibliotecas Digitais Hipermeacutedia]) porque se fundam

no paradigma do hipermeacutedia Existem poreacutem diferenccedilas entre dois tipos baacutesicos dois sistemas

representando cada um modelo de interacccedilatildeo um ambiente de busca de informaccedilatildeo distintos No modelo da biblioteca digital hipermeacutedia (WWW) ndash os utilizadores recorrem a um uacutenico

interface (laquobrowserraquo [motor de pesquisa]) para aplicar duas estrateacutegias de busca de informaccedilatildeo

(ISS ndash Information Seeking Strategies [Estrateacutegias de busca de informaccedilatildeo]) laquobrowsingraquo e

laquoqueeryraquo [pergunta] [14] Embora de utilizaccedilatildeo mais faacutecil nele natildeo existe separaccedilatildeo entre os

laquolinksraquo e os documentos por eles referidos suportam apenas uma estrutura graacutefica baacutesica dando

a ilusatildeo de possuir outras como a hierarquizaccedilatildeo de laquoclustersraquo [agrupamentosiacutendices temaacuteticos]

de documentos Atraveacutes do laquoclusteringraquo [15] oferecido pelos laquobrowsersraquo (ex Yahoo) [16]

podem multiplicar-se as estrateacutegias de RI mas sempre por intermeacutedio de um mesmo interface Haacute

ainda a hipoacutetese de se recorrer a vaacuterios laquobrowsersraquo em simultacircneo e embora a Web natildeo ofereccedila

nenhum protocolo para interacccedilatildeo e coordenaccedilatildeo entre laquobrowsersraquo [17] existem os meta-

pesquisadores [18] que desempenham essa funccedilatildeo (o antigo httpwwwhighway61com ou o

mais recente httpwwwmetacrawlercom pex) Por seu lado alguns laquobrowsersraquo estaratildeo a

tentar ultrapassar esta dificuldade como o HotbotLycos ndash que se laquopersonalizouraquo em Janeiro de

2003 passando natildeo soacute a patentear laquofiltrosraquo como ainda a permitir a transferecircncia da pesquisa

para outros motores Inktomi Fast Google ou Teoma O segundo modelo (OHS ndash Open

Hypermedia System [Sistema hipermeacutedia aberto]) eacute uma biblioteca idecircntica em termos de

5

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)

Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos

modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados

proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos

interfaces e diversas estrateacutegias de busca [19]

1 laquobrowsingraquo de documentos simples ou cruzados

2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto

3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo

4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas

(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de

informaccedilatildeo a ser investigado

5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado

de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em

termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as

medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]

13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]

caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como

um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si

criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos

documentos) Compreende quatro moacutedulos essenciais um processador de documentos um

processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de

ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do

acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de

documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao

tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo

inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias

aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que

se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]

ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a

6

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um

laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma

forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos

casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que

passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e

descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de

meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web

Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash

considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as

necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash

AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um

sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]

E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa

automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]

Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos

obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em

laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo

problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A

RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes

(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados

oferecidos e com o modo como satildeo adicionados os documentos [39]

7

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de

que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e

partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])

emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo

laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por

meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta

interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores

subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam

devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a

mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja

ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o

mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash

desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver

com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para

um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos

URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo

recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]

Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a

informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo

dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]

mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)

variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a

funcionalidade dos laquolinksraquo acima aventada por Chis Shermann

A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova

8

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]

E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]

Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que

demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e

pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo

enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais

visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse

relativamente agrave pergunta feita

15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre

depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada

laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e

laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder

interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do

momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que

apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados

OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de

informaccedilatildeo uacutetil [51]

9

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana

(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com

possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos

laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e

devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por

duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o

sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo

analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias

especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo

alterarem a laquoqueryraquo

Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]

Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que

estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda

segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]

E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento

laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]

10

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas

laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de

resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as

possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)

som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros

permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo

especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos

sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores

de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do

utilizador comum

16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases

de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente

bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon

1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a

eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo

dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo

relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)

desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se

destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o

problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)

Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo

inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma

siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-

oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde

a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo

mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir

uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI

11

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 3: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

de um laquositeraquo Em contrapartida o novo mapa revela uma estrutura mais subtil que pode levar ao desenvolvimento de teacutecnicas de pesquisa pelos motores (searchers e crowlers) e uma maior compreensatildeo da sociologia da criaccedilatildeo de conteuacutedos e isso pode ajudar a prever a emergecircncia de novos fenoacutemenos na Web como os laquoWeb ringsraquo e laquoSpam clustersraquo [7]

Segundo esta teoria a net teraacute a seguinte a forma

laquoCoreraquo ndash [Cerne] seraacute o laquocoraccedilatildeoraquo da Web As paacuteginas no seu interior estatildeo fortemente

conectadas por laquocross-linkingraquo [interligaccedilotildees cruzadas] Satildeo os laquolinksraquo nas paacuteginas do

laquocoreraquo que permitem aos utilizadores viajar com relativa facilidade de umas para as

outras satildeo tambeacutem eles os mais provavelmente seguidos pelos laquobrowsersraquo laquoOriginationraquo ndash [De origem] paacuteginas que eventualmente permitem ao utilizador atingir o

laquocoreraquo mas que por si natildeo podem ser por ele acedidas Seratildeo paacuteginas obscuras que

ainda natildeo atraiacuteram a atenccedilatildeo da comunidade ou natildeo tecircm laquolinksraquo para as paacuteginas do

laquocoreraquo (ex Geocities e Tripod) laquoTerminationraquo ndash [Terminais] paacuteginas a que se pode aceder a partir de laquolinksraquo no laquocoreraquo

mas que natildeo tecircm ligaccedilatildeo de retorno satildeo laquodestinosraquo em si laquoDisconected pagesraquo ndash [Desligadas] podem ser ligadas a paacuteginas laquooriginationraquo

laquoterminationraquo mas natildeo eacute possiacutevel aceder-lhes directamente a partir do laquocoreraquo

Em termos percentuais para aleacutem do facto de o laquocoreraquo ser muito menor do que se

imaginava Sherman salienta as seguintes laquodescobertasraquo

1 Para qualquer paacutegina de origem ou destino escolhida ao acaso a probabilidade de que

exista um laquohiperlinkraquo a partir do laquocoreraquo eacute apenas de 24

3

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

2 Se natildeo existe um laquolinkraquo directo entre as paacuteginas escolhidas ao acaso a distacircncia meacutedia

entre elas eacute de 16 laquolinksraquo ndash ou seja um laquobrowserraquo teraacute que clicar os laquolinksraquo em 16

paacuteginas para laacute chegar Esta distacircncia eacute menor que os 19 laquolinksraquo postulados por estudos

anteriores mas exclui 76 das paacuteginas que natildeo possuem laquolinksraquo directos

3 Se existe um laquolinkraquo indirecto ndash dos que podem ser seguidos para traacutes ou para a frente

acessiacuteveis aos laquospiderscrawlersraquo mas natildeo ao utilizador de um laquobrowserraquo ndash a meacutedia da

distacircncia eacute de 6 laquolinksraquo

4 Mais de 90 das paacuteginas da Web podem ser alcanccediladas umas a partir das outras desde

que possuam laquolinksraquo reversiacuteveis Estas conclusotildees tornam-se importantes na medida em que podem orientar os modos de pesquisa

individuais e mais ainda porque confirmam a existecircncia de grandes zonas de informaccedilatildeo a que se

natildeo acede com facilidade Sobre esta laquohidden Webraquo dizia Marcia Mardiz em 2001 Actualmente a WWW conteacutem uma quantidade aproximada de 74 milhotildees de sites (OCLC 2001) Poreacutem mesmo o pesquisador mais experimentado usando o motor de pesquisa mais robusto soacute consegue aceder a cerca de 16 dessas paacuteginas (Dahn 2001) Os outros 84 da informaccedilatildeo disponiacutevel ao puacuteblico satildeo chamados de Web laquoocultaraquo laquoinvisiacutevelraquo ou laquoprofundaraquo [8]

Entende entatildeo que a laquoweb ocultaraquo eacute 500 vezes maior que a zona indexada pelos laquobrowsersraquo e

nela se encontram documentos bases de dados e servidores que natildeo usam o html Satildeo

constituiacutedas principalmente por cerca de 550 milhotildees de documentos individuais pelas

informaccedilotildees mais recentes e conteuacutedos mais especiacuteficos 95 da informaccedilatildeo natildeo sujeita a

pagamento ou inscriccedilatildeo preacutevia Em termos de conteuacutedos seratildeo artigos imagens de museus bases

de dados relatoacuterios e trabalhos de investigaccedilatildeo especializados (ERIC) ndash sendo portanto o corpo

de informaccedilatildeo com maior qualidade Natildeo saber ao certo onde e como estaacute organizado o conhecimento eacute a primeira dificuldade

a ter em conta quando de uma tentativa de Recolha de Informaccedilatildeo A segunda teraacute ver com a

existecircncia de muacuteltiplos modos de indexaccedilatildeo usados pelas diversas colecccedilotildees

12 Indexaccedilatildeo e bases de dados O denominador comum da comunicaccedilatildeo inter-humana eacute a linguagem natural ndash escrita e falada

(Cada povo tem a sua ndash o que pode indicar que o inglecircs se esteja a tornar o laquoesperantoraquo virtual)

Todas as outras formas de indexaccedilatildeo satildeo auxiliares limitados que os humanos tecircm primeiro que

aprender antes de as poderem utilizar [9] A maior parte da informaccedilatildeo na Web ateacute haacute pouco era textual Comeccedila agora a ser

superada por som imagens e filmes As novas indexaccedilotildees teratildeo ainda que passar a incluir o

4

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

processamento de informaccedilatildeo digital electroacutenica com linguagens especiacuteficas [10] Isto interferiraacute

naturalmente com os modos como se passa a fazer a pesquisa levando a que se tenha que

aprender como se podem questionar as bases de dados natildeo-textuais [11] Segundo o Grupo

MIRA a interactividade afecta naturalmente a avaliaccedilatildeo dos processos de recolha de

informaccedilatildeo O modelo claacutessico do sistema de avaliaccedilatildeo da Recolha de Informaccedilatildeo iniciado pelas experiecircncias de Cranfield e actualmente manifestas no programa TREC demonstra muito claramente as suas origens na era de sistemas de recolha por laquobatchraquo O sistema eacute visto como aceitando uma pergunta bem definida (laquoqueryraquo ou toacutepico) e produzindo um resultado bem definido (uma lista de documentos) Poreacutem com os modernos sistemas interactivos esse modelo laquoinput-outputraquo estaacute claramente a tornar-se cada vez mais inadequado como representante da situaccedilatildeo de RI Um problema dominante na investigaccedilatildeo sobre RI eacute a questatildeo de saber qual o modelo ou modelos de que precisamos para o substituir Uma possiacutevel fonte de ideias e meacutetodos seratildeo trabalhos noutras aacutereas (fora da RI) para avaliaccedilatildeo das caracteriacutesticas HCI dos sistemas Poreacutem estes trabalhos sofrem duas limitaccedilotildees pelo menos no que respeita a sua aplicabilidade agrave RI [12]

Por sua vez aquela RI depende da forma como satildeo organizadas as bases de dados Em princiacutepio

embora na sua categorizaccedilatildeo e avaliaccedilatildeo estejam dependentes do elemento humano [13] satildeo

todas HDLs (Hypermedia Digital Libraries [Bibliotecas Digitais Hipermeacutedia]) porque se fundam

no paradigma do hipermeacutedia Existem poreacutem diferenccedilas entre dois tipos baacutesicos dois sistemas

representando cada um modelo de interacccedilatildeo um ambiente de busca de informaccedilatildeo distintos No modelo da biblioteca digital hipermeacutedia (WWW) ndash os utilizadores recorrem a um uacutenico

interface (laquobrowserraquo [motor de pesquisa]) para aplicar duas estrateacutegias de busca de informaccedilatildeo

(ISS ndash Information Seeking Strategies [Estrateacutegias de busca de informaccedilatildeo]) laquobrowsingraquo e

laquoqueeryraquo [pergunta] [14] Embora de utilizaccedilatildeo mais faacutecil nele natildeo existe separaccedilatildeo entre os

laquolinksraquo e os documentos por eles referidos suportam apenas uma estrutura graacutefica baacutesica dando

a ilusatildeo de possuir outras como a hierarquizaccedilatildeo de laquoclustersraquo [agrupamentosiacutendices temaacuteticos]

de documentos Atraveacutes do laquoclusteringraquo [15] oferecido pelos laquobrowsersraquo (ex Yahoo) [16]

podem multiplicar-se as estrateacutegias de RI mas sempre por intermeacutedio de um mesmo interface Haacute

ainda a hipoacutetese de se recorrer a vaacuterios laquobrowsersraquo em simultacircneo e embora a Web natildeo ofereccedila

nenhum protocolo para interacccedilatildeo e coordenaccedilatildeo entre laquobrowsersraquo [17] existem os meta-

pesquisadores [18] que desempenham essa funccedilatildeo (o antigo httpwwwhighway61com ou o

mais recente httpwwwmetacrawlercom pex) Por seu lado alguns laquobrowsersraquo estaratildeo a

tentar ultrapassar esta dificuldade como o HotbotLycos ndash que se laquopersonalizouraquo em Janeiro de

2003 passando natildeo soacute a patentear laquofiltrosraquo como ainda a permitir a transferecircncia da pesquisa

para outros motores Inktomi Fast Google ou Teoma O segundo modelo (OHS ndash Open

Hypermedia System [Sistema hipermeacutedia aberto]) eacute uma biblioteca idecircntica em termos de

5

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)

Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos

modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados

proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos

interfaces e diversas estrateacutegias de busca [19]

1 laquobrowsingraquo de documentos simples ou cruzados

2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto

3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo

4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas

(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de

informaccedilatildeo a ser investigado

5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado

de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em

termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as

medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]

13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]

caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como

um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si

criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos

documentos) Compreende quatro moacutedulos essenciais um processador de documentos um

processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de

ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do

acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de

documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao

tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo

inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias

aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que

se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]

ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a

6

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um

laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma

forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos

casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que

passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e

descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de

meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web

Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash

considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as

necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash

AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um

sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]

E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa

automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]

Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos

obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em

laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo

problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A

RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes

(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados

oferecidos e com o modo como satildeo adicionados os documentos [39]

7

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de

que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e

partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])

emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo

laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por

meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta

interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores

subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam

devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a

mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja

ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o

mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash

desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver

com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para

um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos

URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo

recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]

Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a

informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo

dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]

mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)

variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a

funcionalidade dos laquolinksraquo acima aventada por Chis Shermann

A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova

8

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]

E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]

Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que

demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e

pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo

enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais

visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse

relativamente agrave pergunta feita

15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre

depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada

laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e

laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder

interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do

momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que

apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados

OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de

informaccedilatildeo uacutetil [51]

9

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana

(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com

possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos

laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e

devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por

duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o

sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo

analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias

especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo

alterarem a laquoqueryraquo

Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]

Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que

estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda

segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]

E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento

laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]

10

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas

laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de

resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as

possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)

som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros

permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo

especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos

sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores

de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do

utilizador comum

16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases

de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente

bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon

1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a

eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo

dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo

relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)

desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se

destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o

problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)

Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo

inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma

siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-

oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde

a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo

mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir

uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI

11

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 4: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

2 Se natildeo existe um laquolinkraquo directo entre as paacuteginas escolhidas ao acaso a distacircncia meacutedia

entre elas eacute de 16 laquolinksraquo ndash ou seja um laquobrowserraquo teraacute que clicar os laquolinksraquo em 16

paacuteginas para laacute chegar Esta distacircncia eacute menor que os 19 laquolinksraquo postulados por estudos

anteriores mas exclui 76 das paacuteginas que natildeo possuem laquolinksraquo directos

3 Se existe um laquolinkraquo indirecto ndash dos que podem ser seguidos para traacutes ou para a frente

acessiacuteveis aos laquospiderscrawlersraquo mas natildeo ao utilizador de um laquobrowserraquo ndash a meacutedia da

distacircncia eacute de 6 laquolinksraquo

4 Mais de 90 das paacuteginas da Web podem ser alcanccediladas umas a partir das outras desde

que possuam laquolinksraquo reversiacuteveis Estas conclusotildees tornam-se importantes na medida em que podem orientar os modos de pesquisa

individuais e mais ainda porque confirmam a existecircncia de grandes zonas de informaccedilatildeo a que se

natildeo acede com facilidade Sobre esta laquohidden Webraquo dizia Marcia Mardiz em 2001 Actualmente a WWW conteacutem uma quantidade aproximada de 74 milhotildees de sites (OCLC 2001) Poreacutem mesmo o pesquisador mais experimentado usando o motor de pesquisa mais robusto soacute consegue aceder a cerca de 16 dessas paacuteginas (Dahn 2001) Os outros 84 da informaccedilatildeo disponiacutevel ao puacuteblico satildeo chamados de Web laquoocultaraquo laquoinvisiacutevelraquo ou laquoprofundaraquo [8]

Entende entatildeo que a laquoweb ocultaraquo eacute 500 vezes maior que a zona indexada pelos laquobrowsersraquo e

nela se encontram documentos bases de dados e servidores que natildeo usam o html Satildeo

constituiacutedas principalmente por cerca de 550 milhotildees de documentos individuais pelas

informaccedilotildees mais recentes e conteuacutedos mais especiacuteficos 95 da informaccedilatildeo natildeo sujeita a

pagamento ou inscriccedilatildeo preacutevia Em termos de conteuacutedos seratildeo artigos imagens de museus bases

de dados relatoacuterios e trabalhos de investigaccedilatildeo especializados (ERIC) ndash sendo portanto o corpo

de informaccedilatildeo com maior qualidade Natildeo saber ao certo onde e como estaacute organizado o conhecimento eacute a primeira dificuldade

a ter em conta quando de uma tentativa de Recolha de Informaccedilatildeo A segunda teraacute ver com a

existecircncia de muacuteltiplos modos de indexaccedilatildeo usados pelas diversas colecccedilotildees

12 Indexaccedilatildeo e bases de dados O denominador comum da comunicaccedilatildeo inter-humana eacute a linguagem natural ndash escrita e falada

(Cada povo tem a sua ndash o que pode indicar que o inglecircs se esteja a tornar o laquoesperantoraquo virtual)

Todas as outras formas de indexaccedilatildeo satildeo auxiliares limitados que os humanos tecircm primeiro que

aprender antes de as poderem utilizar [9] A maior parte da informaccedilatildeo na Web ateacute haacute pouco era textual Comeccedila agora a ser

superada por som imagens e filmes As novas indexaccedilotildees teratildeo ainda que passar a incluir o

4

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

processamento de informaccedilatildeo digital electroacutenica com linguagens especiacuteficas [10] Isto interferiraacute

naturalmente com os modos como se passa a fazer a pesquisa levando a que se tenha que

aprender como se podem questionar as bases de dados natildeo-textuais [11] Segundo o Grupo

MIRA a interactividade afecta naturalmente a avaliaccedilatildeo dos processos de recolha de

informaccedilatildeo O modelo claacutessico do sistema de avaliaccedilatildeo da Recolha de Informaccedilatildeo iniciado pelas experiecircncias de Cranfield e actualmente manifestas no programa TREC demonstra muito claramente as suas origens na era de sistemas de recolha por laquobatchraquo O sistema eacute visto como aceitando uma pergunta bem definida (laquoqueryraquo ou toacutepico) e produzindo um resultado bem definido (uma lista de documentos) Poreacutem com os modernos sistemas interactivos esse modelo laquoinput-outputraquo estaacute claramente a tornar-se cada vez mais inadequado como representante da situaccedilatildeo de RI Um problema dominante na investigaccedilatildeo sobre RI eacute a questatildeo de saber qual o modelo ou modelos de que precisamos para o substituir Uma possiacutevel fonte de ideias e meacutetodos seratildeo trabalhos noutras aacutereas (fora da RI) para avaliaccedilatildeo das caracteriacutesticas HCI dos sistemas Poreacutem estes trabalhos sofrem duas limitaccedilotildees pelo menos no que respeita a sua aplicabilidade agrave RI [12]

Por sua vez aquela RI depende da forma como satildeo organizadas as bases de dados Em princiacutepio

embora na sua categorizaccedilatildeo e avaliaccedilatildeo estejam dependentes do elemento humano [13] satildeo

todas HDLs (Hypermedia Digital Libraries [Bibliotecas Digitais Hipermeacutedia]) porque se fundam

no paradigma do hipermeacutedia Existem poreacutem diferenccedilas entre dois tipos baacutesicos dois sistemas

representando cada um modelo de interacccedilatildeo um ambiente de busca de informaccedilatildeo distintos No modelo da biblioteca digital hipermeacutedia (WWW) ndash os utilizadores recorrem a um uacutenico

interface (laquobrowserraquo [motor de pesquisa]) para aplicar duas estrateacutegias de busca de informaccedilatildeo

(ISS ndash Information Seeking Strategies [Estrateacutegias de busca de informaccedilatildeo]) laquobrowsingraquo e

laquoqueeryraquo [pergunta] [14] Embora de utilizaccedilatildeo mais faacutecil nele natildeo existe separaccedilatildeo entre os

laquolinksraquo e os documentos por eles referidos suportam apenas uma estrutura graacutefica baacutesica dando

a ilusatildeo de possuir outras como a hierarquizaccedilatildeo de laquoclustersraquo [agrupamentosiacutendices temaacuteticos]

de documentos Atraveacutes do laquoclusteringraquo [15] oferecido pelos laquobrowsersraquo (ex Yahoo) [16]

podem multiplicar-se as estrateacutegias de RI mas sempre por intermeacutedio de um mesmo interface Haacute

ainda a hipoacutetese de se recorrer a vaacuterios laquobrowsersraquo em simultacircneo e embora a Web natildeo ofereccedila

nenhum protocolo para interacccedilatildeo e coordenaccedilatildeo entre laquobrowsersraquo [17] existem os meta-

pesquisadores [18] que desempenham essa funccedilatildeo (o antigo httpwwwhighway61com ou o

mais recente httpwwwmetacrawlercom pex) Por seu lado alguns laquobrowsersraquo estaratildeo a

tentar ultrapassar esta dificuldade como o HotbotLycos ndash que se laquopersonalizouraquo em Janeiro de

2003 passando natildeo soacute a patentear laquofiltrosraquo como ainda a permitir a transferecircncia da pesquisa

para outros motores Inktomi Fast Google ou Teoma O segundo modelo (OHS ndash Open

Hypermedia System [Sistema hipermeacutedia aberto]) eacute uma biblioteca idecircntica em termos de

5

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)

Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos

modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados

proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos

interfaces e diversas estrateacutegias de busca [19]

1 laquobrowsingraquo de documentos simples ou cruzados

2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto

3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo

4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas

(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de

informaccedilatildeo a ser investigado

5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado

de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em

termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as

medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]

13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]

caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como

um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si

criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos

documentos) Compreende quatro moacutedulos essenciais um processador de documentos um

processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de

ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do

acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de

documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao

tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo

inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias

aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que

se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]

ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a

6

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um

laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma

forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos

casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que

passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e

descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de

meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web

Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash

considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as

necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash

AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um

sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]

E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa

automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]

Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos

obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em

laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo

problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A

RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes

(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados

oferecidos e com o modo como satildeo adicionados os documentos [39]

7

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de

que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e

partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])

emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo

laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por

meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta

interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores

subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam

devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a

mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja

ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o

mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash

desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver

com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para

um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos

URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo

recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]

Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a

informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo

dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]

mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)

variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a

funcionalidade dos laquolinksraquo acima aventada por Chis Shermann

A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova

8

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]

E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]

Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que

demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e

pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo

enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais

visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse

relativamente agrave pergunta feita

15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre

depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada

laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e

laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder

interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do

momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que

apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados

OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de

informaccedilatildeo uacutetil [51]

9

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana

(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com

possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos

laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e

devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por

duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o

sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo

analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias

especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo

alterarem a laquoqueryraquo

Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]

Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que

estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda

segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]

E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento

laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]

10

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas

laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de

resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as

possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)

som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros

permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo

especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos

sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores

de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do

utilizador comum

16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases

de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente

bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon

1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a

eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo

dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo

relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)

desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se

destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o

problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)

Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo

inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma

siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-

oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde

a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo

mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir

uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI

11

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 5: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

processamento de informaccedilatildeo digital electroacutenica com linguagens especiacuteficas [10] Isto interferiraacute

naturalmente com os modos como se passa a fazer a pesquisa levando a que se tenha que

aprender como se podem questionar as bases de dados natildeo-textuais [11] Segundo o Grupo

MIRA a interactividade afecta naturalmente a avaliaccedilatildeo dos processos de recolha de

informaccedilatildeo O modelo claacutessico do sistema de avaliaccedilatildeo da Recolha de Informaccedilatildeo iniciado pelas experiecircncias de Cranfield e actualmente manifestas no programa TREC demonstra muito claramente as suas origens na era de sistemas de recolha por laquobatchraquo O sistema eacute visto como aceitando uma pergunta bem definida (laquoqueryraquo ou toacutepico) e produzindo um resultado bem definido (uma lista de documentos) Poreacutem com os modernos sistemas interactivos esse modelo laquoinput-outputraquo estaacute claramente a tornar-se cada vez mais inadequado como representante da situaccedilatildeo de RI Um problema dominante na investigaccedilatildeo sobre RI eacute a questatildeo de saber qual o modelo ou modelos de que precisamos para o substituir Uma possiacutevel fonte de ideias e meacutetodos seratildeo trabalhos noutras aacutereas (fora da RI) para avaliaccedilatildeo das caracteriacutesticas HCI dos sistemas Poreacutem estes trabalhos sofrem duas limitaccedilotildees pelo menos no que respeita a sua aplicabilidade agrave RI [12]

Por sua vez aquela RI depende da forma como satildeo organizadas as bases de dados Em princiacutepio

embora na sua categorizaccedilatildeo e avaliaccedilatildeo estejam dependentes do elemento humano [13] satildeo

todas HDLs (Hypermedia Digital Libraries [Bibliotecas Digitais Hipermeacutedia]) porque se fundam

no paradigma do hipermeacutedia Existem poreacutem diferenccedilas entre dois tipos baacutesicos dois sistemas

representando cada um modelo de interacccedilatildeo um ambiente de busca de informaccedilatildeo distintos No modelo da biblioteca digital hipermeacutedia (WWW) ndash os utilizadores recorrem a um uacutenico

interface (laquobrowserraquo [motor de pesquisa]) para aplicar duas estrateacutegias de busca de informaccedilatildeo

(ISS ndash Information Seeking Strategies [Estrateacutegias de busca de informaccedilatildeo]) laquobrowsingraquo e

laquoqueeryraquo [pergunta] [14] Embora de utilizaccedilatildeo mais faacutecil nele natildeo existe separaccedilatildeo entre os

laquolinksraquo e os documentos por eles referidos suportam apenas uma estrutura graacutefica baacutesica dando

a ilusatildeo de possuir outras como a hierarquizaccedilatildeo de laquoclustersraquo [agrupamentosiacutendices temaacuteticos]

de documentos Atraveacutes do laquoclusteringraquo [15] oferecido pelos laquobrowsersraquo (ex Yahoo) [16]

podem multiplicar-se as estrateacutegias de RI mas sempre por intermeacutedio de um mesmo interface Haacute

ainda a hipoacutetese de se recorrer a vaacuterios laquobrowsersraquo em simultacircneo e embora a Web natildeo ofereccedila

nenhum protocolo para interacccedilatildeo e coordenaccedilatildeo entre laquobrowsersraquo [17] existem os meta-

pesquisadores [18] que desempenham essa funccedilatildeo (o antigo httpwwwhighway61com ou o

mais recente httpwwwmetacrawlercom pex) Por seu lado alguns laquobrowsersraquo estaratildeo a

tentar ultrapassar esta dificuldade como o HotbotLycos ndash que se laquopersonalizouraquo em Janeiro de

2003 passando natildeo soacute a patentear laquofiltrosraquo como ainda a permitir a transferecircncia da pesquisa

para outros motores Inktomi Fast Google ou Teoma O segundo modelo (OHS ndash Open

Hypermedia System [Sistema hipermeacutedia aberto]) eacute uma biblioteca idecircntica em termos de

5

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)

Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos

modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados

proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos

interfaces e diversas estrateacutegias de busca [19]

1 laquobrowsingraquo de documentos simples ou cruzados

2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto

3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo

4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas

(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de

informaccedilatildeo a ser investigado

5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado

de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em

termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as

medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]

13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]

caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como

um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si

criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos

documentos) Compreende quatro moacutedulos essenciais um processador de documentos um

processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de

ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do

acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de

documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao

tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo

inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias

aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que

se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]

ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a

6

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um

laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma

forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos

casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que

passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e

descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de

meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web

Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash

considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as

necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash

AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um

sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]

E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa

automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]

Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos

obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em

laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo

problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A

RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes

(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados

oferecidos e com o modo como satildeo adicionados os documentos [39]

7

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de

que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e

partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])

emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo

laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por

meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta

interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores

subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam

devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a

mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja

ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o

mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash

desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver

com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para

um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos

URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo

recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]

Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a

informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo

dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]

mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)

variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a

funcionalidade dos laquolinksraquo acima aventada por Chis Shermann

A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova

8

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]

E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]

Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que

demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e

pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo

enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais

visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse

relativamente agrave pergunta feita

15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre

depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada

laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e

laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder

interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do

momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que

apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados

OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de

informaccedilatildeo uacutetil [51]

9

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana

(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com

possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos

laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e

devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por

duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o

sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo

analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias

especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo

alterarem a laquoqueryraquo

Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]

Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que

estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda

segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]

E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento

laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]

10

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas

laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de

resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as

possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)

som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros

permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo

especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos

sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores

de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do

utilizador comum

16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases

de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente

bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon

1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a

eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo

dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo

relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)

desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se

destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o

problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)

Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo

inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma

siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-

oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde

a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo

mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir

uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI

11

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 6: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

organizaccedilatildeo e conteuacutedos mas que se baseia em Agentes Hipermeacutedia (HA-Hypermedia Agents)

Os laquolinksraquo satildeo armazenados de modo externo e independente dos referentes satildeo permitidos

modelos de informaccedilatildeo mais avanccedilados e hierarquizaccedilotildees mais elaboradas Este sistema de dados

proporciona uma forma de interactividade em que se pode recorrer em paralelo a muacuteltiplos

interfaces e diversas estrateacutegias de busca [19]

1 laquobrowsingraquo de documentos simples ou cruzados

2 laquobrowsingraquo dos laquoclustersraquo ndash que exibem objectos de informaccedilatildeo em bruto

3 laquobrowsingraquo hieraacuterquico ndash mostrando hierarquias de outros compoacutesitos e laquoclustersraquo

4 Pesquisa em iacutendices de conteuacutedos suportadas por Agentes Hipermeacutedia de Bibliotecas

(HLA ndash Hipermedia Library Agents) que oferecem uma visatildeo de conjunto do espaccedilo de

informaccedilatildeo a ser investigado

5 Busca por laquoqueryraquo em colecccedilotildees simples e muacuteltiplas apoiada por um agente especializado

de nome Information Retrieval (IR) HA A diversidade da construccedilatildeo destas colecccedilotildees implicaraacute naturalmente resultados diferentes em

termos de pesquisa e logo em termos de avaliaccedilatildeo de RI Em sistemas do modelo como OHS as

medidas de laquoRecallraquo e laquoPrecisatildeoraquo por exemplo perdem parte da sua importacircncia [20]

13 Tipos de motores de pesquisa Encontra-se uma legiatildeo de estudos [21] sobre os motores de pesquisa a sua eficaacutecia [22]

caracteriacutesticas e modos de funcionamento [23] Mas em termos imediatos apresentam-se como

um sistema de recolha de informaccedilatildeo que confronta uma pergunta (laquoqueryraquo) com um iacutendice por si

criado (as palavras em cada documento os indicadores para a respectiva localizaccedilatildeo dentro dos

documentos) Compreende quatro moacutedulos essenciais um processador de documentos um

processador de perguntas (laquoqueryraquo) uma funccedilatildeo de busca e comparaccedilatildeo a possibilidade de

ordenar hierarquicamente as perguntasdocumentos [24] As avaliaccedilotildees satildeo feitas em termos do

acircmbito da pesquisa (acesso a dados no maior nuacutemero possiacutevel de zonas [25]) quantidade de

documentos auto-indexados velocidade da recolha [26] e hipoacuteteses de cingir as respostas ao

tema da pergunta [27] De um modo geral todos os laquobrowsersraquo estatildeo a funcionar em cima do grande arquivo

inicial que natildeo foi normalizado sobrepondo-se por vezes em zonas comuns [28] Todos os dias

aparecem novos servidores e portais desaparecem outros [29] ou fundem-se entre si [30] Relativamente aos portais mudou a qualidade dos motores e directoacuterios (Yahoo) com que

se providenciam O AltaVista perdeu terreno relativamente ao Yahoo e o Google [31]

ultrapassou todos de repente As capacidades de indexaccedilatildeo [32] e o tamanho dos iacutendices a

6

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um

laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma

forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos

casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que

passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e

descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de

meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web

Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash

considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as

necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash

AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um

sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]

E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa

automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]

Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos

obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em

laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo

problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A

RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes

(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados

oferecidos e com o modo como satildeo adicionados os documentos [39]

7

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de

que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e

partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])

emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo

laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por

meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta

interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores

subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam

devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a

mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja

ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o

mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash

desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver

com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para

um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos

URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo

recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]

Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a

informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo

dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]

mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)

variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a

funcionalidade dos laquolinksraquo acima aventada por Chis Shermann

A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova

8

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]

E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]

Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que

demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e

pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo

enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais

visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse

relativamente agrave pergunta feita

15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre

depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada

laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e

laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder

interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do

momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que

apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados

OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de

informaccedilatildeo uacutetil [51]

9

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana

(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com

possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos

laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e

devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por

duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o

sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo

analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias

especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo

alterarem a laquoqueryraquo

Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]

Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que

estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda

segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]

E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento

laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]

10

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas

laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de

resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as

possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)

som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros

permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo

especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos

sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores

de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do

utilizador comum

16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases

de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente

bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon

1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a

eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo

dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo

relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)

desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se

destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o

problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)

Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo

inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma

siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-

oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde

a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo

mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir

uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI

11

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 7: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

aumentarem (mas natildeo de forma tatildeo dramaacutetica como apregoam [33]) levou a que a inclusatildeo de um

laquoUrlraquo [Uniform Resource Identifier -Identificador uniforme de fonte] passasse a ser paga ndash uma

forma de combater o laquospammingraquo [34] dizem ou de controlar a adiccedilatildeo de urls que em muitos

casos era feita manualmente Da parte dos laquowebmastersraquo refere-se uma maior preocupaccedilatildeo em optimizar os laquositesraquo que

passa por um maior cuidado no adicionamento dos laquourlsraquo nos tiacutetulos dados agraves paacuteginas e

descritores usados Desde a Workshop de Dublim em Marccedilo de 1995 [35] que se procura encontrar os tipos de

meta-informaccedilatildeo correctos e necessaacuterios para poder identificar um documento na Web

Estabeleceu-se uma seacuterie de elementos descritivos ndash retirados da catalogaccedilatildeo das bibliotecas ndash

considerados essenciais Mas as categorias usadas para identificar a informaccedilatildeo natildeo satisfazem as

necessidades mais comerciais da Web que vatildeo inspirar o laquoclusteringraquo dos Web browsers ndash

AltaVista Yahoo e Netscape escolhem laquocategoriasraquo natildeo coincidentes entre si Lycos adopta um

sistema de laquoguiasraquo ndash que aleacutem do mais variam de paiacutes para paiacutes Pode ver-se a partir desta vasta variedade de esquemas de classificaccedilatildeo que desenvolver motores de pesquisa com base temaacutetica que trabalhem atraveacutes de um acircmbito alargado de laquositesraquo na Web da maneira que os meta-pesquisadores o fazem para a pesquisa de texto livre natildeo eacute faziacutevel neste momento [36]

E acrescentam no que respeita ao vocabulaacuterio e agraves listas de acroacutenimos necessaacuterios agrave pesquisa

automaacutetica Outra aacuterea onde eacute necessaacuteria a melhoria eacute na preparaccedilatildeo de listas de vocabulaacuterios e acroacutenimos para uso com os motores de pesquisa automatizados Nesta aacuterea o mundo dos padrotildees da Tecnologia da Informaccedilatildeo veloz e livre de acroacutenimos eacute particularmente ilustrativo Tentar categorizar os ficheiros de Difuse que listam as uacuteltimas regras para TI eacute quase um pesadelo porque nenhuma quantidade de referenciaccedilatildeo das listas de vocabulaacuterios ou acroacutenimos existentes pode identificar termos padronizados para referenciar algo que soacute muito recentemente foi desenvolvido [37]

Por outro lado e segundo o estudo de Maria Leonilde Varela [38] o laquoclusteringraquo de documentos

obedece aos mais variados sistemas e se garante que a informaccedilatildeo possa ser obtida em

laquoquantidaderaquo natildeo garante que a essa quantidade corresponda a equivalente qualidade O mesmo

problema se coloca relativamente ao modo de construccedilatildeo dos laquotopsraquo por parte dos laquobrowsersraquo A

RI eacute naturalmente facilitada quando se oferece a possibilidade de escolha de paacuteginas semelhantes

(antigo Lycos e no Google p ex) bem como se quando existe possibilidade de traduccedilatildeo Apesar de tudo os servidores passam a ter maior cuidado com a precisatildeo dos resultados

oferecidos e com o modo como satildeo adicionados os documentos [39]

7

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de

que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e

partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])

emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo

laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por

meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta

interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores

subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam

devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a

mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja

ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o

mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash

desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver

com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para

um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos

URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo

recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]

Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a

informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo

dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]

mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)

variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a

funcionalidade dos laquolinksraquo acima aventada por Chis Shermann

A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova

8

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]

E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]

Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que

demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e

pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo

enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais

visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse

relativamente agrave pergunta feita

15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre

depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada

laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e

laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder

interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do

momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que

apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados

OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de

informaccedilatildeo uacutetil [51]

9

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana

(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com

possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos

laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e

devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por

duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o

sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo

analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias

especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo

alterarem a laquoqueryraquo

Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]

Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que

estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda

segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]

E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento

laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]

10

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas

laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de

resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as

possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)

som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros

permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo

especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos

sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores

de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do

utilizador comum

16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases

de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente

bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon

1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a

eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo

dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo

relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)

desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se

destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o

problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)

Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo

inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma

siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-

oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde

a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo

mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir

uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI

11

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 8: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

14 Url(s) A arquitectura da Web comeccedila com uma sintaxe uniforme para identificadores de fontes a fim de

que estas possam ser reconhecidas para que se tenha acesso a elas se possa descrevecirc-las e

partilhaacute-las A sintaxe URI (Uniform Resource Identifier [Identificador uniforme de fontes])

emprega uma seacuterie de esquemas que incorporam protocolos de identificaccedilatildeo especiacuteficos ndash laquohttpraquo

laquoFtpraquo laquoidapraquo laquournraquo laquotelraquo laquomailtoraquo [40] Por vezes as representaccedilotildees satildeo acompanhadas por

meta-informaccedilatildeo na mensagem (os tiacutetulos laquohttpraquo) o que eacute fundamental para uma correcta

interpretaccedilatildeo da fonte e acaba por condicionar o manuseamento dos identificadores

subsequentes A um laquoUrlraquo exige-se primeiro que tudo consistecircncia ndash que todas as fontes sejam

devidamente identificadas (que natildeo se use o mesmo laquoUrlraquo para diferentes fontes nem que a

mesma fonte seja identificada com diversos laquoUrlsraquo) que a sintaxe esteja correcta e natildeo seja

ambiacutegua (natildeo refira um laquomediaraquo diferente do anunciado) [41] E persistecircncia que no tempo o

mesmo o mesmo endereccedilo refira o mesmo documento [42] A comercializaccedilatildeo da Web leva a que em muitos casos se jogue com esta informaccedilatildeo ndash

desvirtuando-a ndash para reconduzir o utilizador agrave paacutegina de um qualquer produto que nada tem a ver

com o procurado (p ex o endereccedilo do iacutendice de bolsa Nasdaq se escrito com K encaminha para

um site pornograacutefico) O aumento da quantidade de documentos pode ser falseado por dificuldades na gestatildeo dos

URI Haacute muitas paacuteginas na Web que estatildeo desactualizadas ou mudaram de laquoUrlraquo outras satildeo tatildeo

recentes que ainda natildeo constam dos iacutendices Tenham pena dos pobres motores de pesquisa Eles rastejam por este Maeumllstrom borbulhante a que chamamos Web indexando o texto de centenas de milhotildees de paacuteginas as quais podem todas mudar de um momento para o outro Durante os uacuteltimos anos a maioria dos motores de pesquisa afirmava que actualizavam a totalidade das suas bases de dados uma vez por mecircs ou agrave volta disso Poreacutem registos mais antigos nas suas bases de dados mostravam que o prazo de actualizaccedilatildeo era maior do que o afirmado [43]

Quanto maior for o intervalo entre a visita do laquocrowlerraquo tanto mais desactualizada estaraacute a

informaccedilatildeo fornecida e maior seraacute o nuacutemero de laquolinksraquo partidos [44] A meacutedia de actualizaccedilatildeo

dos laquobrowsersraquo que natildeo eacute feita em datas certas pode ir de 1 dia ateacute cerca de quatro meses [45]

mesmo no Google [46] Por sua vez a percentagem de laquolinksraquo partidos (em Fevereiro de 2000)

variava entre os 14 a 1 [47] Uma outra experiecircncia (Mike Thelwall) contradiz em parte a

funcionalidade dos laquolinksraquo acima aventada por Chis Shermann

A investigaccedilatildeo tambeacutem mostra que outros motores de pesquisa importantes podem natildeo responder ao aparecimento de novas paacuteginas na web mesmo quando estas possuem laquolinksraquo criados por paacuteginas conhecidas O resultado natildeo prova

8

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]

E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]

Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que

demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e

pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo

enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais

visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse

relativamente agrave pergunta feita

15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre

depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada

laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e

laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder

interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do

momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que

apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados

OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de

informaccedilatildeo uacutetil [51]

9

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana

(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com

possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos

laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e

devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por

duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o

sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo

analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias

especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo

alterarem a laquoqueryraquo

Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]

Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que

estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda

segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]

E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento

laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]

10

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas

laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de

resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as

possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)

som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros

permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo

especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos

sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores

de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do

utilizador comum

16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases

de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente

bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon

1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a

eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo

dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo

relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)

desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se

destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o

problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)

Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo

inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma

siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-

oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde

a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo

mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir

uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI

11

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 9: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

que a uacutenica maneira para que os laquositesraquo seja indexados neste contexto seja o registo directo do laquoUrlraquos nos motores de pesquisa porque eacute possiacutevel que algum aspecto do desenho do laquositeraquo de teste o tenha feito ser rejeitado como fonte de novos laquoUrlraquos Tambeacutem se pode dar o caso de que exista uma acumulaccedilatildeo de laquoUrlraquos para serem adicionados tornando o tempo entre a descoberta de um novo endereccedilo e o necessaacuterio espaccedilo no disco para o indexar superior a sete meses A secrecidade dos algoritmos utilizados para determinar novos laquoUrlraquo cria esta incerteza No entanto os resultados oferecem um incentivo para registar siacutetios laquowebraquo nos maiores motores de pesquisa mesmo que os laquositesraquo tenham bons laquolinksraquo para si [48]

E acrescenta Quanto aos que se envolvem na recolha de informaccedilatildeo por motivos comerciais acadeacutemicos ou outros as diferenccedilas aparentes entre motores de pesquisa eacute um lembrete de que o uso de um uacutenico deles natildeo daacute acesso agrave totalidade da Web No caso de a informaccedilatildeo estar num novo laquositeraquo para o qual natildeo existam bons laquolinksraquo entatildeo o pesquisador fica agrave mercecirc do conhecimento do laquodesignerraquo do laquoweb siteraquo ou da sua decisatildeo quanto a registar a paacutegina em motores de pesquisa onde a informaccedilatildeo nem sequer seraacute encontrada [48]

Um outro problema que interfere com a RI eacute o excesso de publicidade ndash laquobannersraquo que

demoram a descarregar janelas laquopop-upraquo que se sobrepotildeem agrave informaccedilatildeo procurada [49] ndash e

pior ainda a publicidade disfarccedilada que levou a uma lei federal nos USA sobre a exibiccedilatildeo

enganosa de laquolinksraquo pagos [50] Qualquer paacutegina eacute apresentada a partir do endereccedilo que eacute o laquourlraquo a informaccedilatildeo mais

visiacutevel mas a ela se acrescentam o descritor a data e por vezes a percentagem de interesse

relativamente agrave pergunta feita

15 Tipos(s) de pergunta(s) [Query] As possibilidades de RI estatildeo dependentes do modo como a pergunta eacute feita ndash o que nem sempre

depende do utilizador ndash e das hipoacuteteses permitidas pelo sistema de laquoqueryraquo oferecido por cada

laquobrowserraquo Eacute importante a facilidade de uso do interface a sua capacidade para analisar e

laquocompreenderraquo o vocabulaacuterio de uma colecccedilatildeo Por sua vez o utilizador tem que poder

interpretar e descortinar a relevacircncia da informaccedilatildeo fornecida para as suas necessidades do

momento Estes aspectos natildeo satildeo tratados pelos meacutetodos tradicionais de avaliaccedilatildeo de RI ndash que

apenas tecircm em conta a pergunta em si e os resultados obtidos Nos casos das bases de dados

OHS a laquoqueryraquo pode servir como ponto de partida para explorar o espaccedilo em busca de

informaccedilatildeo uacutetil [51]

9

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana

(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com

possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos

laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e

devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por

duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o

sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo

analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias

especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo

alterarem a laquoqueryraquo

Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]

Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que

estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda

segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]

E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento

laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]

10

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas

laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de

resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as

possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)

som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros

permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo

especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos

sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores

de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do

utilizador comum

16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases

de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente

bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon

1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a

eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo

dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo

relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)

desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se

destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o

problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)

Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo

inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma

siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-

oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde

a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo

mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir

uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI

11

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 10: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Na sua maioria os laquobrowserraquo oferecem a pesquisa [52] com base na loacutegica boleana

(AND+ OR NOT- nalguns casos NEAR parecircntesisnesting e laquoTruncationraquo ) com

possibilidade de refinamento ou pesquisa por palavra-chave A pesquisa por palavra-chave ndash embora com bons resultados no que respeita agrave resposta dos

laquobrowsersraquo [53] ndash tem sido considerada limitada por se resumir agrave densidade de palavras e

devoluccedilatildeo de um excesso de resultados irrelevantes O problema estaacute a tentar ser resolvido por

duas vias ndash um sistema em que se desenvolve um leacutexico do utilizador que permite determinar o

sentido atribuiacutedo a uma certa palavra outro em que o texto de um documento eacute pesquisado e satildeo

analisadas as relaccedilotildees das palavras entre si a fim de que sejam colocadas em categorias

especiacuteficas que descrevam melhor a respectiva funcionalidade [54] Mas estes aspectos natildeo tecircm em conta o problema principal que eacute o facto de os laquobrowsersraquo

alterarem a laquoqueryraquo

Os motores de pesquisa muitas vezes interpretam e transformam a pergunta do utilizador durante o processo de recolha Estes processos afectam profundamente tanto os resultados da pesquisa quanto a capacidade do utilizador para compreender as relaccedilotildees entre a pergunta que fez e os resultados que recebeu [55]

Eacute que cada motor de pesquisa escolhe as suas transformaccedilotildees internas ndash o que quer dizer que

estas variam de uns para os outros ndash e o utilizador nem sequer se apercebe dessa mudanccedila Ainda

segundo Muramatsu Ao transformar a pergunta do utilizador sem proporcionar qualquer informaccedilatildeo quanto a essas modificaccedilotildees os motores de pesquisa da web interferem com a formaccedilatildeo por parte dos utilizadores de modelos mentais acurados e contribuem assim para a falta de habilidade do utilizador para encontrar a informaccedilatildeo desejada [56]

E classifica o comportamento dos laquobrowsersraquo neste ponto distinguindo entre o tratamento

laquoopacoraquo laquotransparenteraquo e laquopenetraacutevelraquo O niacutevel laquoopacoraquo representa um interface que natildeo proporciona qualquer indicaccedilatildeo sobre as transformaccedilotildees subjacentes que o sistema executa laquoOpacoraquo eacute o niacutevel padratildeo de laquofeedbackraquo comummente oferecido pelos modernos motores de pesquisa comerciais da web Em contrapartida os interfaces laquotransparentesraquo proporcionam uma indicaccedilatildeo visiacutevel sobre as transformaccedilotildees que foram aplicadas automaticamente Por fim os interfaces laquopenetraacuteveisraquo proporcionam tanto informaccedilatildeo quanto meios para os utilizadores controlarem ou ajustarem as transformaccedilotildees Assim concluiacutemos que muitos utilizadores natildeo seratildeo capazes de compreender porque eacute que muitas vezes recebem respostas erraacuteticas e confusas dos motores de pesquisa Os resultados do estudo sugerem fortemente que a operaccedilatildeo laquoopacaraquo de transformaccedilatildeo das perguntas representa uma barreira substancial para os utilizadores na sua tentativa para compreender como processam as suas perguntas os vaacuterios motores de pesquisa [57]

10

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas

laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de

resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as

possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)

som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros

permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo

especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos

sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores

de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do

utilizador comum

16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases

de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente

bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon

1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a

eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo

dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo

relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)

desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se

destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o

problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)

Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo

inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma

siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-

oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde

a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo

mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir

uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI

11

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 11: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Mais um aspecto que se torna relevante quando da avaliaccedilatildeo em RI pois ateacute certo ponto estas

laquoimposiccedilotildeesraquo feitas pelo interface ao utilizador podem desviar a pesquisa aumentar o iacutendice de

resultados negativos e conduzir mais rapidamente agrave desistecircncia Ainda no que respeita aos modos de questionaccedilatildeo do laquobrowserraquo haacute a ter em conta as

possibilidades de serem seleccionados documentos com ou sem imagem (na maioria jpg e gif)

som (o impeacuterio do MP3 Wave) etc [58] O Altavista oferece uma opccedilatildeo especiacutefica outros

permitem escolher apenas as paacuteginas com algum dos elementos acima Existem ainda laquobrowsersraquo

especiacuteficos para o efeito [59] A tudo o que foi dito resta acrescentar que as metodologias propostas para avaliaccedilatildeo dos

sistemas de RI tecircm sido pensadas em termos laquoteacutecnicosraquo ndash destinadas a informaacuteticos construtores

de laquobrowsersraquo e bases de dados soacute haacute pouco comeccedilando a ter em consideraccedilatildeo os problemas do

utilizador comum

16 Paradigmas de avaliaccedilatildeo Como se pode perceber a Recolha de Informaccedilatildeo na Web eacute muito diferente da pesquisa em bases

de dados tradicionais [60] Mas foi na indexaccedilatildeo dessas bases de dados (principalmente

bibliotecas) que se inspiraram os estudos de RI O primeiro paradigma eacute inaugurado pelos testes de Cranfield I II e III (Cyril Cleverdon

1966) em que o investigador faz experiecircncias com colecccedilotildees de documentos para comparar a

eficiecircncia relativa das diversas formas de RI Lanccedila os conceitos de laquoRecallraquo [Recolha] (a fracccedilatildeo

dos documentos relevantes recolhidos) e laquoPrecisatildeoraquo (a fracccedilatildeo de documentos recolhidos que satildeo

relevantes) como medidas para os processos de Recolha de Informaccedilatildeo Rijs Bergen (1975)

desenvolve o sistema no seu livro Information Retrieval (reeditado e revisto em 1979) que se

destina essencialmente a estudantes de informaacutetica Como seus herdeiros jaacute preocupados com o

problema do utilizador embora ainda no espaccedilo das bibliotecas digitais temos Belkin (1994)

Schlichting C amp E Nilsen (1996) Saracevic (1995 1997) e Van House (1995) Neste grupo

inclui-se ainda E Voorhees (20002002 2002) [61] Em laquoReflections on IR Evaluationraquo Mei-Mei Wu e Diane H Sonnenwald fazem uma

siacutentese das teorias e metodologias de RI a partir de duas perspectivas do sistema (System-

oriented) e do utilizador (User studies) Referindo-se ao laquosystem-orientedraquo historiam as diversas tipologias e contribuiccedilotildees desde

a sua origem nos anos 50 com os trabalhos de Cleverdon (UK) ndash a identificaccedilatildeo do algoritmo

mais eficiente face a medidas padratildeo As pesquisas satildeo alargadas por Salton (USA) para incluir

uma avaliaccedilatildeo do espaccedilo vectorial em algoritmos de RI

11

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 12: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

As investigaccedilotildees vatildeo cristalizar-se em torno da TREC (Text Retrieval Conference ndash que

inspirou a criaccedilatildeo de um grupo idecircntico no Japatildeo em 1999) no acircmbito da qual todos os anos satildeo

propostos novos testes procurando cada um resolver um de 8 problemas diferentes Cross-Language Track ndash descobrir documentos relevantes independentemente da liacutengua Filtering Track ndash o sistema tem que tomar uma decisatildeo binaacuteria quanto a novos

documentos se satildeo relevantes para os toacutepicos Interactive Track ndash estudar a interacccedilatildeo do utilizador com os sistemas de RI (relevacircncia de

laquofeedbackraquo pex) Query Track ndash efeitos da variaccedilatildeo das laquoqueriesraquo e anaacutelise da performance da recolha Question answering Track ndash estuda a recolha de informaccedilatildeo comparada com a recolha de

documentos (O sistema deve responder a 200 perguntas) Spoken document retrieval track ndash investiga a capacidade do sistema para recolher

documentos orais Web Track ndash 2 GB de informaccedilatildeo se os laquolinksraquo podem ser usados para melhorar a RI

As contribuiccedilotildees dos membros da TREC levaram ao refinamento de algoritmos que melhoraram

os resultados de laquoRecallraquo e laquoPrecisatildeoraquo em bases de dados de envergadura Mas suscitam algumas

objecccedilotildees aos autores validade e fidedignidade omitem o usuaacuterio ou relegam-no para um papel passivo natildeo

tecircm em conta a diferenccedila entre a dinacircmica laboratorial e o mundo real haacute muacuteltiplos

modos de interacccedilatildeo que natildeo satildeo considerados aleacutem de que os julgamentos de relevacircncia

natildeo satildeo subjectivos nem dependentes do tempo-espaccedilo-contexto possibilidade de generalizaccedilatildeo falta de amostragens relacionadas com usuaacuterios os testes

experimentais satildeo demasiado pequenos e limitam-se a toacutepicos de ciecircncia e tecnologia as

descobertas entram em conflito com o senso comum e a experiecircncia utilidade natildeo satildeo aplicaacuteveis a sistemas operacionais (que tecircm que ser avaliados por

outros criteacuterios) as descobertas satildeo fracas na explicaccedilatildeo prediccedilatildeo e controlo dos

fenoacutemenos investigados conceptualizaccedilatildeo natildeo existe um suporte teoacuterico soacutelido para as medidas e meacutetricas usadas

nas abordagens agrave avaliaccedilatildeo de RI laquoRecallraquo e laquoPrecisatildeoraquo natildeo parecem ter peso

significativo para os indiviacuteduos que fazem a pesquisa as diferenccedilas estatiacutesticas entre

estas medidas nos sistemas natildeo satildeo significativas no mundo real em contexto O desenvolvimento das perspectivas que tecircm em conta o utilizador (User Studies) daacute-se

pelos anos 70 Tecircm como pioneiros Saraceviv e Kantor (1988a 1988b) cujo objectivo primeiro eacute

12

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 13: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

identificar o comportamento e satisfaccedilatildeo do usuaacuterio e equacionaacute-los com a efectividade do

sistema As propostas evoluem para incluir pesquisa sobre o comportamento humano ndash processos e

resultados da exploraccedilatildeo da informaccedilatildeo busca filtragem uso laquoprovisioningraquo e disseminaccedilatildeo

Centram-se em utilizadores reais (crianccedilas estudantes organizaccedilotildees etc) Usam meacutetodos e

medidas qualitativos (entrevistas observaccedilotildees pesquisas) natildeo avaliando explicitamente os

sistemas Para esta vertente existem grupos anaacutelogos ao TREC a International Conference ndash

Information Seeking in Context que se transformou num foacuterum de investigadores que exploram

meacutetodos e resultados de pesquisas a SIG (sobre as necessidades de informaccedilatildeo) Diferem entre si

porque natildeo promovem uma metodologia de avaliaccedilatildeo padronizada As suas principais contribuiccedilotildees seratildeo

ter identificado o comportamento humano na pesquisa de informaccedilatildeo levando a que se

criassem sistemas de RI que incluem interfaces graacuteficos homem-computador

suscitar novos tipos de esclarecimento do usuaacuterio sobre as fontes de informaccedilatildeo

mostrar a necessidade de incluir novos recursos de informaccedilatildeo nos sistemas

ter ajudado a esclarecer a dinacircmica e natureza situacional da laquoRelevacircnciaraquo ndash que seraacute

contiacutenua e natildeo dicotoacutemica e que os seus julgamentos satildeo subjectivos situacionais e natildeo

objectivos ou loacutegicos (Schamber 1994 determina a laquoRelevacircnciaraquo como subjectiva

cognitiva situacional psicoloacutegica multi-dimensional dinacircmica e mensuraacutevel) [62] Tambeacutem relativamente a estes estudos apresentam algumas objecccedilotildees

natildeo satildeo generalizaacuteveis - porque centrando-se numa populaccedilatildeo especiacutefica e pequena os

resultados satildeo contingentes quanto agrave pessoa espaccedilo e tempo logo natildeo aplicaacuteveis a

populaccedilotildees mais vastas ou diferentes

satildeo demorados

natildeo tecircm grande utilidade - natildeo conseguem provocar uma alteraccedilatildeo no laquodesignraquo dos

sistemas de RI Os especialistas de laquoUser Studiesraquo natildeo tecircm conhecimentos tecnoloacutegicos

que lhes permitam construiralterar os sistemas em funccedilatildeo dos resultados das suas

pesquisas nem sabem enquadrar ou traduzir os seus resultados de modo a que os

construtores de laquosoftwareraquo o possam fazer dificuldades conceptuais - eacute difiacutecil sintetizar diferentes niacuteveis e meacutetodos de anaacutelise eou

comparar resultados

13

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 14: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

E afirmam Satildeo necessaacuterias Teorias de comportamento humano na informaccedilatildeo que se

estendam atraveacutes de contextos e situaccedilotildees a fim de identificar novas medidas e

meacutetodos de avaliaccedilatildeo para RI

Consideram pois ser necessaacuterio fazer a ponte entre os entre os diversos paradigmas e

reelaboram as perguntas de Saracevic (1995)

1 que ecircxito tevetem a informaccedilatildeo recolhida para a soluccedilatildeo do problema da explosatildeo de

informaccedilatildeo nas aacutereas aplicadas

2 como pode a RI ajudar as pessoas nas situaccedilotildees em que satildeo confrontadas com problemas

de busca (encontrar usar e interagir com a informaccedilatildeo) frente agrave massa de informaccedilatildeo

existente e agrave miriacuteade de escolhas possiacuteveis

3 como eacute que toda essa informaccedilatildeo tecnologia e sistemas de informaccedilatildeo afectam o nosso

trabalho os tempos livres a sociedade e a cultura E concluem que estas questotildees natildeo podem ser respondidas por estudos orientados apenas para o

sistema ou apenas para o usuaacuterio Torna-se necessaacuteria uma siacutentese entre as pesquisas

laboratoriais e os contextos etc para que se possa demonstrar a eficaacutecia a partir da perspectiva

do utilizador Discutindo os enquadramentos de avaliaccedilatildeo relacionados com a RI reconhecem que alguns

deles vecircm de disciplinas da aacuterea das ciecircncias humanas e cogntivas meacutetodos e teacutecnicas para

avaliar a proficiecircncia do interface homem-computador a dimensatildeo do trabalho cognitivo e tipo

de estrateacutegias mentais etc Sintetizando enquadramentos e paradigmas vatildeo adaptar os cinco atributos que Rogers

(1995) relaciona com a inovaccedilatildeo vantagem relativa - ateacute que ponto uma inovaccedilatildeo substitui as praacuteticas correntes eacute tornada

operacional pode ser medida em termos de variaacuteveis (economia ganho maior

conveniecircncia e prestiacutegio social) compatibilidade - ateacute que grau a inovaccedilatildeo eacute percebida como consistente com os valores

experiecircncias dos usuaacuterios e suas necessidades futuras (por comparaccedilatildeo com a estrutura

social crenccedilas individuais e de grupo clima organizacional ou social objectivos do

indiviacuteduo ou do grupo) complexidade - dificuldade em aprender a usar e compreender um novo sistema ou

tecnologia (medida pelo nuacutemero de novas destrezas eou conhecimentos que eacute necessaacuterio

adquirir para usar e beneficiar da inovaccedilatildeo)

14

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 15: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ser testaacutevel - facilidade de experimentaccedilatildeo com a inovaccedilatildeo numa base limitada (niacutevel de

esforccedilo necessaacuterio e risco envolvido na observaccedilatildeo e participaccedilatildeo em demonstraccedilotildees em

pequena escala) ser observaacutevel - grau pelo qual os resultados da inovaccedilatildeo satildeo observaacuteveis

Considerando que alguns atributos podem parecer mais importantes do que outros propotildeem que

sejam todos usados como fundamento para um novo sistema de avaliaccedilatildeo tendo em conta que

nem todas as medidas e criteacuterios satildeo necessaacuterios para todas as situaccedilotildees Oferecem pois um novo

paradigma

Atributo Criteacuterio Medidas

vantagem relativa

Relevacircncia do sistema Relevacircncia dos toacutepicos Velocidade Ganho econoacutemico

Recall e Precisatildeo Conteuacutedos da fonte (tipo e cobertura) Tempo de resposta do sistema Anaacutelise do benefiacutecio de custos

compatibilidade Relevacircncia motivacional Relevacircncia organizacional Relevacircncia social

Corresponde agraves expectativas - do usuaacuterio - da organizaccedilatildeo - sociais - da poliacutetica puacuteblica

complexidade Usabilidade Relevacircncia cognitiva Relevacircncia situacional

Tempo de completaccedilatildeo da tarefa ratio de erros tempo de correcccedilatildeo de erros Satisfaccedilatildeo do usuaacuterio - em contexto de trabalho - na resoluccedilatildeo de problemas

ser testaacutevel Facilidade de experimentaccedilatildeo Disponibilidade tempo de treino outros custos de lanccedilamento

ser observaacutevel Grau de demonstraccedilatildeo Custo da observaccedilatildeo

Uma variedade de teacutecnicas pode ser usada para calcular as medidas incluindo experiecircncias

laboratoriais de RI para medir laquoRecallraquo laquoPrecisatildeoraquo e tempo de resposta do sistema outras

engenharias para medir tempo de completaccedilatildeo das tarefas ratio de erro tempo de correcccedilatildeo de

erro e tempo de treino combinaacuteveis com entrevistas observaccedilotildees e pesquisas para determinar a

satisfaccedilatildeo do utilizador Todavia embora se preocupe com o contexto e a situaccedilatildeo em tempo real mesmo este novo

paradigma deixa de fora as estrateacutegias de pesquisa a que qualquer utilizador recorre que

pertencem ao campo da laquoRelevacircnciaraquo [63] mas satildeo condicionadas pelo objecto que tem diante de

si pelas possibilidades que lhe oferece o interface

3 DA PERSPECTIVA DO UTILIZADOR

Num dos poucos artigos dedicados agrave anaacutelise das funccedilotildees de RI da perspectiva do utilizador

Thorsten Joachims (2002) [64] propotildee vaacuterios testes para determinar a laquoRetrieval performance

user centeredraquo [Sucesso de recolha centrada no usuaacuterio] Mas os seus raciociacutenios enfermam de

15

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 16: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

algumas deficiecircncias porque na construccedilatildeo do quadro-teste 1 mistura laquorankingsraquo de browsers

diferentes (Google e MSNSearch) sem ter em conta o modo como cada um hierarquiza as

respectivas listagens e na anaacutelise dos laquolinksraquo escolhidos pelo utilizador nesse quadro natildeo

considera a importacircncia do nem do laquourlraquo nem do descritor ndash que denunciam o interesse do

usuaacuterio-cobaia por laquosoftwareraquo Haacute tambeacutem uma seacuterie de manuais [65] e artigos que se preocupam com o estudo dos

comportamentos [66] e procuram ensinar truques de pesquisa aos utilizadores a maioria

centrando-se nos modos de formular as perguntas e aproveitar as possibilidades de refinamento de

busca E alguns preocupam-se com as informaccedilotildees fornecidas pelos tiacutetulos [67] Sobre os laquourlsraquo

haacute um artigo que aborda o modo como os laquocrawlersraquo os visitam e recolhem [68] e um outro

sobre o modo como podem ser interpretados [69] Mas em nenhum dos textos consultados foi tida

em conta a possibilidade de o laquourlraquo influenciar a decisatildeo do utilizador Mesmo sem grandes explicaccedilotildees com o haacutebito qualquer utilizador acaba por olhar para o

laquourlraquo como factor de decisatildeo no momento de abrir um qualquer documento dado que acaba por

perceber quais os descritores que lhe podem oferecer alguma qualidade Assim no formato httpwwwserverdomiacuteniodirectoacuteriosub-directoacuterionome-de-ficheirotipo-de-ficheiro

para aleacutem de destrinccedilar os usuais laquoorgraquo laquocomraquo ou laquogovraquo que jaacute entraram no conhecimento

comum caso o domiacutenio se apresente com laquoeduraquo o utilizador saberaacute que o documento pertence a

uma universidade em princiacutepio uma instituiccedilatildeo fidedigna E entre um documento com um

qualquer nome ou aquele descritor naturalmente escolheraacute esse O mesmo se coloca

relativamente a directoacuterios e sub-directoacuterios Quanto ao tipo de ficheiro tambeacutem eacute faacutecil perceber

se se trata de um documento em html pdf ou imagem Uma outra estrateacutegia quando haacute interesse por um documento que apresenta o laquolinkraquo

partido e o laquobrowserraquo natildeo lhe indica o laquocacheraquo eacute ir apagando os sucessivos apecircndices ateacute chegar

agrave paacutegina inicial Mesmo sem ser iniciado em informaacutetica o utilizador acaba por construir uma

seacuterie de estrateacutegias proacuteprias para navegar pelo turbilhatildeo de informaccedilotildees sem mapa com que eacute

confrontado HB Novembro 2004

16

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 17: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Anexo Tendo em conta as estrateacutegias de laquosobrevivecircnciaraquo na navegaccedilatildeo pela net e relativamente aos

modos de RI por parte do utilizador poderia elaborar-se uma lista de perguntas que permitissem

construir um inqueacuterito para determinar estatisticamente comportamentos-tipo por parte do

utilizador Por exemplo

Se recorre agrave net em primeira instacircncia (busca inicial agraves cegas em bruto) ou uacuteltima instacircncia (busca

orientada) [70] Qual o laquobrowserraquo preferido e porquecirc modo como faz a pergunta

o utiliza estrateacutegias de refinamento o recorre a alguma outra estrateacutegia particular

modo como recebe documentos apresentados o se satildeo muitos o se satildeo poucos o faz pesquisa interna o consulta todos indiscriminada ou sucessivamente o tem em consideraccedilatildeo os laquotopsraquo oferecidos pelos browsers

como lida com a hierarquizaccedilatildeo das respostas apresentadas qual a meacutedia de consultas ateacute alcanccedilar um resultado satisfatoacuterio perde-sedeambula a partir de que quantidade desiste de consultar o que pode motivar a desistir mais depressa

o cansaccedilo o links partidos o frustraccedilatildeo nas respostas o lentidatildeo de abertura das paacuteginas o publicidade

Modo como lecirc informaccedilatildeo recebida qual a primeira opccedilatildeo para abrir um documento

o tiacutetulo o descritor o percentagem o data o endereccedilo

Hierarquizar a importacircncia de cada uma destas informaccedilotildees estrateacutegias para garantir a fidedignidade da informaccedilatildeo uso e ou citaccedilatildeo de todos os documentos

o soacute dos laquofidedignosraquo o como os reconhece [71]

17

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 18: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

Notas [laquoLinksraquo confirmados eou actualizados em 11Jun2006] [1] Paulo Quaresma Agentes Inteligentes para sistemas de pesquisa de informaccedilatildeo de textos DIUECentria 2001

httpwwwdiuevorapt~pqbrasilcursocursoBrasilhtm [2] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[3] Parker Rossman httpecoleconmissourieduglobalresearchauthorhtml [4] Parker Rossman coloacutequio laquoDa Ideia de Universidade agrave Universidade de Lisboaraquo

httpciefculptseminarioscieuniversidadeindexhtml [5] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi Modeling the Internetrsquos Large-Scale Topology

Department of Physics University of Notre Dame Notre Dame IN 46556 USA httpwwwndedu~albcvhtml[6] Soon-Hyung Yook Hawoong Jeong Albert-Laacuteszloacute Barabaacutesi laquoThat is no matter how detailed an Internet model is if

its universal parameters ( a s Df) deviate from those uncovered by measurements the large-scale topology will inevitably differ from the current Internetraquo Ibid

[7] Chris Sherman laquoA new map of cyberspace shows that the Web resembles a bow tie with divisive boundaries that can make navigation between regions difficult or even impossible according to a new study published by researchers at AltaVista Compaq and IBM Previous theories suggested that the Web was highly connected with no more than 19 degrees of separation from any one site to another By contrast the new map reveals a subtler structure that may lead to more efficient search engine crawling techniques and a greater understanding of the sociology of content creation and that may help predict the emergence of new phenomena on the Web such as Web rings and spam clustersraquo in The Invisible Web New Web Map Reveals Previously Unseen lsquoBow Tiersquo Organizational Structure in Information Today 22Maio 2000 in httpwwwinfotodaycomnewsbreaksnb000522-1htm

[8] Marcia Mardis laquoCurrently the World Wide Web contains an estimated 74 million sites (OCLC 2001) Yet even the most experienced searcher using the most robust search engines can access only about 16 of these pages (Dahn 2001) The other 84 of the publicly available information on the Web is referred to as the ldquohiddenrdquo ldquoinvisiblerdquo or ldquodeeprdquo Webraquo in laquoUncovering the Hidden Web Part I Finding What the Search Engines Donrsquot raquo Outubro 2001 - EDO-IR-2001-02 httpwwwericdigestsorg2002-2webhtm

[9] AIIM International Capture Indexing amp Auto-Categorisation Intelligent methods for the acquisition and retrieval of information stored in digital archives - resumo em httpwwwproject-consultnetFilesSummary20IWP2103-englpdf

[10] httpwwwcenormbecenormbusinessdomainsbusinessdomainsisssindexasp[11] First Annual Diffuse Conference From Convergence to Consolidation - Whatrsquos Next in the Information Market A

conference organized by the IST Diffuse Project - 7 Marccedilo 2001 Bruxelas httplistsw3orgArchivesPublicwww-annotation2001JanJunatt-000101-Diffuse-Eventhtml

[12] Grupo laquoMIRAraquo laquoThe classical model of IR system evaluation initiated by the Cranfield experiments and currently manifest in the TREC programme demonstrates very clearly its origins in the era of batch retrieval systems The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents) However with modern interactive systems that input-output model is clearly becoming more and more inadequate as a representation of the IR situation A dominant problem in current IR research is the question of what model or models we need instead One possible source of ideas and methods is work elsewhere (outside IR) on evaluating the HCI characteristics of systems However this work suffers from two limitations at least as regards its applicability to IRraquo in laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[13] Virtual Resource Centre httpwwwvirtuallrccomabouthtml[14] Michail Salampasis amp Konstantinos I Diamantaras laquoExperimental User-Centered Evaluation of an Open

Hypermedia System and Web Information Seeking Environmentsraquo 2002 httpjodiecssotonacukArticlesv02i04Salampasis

[15] Maria Leonilde Varela laquoClustering de Documentosraquo Relatoacuterio para a disciplina de Processamento de Liacutengua Natural I (1999-2000) httpwwwdiuevorapt~pqmiaacluster_miaahtml

[16] Michail Salampasis amp Konstantinos I Diamantaras Op Cit [17] Ibid [18] httpwwwvirtuallrccomabouthtml[19] Ibid [20] Grupo MIRA laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval

Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia[21] VVAA Evaluation of information sources httpwww2vuwacnzstaffalastair_smithevalnevalnhtm[22] Greg R Notess laquoSearch Engine Showdown Reviewsraquo Mar 03 2003

httpwwwsearchengineshowdowncomreviews[23] Greg R Notess laquoSearch Engine Features Chartraquo Jan 21 2003 httpwwwsearchengineshowdowncomfeatures[24] Elizabeth Liddy laquoHow a Search Engine Worksraquo Maio 2001 httpwwwinfotodaycomsearchermay01liddyhtm[26] Anne Clyde laquoSearch Engines An Overviewraquo Teacher Librarian vol 27 nordm4 Abril 2000 pp22-28

18

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 19: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

[27] Diana Botluk laquoSearch Engines Comparisonraquo Law Library Resource Xchange LLC2001 httpwwwllrxcomfeaturesengine2001htm

[28] Greg Notess laquoSearch Engines Statistics Database Overlapraquo 6Marccedilo 2002 httpwwwsearchengineshowdowncomstatistics0002overlapshtml

[29] Greg Notess laquoDead Search Enginesraquo ONLINE vol 26 nordm 3 Maio Junho 2002 httpwwwonlinemagnetmay02OnTheNethtm

[30] Greg Notess laquoBrowser diversityraquo ONLINE Julho 2001 httpwwwonlinemagnetOL2001net7_01html[31] Greg R Notess laquoSearch Engine Statistics Relative Size Showdown Data from search engine analysisraquo - 31Dez

2002 httpwwwsearchengineshowdowncomstatistics9901sizeshtml [32] Greg R Notess laquoSearch Engine Statistics Database Total Size Estimatesraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticssizeestshtml [33] Greg R Notess laquoSearch Engines Statistics Database Change Over Timeraquo - Dec 31 2002

httpwwwsearchengineshowdowncomstatisticschangeshtml [34] httpwebsearchaboutcomlibraryweeklyaa021803ahtm e httpwebsearchaboutcomlibraryweeklybl-

seo101htmPM=ss11_websearch [35] The Diffuse Project - the European Commissions Information Society Technologies programme httpwwwhi-

europeinfofiles2000diffusehtm Diffuse publications are maintained by TIEKE (the Finnish Information Society Development Centre) httpwwwtiekefiin_englishabout_tieke IC Focus httppiijssiPiBrainexeCm=OrgampOrg=IC+FOCUS+LIMITED The SGML Centre httpwwwinfoloomcomgcaconfsWEBts2055tp2055HTM e httpwwwhi-europeinfofiles2000diffusehtm

[36] laquoIt will be seen from this wide variety of classification schemes that developing subject-based search engines that will work across a wide range of web sites in the way that meta-search engines do for free-text searching is not currently feasibleraquo Ibid

[37] laquoAnother area where improvement is required is in the preparation of vocabularies and acronym lists for use with automated searches In this area the fast moving acronym-ridden world of IT standards is particularly illustrative Trying to categorize the Diffuse files which list the latest standards for IT is somewhat of a nightmare as no amount of referencing of existing vocabularies or acronym lists will identify standardized terms for referencing something that has only recently been developedraquo Ibid

[38] Maria Leonilde Varela Op Cit [39] Sergey Brin e Lawrence Page laquoThe Anatomy of a Large-Scale Hypertextual Web Search Engineraquo httpwww-

dbstanfordedu~backrubgooglehtml [40] laquoArchitecture of the World Wide Web W3C Working Draft 15raquo Novembro 2002

httpwwww3orgTR2002WD-webarch-20021115[41] Ibid [42] R Petke laquoRegistration Procedures for URL Scheme Namesraquo 1999 httpwwww3orgAddressing[43] Greg Notess laquoPity the poor search engines They crawl this seething bubbling maelstrom we call the Web indexing

the text from hundreds of millions of pages all of which can change at a moments notice For the past few years most search engines claimed to refresh their entire database once a month or so Yet older records in their databases showed that the refresh rate was often more than claimed rateraquo in Freshness Issue and Complexities with Web Search Enginesraquo in ONLINE Information Today Inc 2001 httpwwwonlinemagnetOL2001net11_01html

[44] Greg Notess laquoFreshness Issue and Complexities with Web Search Enginesraquo 2001 httpwwwonlinemagnetOL2001net11_01html

[45] Greg Notess laquoSearch Engine Statistics Freshness Showdownraquo 20 Out2002 httpwwwsearchengineshowdowncomstatistics0210freshnessshtml

[46] httpwwwwebmasterworldcomforum32657htm[47] Greg Notess laquoSearch Engine Statistics Dead Links Reportraquo 21Fev 2000

httpwwwsearchengineshowdowncomstatisticsdeadshtml[48] Mike Thelwall laquoThe survey also shows that other important search engines can be unresponsive to the appearance

of new web pages even if these are linked to by known pages The evidence does not prove that the only way to get sites indexed in this context is by registering the URL directly with the search engines because it is possible that some aspect of the test site design caused it to be rejected as a source of new URLs It may also be the case that there is a backlog of URLs to be added making the time between finding a new URL and having the free disk space to index it longer than seven months The secrecy of the algorithms used to determine new URLs creates this uncertainty The results do however provide an incentive to register web sites in major search engines even if sites are well linked toraquo e laquoFor those engaged in information retrieval for commercial academic or other reasons the apparent differences between search engines is a reminder that the use of a single search engine does not give access to the entire web In the case where the information was likely to be on a newer site that is not well linked to then the information retriever is at the mercy of the web site designerrsquos knowledge or decision about whether to register their site in search engines as to whether the information is findable at allraquo in laquoThe Responsiveness of Search Engine Indexesraquo in Cybermetrics - International Journal of Scientometrics Informetrics and Bibliometrics

19

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 20: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

ISSN 1137-5019 Vol 5 (2001) Issue 1 Paper 1 -22Fev2001 httpwwwcindoccsicescybermetricsarticlesv5i1p1html

[49] Chip Bayers laquoIm Feeling Luckyraquo Wired issue 910 ndash Out 2001 httpwwwwiredcomwiredarchive910googlehtml

[50] Stefanie Olsen laquoSearch sites work to clean up their actraquo CNET Newscom 19Agosto 2002 laquoThe commercial practices of search engines are once again in the spotlight after a recent warning shot from federal regulators over inadequate disclosure of paid linksraquo httpnewscomcom2100-1023-954171htmltag=fd_top

[51] laquoEvaluation Frameworks for Interactive Multimedia Information Retrieval Applicationsraquo httpwwwdcsglaacukmirathemes2htmlMedia

[52] Diana Botluk laquoSearch Engines Comparison in Law Library Resource Xchangeraquo LLC2001 httpwwwllrxcomfeaturesengine2001htm

[53] Greg R Notess laquoSearch Engine Statistics Unique Hits Reportraquo 6Marccedil 2002 httpwwwsearchengineshowdowncomstatisticsuniqueshtml

[54] Andrew Goodman laquoMeaning-Based Search Redefines Web Sleuthingraquo in Metaguide 63 2000 httpwwwtraffickcomstoryaspStoryID=57

[55] Jack Muramatsu e Wanda Pratt laquoSearch engines often interpret and transform a users query during the retrieval process These processes profoundly affect both the search results and the usersrsquo ability to understand the relationship between their query and the returned resultsraquo in laquoTransparent Queries Investigating Users Mental Models of Search Enginesraquo Information amp Computer Science University of California Irvine SIGIRrsquo0 1 9-12 Set 2001 Nova Orleans Louisiana USA Copyright 2001 ACM 1-58113-331-6010009 httpportalacmorgcitationcfmid=383991ampdl=ACMampcoll=ACM

[56] laquoBy transforming the userrsquos query without providing any feedback on those modifications web search engines interfere with usersrsquo formation of accurate mental models and thus contribute to the usersrsquo inability to find the desired information raquo Ibid

[57] laquoopaque level represents an interface that does not provide any indication of the underlying transformations that the system performs Opaque is the standard level of feedback commonly provided by modern commercial web search engines In contrast transparent interfaces provide visible feedback on the automatically applied transformation Finally penetrable interfaces provide both feedback as well as a means for users to control or adjust the transformations Thus we conclude that many users will not be able to understand why they often receive erratic and confusing results from search engines The study results strongly suggest that the opaque operation of query transformations represent a substantial barrier for users in their attempt to understand how various search engines process queriesraquo Ibid

[58] Phil Bradley laquoFinding images on the Internetraquo 2000 httpwwwphilbcomfindimageshtm[59] Mary Colette Wallace laquoThe Science and Art of Online Research in the Fine Arts A Process Approachraquo 2001

httpwwwinfotodaycomsearchersep01wallacehtm[60] Jacek Gwizdka e Mark Chignell laquoTowards Information Retrieval Measures for Evaluation of Web Search

Enginesraquo1999 httpwwwimediamieutorontoca~jacekgpubswebIR_eval1_99pdf[61] Voorhees E (2002) laquoThe Philosophy of Information Retrieval Evaluationraquo To appear in Proceedings of the 2nd

Workshop of the Cross-Language Evaluation Forum CLEF 2001 Darmstadt Germany httpwwwitlnistgoviad89402workspapershtml Buckley C amp Voorhees E (2000 Julho) laquoEvaluating Evaluation Measure Stabilityraquo in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Athens Greece pp 33-40 httpwwwitlnistgoviad89402workspapershtml Voorhees E (Setembro 2001) laquoEvaluation by Highly Relevant Documentsraquo in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval Nova OrleansLA USA pp 74-82 httpwwwitlnistgoviad89402workspapershtml

[62] Satildeo listados 80 factores distribuiacutedos por seis categoriaslistas parciais de variaacuteveis que afectam a laquoRelevacircnciaraquo ndash julgamento pedidos documento sistemas de informaccedilatildeo condiccedilotildees do julgamento e escolha de escala

[63] Em Saracevic (1996) ndash a laquoRelevacircnciaraquo indica uma relaccedilatildeo que se pode manifestar em cinco tipos 1 laquoRelevacircnciaraquo do sistema ou algoriacutetmica ndash relaccedilatildeo entre a laquoqueryraquo e objectos de informaccedilatildeo no ficheiro de um sistema quando recolhidos ou na falta de serem recolhidos por um dado procedimento ou algoritmo eficaacutecia comparativa eacute a relevacircncia inferida eacute o criteacuterio para a relevacircncia do sistema 2 laquoRelevacircnciaraquo toacutepica ou de assunto ndash refere-se agrave relaccedilatildeo ente o assunto ou toacutepico expresso numa pergunta e o toacutepico ou assunto coberto pelos textos recolhidos pelos textos no sistema de ficheiros ou existentes laquoAboutnessraquo ndash eacute o criteacuterio pelo qual a topicalidade eacute inferida 3 laquoRelevacircnciaraquo ou pertinecircncia cognitiva ndash refere-se agrave relaccedilatildeo entre o estado de conhecimento e a informaccedilatildeo cognitiva necessitada pelo usuaacuterio e os textos recolhidos seja num ficheiro ou que existem laquoRelevacircnciaraquo cognitiva eacute inferida por criteacuterios de correspondecircncia cognitiva quantidade e qualidade de informaccedilatildeo novidade etc 4 laquoRelevacircnciaraquo situacional ou utilidade ndash relaccedilatildeo entre a situaccedilatildeo tarefa ou problema em causa e os textos recolhidos os textos no sistema de ficheiros ou existentes A laquoRelevacircnciaraquo eacute inferida por criteacuterios como utilidade na tomada de decisatildeo adequaccedilatildeo da informaccedilatildeo para a resoluccedilatildeo de um problema reduccedilatildeo da incerteza 5laquoRelevacircnciaraquo motivacional ou afectiva ndash refere-se agrave relaccedilatildeo entre as intenccedilotildees os objectivos e motivaccedilotildees de um utilizador e os textos recolhidos os textos no sistema de ficheiros ou existentes Os criteacuterios para avaliaccedilatildeo desta relevacircncia satildeo satisfaccedilatildeo ecircxito realizaccedilatildeo O principal problema eacute que torna difiacutecil comparar a eficaacutecia de

20

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR
Page 21: Cartografias virtuais - mapear o ciberespaço

Cartografias virtuais ndash mapear o ciberespaccedilo ndash Helena Barbas

diferentes sistemas de RI (soacute usando o mesmo grupo em vaacuterios sistemas ou arranjando outras medidas de avaliaccedilatildeo) httpwwwscilsrutgersedu~tefkoarticleshtm

[64]Thorsten Joachims laquoEngines using clickthrough data Evaluating Retrieval Performance using clickthrough dataraquo Fev2002 httpwwwcscornelleduPeopletjpublicationsjoachims_02bpdf

[65] Greg Notess laquoLearning About Searchingraquo httpwwwsearchengineshowdowncomstrat[66] laquoEthnomethodology and the Evaluation of Information Retrieval Systems Abstractraquo Clare F Harvey School of

Computing and Information Systems University of Sunderland 1998 httpwwwdcsglaacukmiraworkshopsgrenobleharveyhtml

[67] Greg Notess laquoTitle Searching Showdownraquo Maio 2002 httpwwwsearchengineshowdowncomfeaturestitle e laquoTracking Title Search Capabilitiesraquo ONLINE Maio 2002 httpwwwonlinemagnetOL2001net5_01html David P Habib e Robert L Balliot How to Search the World Wide Web A Tutorial for Beginners and Non-Experts 1999 2000 httpambycomtoolssearchhtml e US Dep of Education httpwwwedgovsearchsearchhelpHowjsp

[68] Junghoo Cho Hector Garcia-Molina Lawrence Page laquoEfficient Crawling Through URL Orderingraquo 1997 httpoakcsuclaedu~chopaperscho-orderpdf

[69] Russ Haynal laquoHow to Read a URLraquo 1999 httpnavigatorscomurlhtml[70] Sim drsquoHertefelt laquoThe Skeptical Internet User Does Not Searchraquo Interaction Architect Nov2000

httpwwwinteractionarchitectcomarticlesarticle20001122htm[71] VVAA An Educators Guide to Credibility and Web Evaluation 1999-2002

httplrseduiuceduwpcredibilityindexhtml

21

  • 3 DA PERSPECTIVA DO UTILIZADOR