renê eduardo arruda.pdf

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PUC-SP

PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM COMUNICAÇÃO E

SEMIÓTICA - COS

Renê Eduardo Arruda

Orientadora: Profa. Dra. Lucia Isaltina Clemente Leão

O DISPOSITIVO DA WEB – UM ESTUDO SOBRE A LÓGICA DO FILTRO

DE BUSCA DO GOOGLE

MESTRADO EM COMUNICAÇÃO E SEMIÓTICA

SÃO PAULO

2019


PUC-SP


O DISPOSITIVO DA WEB – UM ESTUDO SOBRE A LÓGICA DO FILTRO DE

BUSCA DO GOOGLE

MESTRADO EM COMUNICAÇÃO E SEMIÓTICA

Dissertação apresentada à Banca Examinadora da

Pontifícia Universidade Católica de São Paulo, como

exigência parcial para obtenção do título de MESTRE

em Comunicação e Semiótica, na área de Processo de

Criação nas Mídias, sob orientação da Profa. Dra. Lucia

Isaltina Clemente Leão (PEPGCOS/PUC-SP).

SÃO PAULO

2019


PUC-SP


O DISPOSITIVO DA WEB – UM ESTUDO SOBRE A LÓGICA DO FILTRO DE

BUSCA DO GOOGLE

Banca Examinadora

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Agradecimento à agência de fomento à pesquisa

A presente pesquisa foi realizada com apoio da CAPES, Coordenação de

Aperfeiçoamento de Pessoal de Nível Superior, Brasil. Este suporte foi

importante por permitir maior tempo de dedicação à pesquisa, o que resultou em

mais oportunidades de aprendizado e mais qualidade na produção científica.

Agradecimentos

Agradeço à minha esposa, Roberta Krem, pelo inestimável apoio à realização

deste Mestrado, sempre com uma palavra amiga e carinhosa, me incentivando

a continuar, progredir e jamais me dar por vencido, acreditando no meu melhor.

Agradeço à Profª. Lucia Leão, minha mentora na academia, cuja gentileza,

prestatividade e inteligência contribuíram para meu desenvolvimento tanto

enquanto pesquisador quanto como ser humano.

Agradeço ao meu amigo Leandro Furlan da Silva, pelas inúmeras discussões

acerca do assunto pesquisado, fomentando idéias e tirando dúvidas, além de ter

codificado o Googlebot utilizado no capítulo 3 desta pesquisa.

Agradeço à meus amigos Orian, Thiago e Caio, pelas excelentes conversas

acerca do assunto pesquisado, sempre dispostos a discutirem as relações entre

tecnologia e sociedade.

Agradeço aos membros do grupo de pesquisa CCM (Comunicação e Criação

nas Mídias), cujas discussões, palestras e questionamentos me levaram à

descoberta de novos autores, ideias e conceitos que puderam ser aproveitados

nesta pesquisa.

Agradeço aos meus pais, Vânia e Flávio, por terem se esforçado para me

proporcionar uma educação de qualidade, e por fomentarem em mim a idéia que

estudo e pesquisa podem ser caminhos para crescimento pessoal e profissional.

Resumo

O DISPOSITIVO DA WEB: UM ESTUDO SOBRE A LÓGICA DO FILTRO DE BUSCA DO GOOGLE

No contexto das pesquisas em processos de criação na comunicação e na cultura, especificamente no universo da cultura das redes informacionais, a presente pesquisa visa estudar as complexidades que permeiam o fenômeno comunicacional das interações entre usuários do ciberespaço e os resultados de pesquisas através do uso de motores de busca. Mecanismos de busca indexam o conteúdo da web, organizando-o segundo uma lógica própria para compor páginas de resultados de pesquisa. Estes sistemas são desenvolvidos para considerar uma série de critérios quando um usuário realiza uma busca, como palavras-chave, histórico de pesquisa, localização geográfica, entre outros. Assim, a lista de resultados de busca é, em certa medida, diferente para cada usuário. Desde 2009 o Google é a ferramenta de busca mais acessada do mundo, processando um vasto número de informações. A presente dissertação pretende compreender a lógica do filtro de resultados de busca do Google, mapeando como os resultados de pesquisa são personalizados para cada usuário. Devido à vastidão de conteúdo na web, buscadores como o Google tornaram-se ferramentas estruturantes da interação dos usuários neste espaço informacional, determinando o que é exibido como resultado. Seguindo a lógica definida por seus filtros, o Google estabelece relações de poder, agindo como dispositivo, à medida em que modula os resultados de busca de acordo com o perfil de cada usuário, e também de acordo com o contexto social no qual está inserido. O método de pesquisa consiste, primeiramente, em análise do filtro de busca do Google a partir das perspectivas teóricas de Foucault, Deleuze e Guattari, Lazzarato e Halavais. Em paralelo, foi realizado um experimento para verificação empírica do modo de funcionamento do filtro de buscas. O experimento consiste em uma análise qualitativa dos resultados de busca de 5 perfis de usuários elaborados pelo pesquisador, a fim de identificar divergências nos resultados de pesquisa para os mesmos termos de busca. A pesquisa resultou na conceituação da lógica do filtro de busca do Google, verificação da hipótese de divergência de resultados de busca de acordo com características de cada usuário e revelou indícios da subjetivação operada pelo dispositivo.

Palavras-chave: comunicação, cultura e mídias digitais; ferramentas de busca;

pagerank; algoritmos; modulação.

Abstract

APPARATUS OF THE WEB: A STUDY ABOUT GOOGLE’S FILTER LOGIC

In the context of research in communication and culture creation processes, specifically in the information network culture universe, the present work aims to study the complexities that permeate the communicational phenomenon of the interactions between users of cyberspace and search results from search engines. Search engines index content from the web, organizing it according to its own logic to compose search results pages. These systems were developed to consider a series of criteria when a user inserts a query, such as keywords, user’s search history, geographic location, among others. Thus, the search results page is, to some extent, different for each user. Since 2009 Google is the most accessed search engine in the world, processing a vast amount of information. The present dissertation intends to understand the logic of the Google search results filter, mapping how the search results are personalized for each user. Due to the vastness of the web, search engines like Google have become structuring tools for user interaction in the digital informational space, determining what is displayed as a search result. Following the logic defined by its filters, Google establishes power relations, acting as an apparatus, as it modulates the search results according to the profile of each user, and also according to the social context in which it is inserted. The research method consists, first of all, in the analysis of the Google search filter from the theoretical perspectives of Foucault, Deleuze and Guattari, Lazzarato and Halavais. In parallel, an experiment was carried out to empirically verify the operation of the search filter. The experiment consists of a qualitative analysis of the search results of 5 user profiles created by the author, in order to identify differences in search results for the same search queries. The research resulted in the conceptualization of the Google search filter logic, verification of the hypothesis of divergence of search results according to each user's characteristics, and revealed evidence of the subjectivation operated by the device.

Keywords: communication, culture and digital media; search engines; pagerank;

algorithms; modulation.

Sumário

INTRODUÇÃO....................................................................................................................................... 11

1. SISTEMAS DE BUSCA NA WWW E O GOOGLE .............................................................................. 17

1.1. O QUE É UM SISTEMA DE BUSCA NA WEB? ...................................................................................... 17

1.2. TIPOLOGIA DE SISTEMAS DE BUSCA ............................................................................................... 18

Indexação e ordenação de resultados .......................................................................... 20 Diretórios ou catálogos ......................................................................................................... 20 Programas ou robôs de busca ............................................................................................... 22 Híbridos, metabuscadores e segmentados ............................................................................ 31

1.3. GOOGLE ................................................................................................................................. 33

1.4. BUSCA PREDITIVA E FILTRO-BOLHA............................................................................................. 51

2. CONTROLE E LÓGICA OPERATIVA DOS ALGORITMOS DE SERVIÇOS DA WEB ............................... 58

2.1. ALGORITMOS E A ESTRUTURAÇÃO DO MODO DE USO DA INTERNET ........................................................ 58

Uso social de buscadores ............................................................................................. 59

Anexo preferencial ....................................................................................................... 60

Atenção, recurso finito ................................................................................................. 62

2.2. RELAÇÕES ENTRE DATA MINING E MODULAÇÃO DE RESULTADOS COMO LÓGICA TÉCNICA QUE PERMITE O

CONTROLE ........................................................................................................................................... 64

Modulação de resultados de busca e exercício de poder ............................................... 67

2.3. DISPOSITIVO DA SOCIEDADE DE CONTROLE ...................................................................................... 72

Subjetivação e semiótica a-significante ........................................................................ 74

Memória, desejo e identidade ...................................................................................... 77

3. ESTUDO DE CASO – GOOGLEBOT ................................................................................................. 83

3.1. PESQUISAS ANTERIORES SOBRE PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB................................. 83

Mensurando personalização em pesquisas na web....................................................... 84

Impacto da geolocalização na personalização de busca na web ................................... 89

Auditoria da personalização de páginas de resultados de mecanismos de pesquisa

relacionadas a política ................................................................................................................. 91

Expansão da mensuração de personalização em pesquisas na web .............................. 92

3.2. METODOLOGIA DO ESTUDO DE CASO ............................................................................................. 93

Controle de fontes de ruído .......................................................................................... 95

Criação de histórico de pesquisa .................................................................................. 97

Execução das consultas - Googlebot ........................................................................... 100

3.3. APRESENTAÇÃO GERAL DOS RESULTADOS COLETADOS ...................................................................... 101

Experimento 1 – “pregnancy mental disorder” ........................................................... 102

Experimento 2 – “Answering the call of god” .............................................................. 103

Experimento 3 – Efeito de transferência resultando em “determined to see jesus” ...... 106

Experimento 4 – “Tricked her partner” ....................................................................... 107

Experimento 5 – Efeito de transferência resultando em “tricked boyfriend into

becoming a father” .................................................................................................................... 109

Experimentos 6 e 7 – “rape instructor” e efeito de transferência resultando em “become

a certified rape prevention instructor” ........................................................................................ 111

Experimento 8 – “flat earth” ...................................................................................... 112

Experimento 9 – efeito de transferência resultando em “proves earth is flat” ............. 113

3.4. CONCLUSÕES DOS RESULTADOS EXPERIMENTAIS ............................................................................. 115

4. CONSIDERAÇÕES FINAIS ............................................................................................................ 118

5. REFERÊNCIAS BIBLIOGRÁFICAS .................................................................................................. 122

ANEXOS ............................................................................................................................................. 130

CONFIGURAÇÃO DE DADOS PESSOAIS DAS CONTAS GOOGLE UTILIZADAS NOS EXPERIMENTOS DETALHADOS NO CAPÍTULO 3

...................................................................................................................................................... 130

Usuário 1 ................................................................................................................................... 130

Usuário 2 ................................................................................................................................... 130

Usuário 3 ................................................................................................................................... 130

Usuário 4 ................................................................................................................................... 131

Usuário 5 ................................................................................................................................... 131

TERMOS DE PESQUISA PARA COMPOSIÇÃO DE HISTÓRIO DAS CONTAS GOOGLE UTILIZADAS NOS EXPERIMENTOS

DETALHADOS NO CAPÍTULO 3 ................................................................................................................. 132

Usuário 1 ................................................................................................................................... 132

Usuário 2 ................................................................................................................................... 137

Usuário 3 ................................................................................................................................... 138

Usuário 4 ................................................................................................................................... 139

Usuário 5 ................................................................................................................................... 141

Lista de Diagramas:

Diagrama 1 – Tipologia dos mecanismos de busca, segundo Monteiro (2009) ................ 19

Lista de Figuras:

Figura 1 - Página principal do buscador via diretório Yahoo!, em 1996 ................................. 21

Figura 2 - Reprodução traduzida da organização conceitual de um motor de buscas via

rastreador ....................................................................................................................................................................... 30

Figura 3 - Página de resultados de busca do Glassdoor ................................................................. 32

Figura 4 - Esquema ilustrativo de cálculo de reputação do Pagerank ..................................... 34

Figura 5 - Universal Search do Google em 2007 .................................................................................. 38

Figura 6 - Esquema ilustrativo do MapReduce ....................................................................................... 39

Figura 7 – Knowledge Graph do Google em 2018 ............................................................................... 42

Figura 8 - Reprodução de uma busca semântica ................................................................................. 45

Figura 9 - Autocomplete do Google em 2004 .......................................................................................... 52

Figura 10 - Google Assistant .............................................................................................................................. 54

Figura 11 - Cards do Google Now .................................................................................................................. 55

Figura 12 - Imagem publicada por Kaber Alli........................................................................................... 71

Figura 13 - Reprodução da tela de resultados de busca da consulta “is Earth flat” ..... 115

Lista de Quadros:

Quadro 1 - Processos de sistemas de busca x atualizações do algoritmo do Google .. 51

Quadro 2 - Resultados do experimento realizado pelo grupo da Northeastern

University ........................................................................................................................................................................ 86

Quadro 3 - Análise do experimento 1 ........................................................................................................ 102







Quadro 10 - Análise do experimento 8 ..................................................................................................... 113

Quadro 11 - Análise do experimento 9 ..................................................................................................... 114

11

INTRODUÇÃO

A abertura da internet para fins comerciais no início da década de 1990,

deixando os restritos círculos militares onde teve origem e o subsequente uso

em universidades para finalmente tornar-se disponível à população geral, trazia

uma série de promessas de democratização do acesso à informação. A

possibilidade de publicar praticamente qualquer conteúdo, sem intermediários, a

partir de qualquer lugar com uma conexão, e acessível a quase qualquer pessoa,

nunca antes havia sido possível.

Sob uma perspectiva utópica, a internet, enquanto tecnologia, poderia

tornar-se um meio emancipador das massas. Ela possibilita a construção e

divulgação colaborativa de narrativas, divulgação imediata de acontecimentos

em qualquer lugar do mundo, e a vastidão do espaço virtual não conhece limites

de tamanho, quantidade de fontes e formatos de informação. Mais do que isso,

a internet guarda a possibilidade, enquanto tecnologia, de proporcionar também

o acesso a conhecimentos, narrativas e discursos diversos daqueles propagados

pela mídia hegemônica e tradicional.

Os estudos acerca dos usos e práticas sociais dos meios de comunicação,

tanto no início da popularização da internet quanto hoje, provam que prever quais

potencialidades das tecnologias comunicacionais irão se realizar, mesmo que

considerando o contexto socioeconômico, político e cultural no qual estas estão

inseridas, pode mostrar-se bastante difícil. Ao longo do século XX, os meios de

comunicação de massa deixaram de ser considerados instituições culturais, no

sentido de instituições que, em nome do interesse público, representam a

sociedade inteira para o público em geral. Uma forte orientação de mercado

levou os veículos de comunicação de massa a preocuparem-se mais em atender

seus próprios interesses do que em cumprir uma função social pública. Ao

menos parte da web seguiu o mesmo percurso que os veículos de comunicação

de massa do século passado.

Em sua maioria os estudos da cibercultura descrevem a internet como uma

massa de dados imprevisível, rizomática e sem um centro único organizador (a

exemplo de Manuel Castells e Pierre Levy). Esse posicionamento afirma que as

novas tecnologias comunicacionais são baseadas em eliminação de comando

12

centralizado e hierárquico. Neste contexto, a internet seria uma enorme

biblioteca, com serviços como aqueles prestados por buscadores (Google, Bing,

Yahoo!, etc.) fornecendo um mapa universal, um tipo de catálogo de conteúdo.

No entanto, essa perspectiva não abrange todos os aspectos do fenômeno e

suas complexidades.

A internet permitiu uma mudança radical na forma como nós interagimos com

conteúdo – passamos de espectadores a agentes ativos, construindo caminhos

por entre páginas, estabelecendo ligações em um espaço informacional

praticamente infinito. Dentro desta perspectiva, Lucia Leão, em seu livro “O

Labirinto da Hipermídia”, afirma que o sujeito passa a ser um construtor de

labirintos: “O viajante, ao percorrer o sistema, faz existir um espaço que se

desdobra. No momento em que este atualiza escolhas, o desenho de um labirinto

é criado. Labirinto, como sempre, pessoal e único” (2005, p.46).

Penetrar na internet pode ser uma experiência nômade pois, ao percorrer

este labirinto, o viajante vivencia a perda de orientação, posto que não conhece

a ordem global da rede. O sujeito teria diante de si milhões de opções de portas

de entrada, e é humanamente impossível passar por todas elas. Neste contexto,

o grande desafio, ainda segundo Leão, seria reconhecer passagens, reencontrar

pontos familiares, que irão definir o contorno da área do viajante, de seu território

(2005, p.133). Território, aqui, no sentido dado por Deleuze e Guattari – como

algo móvel, em constante gênese, semelhante talvez à relação que os

muçulmanos tem, por exemplo, com seus tapetes. Ao serem desdobrados no

momento da prece, representam uma terra sagrada e dão aos fiéis o contato

com a espiritualidade. Foi neste contexto que emergiram ferramentas de

localização, busca, pesquisa e direcionamento – espaços estriados, sistemas

desenvolvidos com a promessa de auxiliar viajantes em suas respectivas

jornadas.

Plataformas cujos proprietários são mega-corporações oferecem a estes

viajantes uma gama impressionante de serviços das mais diversas naturezas –

e-mail, redes sociais, motores de busca, aplicativos online e muito mais. É

perfeitamente possível que um usuário da internet passe todo o seu tempo online

em uma dessas plataformas ou navegando apenas dentro do ecossistema de

13

serviços da mesma companhia, lá realizando todas as suas atividades e

conduzindo todos os seus negócios.

Dentre estes serviços, destacam-se os buscadores, que fornecem aos

usuários da web um meio de procurar por sites e conteúdo disponível com base

em termos de busca. Estes sistemas foram desenvolvidos para varrer o espaço

informacional da web segundo critérios próprios, coletando dados sobre sites

para popular um banco de dados. Quando um usuário faz uma busca, o sistema

recupera dados deste banco – os dados que o sistema “entende” como

compatíveis e relevantes com o que o usuário está buscando. Portanto, estas

ferramentas são especialmente importantes para o uso efetivo da web por conta

de sua centralidade no uso do meio digital – agem como guia, direcionam fluxos

e apontam os destinos possíveis aos viajantes. Sem eles, a web pode se parecer

com um labirinto indecifrável.

Google, Bing e Yahoo! são sistemas de busca que indexam, categorizam,

ordenam e agregam conteúdo, filtram os resultados de busca colocando em

evidência somente aqueles links que eles “entendem” como de interesse do

usuário. Ou seja, estes sites filtram as informações a serem exibidas e mostram

somente os que tem maior chance de serem clicados pelo usuário.

O Portal de Periódicos da CAPES/MEC indica que há mais de 25 mil artigos

com a palavra Google no assunto. Entretanto, a imensa maioria destes artigos

tem como objeto aspectos técnicos do Google ou de tecnologias da informação

contemporâneas. Há apenas 36 artigos que incluem as palavras-chave Google

e “filter bubble” (filtro bolha). Quando consultada sobre artigos com as palavras-

chave Google e personalização, centrais nesta pesquisa, houve retorno de

apenas 288 artigos. Parece haver necessidade de mais estudos acerca do

Google sob uma perspectiva humanística.

O Google é o buscador mais acessado da web, e processa

aproximadamente 40.000 pesquisas personalizadas por segundo. Desde 2009

esse buscador aplica um mecanismo de filtragem de resultados chamado de "57

sinais". Trata-se de um conjunto de características que envolve desde o local de

onde o usuário está se conectando, identificação da placa de rede, tipo de

navegador utilizado e até memória das pesquisas anteriores, no intuito de

14

personalizar os resultados de busca para cada usuário. Nesse sentido, podemos

afirmar que não existe um Google padrão. É perfeitamente possível que, quando

dois usuários fizerem buscas idênticas no Google, tenham páginas de resultados

de busca significativamente diferentes.

Esta diferença no retorno de resultados levanta uma série de questões

relevantes: qual a lógica destes algoritmos para filtrar conteúdo, definindo o que

deve ou não ser exibido a cada usuário? O que não é mostrado ao usuário, quem

define o que fica de fora, e o quão transparente é este processo? Quais as

consequências desta diferença nos resultados de busca de um mesmo assunto

para cada pessoa? Quais os impactos que os buscadores podem ter na

percepção de mundo de um sujeito? De um ponto de vista macro social, onde

populações inteiras fazem uso de ferramentas como esta, quais seriam as

implicações políticas de um sistema de recuperação de informação que

personaliza os resultados de busca?

À medida que os meios de comunicação se tornam cada vez mais presentes

na vida cotidiana dos indivíduos, os textos, imagens e discursos propagados pela

mídia podem tornar-se parte da construção da identidade individual, e, portanto,

podem influenciar como cada pessoa entende e interage com o mundo à sua

volta. Menos óbvio, no entanto, é que as próprias tecnologias, enquanto aparatos

técnicos que permitem acesso e interação com conteúdo de determinada

maneira, podem ser considerados agentes de mudança, influenciando

comportamentos e determinando modos de pensar e ver. É neste contexto que

a personalização de resultados de busca do Google torna-se um problema de

pesquisa. Considerando o que foi exposto até o momento, os objetivos desta

pesquisa são:

• Compreender a lógica do filtro de resultados de busca do Google,

mapeando de que forma e em qual medida o algoritmo personaliza

resultados de pesquisa para cada usuário;

• Verificar os processos de modulação de resultados a partir da noção

de sociedade de controle (Foucault/ Deleuze);

15

• Identificar se os processos de filtragem utilizados pelo sistema de

busca do Google favorecem ou desfavorecem discursos ou narrativas

específicas, e caso positivo, quais seriam estas.

Para responder estes questionamentos, a dissertação organiza-se em três

partes. No capítulo 1, começo por definir os buscadores enquanto sistemas de

recuperação de informação, delineando quais são suas características e quais

processos realizam durante o seu funcionamento. No mesmo capítulo, detalho o

objeto do estudo, o motor de buscas do Google, contextualizando o seu

desenvolvimento técnico com o crescimento do Google como corporação de

tecnologia. Por fim, explico a direção que o sistema está tomando, quais os

próximos desenvolvimentos e possíveis problemas a serem considerados

futuramente, como busca preditiva e inteligência artificial.

O capítulo seguinte dedica-se a explicar como os motores de busca

estruturam os modos de uso da web e quais as relações entre a captura de dados

dos conteúdos da web e também de seus usuários com técnicas de controle.

Para tanto, busco contribuições dos filósofos Gilles Deleuze, Félix Guattari,

Michel Foucault, Maurizio Lazzato e Giorgio Agamben, que auxiliam a

compreensão dos processos de modulação de resultados de busca a partir da

noção de sociedade de controle. É também através do uso de conceitos e teorias

destes autores que se torna possível delinear as relações de poder que os

motores de buscas estabelecem e como estes sistemas atuam na construção da

identidade e da subjetividade.

Como o buscador Google é um sistema opaco, que não pode ser examinado

em detalhes porque seu código é um segredo comercial da corporação, o

terceiro e último capítulo é um experimento empírico para verificação das

hipóteses levantadas nos capítulos 1 e 2. O objeto selecionado para tratamento

empírico são os resultados de busca no Google obtidos por perfis criados

especificamente para esta pesquisa. Os perfis são populados fazendo uso de

um software que realiza buscas no Google automaticamente, inserindo no

campo de busca palavras pré-definidas pelo pesquisador e clicando em links da

página de resultados de busca.

16

Os dados coletados foram submetidos à análise, permitindo assim identificar

se os processos de filtragem utilizados pelo sistema de busca do Google

favorecem ou desfavorecem discursos ou narrativas específicas.

As tecnologias de informação ocupam um lugar de destaque em

praticamente todos os ambientes e relações da sociedade contemporânea. A

midiatização é um processo macro-social visível na sociedade como um todo, à

semelhança de outros processos sociológicos importantes como a globalização

e a individuação. Dentre os meios de comunicação, a internet parece cada vez

mais assumir uma dimensão de domínio de experiências compartilhadas ao

convergir conteúdo de diversas instituições, midiáticas ou não, ao mesmo tempo

em que permite a interação e compartilhamento de informações entre usuários.

Estas tecnologias, como toda tecnologia, não são meramente técnicas, mas

políticas, proporcionando novas formas de interação, inscrevendo outras

relações de poder e, algumas vezes, impondo formas de controle. Em vista da

gravidade e importância dos fenômenos possibilitados pela tecnologia da

informação na contemporaneidade, o estudo visa contribuir para a compreensão

do mundo em que vivemos atualmente, e em especial, desta dimensão política

das tecnologias da informação.

17

1. SISTEMAS DE BUSCA NA WWW E O GOOGLE

1.1. O QUE É UM SISTEMA DE BUSCA NA WEB?

Em 2017 a internet ultrapassou a marca de 4 bilhões de usuário ativos no

mundo (INTERNET WORLD STATS, 2017). No Brasil, aproximadamente 64,7%

da população com idade acima dos 10 anos possui acesso à internet, de acordo

com pesquisa realizada pelo IBGE em 2016. A web, aquela acessada pela

imensa maioria dos usuários de internet, tem hoje mais de 1,9 bilhão de websites

(INTERNET LIVE STATS, 2018), que hospedam videos e imagens na ordem de

grandeza das dezenas de bilhões. Os usuários frequentemente fazem uso de

ferramentas de busca para encontrar o que procuram nesta vasta rede de

conteúdo.

De acordo com o Pew Research Center 1 , sites de busca são os mais

populares da web ao menos desde 2002, quando o instituto começou as

pesquisas de números de acesso. A principal diferença entre 2002 e 2011,

segundo eles, é que o uso de ferramentas de busca na web tornou-se ainda mais

frequente. Em 2011, 92% dos usuários de Internet dos EUA faziam uso de

ferramentas de busca, dos quais 59% realizavam buscas regularmente (ao

menos uma vez por dia) (SEARCH ENGINE WATCH, 2011).

Uma ferramenta de buscas é basicamente um sistema de recuperação de

informações que permite buscas por “palavra-chave” (HALAVAIS, 2017. P. 7). É

um sistema de software projetado para pesquisar informações em um banco de

dados. No entanto, se perguntarmos a algum usuário de internet o que é uma

ferramenta de buscas, provavelmente não teremos como resposta uma definição

como esta, mas seremos indicados a alguns sites de busca populares da web,

como Google ou Bing.

1 O Pew Research Center é um centro de pesquisas estadunidense sediado em Washington, DC, especializado em fornecer informações sobre questões sociais, opinião pública e tendências demográficas de impacto nos Estados Unidos e no mundo. Realiza pesquisas de opinião pública, pesquisas demográficas, análises de conteúdo midiático e outras pesquisas científicas empíricas. O Pew Research Center é uma subsidiária do The Pew Charitable Trusts, ONG criada em 1948 por herdeiros da Sun Oil Company.

18

Google, Yahoo!, Bing e Baidu, dentre outros, são empresas privadas

proprietárias de sites que oferecem um serviço gratuito e livremente acessível

aos usuários: sistemas desenvolvidos para buscar conteúdo (sites, imagens,

videos, etc.) na web com base em palavras-chave definidas pelo usuário.

A interação do usuário com ferramentas de busca geralmente aparenta ser

bastante simples: o usuário insere os termos de busca e clica em “Pesquisar”

(ou em outro termo equivalente, como “Buscar”), e o site retorna uma lista de

sites, imagens, videos ou outros conteúdos que tenham relação com o termo de

busca. De forma genérica (e bastante simplificada, como veremos a seguir), é

possível descrever o processo realizado pelos sites de busca como uma consulta

ao “universo de conteúdo disponível”, seguido por uma filtragem baseada nos

termos de busca, para retornar ao usuário uma página de conteúdo relevante.

Este “universo de conteúdo disponível” varia conforme os parâmetros definidos

pelo sistema de busca, bem como o que é considerado relevante.

1.2. TIPOLOGIA DE SISTEMAS DE BUSCA

Existe uma grande variedade de sistemas de busca, cada um com suas

peculiaridades, metodologias de coleta e organização de conteúdo, o que

dificulta a tipificação simples. Silvana Drumond Monteiro, Professora do

Departamento de Ciência da Informação da Universidade Estadual de Londrina,

propõe uma tipificação dos sistemas de busca de acordo com a multiplicidade

de sistemas e suas respectivas características, bem como da dinamicidade que

o desenvolvimento tecnológico impõe a estes sistemas. Segundo Monteiro, os

sistemas de busca podem variar bastante, mas devem apresentar: a) processos

de coleta e indexação; b) geração de índices; c) processos de busca. Os

sistemas de busca podem ter sua anatomia classificada da seguinte maneira

(MONTEIRO, 2009, p.73):

• Crawling (varrer): formas de captação e abastecimento do banco de

dados;

• Indexing (indexar ou gerar o índice a partir da base de dados): formas

de organizar as informações contidas do banco de dados;

19

• Searching (buscar através da interface de busca): formas de

ordenação e apresentação dos resultados de busca.

Diagrama 1 – Tipologia dos mecanismos de busca, segundo Monteiro (2009)

Fonte: MONTEIRO, 2009, p. 72.

20

Seguindo o modelo aristotélico de definição de gênero e espécie, Monteiro

tipifica os sistemas de busca de acordo com forma geral de organização ou

indexação, ordenação de resultados, apresentação dos resultados e paradigma

semiótico.

Apesar de, sob uma perspectiva classificatória, a anatomia dos sistemas de

busca se enquadrar na anatomia de Monteiro, a forma que cada uma das partes

desta anatomia opera apresenta bastante variação entre sistemas. Os eixos

definidos por Monteiro (coluna vermelha do Diagrama 1) agregam os processos

realizados por variados sistemas de busca. Alguns dos eixos abrangem mais de

uma classificação anatômica, o que se deve, segundo Monteiro, ao fato das duas

classificações estarem em pressuposição recíproca (MONTEIRO, 2009, p.10).

Esta pressuposição recíproca faz referência, segundo a pesquisadora, ao

conceito de “dobra” que, segundo a leitura que Deleuze elabora sobre o

pensamento de Leibniz, “[...] é a continuidade do avesso e do direito, a arte de

instaurar essa continuidade, de tal maneira que o sentido na superfície se

distribui dos dois lados ao mesmo tempo” (DELEUZE, 1998, p. 130). Ou seja, há

um sentido de continuidade entre o avesso e o direito de certos processos

realizados por classificações da anatomia dos sistemas de busca (MONTEIRO,

2009, p.10). A forma geral de organização ou indexação está simultaneamente

nas classificações crawling e indexing – o primeiro processo é realizado na web,

e o segundo processo dentro do banco de dados do Google. A ordenação dos

resultados está ao mesmo tempo nas classificações indexing e searching –

sendo o primeiro processo realizado apenas no banco de dados do Google e o

segundo na web, aberto ao usuário.

INDEXAÇÃO E ORDENAÇÃO DE RESULTADOS

Os mecanismos que realizam as buscas podem ser: diretórios ou catálogos,

programas ou robôs de busca, sistemas híbridos e meta-buscadores.

DIRETÓRIOS OU CATÁLOGOS

Os sistemas de busca via diretórios ou catálogos preenchem suas bases de

dados através do esforço humano. Funcionam da seguinte forma: o proprietário

21

do site ou conteúdo a ser incluído na base de dados envia uma breve descrição

daquilo que deseja incluir junto com a categoria a ser listada. A equipe do site de

buscas via diretório revisa manualmente o conteúdo enviado e aprova ou rejeita

a inclusão na base de dados. Como cada conteúdo é revisado quanto à

relevância antes de ser incluído, teoricamente bases de dados de sites de busca

via diretório teriam maior qualidade do que bases de dados construídas de forma

automatizada.

Figura 1 - Página principal do buscador via diretório Yahoo!, em 1996

Fonte: Search Engine Journal, Yahoo! Visual Timeline 1996-2006 - acesso em 16/02/2019.

A indexação do conteúdo enviado é baseada na descrição submetida pelo

proprietário do conteúdo, bem como nos critérios para aprovação próprios de

cada site de busca via diretório.

O cálculo de relevância para selecionar e ordenar os resultados de pesquisa

variam, mas normalmente correspondem os termos de busca com a descrição

de conteúdo informada durante a indexação. Isso significa que as alterações

feitas no conteúdo de uma página da Web não são levadas em consideração,

22

pois a busca é baseada na descrição do conteúdo, ao invés de basear-se no

conteúdo em si.

Sistemas de busca via diretório tem bases de dados relativamente pequenas,

pois a indexação de conteúdo é, em alguma medida, manual (não automatizada,

como nos sistemas de busca que fazem uso de crawlers). A consequência é que

buscas muito específicas ou obscuras podem não apresentar muitos resultados.

Além disso, a base de dados fica desatualizada com relativa facilidade, já que o

conteúdo indexado não será revisitado a não ser que exista uma solicitação

explícita para tanto. Por fim, o critério de qualidade que define se uma página

será incluída ou rejeitada no sistema de busca via diretório nem sempre é claro

o suficiente. Yahoo! Directories, Open Directory Project e Internet Public Library

são exemplos de sistemas de busca via diretório. Este tipo de buscador foi

bastante popular no início da internet, quando a rede ainda era relativamente

pequena, composta por algumas dezenas de milhares de websites. O

crescimento exponencial do conteúdo disponível na web, junto à dificuldade de

manter o diretório atualizado, fez com que este modelo entrasse em crise.

Quando os primeiros motores de busca automatizados, como o Google, surgiram

no final da década de 1990, sistemas de busca via diretório entraram em franco

declínio.

Atualmente, sistemas de busca via diretório ainda são utilizados em alguns

segmentos, como no meio acadêmico (Scopus e Web of Science). Nestes

sistemas, a maioria da indexação é realizada manualmente e o conteúdo é

sujeito à avaliação. Nestes casos, o cálculo de relevância leva em conta variáveis

específicas do segmento, como o índice-h do autor. Como nenhum dos mais

acessados sites de busca da atualidade é do tipo diretório, não trataremos mais

deles nesta dissertação.

PROGRAMAS OU ROBÔS DE BUSCA

Sistemas de busca via programas ou robôs de busca fazem uso de

ferramentas automatizadas para pesquisar conteúdo na web. O espaço de

pesquisa destes rastreadores é a web de superfície, e não a internet e nem

mesmo o ciberespaço como um todo. A Internet é uma rede global distribuída de

23

computadores, cujas raízes estão nos meios acadêmico e militar americanos das

décadas de 1950 e 1960. É uma rede de redes de computadores, composta por

atores privados, públicos, acadêmicos, comerciais e governamentais de escopo

local e global, mantida conectada por diversas tecnologias (cabos, redes sem

fio, fibra óptica, etc.). Essa rede de redes de computadores é baseada no

protocolo TCP/IP2 (Transmission Control Protocol/Internet Protocol), que regula

como as máquinas comunicam-se umas com as outras, possibilitando uma rede

na qual cada um dos atores pode enviar e receber informações de qualquer outro

ator (GALLOWAY, 2004. p. 4).

Se a internet é a infraestrutura técnica da rede, o ciberespaço pode ser

considerado como a rede mundial de signos e pessoas (MONTEIRO, 2008,

p.100). De acordo com Monteiro, o ciberespaço é:

“Uma grande máquina abstrata, porque semiótica, mas também social, onde se realizam não somente trocas simbólicas, mas transações econômicas, comerciais, novas práticas comunicacionais, relações sociais, afetivas e, sobretudo, novos agenciamentos cognitivos. [...] Um espaço semântico/semiótico, onde o signo se dá em várias semióticas, desterritorializado, nômade, em escrita espacializada e com a memória em constante modificação (2007, p.1-12)”.

Neste contexto, o ciberespaço é o território abstrato, semiótico e social

possibilitado pela infraestrutura técnica que é a internet.

2 TCP/IP é uma abreviação da Internet Protocol Suite (Conjunto de protocolos da Internet), que é o modelo conceitual e o conjunto de protocolos de comunicação usados na Internet e em redes de computadores semelhantes. É comumente conhecido como TCP/IP porque os protocolos fundamentais no conjunto são o TCP (Transmission Control Protocol, ou Protocolo de Controle de Transmissão) e o IP (Internet Protocol). Estes protocolos foram resultado de pesquisa e desenvolvimento conduzidos pela DARPA (Defense Advanced Research Projects Agency, Agência de Projetos de Pesquisa Avançada de Defesa dos EUA) no final da década de 1960. Depois de iniciar a pioneira ARPANET, em 1969, a DARPA começou a trabalhar em várias outras tecnologias de transmissão de dados. Em 1973, Robert E. Kahn e Vinton Cerf elaboraram uma reformulação do protocolo ARPANET no qual as diferenças entre protocolos de redes locais eram ocultas usando um protocolo comum de internetwork e, em vez de a rede ser responsável pela confiabilidade, como na ARPANET, função foi delegada aos hosts. O protocolo TCP foi publicado pela primeira vez em 1974. Inicialmente, o TCP gerenciava tanto as transmissões como o roteamento de datagramas, mas à medida que o protocolo cresceu, outros pesquisadores recomendaram uma divisão de funcionalidade nas camadas de protocolo. Um design monolítico seria inflexível e levaria a problemas de escalabilidade. Assim, o Transmission Control Program foi dividido em dois protocolos distintos, o TCP e o Internet Protocol.

24

A web, por sua vez, é um espaço informacional na internet governado pelo

World Wide Web Consortium3 (W3C). Esse consórcio internacional foi criado em

1994 para desenvolver protocolos de conteúdo comuns para serem usados na

rede, como o HTML (Hypertext Markup Language) e CSS (Cascading Style

Sheets) (GALLOWAY, 2004. p. 6). É no espaço informacional da web, uma rede

dentro da internet, uma parte do ciberespaço, que estão todos os sites com

endereços iniciados em “www”, URLs (Uniform Resource Locators) e

documentos acessíveis através de navegadores como Chrome, Internet

Explorer, Safari e Mozilla Firefox.

Assim, é preciso reforçar que, apesar dos termos Internet, ciberespaço e web

serem frequentemente usados sem muita distinção, referem-se a objetos

diferentes. Entretanto, é preciso lembrar que apesar de diferentes, ciberespaço,

internet e web frequentemente se sobrepõe – um usuário que acessa um site

qualquer da web está, simultaneamente, nos três. Enquanto a internet é o

sistema global de redes de computadores, a infraestrutura que conecta

máquinas em rede e permite a comunicação entre elas, o ciberespaço é o

território virtual, semiótico e social. A web é uma parte do ciberespaço, um

território informacional onde recursos são vinculados por hiperlinks e URLs.

Funcionalmente, pode-se definir que a web é a parte “pública” da internet,

acessível livremente por qualquer pessoa usando um navegador comum. É nela

que estão todos os sites comerciais, acadêmicos, redes sociais, noticiosos e

demais conteúdos.

No entanto, em contraste à web livremente acessível, também conhecida

como “web de superfície”, está a web profunda (deep web), composta por redes

fechadas (redes corporativas, bancárias, encriptadas, etc.), servidores privados

e domínios não registrados. A web profunda é acessível diretamente por aqueles

3 A web, abreviação de World Wide Web (WWW), foi criada por Tim Berners-Lee em 1989 através da publicação do HTTP (Hypertext Transfer Protocol, Protocolo de Transferência de HiperTexto). Até então o ciberespaço não era facilmente navegável, pois não havia padrões quanto às linguagens e uso de protocolos na criação e localização de sites. O protocolo criado por Berners-Lee é um padrão para divulgação e leitura de documentos e outros recursos. Além disso, cada recurso é identificado por URLs (Uniform Resource Locators), interligados por links de hipertexto e acessíveis pela Internet. Posteriormente, Berners-Lee viria a fundar o W3C.

25

que detém chaves de acesso às redes fechadas (um usuário de internet banking,

por exemplo) ou por ferramentas especializadas, como o navegador Tor (“The

Onion Router”). O Tor não permite que um usuário acesse redes fechadas,

ultrapassando a necessidade de chave de acesso, mas permite acessar redes

privadas abertas e domínios não registrados, localizáveis apenas pelo IP (ou

seja, a ferramenta permite ao usuário a navegação pela “parte aberta” da deep

web).

Sistemas de busca via rastreadores não poderiam usar a internet como fonte

de dados, pois ela é a infraestrutura comunicacional que conecta redes de

computadores. Redes fechadas, privadas, que não permitem acesso público,

também não podem, por definição, serem rastreadas. Assim, a fonte de dados

de todos os sites de busca que fazem uso de rastreadores é a web de superfície.

Conforme explicado anteriormente, o processo realizado por sites de busca

para construir um banco de dados e retornar resultados de pesquisa possui três

etapas distintas: crawling, indexing, searching. Sistemas de busca via programas

ou robôs de busca realizam todas estas etapas de forma automatizada.

Os robôs rastreadores (crawlers) são softwares que examinam

individualmente páginas da web de forma automatizada, verificando se a página

corresponde aos parâmetros de busca, isto é, se pode ser indexada ou não. Esta

análise de cada página ocorre de acordo com critérios definidos pela Política de

Rastreio (crawl policy). É esta política que determina o que o rastreador deve

procurar em uma página da web, quais os parâmetros aceitáveis para enviar a

página para indexação e como capturar informações suficientes para que o

processo de indexação seja realizado com sucesso. O crawler pode, por

exemplo, verificar o nome de arquivo padrão robots.txt, endereçado a ele, antes

de enviar determinadas informações para serem indexadas, dependendo de

vários fatores, como títulos, conteúdo da página, JavaScript4, CSS, cabeçalhos,

4 JavaScript, CSS e HTML são as tecnologias centrais da WWW. JavaScript permite a atualização dinâmica de páginas da web, ou seja, que a página responda a interações e inputs do usuário. CSS (Cascading Style Sheets) permite a separação entre apresentação e conteúdo, incluindo layout, cores e fontes. Essa separação tem o propósito de melhorar a acessibilidade de conteúdo, fornecer mais flexibilidade e controle na especificação de características de apresentação, permitir que várias

26

marcação HTML, metadados, etc. A Política de Rastreio assegura que o crawler

vai levar em conta apenas os conteúdos considerados relevantes, e

desconsiderar páginas vazias, spam ou websites sem links.

Ao enfrentar acusações de falta de transparência nos critérios de

rastreamento e indexação, o Google publicou em 2009 as linhas gerais de suas

políticas de rastreio (GOOGLE, 2018). Segundo o documento, proprietários de

websites devem evitar: conteúdo gerado automaticamente, esquemas para inflar

a quantidade de links de um site, páginas com pouco ou nenhum conteúdo

original, cloacking (configurar dados do site para que o link capturado pelo

rastreador seja diferente daquele acessado pelo usuário na web),

redirecionamentos, links e textos ocultos na página, conteúdo copiado de outras

páginas, palavras-chave irrelevantes em relação ao conteúdo da página, dentre

outros. Todos os fatores descritos acima impedem que rastreadores

recomendem a página para indexação, ou farão com que a página tenha um

cálculo de relevância mais baixo.

Se a Política de Rastreio é uma forma de aprovar ou reprovar conteúdo para

indexação, sempre haverá uma parte da web de superfície que o rastreador não

irá considerar (a rigor, o Google considera tudo, elenca segundo seus critérios e

exclui o que não é relevante ou que não está de acordo com suas políticas

internas). Portanto, quando um usuário faz uma busca em uma ferramenta de

pesquisa, estará buscando conteúdo dentro da parte da web indexada pelo

crawler daquele site, e não da web de superfície como um todo. Assim, a Política

de Rastreio é tanto um critério de inclusão do que deve ser indexado quanto de

exclusão.

Apesar do Google possuir um índice imenso de páginas e conteúdos da web,

fontes diversas no meio técnico e na imprensa assumem que o Google está

considerando em sua indexação menos de 4% (SEEKER, 2015; TENNESSEAN,

páginas da Web compartilhem formatação especificando o CSS relevante em um arquivo .css separado e reduzir a complexidade e a repetição no conteúdo estrutural. HTML (HyperText Markup Language) descreve a estrutura de uma página da web semanticamente e incluiu instruções para a aparência do documento (distribuição de texto e imagens, fonte de imagens, dentre muitos outros aspectos que definem o layout das páginas da web).

27

2014) do total da web, com o restante pertencente à deep web, inacessível por

meio de suas ferramentas de busca.

Quando um rastreador encontra uma página ou conteúdo da web que está

de acordo com a Política de Rastreio, faz uma cópia do conteúdo e adiciona seu

URL a um índice. Feito isso, o rastreador da web segue todos os links da página,

repetindo o processo de copiar, procurar por informações relevantes para o

processo de indexação e seguir links.

Rastreadores web refazem os processo de verificação de conteúdo

periodicamente para atualizar automaticamente a base de dados e apresentar

resultados de pesquisa válidos. Entre visitas do rastreador, a versão em cache

da página (parte ou todo o conteúdo necessário para renderizá-la) armazenada

na memória de trabalho do mecanismo de pesquisa é enviada quando um termo

de pesquisa solicita sua exibição na página de resultados. Nesse caso, a página

pode diferir dos termos de pesquisa indexados. A frequência de rastreio depende

do site de pesquisa, mas é comum que uma página que foi atualizada apareça

por dias sem atualização nos resultados de pesquisa.

Realizado o rastreamento, o conteúdo é indexado – ou seja, organizado

através da associação de palavras-chave, tags, nomes de domínio e campos

baseados em HTML. O crawler, ao visitar a página ou recomendar um conteúdo

para indexação, já coleta uma série de dados relevantes que serão usados na

organização e classificação. Em seguida associações são feitas em um banco

de dados, disponibilizado para consultas de pesquisa na web. Uma consulta de

um usuário pode ser uma única palavra. A indexação ajuda a encontrar

informações relacionadas à consulta o mais rápido possível. Algumas das

técnicas de indexação e armazenamento em cache são segredos comerciais,

enquanto o rastreamento da web é um processo direto de visitar todos os sites

de maneira sistemática.

Quando um usuário realiza uma pesquisa em um buscador que faz uso de

programas ou robôs de busca, o sistema recorre ao conteúdo indexado no banco

de dados. Em geral, é provável que uma quantidade enorme de conteúdo

indexado corresponda aos termos inseridos pelo usuário no campo de busca. No

entanto, o sistema utiliza parâmetros que definem as páginas que são

28

apresentadas e sua ordem. Para isso, o sistema realiza cálculos de relevância

dos conteúdos indexados. Esse procedimento se justifica pela ideia de que a

utilidade de um sistema de busca depende da relevância do conjunto de

resultados que ele retorna.

Relevância é um conceito que foi explorado pela primeira vez em

profundidade pelas Ciências da Informação em 1958 (MONTEIRO, FERNANDES,

DICARLO, TREVISAN, 2017, p.166), durante a “International Conference for

Scientific Information” (ICSI), em que a comunidade científica concordou com os

seguintes aspectos:

a) relevância não é, exclusivamente, uma propriedade do documento;

b) relevância não é uma propriedade dicotômica [isto é, entre documentos

satisfatórios e insatisfatórios ao pedido do usuário];

c) existe uma ‘relevância para o usuário’ que deve ser julgada [configurando-

se, portanto, em um julgamento da relevância].

Ao longo dos anos, os sistemas de busca evoluíram significativamente e eles

conseguem trazer à vista do usuário o que é relevante ao usuário segundo seus

critérios. Entretanto, resta aos criadores de sistemas de busca o desafio de

definir exatamente o que significa “conteúdo relevante ao usuário”.

“Basicamente, o problema reside em informar à máquina o que é relevante para um ser humano, pois até mesmo entre as pessoas há divergências em determinar com unanimidade o que é relevante para elas, talvez por se tratar de uma questão subjetiva, pessoal, intrínseca e imparcial” (MONTEIRO, FERNANDES, DICARLO, TREVISAN, 2017, p.168).

A maioria dos mecanismos de pesquisa emprega métodos para classificar os

resultados para fornecer os "resultados mais relevantes” primeiro. Como um

mecanismo de pesquisa decide quais páginas são as melhores

correspondências e em que ordem os resultados devem ser exibidos, varia muito

de um mecanismo para outro. Existem várias formas de calcular a relevância, e

cada um deles tem pesos relativos diferentes para fatores comuns, como

densidade de palavras-chave, links ou metatags, localização e frequência de

termos, e análise de links. O cálculo de relevância é normalmente realizado por

29

um ou mais algoritmos executados no banco de dados do sistema de busca. Em

ciências da computação, um algoritmo é uma sequência finita de ações

executáveis que visam obter uma solução para um determinado tipo de

problema. É uma sequência de passos computacionais que serão executados

pela máquina. Algoritmos diferentes são uma das principais razões pelas quais

diferentes sistemas de busca que fazem uso de rastreadores fornecem páginas

de resultados de pesquisa diferentes para os mesmos termos de pesquisa.

O Google deve seu sucesso, ao menos no início de sua trajetória enquanto

empresa de tecnologia e sistema de busca, por uma inovação neste ponto do

processo – o algoritmo PageRank. A maioria dos sistemas de busca

automatizada do final da década de 1990 calculavam relevância de páginas da

web com base na frequência com que o termo de busca sendo pesquisado

ocorria nos sites (ou seja, páginas com mais ocorrências de determinado termo

de busca sendo pesquisado eram consideradas mais relevantes do que outras

com menos ocorrências daquele termo). O algoritmo PageRank, em vez disso,

supõe que páginas da web com hiperlinks para outras páginas são mais

importantes. Durante o processo de indexação, o algoritmo analisa os links de

cada uma das páginas e atribui uma pontuação. Essa pontuação tem como base

a soma ponderada das outras páginas que se ligam a ela. Assim, o PageRank

realiza um cálculo de relevância com base na importância que cada página tem

na rede, ao invés de analisá-la isoladamente. Veremos detalhadamente como o

PageRank funciona mais adiante.

A última etapa na operação dos mecanismos de pesquisa é recuperar os

resultados com base nos termos de pesquisa inseridos pelo usuário. O

mecanismo de reconhecimento de termos de pesquisa também varia a cada

sistema de buscas – enquanto sistemas mais primitivos levarão em conta todos

os termos inseridos pelo usuário, exatamente como o usuário digitou,

buscadores mais recentes podem usar abordagens relacionais, baseadas em

inteligência artificial ou reconhecimento de padrões de escrita. Ao reconhecer

preposições, sistemas de busca como o Yahoo! podem excluí-las da lógica de

busca porque são comuns demais. Ou ainda, em sistemas como o Google,

preposições são reconhecidas e propiciam resultados de busca mais acurados,

30

porque o sistema foi programado para “compreender” as relações que elas

estabelecem entre palavras.

Figura 2 - Reprodução traduzida da organização conceitual de um motor de buscas via

rastreador

Fonte: HALAVAIS, Alexander. Search Engine Society, p. 20.

Há sistemas de busca (como o Google e Bing, dentre outros) que relacionam

a busca realizada por um usuário com buscas anteriores de outros usuários, a

fim de identificar erros de digitação e retornar uma página de resultados

adequada mesmo que o termo de pesquisa inserido contenha erros.

Sistemas de busca que fazem uso de crawlers dominaram o segmento de

buscadores porque conseguem indexar uma quantidade imensa de sites e

mante-la relativamente atualizada com baixo nível de esforço. No entanto, há

desvantagens relevantes: rastreadores são robôs relativamente fáceis de

manipular, e páginas podem ser configuradas para inflar artificialmente sua

relevância perante outras. Além disso, o processo de indexação está

diretamente ligado ao algoritmo de indexação, e páginas podem ser

erroneamente indexadas, sendo exibidas em páginas de resultados de busca

onde não deveriam estar.

31

O Google, Yahoo! e Bing são exemplos de mecanismos de pesquisa via robôs

de busca. Nesta dissertação, sites que fazem uso de crawlers serão referidos, a

partir de agora, indistintamente como buscadores, motores de busca,

ferramentas de busca, mecanismos de busca e serviços da web (esta última uma

categoria mais abrangente, que inclui outros serviços como redes sociais,

agregadores de conteúdo, armazenamento na nuvem, e-mail, etc.).

HÍBRIDOS, METABUSCADORES E SEGMENTADOS

Existem sistemas de busca híbridos, uma mistura de rastreadores e diretórios.

Estes mecanismos híbridos usam tanto a indexação manual quanto a baseada

em rastreadores para listar os sites nos resultados da pesquisa. A maioria dos

mecanismos de pesquisa baseados em rastreadores, como o Google, permite

em alguma medida a indexação manual e poderia ser considerado híbrido. Um

exemplo possível seria o Google capturar a descrição de uma página da web de

diretórios e mostrar nos resultados da pesquisa. Técnicas de SEO5 (Search

Engine Optimization), desenvolvidas para melhorar o ranking de um website nos

resultados de busca, frequentemente recorrem a descrições manuais criadas

pelo proprietário do conteúdo com objetivo de facilitar o rastreamento e

indexação. Estas descrições são disponibilizadas no arquivo padrão robots.txt

da página, e de certa forma replicam a lógica operacional dos sistemas de busca

via diretório – o proprietário do conteúdo submetido à indexação apresenta uma

descrição, que poderá afetar como o site será indexado. A principal diferença,

no entanto, é que a descrição é apenas um dos inúmeros fatores levados em

consideração durante o rastreamento e indexação, e pode inclusive ser

desconsiderada.

Há também metamecanismos de busca, que pesquisam vários outros

sistemas de pesquisa de uma só vez e combinam os resultados em uma única

5 SEO significa "search engine optimization" (otimização do mecanismo de busca). É o processo de otimização de páginas da web para obtenção de mais tráfego a partir de resultados de pesquisa de sistemas de busca. Esta otimização busca compreender como um sistema de busca realiza rastreamento, quais são suas políticas de rastreio, e como calcula relevância da página de resultados para que uma ou mais páginas da web sejam melhor posicionadas na página de resultados de pesquisa.

32

lista. Embora eles normalmente apresentem uma quantidade maior de

resultados para qualquer termo de busca, a relevância e a qualidade dos

resultados podem ser prejudicadas. Dogpile e Clusty são exemplos de motores

de busca do tipo meta.

Figura 3 - Página de resultados de busca do Glassdoor

Fonte: Glassdoor.com - acesso em 16/02/2019

Por fim, há mecanismos de busca direcionados ou segmentados, aqueles que

se especializam em buscar conteúdo restrito a um local, atividade, tipo. São

buscadores de emprego, acadêmicos6, de preços ou qualquer outro assunto.

Seus processos de rastreamento, indexação e cálculo de relevância são

direcionados para o tipo de conteúdo no qual são especializados. Exemplos não

faltam – Indeed e Glassdoor são buscadores de empregos, Yummly é um

buscador de receitas, FindMyPast é um buscador de genealogia, e o globalSpec

é um buscador de produtos industriais e de engenharia. Gigantes como Google

e Bing desenvolveram alguns sistemas de busca direcionados para competirem

6 Exemplos: SciELO — Scientific Electronic Library Online (www.scielo.org); Google Acadêmico (https://scholar.google.com.br); CiteSeerX (http://citeseer.ist.psu.edu); ResearchGate (https://www.researchgate.net); Mendeley (https://www.mendeley.com/); Portal de Periódicos CAPES (www.periodicos.capes.gov.br); Plataforma Sucupira: (https://sucupira.capes.gov.br); Lista de Periódico e Conferências: http://qualis.ic.ufmt.br.

http://www.scielo.org/

https://scholar.google.com.br/

http://citeseer.ist.psu.edu/

https://www.researchgate.net/

https://www.mendeley.com/

http://www.periodicos.capes.gov.br/

https://sucupira.capes.gov.br/

33

na oferta de conteúdos específicos, como Google News, Bing News, Google

Scholar, Yahoo! Video, etc.

Dentre os buscadores direcionados ou segmentados há aqueles, como o

DuckDuckGo, que se especializam em buscar conteúdo de uma determinada

maneira (ao invés de restringir os resultados de busca por local, tema ou

atividade). Este buscador foi elaborado com preocupações específica acerca da

privacidade dos usuários, e oferece buscas sem fazer uso de nenhum dado do

usuário. Essa característica também apela àqueles que preferem realizar buscas

na internet sem qualquer tipo de personalização de resultados (veremos mais

sobre personalização de resultados de busca adiante).

1.3. GOOGLE

O Google foi criado em 1996 como projeto de pesquisa de doutorado de Larry

Page e Sergey Brin na Universidade de Stanford, na Califórnia. Enquanto os

mecanismos de busca da época classificavam os resultados contando quantas

vezes os termos da pesquisa apareciam nas páginas indexadas, os dois

teorizaram sobre um sistema que analisava as relações entre os sites,

estabelecendo um cálculo relacional de relevância. Este sistema determinaria o

ranking de um site dentro de um sistema de busca pelo número e importância de

páginas conectadas a ele, como se fosse um sistema de reputação. Eles

chamaram essa nova metodologia de cálculo de relevância de PageRank

(“classificador de página”, mas também pode ser entendido como uma

brincadeira com o sobrenome de seu inventor, Larry Page).

O PageRank é um algoritmo de análise de links que associa valores às

páginas da web, com o objetivo de "medir" sua importância relativa dentro do

conjunto. Ou seja, o algoritmo calcula relevância de uma página relacionalmente,

determinando qual o peso de cada website de acordo com a rede de conexões

que ele tem com outras páginas. Outros fatores, além da relação entre websites,

como o Rank do Autor de determinado conteúdo, podem contribuir para o cálculo

de relevância. O valor da classificação indica a importância de uma determinada

página. Um hiperlink para uma página conta como um voto de apoio. O

PageRank de uma página é definido de forma recursiva e depende do número e

34

da métrica de PageRank de todas as páginas vinculadas a ele ("links de

entrada"). Uma página que está ligada a vários sites relativamente importantes

(aqueles com alto PageRank) tem pontuação alta, enquanto um site que não tem

links de entrada (links que levam a ele a partir de outras páginas) é considerado

sem importância.

Para compreender o cálculo realizado pelo PageRank de forma simplificada,

imaginemos um universo com apenas quatro websites (A, B, C, D).

• A tem 1 link de saída (para D)

• B tem 2 links de saída (D e A)

• C tem 1 link de saída (para D)

O PageRank de D é igual à soma dos PageRanks dos sites que tem links

direcionados a ele dividido pela quantidade de links até D de cada um deles.

𝑃𝑅(𝐷) =𝑃𝑅(𝐴)

1+𝑃𝑅(𝐵)

2+𝑃𝑅(𝐶)

1

Figura 4 - Esquema ilustrativo de cálculo de reputação do Pagerank

Fonte: Elaborado pelo autor.

35

A partir desse exemplo é possível verificar que links de páginas com alto

PageRank e com poucos links de saída valem mais do que muitos links de

páginas de baixa pontuação no PageRank. E quanto mais links de saída, menor

a nota atribuída.

Há também distorções que precisam ser ponderadas. Alguns sites têm muitos

links de entrada, mas não se vinculam a outras páginas. Para equilibrar esse

fenômeno, o PageRank de sites sem links de saída é distribuído igualmente entre

todos os outros sites que levam a ele.

O nome original da ferramenta de busca que fazia uso do Pagerank era

Backrub, uma referência ao algoritmo subjacente que conta os backlinks

(hyperlink de um website a outro). Depois de aproximadamente um ano de

desenvolvimento, em 1997, o nome Backrub foi alterado para Google Search

Engine. O nome Google supostamente surgiu quando Larry e Sergey

procuravam por formas de definir número grandes. Procuraram na internet por

“googol”, que é um número 1 seguido por 100 zeros, mas teriam grafado o termo

de busca incorretamente, digitando “google”. A corruptela de “googol” era mais

fácil de escrever e pronunciar, e teria sido adotada rapidamente. De acordo com

o próprio Google, “não existe um googol de nada no universo. Nem de estrelas,

partículas ou átomos.” O nome, portanto, refletiria a missão do motor de buscas

de organizar a virtualmente ilimitada quantidade de informação da web

(STANFORD DAILY, 2003). No entanto, Google se parece tanto com “googol”

quanto com “googles”, que em inglês significa “óculos”, uma referência talvez até

mais apropriada ao serviço realizado pelo buscador.

Com o sucesso inicial do motor de buscas, Larry e Sergey buscaram

investidores para fazer a companhia crescer. Em 1998 o Google recebeu US$

100 mil de Andy Bechtolsheim, co-fundador da Sun Microsystems, e de outros

três investidores - Jeff Bezos, fundador da Amazon.com; David Cheriton,

professor de ciência da computação da Universidade de Stanford e do

empresário Ram Shriram. Em março de 1999, a empresa mudou seus escritórios

para Palo Alto, na Califórnia, que abriga várias start-ups de tecnologia do Vale

do Silício. No mesmo ano foi realizada uma nova rodada de investimentos na

36

companhia, somando US$ 25 milhões e incluindo empresas de capital de risco

como Kleiner Perkins Caufield & Byers e Sequoia Capital.

No ano seguinte (2000), o Google começou a vender anúncios associados

a palavras-chave de busca. Este modelo de venda de publicidade relacionado a

palavra-chave foi inspirado no modelo criado e implementado pela Goto.com,

uma start-up de tecnologia desenvolvida em uma incubadora de empresas

chamada Idealab. A Goto.com, entretanto, fazia uso da associação entre

anúncios pagos e palavras-chave de termos de busca para ordenar a página de

resultados de busca. Ou seja, sites que pagavam a Goto.com tinham melhor

classificação na página de resultados. No Google, anunciantes não poderiam

influenciar o cálculo de relevância dos resultados de busca. Tinham apenas a

possibilidade de pagar para que anúncios relacionados às palavras-chave

fossem exibidos no topo e lateral da página de resultados, em um modelo de

pagamento para cada mil exibições (CPM, ou Cost per mille).

O primeiro uso do "Google" como verbo na cultura pop aconteceu na série

de TV Buffy the Vampire Slayer, em 2002. Neste ano, o Google mudou sua

principal forma de ganhar financiamento ao permitir pagamento de anúncio por

clique, conhecido como CPC (Cost per Click) ou PPC (Pay per Click). O novo

modelo de negócios funciona da seguinte maneira: anunciantes cadastram seus

anúncios, determinam o limite em dólares de quanto gostariam de pagar por

clique e associam palavras-chave. Quando um usuário realiza uma busca, o

Google verifica quais anúncios podem ter relação com os resultados de busca.

Se há mais de um anunciante relevante para o conjunto de palavras-chave sendo

pesquisadas, um leilão automático é realizado.

O leilão automático é definido por dois fatores: limite determinado pelo

anunciante de quanto pagaria por clique e pontuação de qualidade determinada

pelo Google. A pontuação de qualidade é definida pela relevância da página

sendo anunciada (calculada pelo PageRank) e CTR (Click Through Rate, ou

Taxa de Cliques), que é o número de acessos da página sendo anunciada

dividido pelo número de visualizações de anúncio. Ou seja, um anúncio terá

pontuação de qualidade mais alta quando seu link tiver classificação alta no

PageRank e for clicado com frequência. Quanto maior for a pontuação de

37

qualidade e o valor limite determinado pelo anunciante para cada clique, mais

competitivo será o anúncio e maiores as chances dele ser exibido.

O Google continua a oferecer a anunciantes um modelo de pagamento para

cada mil exibições (CPM), mas sempre que houver anúncios concorrentes um

leilão automático ocorre como no modelo de custo por clique (CPC ou PPC).

Em 2004, o verbo “to google” foi adicionado ao Merriam-Webster Collegiate

Dictionary e ao Oxford English Dictionary, descrito como “usar o mecanismo de

pesquisa do Google para obter informações na internet”. O Google tornou-se

uma empresa de capital aberto no mesmo ano, quando realizou uma IPO (Initial

Public Offering) de 19,605,052 ações por US$ 85 cada (BUSINESSWEEK,

2004). A venda totalizou US$ 1,6 bilhões, e seu sucesso na bolsa de valores

americana fez com que a companhia atingisse um valor de mercado de US$ 23

bilhões. O Google deixou o status de start-up e tornou-se oficialmente uma

gigante global de tecnologia. Não por acaso, no ano seguinte o Washington Post

publicou uma reportagem sobre um aumento de 700% no lucro do terceiro

trimestre daquele ano para o Google, em grande parte graças a grandes

empresas que mudaram suas estratégias de publicidade de jornais, revistas e

televisão para a Internet (WASHINGTON POST, 2005).

Neste contexto, quando a Goto.com mudou de nome para Overture Services,

em 2007, processou o Google por violações de patentes na metodologia de

pagamento por clique e leilão automatizado entre anunciantes. A forma de

rentabilizar anúncios no Google era baseada na tecnologia da Goto.com, apesar

do modelo de negócio ser diferente (Goto.com cobrava para classificar

anunciantes nos resultados de pesquisa). Durante a disputa legal, a Overture

Services foi comprada pelo Yahoo! e renomeada como Yahoo! Search

Marketing. O caso foi resolvido fora do tribunal, quando o Google concordou em

emitir ações ordinárias para o Yahoo! em troca de uma licença perpétua (CNET,

2004).

Até então, qualquer usuário que realizasse uma busca no Google teria uma

página de resultados apenas com links para websites. Marissa Mayer, então

Vice-Presidente de Produtos de Pesquisa e Experiência do Usuário, explicou

que a empresa “tentava derrubar as barreiras que tradicionalmente separam

38

nossas várias propriedades de pesquisa e integrar as vastas quantidades de

informações disponíveis em um conjunto simples de resultados da pesquisa."

(GOOGLE OFFICIAL BLOG, 2007). Estava sendo lançada em 16 de maio de

2007 um aprimoramento significativo no mecanismo de busca, denominado

“Universal Search” (pesquisa universal). A pesquisa universal incorpora na

página de resultados de pesquisa uma ampla variedade de fontes, incluindo

sites, notícias, fotos, mapas, blogs e vídeos. Esta era nada menos que uma

revolução no formato de resultados de pesquisa em sistemas de busca. Mas

uma mudança ainda maior no sistema de busca do Google ainda estaria por vir.

Figura 5 - Universal Search do Google em 2007

Fonte: Search Engine Land, Google Universal Search, 2007

O Google convidou desenvolvedores da Web para testar uma nova

arquitetura de pesquisa, que recebeu o codinome "Caffeine" (Cafeína), e dar seu

feedback em agosto de 2009. A nova arquitetura não forneceu diferenças visuais

na interface do usuário, mas adicionou melhorias significativas de velocidade e

uma nova infra-estrutura de indexação no back-end da ferramenta.

Com o Caffeine, o Google mudou seu sistema de indexação de back-end do

MapReduce para Bigtable. O MapReduce é um modelo de programação

39

composto de um procedimento de mapeamento de dados que realiza filtragem

e ordenação, seguido de um método “reduce”, que executa uma operação de

resumo, ou consolidação de dados. Se o universo informacional fosse a flora de

uma determinada região, o mapeamento de dados consistiria na organização

das plantas de acordo com a classificação científica (ordem, família, gênero,

espécie). A operação “reduce”, por outro lado, contaria quantas plantas há em

casa fase de classificação científica e quantas são essas fases. O "MapReduce"

também pode ser considerada uma "infraestrutura" ou "framework" 7 , pois

orquestra o processamento organizando os servidores distribuídos em rede,

executando as várias tarefas em paralelo, gerenciando todas as comunicações

e transferências de dados entre as várias partes do sistema, e fornecendo

redundância e tolerância a falhas.

Figura 6 - Esquema ilustrativo do MapReduce


O Bigtable tem o mesmo propósito básico que o MapReduce – armazenar

informação de forma organizada e classificada. A novidade não está, portanto,

no que o Bigtable faz, mas como faz. É um framework de banco de dados

distribuídos em rede baseado em tabelas cujos nomes e formato das colunas

podem variar de linha para linha na mesma tabela, produzindo um mapa

7 Framework é uma ferramenta ou metodologia é uma estrutura base, uma plataforma de desenvolvimento, como uma espécie de arcabouço, que contém ferramentas, guias, sistemas e componentes que agilizem o processo de desenvolvimento de soluções. O MapReduce é um framework porque é uma estrutura genérica e adaptável, que pode ser usada tanto para organizar e distribuir dados coletados durante o rastreamento da web quanto para organizar e distribuir processamento entre servidores.

40

ordenado e multidimensional. O Google anunciou a conclusão do projeto

"Caffeine" em 8 de junho de 2010, alegando melhoria de 50% na oferta de

resultados mais “frescos” devido à atualização contínua de seu índice

(provavelmente resultante de web crawling mais intenso e frequente).

Durante o período de final do desenvolvimento da atualização “Caffeine”, em

4 de dezembro de 2009, o Google lançou oficialmente o “Personalized Search”

(Busca Personalizada), que foi prontamente aplicada a todos os usuários da

pesquisa do Google, incluindo aqueles que não estavam conectados a uma

conta do Google.

A partir daquela manhã, o Google passaria a utilizar 57 “sinalizadores” – todo tipo de coisa, como o lugar de onde o usuário estava conectado, que navegador estava usando e os termos que já havia pesquisado – para tentar adivinhar quem era aquela pessoa e de que tipos de site gostaria. Mesmo que o usuário não estivesse usando sua conta do Google, o site padronizaria os resultados, mostrando as páginas em que o usuário teria mais probabilidade de clicar segundo a previsão do mecanismo (PARISER, 2012. p.7).

Todas as pesquisas no motor de buscas do Google seriam associadas a um

registro (cookie8) do navegador. Em seguida, quando um usuário realizasse uma

pesquisa, os resultados da pesquisa não se baseariam apenas na relevância de

cada página da Web para o termo de pesquisa, mas também em quais sites o

usuário (ou outra pessoa usando o mesmo navegador) visitou anteriormente.

Isso proporcionaria uma experiência personalizada que poderia aumentar a

relevância dos resultados de pesquisa para cada usuário específico (GOOGLE

OFFICIAL BLOG, 2009).

De acordo com Silvana Monteiro, a personalização se faz a partir da intenção

de busca, que é inferida por meio das trilhas sígnicas semânticas deixadas pelo

8 Um cookie é um pequeno volume de dados enviado de um site e armazenado no computador do usuário pelo navegador da web enquanto o usuário está navegando. Os cookies foram projetados para serem um mecanismo confiável para os sites lembrarem informações (como itens adicionados no carrinho de compras em uma loja online) ou para registrar a atividade de navegação do usuário (incluindo clicar em determinados botões, fazer login ou registrar quais páginas foram visitadas no passado).

41

sujeito navegador. Isso é possível através do processamento das informações

que o buscador coletou sobre o usuário.

“Hoje, é difícil fazer uma ‘busca pura’, isto é, sem algum tipo de personalização. O fato de estar ‘logado’, a cidade em que o usuário se localiza, a plataforma utilizada, o sistema operacional, a navegação, enfim, tudo é capturado por sistemas de busca” (MONTEIRO, FERNANDES, DICARLO, TREVISAN, 2017, p.171).

Além do PageRank, o Google, ao longo dos anos, adicionou muitos outros

critérios para determinar a classificação das páginas nas listas de resultados.

Em 2010, a companhia revelou que usava mais de 200 sinais para indexar,

classificar relevância e gerar a página de resultados de busca, cujas

especificidades são mantidas em segredo (WIRED, 2010).

Em fevereiro de 2011 o Google publicou uma nova mudança no algoritmo de

classificação de resultados de pesquisa, chamado Panda. O Panda (cujo nome

deriva do engenheiro Navneet Panda, principal responsável pela inovação

técnica que permitiu sua implementação) teve como principal objetivo reduzir a

classificação de “sites de baixa qualidade”, sites “pouco relevantes” e “content

farms”9.

O site CNET (2011) realizou testes e relatou um aumento no ranking de sites

de notícias e sites de redes sociais após esta atualização, e uma queda nos

rankings de sites que contêm grandes quantidades de publicidade. Essa

mudança teria afetado o posicionamento nos resultados de pesquisa de

aproximadamente 12% de todos os resultados do Google. O Panda recebeu

atualizações após o lançamento original em fevereiro de 2011 e seu efeito

tornou-se global em abril de 2011. Na mesma época, o Google forneceu uma

lista de 23 tópicos no seu blog, respondendo à pergunta "O que é um site de alta

qualidade para o Google?" que supostamente ajuda os webmasters a "entrar na

mentalidade do Google" (GOOGLE BLOG, 2011). Neste mesmo ano, o número

9 Uma content farm (fazenda de conteúdo ou fábrica de conteúdo) é uma empresa que emprega um grande número de escritores freelancers para gerar grandes quantidades de conteúdo textual especificamente projetado para satisfazer algoritmos para recuperação máxima por mecanismos de busca automatizados. Seu objetivo principal é gerar receita de publicidade através da atração de visualizações de páginas de leitores.

42

de visitantes únicos mensais do Google ultrapassou um bilhão pela primeira vez,

um aumento de 8,4% em relação a maio de 2010 (931 milhões).

Figura 7 – Knowledge Graph do Google em 2018

Fonte: Google Support - acesso em 21/09/2018

No ano seguinte, 2012, o Google passou a apresentar informações geradas

automaticamente a partir dos resultados de pesquisa em uma caixa chamada

“Knowledge Graph” (Grafo de Conhecimento) (GOOGLE, 2018). As informações

cobertas pelo Knowledge Graph cresceram significativamente após o

lançamento, triplicando seu tamanho original em sete meses, e sendo capazes

de responder "cerca de um terço" das 100 bilhões de pesquisas mensais

processadas pelo Google em maio de 2016 (WASHINGTON POST, 2016). São

as informações contidas no Knowledge Graph que costumam ser usadas como

43

resposta falada em outros serviços do Google, como o Google Assistant10 e o

Google Home11.

Aprimorando ainda mais seu algoritmo para diminuir a classificação de sites

que o Google “entende” como indesejáveis ou pouco relevantes, foi lançada em

abril de 2012 a atualização Penguin. Esta alteração teve como objetivo principal

reduzir a classificação de sites que não estão de acordo com as diretrizes para

Webmasters do Google nos resultados de pesquisa. Sites que fazem uso de

técnicas para manipular a quantidade de links apontando para a página (e

portanto afetando a classificação do PageRank do site) sofreram uma redução

significativa na sua relevância para o algoritmo de classificação de resultados.

De acordo com estimativas do próprio Google, o Penguin afeta

aproximadamente 3,1% das consultas de pesquisa em inglês, cerca de 3% das

consultas em idiomas como alemão, chinês e árabe, e uma porcentagem ainda

maior delas em idiomas "que facilitam spam" - por exemplo, 5% das consultas

em polonês foram afetadas (GOOGLE BLOG, 2012).

Diversas atualizações do Penguin foram lançadas ao longo dos anos, até

que em setembro de 2016 o Google anunciou que o Penguin faria parte

permanente do algoritmo central, o que significa que seria atualizado em tempo

real. Portanto, não haveriam mais anúncios do Google relacionados

10 Google Assistant é um assistente virtual desenvolvido com inteligência artificial para uso específico em smartphones e tablets. Os usuários interagem com o Google Assistant principalmente por meio de voz, embora ele também seja compatível com teclado. Quando inicialmente lançado (2016), o assistente virtual podia pesquisar na Internet, agendar eventos e alarmes, ajustar configurações de hardware no dispositivo do usuário e mostrar informações da Conta do Google do usuário. O Google também anunciou que o Assistente pode identificar objetos e coletar informações visuais por meio da câmera do dispositivo, além de oferecer suporte a compra de produtos e envio de dinheiro, e também identificar músicas. 11 Google Home é um alto-falante lançado no fim de 2016 e desenvolvido com inteligência artificial, que permite a utilização de comandos de voz para interagir com o assistente virtual do Google, o Google Assistant. O aparelho integra uma grande quantidade de serviços, permitindo que os usuários escutem músicas, controlem a reprodução de vídeos ou fotos ou recebam atualizações de notícias inteiramente por voz. Os dispositivos do Google Home também têm suporte integrado para automação residencial, permitindo que os usuários controlem eletrodomésticos inteligentes por voz. Uma atualização em 2017 trouxe o suporte a vários usuários, permitindo que o dispositivo diferencie até seis pessoas por voz. No mesmo ano, o Google anunciou várias atualizações para o Google Home, incluindo: chamadas gratuitas por telefone no Reino Unido e no Canadá; atualizações proativas antes de eventos agendados; respostas visuais em dispositivos móveis ou televisores compatíveis com Chromecast; Streaming de áudio Bluetooth; e a capacidade de adicionar lembretes e compromissos do calendário.

44

especificamente a atualizações sobre ele. Tempo real também significa que os

sites são avaliados em tempo real e os rankings são impactados em tempo real.

A receita consolidada da corporação para o terceiro trimestre de 2013 foi

divulgada em meados de outubro de 2013 como US$ 14,89 bilhões, um aumento

de 12% em relação ao trimestre anterior. O negócio de anúncios na Internet do

Google foi responsável por US$ 10,8 bilhões desse total, com um aumento no

número de cliques dos usuários em anúncios (GUARDIAN, 2013). De acordo

com o relatório anual da Best Global Brands da Interbrand, o Google foi a

segunda marca mais valiosa do mundo (atrás da Apple Inc.) em 2013, 2014,

2015 e 2016, com uma avaliação de aproximadamente US$ 133 bilhões

(INTERBRAND, 2016).

Foi também em 2013, em meio a resultados financeiros extremamente

promissores, que o Google realizou mais uma atualização significativa de seu

algoritmo de pesquisa, nomeada "Hummingbird". Seu nome teria sido inspirado

na velocidade e precisão do beija-flor – pássaro que move-se rapidamente de

flor em flor, pairando somente o tempo necessário para beber do néctar antes

de seguir para a próxima fonte de alimento. A mudança foi anunciada em 26 de

setembro de 2013, depois de já estar ativa para todos os usuário do Google havia

um mês. O Hummingbird coloca maior ênfase em consultas de linguagem

natural, considerando contexto e significado dos termos de busca ao invés de

palavras-chave individuais. Ele também analisa mais profundamente o conteúdo

de páginas individuais de um site, com capacidade aprimorada de levar os

usuários diretamente à página mais apropriada, em vez de direcionar à página

inicial de um site.

Amit Singhal, então chefe de busca do Google, disse à Search Engine Land

que o Hummingbird foi a mudança mais dramática do algoritmo desde 2001,

quando ele começou a trabalhar no Google (SEARCH ENGINE LAND, 2013). A

política de rastreamento e cálculo de relevância mudaram com a introdução do

Hummingbird. O algoritmo passa a considerar as relações entre os termos de

pesquisa, com o objetivo de retornar páginas de resultados que correspondem

ao significado total do termo sendo pesquisado, em vez de páginas que

combinam apenas algumas palavras. Embora a palavras-chave ainda sejam

45

individualmente importantes, o Hummingbird adiciona mais força aos termos de

pesquisa longos, como perguntas. O uso de sinônimos também foi otimizado –

em vez de listar os resultados com frases ou palavras-chave exatas, o Google

mostra mais resultados relacionados ao tema. Para tornar os resultados de

pesquisa mais relevantes, o Hummingbird considera a autoridade de uma página

(Ex. PageRank) e, em alguns casos, a autoridade do autor da página, para

determinar a importância de um site.

Figura 8 - Reprodução de uma busca semântica

Fonte: Elaborado pelo autor, com base no exemplo do artigo de CALDEIRA (2015).

A inovação introduzida por esta atualização do algoritmo é baseada em web

semântica, a chamada “busca semântica”. Para compreender o que é web

semântica é preciso primeiro definir o que é a web atual, do ponto de vista da

linguagem. Fátima Caldeira, pesquisadora da área de Letras da PUCRS, explica

que a internet atual é definida como a Web Sintática, na qual os computadores

meramente apresentam as informações, mas cujo processo de interpretação

ainda fica sob a responsabilidade de seres humanos (CALDEIRA, 2015). A

pesquisadora da PUCRS define web semântica como a tecnologia que interliga

significados de diferentes palavras e consegue atribuir um sentido aos conteúdos

publicados na internet (CALDEIRA, 2015). No ambiente informacional da web,

46

“otimizações” semânticas como estas tornadas possíveis pelo Hummingbird são

sinônimo de “relevância” (MONTEIRO, FERNANDES, DICARLO, TREVISAN, 2017).

Ao buscar por “qual a idade do Guga?” no Google, é possível verificar

rapidamente qual a funcionalidade real da otimização semântica trazida pelo

Hummingbird. A página de resultados de busca não apenas apresenta uma

resposta direta à pergunta acerca da idade de Guga (perceba-se que os

resultados apresentam-no como Gustavo Kuerten – termo que não fazia parte

da consulta), mas também uma caixa contendo vários outros dados acerca do

ex-atleta (CALDEIRA, 2015).

Neste novo cenário, desenvolvedores especializados em SEO (Search

Engine Optimization) foram incentivados a usar “linguagem natural” ao descrever

sites, em vez de usarem palavras-chave. O Google os aconselhou a fazer uso

efetivo dos recursos técnicos do site, como links de página, elementos na página,

incluindo tags de título, endereços de URL e tags HTML, além de escrever

conteúdo relevante e de alta qualidade sem duplicação.

Em 2013, a Comissão Europeia, órgão de fiscalização da União Europeia,

considerou que o motor de buscas do Google favorecia os produtos do próprio

Google no cálculo de relevância, em vez de oferecer aos consumidores o melhor

resultado para suas necessidades. A Comissão Europeia enfatizou que cerca de

80% dos smartphones vendidos no mercado europeu usam o Android (sistema

operacional para dispositivos móveis desenvolvido pelo Google) e, com suas

ações, o Google viola a lei antitruste. Margrethe Vestager, Comissária Europeia

para a Concorrência, afirmou em 2016 que acredita que o comportamento do

Google nega aos consumidores uma escolha ampla de aplicativos e serviços

móveis, além de impedir a inovação por parte de outros participantes, violando

as regras antitruste da UE (DW, 2016).

O Google foi considerado culpado pela Comissão Europeia em 7 de junho

de 2017 e recebeu uma multa recorde de US$ 2,7 bilhões. O veredito

correspondia a dois casos antitruste da União Européia: um envolvendo seus

produtos publicitários e outro relacionado à empresa de telefonia móvel e

sistema operacional Android (comprada pelo Google em julho de 2005). Em

ambos os casos, o Google foi considerado culpado de favorecer seus próprios

47

produtos e serviços em relação aos da concorrência. O Google negou as

acusações da União Européia alegou que "seus serviços ajudaram a economia

digital da região a crescer". Os US$ 2,7 bilhões de multa representaram pouco

mais de 2,5% da receita do Google em 2016 (CNN, 2017).

A gerente de engenharia do Google, Rachel Potvin, revelou detalhes sobre

o código de software do Google em uma conferência de engenharia de software

em setembro de 2015 (WIRED, 2015). Ela disse que a base de código do

Google, que abrange todos os seus serviços web12 (Google Search, Google

Maps, Google Docs, Google+, Google Calendar, Gmail, YouTube, etc.), consiste

em mais de 2 bilhões de linhas de código. Comparativamente, o Facebook inteiro

tem 61 milhões de linhas de código, enquanto o sistema operacional Android tem

aproximadamente 15 milhões de linhas de código e o Windows XP e Windows 7

atingem, cada um, a marca de pouco menos de 40 milhões de linhas de código

(WIRED, 2015).

Todo esse código é armazenado em um repositório de código disponível

para todos os 25.000 engenheiros do Google, e o código é copiado e atualizado

regularmente em dez data centers do Google. Segundo a gerente de engenharia,

desenvolvedores podem fazer uma única alteração de código e implantá-la em

todos os serviços ao mesmo tempo. A única exceção ao acesso irrestrito para

desenvolvedores é o algoritmo de resultados de pesquisa do PageRank

(armazenado separadamente e acessado por apenas alguns funcionários

específicos). Os códigos do sistema operacional Android e do navegador Google

Chrome também seriam mantidos separados, mas não são serviços web e

portanto não entram na conta do total de linhas de código feita pela funcionária

do Google.

Com o aumento no número de usuário que realizam buscas por aparelhos

móveis, como smartphones, e a subsequente captura de dados sobre

localização destes usuários no momento em que realizam a interação com o

12 O Google atualmente é uma multiplicidade de serviços, muito além de apenas um sistema de buscas. Serviços incluem serviço de e-mail, serviços de localização, aplicativos online para produção de texto, apresentação e planilha, dentre muitos outros.

48

sistema, o Google viu uma nova oportunidade de personalização de resultados

de busca. Lançada em julho de 2014, a atualização Pigeon teve como objetivo

aumentar a classificação de relevância em resultados de busca de sites locais,

ou seja, próximos da localização do usuário no momento da busca. As alterações

também afetaram os resultados da pesquisa mostrados no Google Maps,

juntamente com os resultados de pesquisa normais do Google.

Em outubro de 2015 o Google confirmou a existência e detalhou a utilidade

de uma parte do algoritmo Hummingbird, chamada RankBrain, cuja atuação e

impacto haviam sido especulados por anos. Esta parte do algoritmo

Hummingbird realiza machine learning 13 , e tem como objetivo fornecer

resultados de pesquisa mais relevantes para os usuários com base em web

semântica. Em uma entrevista no mesmo ano, um funcionário do Google afirmou

que o RankBrain era o terceiro fator mais importante no algoritmo de

classificação, juntamente com links e conteúdo (ou seja, juntamente com o

trabalho realizado pelo PageRank e conteúdo formatado de forma a “agradar” os

crawlers) (BLOOMBERG, 2015). De acordo com este membro da corporação, o

RankBrain produz entre 10% e 15% dos resultados de busca (SEARCH ENGINE

LAND, 2016).

O RankBrain foi projetado para “entender” quais palavras tem significados

semelhantes, frases e perguntas, considerando as relações entre as palavras

inseridas no campo de busca. Cada consulta é classificada em vetores de

palavras, também conhecidos como “representações distribuídas”, que são

termos próximos uns dos outros em termos de similaridade linguística. Este

algoritmo usa uma abordagem estatística para tentar mapear esta consulta em

palavras (entidades) ou clusters de palavras que têm chance razoável de

13 Machine learning (aprendizado de máquina) é um termo usado simultaneamente para definir a área de estudo, técnicas e tecnologias de algoritmos que os sistemas de computador usam para realizar efetivamente uma tarefa específica sem usar instruções explícitas, confiando em padrões e inferência baseada em estatística. É considerado um subconjunto da inteligência artificial. Algoritmos de aprendizado de máquina constroem um modelo matemático com base em dados de uma amostra, conhecido como "dados de treinamento", para fazer predições ou decisões sem ser explicitamente programado para realizar a tarefa. O aprendizado de máquina está intimamente relacionado à estatística computacional, que se concentra em fazer previsões usando computadores.

49

combinarem. Portanto, em uma simplificação, poderia-se dizer que o RankBrain

tenta adivinhar o que as pessoas querem dizer e registra os resultados.

Quando offline, o RankBrain recebe lotes de pesquisas anteriores e aprende,

correspondendo aos resultados da pesquisa. Estudos mostraram como o

RankBrain interpretou melhor as relações entre as palavras. Isso pode incluir o

uso de palavras que antes eram desconsideras em em uma consulta de pesquisa

por serem muito comuns ("o", "e", “sem”, etc.) – palavras que foram

historicamente ignoradas anteriormente pelo Google, mas que às vezes são de

grande importância para entender completamente o significado ou a intenção

subjacente da consulta de pesquisa. Também é possível analisar padrões entre

pesquisas que aparentemente não estão conectadas, para entender como essas

pesquisas são semelhantes entre si. Uma vez que os resultados do RankBrain

são verificados pela equipe do Google, o sistema é atualizado e entra em

operação novamente.

O RankBrain ajudou o Hummingbird a fornecer resultados mais precisos,

pois pode aprender palavras e frases que talvez não conheça. Além disso,

também os aprende especificamente para o país, bem como para o idioma, no

qual é feita uma consulta. Então, se um usuário pesquisar uma consulta com a

palavra "boot" dentro dos Estados Unidos, receberá informações sobre calçados.

No entanto, se a consulta vier através do Reino Unido, então as informações

também podem ser relativas a espaços de armazenamento de carros ou a uma

rede de lojas de cosméticos.

Usuários do Google continuaram a realizar buscas por dispositivos móveis,

como smartphones e tablets, ao ponto em que há mais buscas por celulares e

outros aparelhos semelhantes do que por computadores desktop e notebooks

em 2016 (GOOGLE WEBMASTERS CENTRAL BLOG, 2016). Pesquisas por

dispositivos móveis incluem não apenas aquelas realizadas em navegadores

móveis, mas também por voz, como pelo Google Assistant e Google Home. Por

conta desta mudança de comportamento, o Google anunciou naquele ano que o

algoritmo do mecanismo de busca seria alterado para ter dois índices de páginas

– um índice primário dedicado a dispositivos móveis e um índice secundário,

atualizado menos frequentemente, para uso em computadores. Essa alteração

50

começou a ser implementada em dezembro de 2017, de forma gradual (TECH

CRUNCH, 2017).

Uma das mais recentes atualizações do algoritmo do motor de buscas do

Google com grande impacto é de agosto de 2018, apelidada de “Medic”. Foi

desenvolvida para medir com mais precisão a relevância de sites tipo YMYL

(Your money or Your Life), e reduzir a presença de sites que a companhia julga

não oferecerem informações relevantes ao usuário (SEARCH ENGINE NATION,

2018). O Google mantém atualizado um documento chamado Search Quality

Evaluator Guidelines, onde define o que ele considera como relevante em uma

página da web, e portanto quais são os critérios para que uma página seja

considerada relevante. O documento define que páginas do tipo YMYL são

aquelas que podem potencialmente impactar a felicidade futura, saúde,

estabilidade financeira e segurança de usuários14. Isso inclui, portanto, páginas

de compras e transações financeiras, páginas de informações sobre finanças,

sobre informações médicas e de saúde, sobre aconselhamento legal e jurídico,

e outras diversas como sobre adoção de crianças e segurança no trânsito. O

Google diz que sua prioridade na atualização “Medic” é prover aos usuários

informações corretas e factuais, portanto estaria tentando reduzir a relevância

de páginas que julga ferirem este princípio (GOOGLE USER CONTENT, 2018).

A divisão proposta anteriormente de fasear a operação dos algoritmos dos

sistemas de busca em três grandes processos (crawling, indexing searching)

resumem as ações de: procurar por sites na web e capturar informações sobre

eles, organiza-las em bancos de dados, classificar os dados coletados, calcular

relevância dos dados de acordo com o input do usuário, formas de

“entendimento” do input do usuário e funcionalidades para “facilitar” a busca pelo

usuário. Assim, é possível classificar as atualizações e transformações que o

motor de buscas do Google sofreu ao longo do tempo da seguinte forma:

14 Exemplos de páginas do tipo YMYL que foram impactadas negativamente pela atualização “Medic”: MyProtein.com, OrganicFacts.net, KetoBootstrap.com (CAN I RANK, 2018).

51

Quadro 1 - Processos de sistemas de busca x atualizações do algoritmo do Google

Atualizações do Google

Processos --- Crawling Indexing Searching

PageRank X X

Autocomplete X X

Universal Search X X

Caffeine X X

Personalized Search X X

Panda X X

Knowledge Graph X X X

Penguin X X

HummingBird X X X

Pigeon X

RankBrain X X

Mobile Index X

"Medic" X


Esta visualização indica que o Google, ao longo de sua trajetória, comunicou

mais atualizações no processo indexing, que compreende tanto a organização

do banco de dados quanto as operações realizadas neste banco de dados para

determinar relevância. Este, portanto, seria o processo mais importante para que

o Google se mantenha na liderança do mercado de buscadores.

1.4. BUSCA PREDITIVA E FILTRO-BOLHA

Em uma possível indicação da direção futura do Google para seu algoritmo

de busca, Eric Schmidt, então diretor executivo do Google, disse em uma

entrevista ao Financial Times em 2007: "o objetivo é permitir que os usuários do

Google façam perguntas como ‘o que eu devo fazer amanhã?’ e 'Qual trabalho

52

devo aceitar?'". Schmidt reafirmou isso durante uma entrevista de 2010 com o

Wall Street Journal: "Eu realmente acho que a maioria das pessoas não quer

que o Google responda às suas perguntas, eles querem que o Google diga a

eles o que eles devem fazer em seguida".

Figura 9 - Autocomplete do Google em 2004

Fonte: Wordstream – Predictive Search, 2013

O Google, dentre outros sistemas de busca, pretende prever de alguma forma

o que o usuário quer dizer e, principalmente, o que o usuário pretende com a

busca. Isso é conhecido como busca preditiva, e tem por objetivo retornar ao

usuário resultamos mais acurados. Desde 2004 o Google aplica uma forma de

busca preditiva em seu motor de buscas, popularmente conhecida como

“autocomplete”. A medida que o usuário digita os termos de busca, o buscador

sugere termos de busca semelhantes utilizados anteriormente por outros

usuários. A primeira vista, o “autocomplete” pode parecer uma ferramenta

simples para abreviar o trabalho de digitação, mas é fato conhecido que

normalmente as pessoas digitam mais lentamente do que leem, e a pesquisa

preditiva do Google economiza tempo, mas também, de certa forma, direciona a

busca sendo realizada para outras semelhantes realizadas anteriormente por

outros usuários. O Google afirma que uma pesquisa típica leva mais de 9

53

segundos para ser digitada, com algumas pesquisas demorando de 30 a 90

segundos para ser digitada completamente. Com o “autocomplete”, a empresa

esperava reduzir o tempo gasto mundialmente digitando termos de busca em 3,5

bilhões de segundos a cada dia, o que equivale a 11 horas salvas a cada

segundo (WORDSTREAM, 2013). Esse cálculo de economia de tempo é

baseado, evidentemente, na premissa de que o “autocomplete” exibiria

preditivamente a busca que o usuário estava digitando.

O Grafo de Conhecimento (Knowledge Graph) lançado em 2012 pode ser

considerado mais um passo do Google em direção à busca preditiva. O algoritmo

retorna uma quantidade de informação sobre o termo de pesquisa em escopo

mais ampla do que a que o usuário procurou, e gera automaticamente conteúdo

específico relacionado ao assunto.

Provavelmente o maior exemplo atual (2019) de busca preditiva são os

assistentes virtuais desenvolvidos pela Apple (Siri), Microsoft (Cortana), Amazon

(Alexa) e Google (Google Assistant, anteriormente Google Now). Um assistente

virtual é um software que pode executar tarefas ou serviços para um indivíduo

com base em comandos verbais ou inseridos por digitação. Todos os assistentes

virtuais supracitados são capazes de interpretar a fala humana e responder

através de vozes sintetizadas. Os usuários podem fazer perguntas aos seus

assistentes, controlar dispositivos de automação residencial, solicitar reprodução

de mídia via voz e gerenciar outras tarefas básicas, como e-mail, listas de tarefas

e calendários com comandos verbais. Desde 2017 as capacidades e o uso de

assistentes virtuais estão se expandindo rapidamente, com novos produtos

entrando no mercado e uma forte ênfase nas interfaces de usuário de voz.

O Google Assistant pode pesquisar na Internet, agendar eventos e alarmes,

ajustar configurações de hardware no dispositivo do usuário e mostrar

informações da conta do Google do usuário. O assistente pode se envolver em

um diálogo com o usuário, usando o algoritmo de processamento de linguagem

natural do Google. Os resultados da pesquisa são apresentados em um formato

de cartão que os usuários podem tocar para abrir a página. Em 2017 o Google

anunciou que os usuários do Google Home poderiam comprar produtos via voz

por meio do serviço de compras Google Express, com produtos disponíveis no

54

Whole Foods Market, Costco, Walgreens, PetSmart e Bed Bath & Beyond no

lançamento. A partir do mesmo ano, o assistente virtual também teria suporte a

um teclado para respostas digitadas e visuais, suporte a identificação de objetos

e coleta de informações visuais através da câmera do dispositivo e suporte à

compra de produtos e transferência de dinheiro. Também tornou-se possível

identificar músicas que estão sendo reproduzidas no momento, perguntando ao

Assistente.

Figura 10 - Google Assistant

Fonte: Wikipedia, Google Assistant, 2019

Em maio de 2018, o Google revelou o Duplex, uma extensão do Google

Assistant que permite realizar conversas naturais ao imitar a voz humana. O

assistente pode concluir tarefas autonomamente, como ligar para um salão de

cabeleireiro para marcar uma consulta, agendar uma reserva de restaurante ou

ligar para as empresas para verificar o horário das lojas para o fim de ano.

Embora o Duplex possa concluir a maioria de suas tarefas de maneira totalmente

autônoma, ele é capaz de reconhecer situações que não consegue concluir e

55

pode sinalizar um operador humano para concluir a tarefa. O Duplex foi criado

para falar em uma voz e linguagem mais natural, incorporando disfluências de

fala, como palavras de preenchimento como "hmm" e “uh", e usando frases

comuns e gírias, além de uma entonação humana e latência de resposta. O

Duplex está atualmente em desenvolvimento e teve um lançamento limitado no

final de 2018 para usuários do Google Pixel (smartphone oficial do Google).

Figura 11 - Cards do Google Now

Fonte: The Verge, 2012

O Google Assistant e o Duplex, dentre outros, destacam-se não apenas

pelas capacidades surpreendentes, mas porque trabalham ativamente com

busca preditiva – projetados para fornecerem automaticamente as “informações

certas no momento certo”, em vez de fazer com que os usuários as pesquisem.

Estes sistemas extraem informações do histórico de pesquisa, do Gmail e usam

vários sinais, como, por exemplo, lembretes relacionados à localização ou

tempo, para apresentarem cartões informativos com probabilidade de interesse

do usuário. Esses cartões podem conter informações sobre restaurantes locais,

dados de tráfego ou lembretes gerados automaticamente de compromissos

marcados via email. Assim, se o usuário criar uma lista de compras, o Google

Assistant provavelmente vai lembrá-lo do que precisa comprar quando ele

56

passar perto de um supermercado ou mercearia de bairro. Se houver um

concerto de uma banda do interesse do usuário, o dispositivo irá avisa-lo.

Esses recursos fazem parte dos esforços crescentes do Google para

fornecer resultados relevantes com base nos dados acumulados e processados

sobre cada usuário. "É claro que o Google vai acessar mais do que apenas as

informações públicas na Web", diz Scott Huffman, Diretor de Engenharia de

Qualidade de Pesquisa do Google. "O Google saberá o horário do meu voo, se

minha encomenda já chegou aqui e onde minha esposa está e quanto tempo vai

levar para ela chegar em casa esta tarde”. De acordo com ele, o Google já sabe

de tudo isso. A questão é se o usuário está ou não disposto a permitir que o

Google saiba muito sobre ele. “Isso exige que você confie bastante no Google,

mas a empresa espera que sua confiança seja recompensada”, afirma Huffman

(VERGE, 2012).

Iniciativas como o Google Assistant e o Google Personalized Search evocam

uma série de preocupações acerca de privacidade, segurança da informação e

controle informacional. Eli Pariser, webativista e autor do best-seller “O Filtro

Invisível: O que a internet está escondendo de você”, explica que a fórmula dos

gigantes da internet para a estratégia de personalização e controle informacional

é simples: quanto mais personalizadas forem as ofertas de informação a cada

pessoa, mais anúncios essas corporações conseguirão vender e maior será a

chance de que os produtos oferecidos sejam comprados (PARISER, 2012. p.13).

A personalização se baseia em uma barganha. Em troca do serviço de filtragem, damos às grandes empresas uma enorme quantidade de dados sobre nossa vida diária – dados que muitas vezes não dividiríamos com nossos amigos. Essas empresas estão ficando cada vez melhores no uso desses dados para traçar suas estratégias. No entanto, muitas vezes acreditamos excessivamente que essas empresas irão cuidar bem dessas informações, e, quando nossos dados são usados para tomar decisões que nos afetam negativamente, em geral não ficamos sabendo (PARISER, 2012. p.20).

Pariser acredita que o Google, assim como outros serviços da web que

buscam sinais para personalizar cada vez mais suas ofertas informacionais,

quando unidos, acabam por criar um universo de informações exclusivo para

cada usuário – o que ele chamou de filtro-bolha (filter bubble). Essa filtragem

57

personalizada de informação teria a capacidade de alterar fundamentalmente o

modo como cada pessoa se depara com ideias e informações. (PARISER, 2012.

p.14).

58

2. CONTROLE E LÓGICA OPERATIVA DOS ALGORITMOS DE

SERVIÇOS DA WEB

2.1. ALGORITMOS E A ESTRUTURAÇÃO DO MODO DE USO DA INTERNET

Em meados dos anos 2000, os mecanismos de pesquisa haviam

reorganizado a Web, tornando-a estruturada a partir deles. No final dos anos 90,

Jacques Altaber, um funcionário do CERN (Conselho Europeu para Pesquisa

Nuclear), a organização que primeiro apoiou a World Wide Web, sugeriu que a

web se tornaria um novo tipo de sistema operacional, a plataforma na qual maior

proporção de nossas tarefas de comunicação e informação seria realizada. De

acordo com Alexander Halavais, professor associado de tecnologias sociais da

Universidade Estadual do Arizona e ex-presidente da Associação de

Pesquisadores da Internet, ao longo dos anos os buscadores de fato tornaram-

se centrais para esse “sistema operacional”, passando de uma ferramenta útil

para um ponto focal de atenção coletiva (HALAVAIS, 2017, p.34).

Embora o Google tenha uma operação lucrativa em uma ampla variedade de

áreas, incluindo venda de hardware, a maior parte de sua renda tem origem na

venda de propaganda em seus próprios sites e em sites parceiros. Neste

aspecto, o buscador não é totalmente diferente da televisão aberta, cuja

lucratividade do negócio está em vender audiência aos anunciantes (“sell

eyeballs to advertisers”) (HALAVAIS, 2017, p.34). Como outras empresas

proprietárias de motores de busca, o Google posiciona publicidade “adjacente”

aos resultados orgânicos de pesquisa. O modelo de leilão reverso de palavras-

chave, junto a coleta e uso de informações sobre usuários, permite segmentar e

direcionar publicidade. Há uma motivação econômica significativa para que o

Google atraia o maior número possível de usuários para seus sites e anúncios,

e mecanismos de busca tem sido uma maneira eficiente de fazer isso

(HALAVAIS, 2017, p.34).

Sites de busca passaram a atrair muito tráfego e gerar lucro com o modelo

de negócio inaugurado pelo Google, o que motivou a competição neste setor. No

entanto, menos óbvio é o poder que estes mecanismo de busca tem de moldar

o tráfego: não apenas atraem usuários, mas os direcionam para partes

59

específicas da web. Os mecanismos de busca têm o poder de fomentar fortunas

e retirá-las – é como se fossem construtoras de estradas, semáforos e portas de

entrada para todos os negócios on-line (HALAVAIS, 2017, p.34).

USO SOCIAL DE BUSCADORES

De acordo com Halavais, pesquisar algo em sites de busca é um processo

interativo e raramente linear. A maioria das pessoas que insere uma consulta em

um mecanismo de pesquisa faz o acompanhamento com outra consulta ou duas,

modificando seus termos de busca para obter um resultado mais relevante. Em

muitos desses casos, o usuário está simplesmente re-digitando a consulta ou

ajustando a ortografia. Em outros, eles percebem que precisam alterar os termos

de busca para restringir os resultados que receberam (HALAVAIS, 2017, p.48).

Em outras palavras, é provável que a estratégia de consulta e pesquisa mude à

medida que mais informações se tornem disponíveis. É improvável que essa

informação venha de uma única fonte “vencedora”, mas sim um resultado da

coleta, avaliação e comparação de informações de diversas fontes.

Ao longo do processo de pesquisa, o usuário provavelmente estará avaliando

os resultados, permitindo que a natureza da pesquisa evolua à medida que mais

informações forem localizadas. A estratégia precisa difere de acordo com cada

buscador e cada usuário, mas como a maioria dos mecanismos de busca fornece

alguma forma de página de resultados, a avaliação começa aí. Ironicamente,

parte dessa avaliação decorre da confiança no próprio mecanismo de busca. O

simples fato de um mecanismo de pesquisa sugerir um site lhe dá credibilidade

(HALAVAIS, 2017, p.51). Essa confiança se estende aos próprios sites, e se um

mecanismo de pesquisa direcionar um usuário a uma página que não é

relevante, muitos usuários – especialmente usuários inexperientes – continuarão

navegando nesse site, supondo que eles tenham sido enviados para lá por algum

motivo.

Segundo a pesquisadora Fátima Hassan Caldeira, doutora e docente em

ciências da linguagem na Universidade do Sul de Santa Catarina (UNISUL), o

Google não é apenas um motor de busca, mas também, sob a perspectiva da

teoria da relevância, usado como um mecanismo de avaliação epistêmica. Ele

60

representaria, sob a forma de uma lista ordenada, os valores epistêmicos

relativos dos documentos da Web encontrados na pesquisa. “Quanto maior a

classificação de um documento, mais provável é conter as informações

relevantes e confiáveis”. De acordo com ela, dados da Pew Internet (2012)

demonstram que a grande maioria dos usuários de mecanismos de busca confia

nessas ferramentas, acreditando que são justas e imparciais, e também que os

resultados que elas geram são precisos e confiáveis (CALDEIRA, 2015, p.98).

Além disso, a web nos diz como fazer muitas das tarefas e ações cotidianas,

e os mecanismos de busca são os meios principais pelos quais é possível

procurar e encontrar soluções. Quando pessoas de todas as idades têm uma

“necessidade de saber algo no momento”, 87% primeiro procuram por seus

smartphones (HALAVAIS, 2017, p.58).

Analisando estes modos de uso e confrontando com os número de acesso

diário destes sites de busca, é possível afirmar que motores de busca são

ferramentas consideradas úteis por uma grande parte da população. Mais do

que isso, buscadores são uma das principais fontes de pesquisa de informações,

e provavelmente a principal destas fontes no meio digital.

Por fim, a interação entre usuário e o sistema não é um processo apenas de

inserção de termo e recuperação de dados, mas um loop no qual o usuário altera

o termo de busca para ajustar a resposta que o sistema lhe dá. Neste ciclo, o

usuário acaba por alterar não apenas o termo de busca, mas provavelmente até

o que estava buscando originalmente, à medida em que descobre novas

informações. A própria ferramenta impõe uma forma de uso.

ANEXO PREFERENCIAL

Com bilhões de páginas na web e outras milhares sendo criadas diariamente,

motores de busca optaram por não apresentar todo o conteúdo igualmente.

Sistemas de busca são tecnologias de filtragem de conteúdo. De um ponto de

vista técnico, o conteúdo ignorado pela ferramenta é tão importante quanto o que

é exibido ao usuário. Os buscadores contribuem para a seleção dos sites mais

proeminentes e, por sua vez, são influenciados por eles (HALAVAIS, 2017,

p.101).

61

Como vimos anteriormente na descrição do funcionamento do algoritmo

PageRank, links são uma maneira eficiente de estabelecer o “peso” de cada

página da web em relação a relevância. Porém, uma vez que grupos de páginas

com alto índice no PageRank ou clusters de sites são estabelecidos, eles tendem

a se reforçar (HALAVAIS, 2017, p.102). Afinal, um site considerado relevante

pelo Google irá aparecer mais vezes na página de resultados, e portanto terá

uma chance maior de ser acessado, o que abre mais oportunidades para ser

referenciado novamente e ter seu índice PageRank aumentado ainda mais.

Segundo Halavais, um vínculo muito forte a um pequeno número de sites

seria uma tendência natural dos algoritmos de motores de busca: “A web escolhe

vencedores” (HALAVAIS, 2017, p.102). Esta tendência da estrutura da web é

chamada de “preferential attachment” (anexo preferencial) (HALAVAIS, 2017,

p.105). A distribuição de sites nos resultados de cada pesquisa encoraja sua

própria reprodução, fornecendo um caminho fácil e convencional para o

conteúdo que o buscador “considera” mais interessante com base nos inputs e

características do usuário.

O anexo preferencial ocorre em grande parte porque se supõe que os

usuários e webmasters que criam hiperlinks (e que serão usado como medida

de relevância pelo PageRank) localizam as “melhores páginas de conteúdo”

navegando na web. Entretanto, grande parte do processo de busca e navegação

ocorre dentro dos mecanismos de busca e plataformas de redes sociais, ou seja,

a partir de uma amostragem de sites já filtrada de acordo com relevância. Para

que um site chegue à primeira página de resultados no Google, primeiro ele

precisa ter um grande número de links para ele. No entanto, sem estar na

primeira página de resultados, poucos autores do site saberão que ele existe e

será capaz de se vincular a ele. Cada autor é então confrontado com a questão

de como chamar bastante atenção para as páginas para permitir que sejam

vistas por grandes públicos. O PageRank e os algoritmos de busca relacionados

à melhoria de estima aumentam claramente o atual desequilíbrio, calcificando as

redes existentes de popularidade (HALAVAIS, 2017, p.110).

Fora do ambiente virtual, nas ruas das cidades, grande parte do sucesso de

um comércio é determinada por sua localização física – estar em uma avenida

62

de grande movimento ou em um shopping center, por exemplo, proporciona

visibilidade e público. Na web, isso não é tão diferente – em ambos os casos, a

visibilidade determina a quantidade de visitantes, e portanto quantas vendas são

possíveis (HALAVAIS, 2017, p.110). O anexo preferencial estabelece uma lógica

conservadora, na qual os mais bem posicionados continuam a ser cada vez mais

visíveis, e os de menor visibilidade tem sua exposição cada vez mais diminuída.

Este fenômeno é válido para páginas de quaisquer tipos de conteúdo, desde

comércios e mercados a páginas de notícias, blogs, redes sociais, etc.

ATENÇÃO, RECURSO FINITO

Caldeira, em seu artigo “O mecanismo de busca do Google e a relevância na

relação sistema-usuário”, afirma que várias pesquisas realizadas ao longo do

séc. XX apontam que o ser humano não consegue operar em um ambiente de

grande volume informacional sem utilizar um sistema de filtragem. A abertura de

acesso à informação proporcionada pela web, a velocidade das mídias digitais,

o que ela chama de “explosão informacional”, fez com que houvesse a

necessidade de uma mediação tecnológica capaz de filtrar e validar a

informação, “e, também, para aliviar a angústia gerada no ser humano pela

dificuldade de encontrar aquilo de que precisa” (CALDEIRA, 2015, p.94). Essa

mediação tecnológica a que Caldeira se refere seriam os mecanismos de busca.

A demanda por mecanismos de busca são, em grande parte, determinadas

pela finitude de nossa capacidade de atenção. Na área das Ciências da

Informação, isso é muitas vezes referido como o "princípio do menor esforço",

parte do título de um livro de 1949 de George Zipf15. De acordo com Halavais, o

argumento de Zipf é que, quando confrontados com uma tarefa de busca, e a

maioria das tarefas cognitivas são tarefas de busca em certa medida, as pessoas

geralmente tentam usar apenas a quantidade mínima de tempo e esforço

necessários para realizar sua busca de informação a um nível satisfatório

(HALAVAIS, 2017, p.112). Ou, em outras palavras, as pessoas desejam ganhar

algo com o menor esforço possível. Este princípio cognitivo do menor esforço é

15 ZIPF, George. Human behavior and the principle of least effort, 1949.

63

chamado de “satisficing” (junção das palavras satisfy e suffice – em português,

satisfação e suficiente, respectivamente).

Halavais argumenta que seria “tentador julgar a falta de vontade de buscar

correspondências ideais em uma pesquisa como preguiça ou veleidade”, mas

seria uma função natural na cognição humana (HALAVAIS, 2017, p.112). A web

aumenta a quantidade de informação disponível para a pessoa, mas não

aumenta a capacidade de consumir essa informação.

A mudança mais significativa trazida pela web está em como a atenção é

distribuída. Mesmo que a web esteja longe de ser plana, igualitária ou

democrática, ela oferece um número muito maior de opções do que o controle

remoto da televisão ou a banca de jornal. Uma riqueza de informações cria uma

pobreza de atenção, e assim surge a necessidade de distribuir essa atenção

eficientemente na superabundância de fontes de informação que poderiam

consumi-la (idem, p.113).

A atenção humana pode ser pensada como algo com valor comercializável,

e assim fornecer uma outra perspectiva sobre como a mídia é consumida (ou

ainda, como os públicos de mídia são consumidos pelas mensagens e fontes de

informação). Se a atenção é algo com valor comercializável, então o internauta

não é apenas um alvo de várias mensagens persuasivas (sejam elas

publicidade, notícias, ou qualquer outro tipo de conteúdo), mas sim alguém que

está fornecendo atenção em troca de informações. Essa atenção, portanto, é

uma mercadoria valiosa. Em uma economia de atenção, o mecanismo de busca

é o agregador final dessa riqueza, e os anunciantes são a fonte mais clara de

receita (idem, p.114). Como outros mecanismos de busca, o Google troca a

atenção de seus usuários pela receita de anunciantes que colocam anúncios em

seu site.

Existem limites reais para a quantidade de atenção que cada pessoa pode

despender. Biologicamente, a atenção é limitada pela habilidade de

concentração do indivíduo, sua capacidade de permanecer focado em

determinada tarefa e sua capacidade de processar as informações que recebe

sem perturbar o que está fazendo. Há também um limite temporal para a atenção

– não é possível permanecer atento a tudo por tempo indeterminado. A escassez

64

de atenção não é artificial. Porém o mercado de atenção é um constructo que

permite que a ideologia do mercado acesse novas áreas. Essa mercantilização

da atenção ocorre de maneira praticamente invisível. Os mecanismos de busca

extraem valor através do trabalho gratuito de milhões de pessoas e,

reconfigurando-o, usam-no para chamar a atenção para si mesmos. (idem,

P.125). Essa atenção é então vendida aos produtores que desejam anunciar

seus produtos.

A internet é plataforma de comunicação com potencial, enquanto tecnologia,

democrático e aberto. Mas a tecnologia é cooptada pelos valores culturais,

sociais e econômicos nos quais está inserida. Os interesses de lucro que

fundamentam os valores capitalistas não removem o potencial para a criação de

trabalhos cooperativos extraordinariamente articulados, como a Wikipédia ou o

desenvolvimento do sistema operacional Linux, mas tendem a restringir estes

esforços a determinados nichos, além de exigirem que iniciativas colaborativas

negociem dentro de um sistema de atenção e troca que se tornou altamente

mercantilizado (idem, p.125).

2.2. RELAÇÕES ENTRE DATA MINING E MODULAÇÃO DE RESULTADOS COMO

LÓGICA TÉCNICA QUE PERMITE O CONTROLE

A mineração de dados (data mining) é o processo de descobrir padrões em

grandes conjuntos de dados envolvendo métodos de machine learning,

estatística e sistemas de banco de dados. Esta técnica consiste em coletar dados

sobre algo, organiza-los em um sistema de banco de dados, e usa-lo para

reconhecer padrões. A mineração de dados é usada em larga escala por sites

de busca, com o objetivo de aprimorar os resultados de busca para cada termo.

Ao realizar uma busca em um site como o Google, cada input é gravado em

logs (registros) de transação. Estes registros guardam as ações realizadas pelo

usuário de forma imperceptível para ele. Segundo Halavais, a maioria dos

mecanismos de pesquisa agora controla quais links o usuário clica, permitindo

que eles vinculem consultas aos resultados que o usuário considera mais

interessantes. Esse tipo de acompanhamento de decisões implícitas é

particularmente importante para os mecanismos de pesquisa, pois é possível

65

inferir a relevância dos resultados produzidos, verificando quais itens o usuário

clica (HALAVAIS, 2017, p.57). O uso de cookies oferece ainda mais

oportunidades para rastrear o que os usuários estão fazendo quando pesquisam.

O Google deve seu sucesso e grande parte de sua receita devido a

capacidade de extrair com eficiência a mais-valia das informações que coleta de

seus usuários (idem, p.198). O Google fornece um login federado para todos os

seus serviços16, o que significa que ele pode rastrear o comportamento do

usuário em cada uma das páginas e aplicativos online. Um grande número de

websites usa o Google Analytics, um pacote gratuito de análise da web, além de

publicidade no Google AdWords, que supostamente fornece ao Google ainda

mais informações sobre o que os usuários estão fazendo, mesmo quando não

estão visitando sites da marca Google. No momento, o comportamento do

usuário é analisado de perto por várias plataformas on-line e geralmente é

combinado entre as plataformas para criar um dossiê surpreendentemente

detalhado dos hábitos on-line dos indivíduos.

Embora as informações de logs do lado do servidor que rastreiam a atividade

do usuário, incluindo sites visualizados, pressionamentos de teclas,

posicionamento do mouse ou uso de aplicativos diferentes do navegador da Web

possam ser imparciais e objetivas (usuário X clicou no link Y, por exemplo), elas

podem ser um tanto difusas e exigem muita inferência para identificar as

intenções do usuário.

Mecanismos de busca personalizam em alguma medida os resultados de

busca para cada usuário, com base nas informações coletadas neste processo

de data mining. Mais do que isso, a personalização realizada por buscadores é

uma combinação dos “sinais” específicos do usuário (localização inferida pelo

IP, idioma configurado no navegador ou conta Google, histórico de buscas, etc.)

com inferências realizadas a partir da análise das ações de milhões de outros

16 Uma conta de usuário em qualquer serviço do Google está interconectada com todos os outros serviços da empresa. Portanto, se um usuário criar uma conta no Gmail, por exemplo, estará na verdade criando uma conta com acesso a todos os serviços do Google (Youtube, Google Search, Keep, Forms, etc.). Isso é verdadeiro para a criação de qualquer conta de usuário em qualquer serviço do ecossistema do Google.

66

usuários em ações semelhantes. Quando um usuário insere o termo de busca

“Qual a idade do Guga?”, como visto no capítulo anterior, o buscador não está

apenas buscando as informações pessoais do usuário para elaborar uma

resposta adequada. Está também buscando referências em seu sistema das

buscas anteriores realizadas por outros usuários e, baseado em quais links

foram clicados, infere o que seria a resposta “correta”.

Oscar Gandy escreveu em 1993: um indivíduo é definido, em parte, pelo que ele faz ou não faz. Informações pessoais são produzidas por um observador na apreensão e interpretação do comportamento do outro. Podemos considerar o comportamento como gerando dados brutos e a interpretação desse comportamento como um processo de valor agregado, no qual informações adicionais são produzidas à medida que o comportamento é avaliado. Essa avaliação, como outras atividades produtivas, pode incluir o uso de outras informações que foram armazenadas a partir de experiências passadas ou que foram adquiridas de outras fontes (HALAVAIS, 2017. p.198).

O Google registra as ações que usuários realizam online, em cada uma de

suas páginas da web. E ao coletar e analisar as ações de milhões de usuário,

traduzidas em números em bancos de dados, constrói uma “base de dados de

intenções” (idem, p.211). Afinal, é através do Google que boa parte da população

mundial procura coisas que espera conhecer, fazer ou o que espera se tornar. É

um enorme banco de dados de desejos coletivos e individuais. Ao observar as

pesquisas que estão se tornando mais populares, o Google é capaz de avaliar

diretamente a consciência global. Se dezenas de milhares de pessoas

repentinamente procuram no Google o mesmo assunto, pessoa ou

acontecimento, é um bom indicador de que existe um consenso de que as

palavras-chave descrevem algo interessante. “Não lhe diz por que eles estão

interessados, mas mapear a atenção por si só é poderoso” (idem, p.211).

O Google mantém uma lista de pesquisas anteriores feitas por um usuário

com base em um cookie na máquina do usuário ou um login em um produto do

Google. Os usuários podem excluir seu próprio histórico, mas não está claro se

isso é excluído apenas da visualização do usuário ou de todos os registros do

Google. E isso não está restrito às pesquisas na Web: como o Google inova em

novas áreas ou adquire serviços existentes, novas fontes de informações

comportamentais são criadas, de dados de localização a dados de uso móvel, e

67

até mesmo em coisas como registro de saúde e horários diários. A lista de

aplicativos e serviços oferecidos pelo Google hoje é abrangente, e seria

perfeitamente possível comunicar e conduzir todos os seus negócios online sem

sair do ecossistema Google.

A personalização de pesquisa representa uma das áreas de pesquisa mais

ativas mas, como na pesquisa em geral, ao privilegiar determinadas fontes em

detrimento de outras, há o perigo de que um pesquisador fique preso ao próprio

histórico de pesquisa (idem, p.65). Pariser, argumenta que a personalização

excessiva da web (por buscadores, redes sociais, sites de notícia, etc.) criam

uma bolha cultural e informacional distorcida da realidade social na qual o

usuário está inserido, isolando-o. Apesar de haver muitas razões pelas quais a

personalização de pesquisa pode ser útil para encontrar e redescobrir

informação, tende a restringir nosso universo informacional a nossos interesses

anteriores, em vez de agir como uma força cosmopolita para a descoberta.

Existem evidências de que a busca personalizada não seja tão restritiva quanto

o que Pariser afirma ser (veremos detalhes no próximo capítulo), porém é

inegável que essas modulações da busca para um retorno ao que está mais

próximo do usuário torna muito mais fácil encontrar fontes familiares em vez de

explorar novas fontes.

MODULAÇÃO DE RESULTADOS DE BUSCA E EXERCÍCIO DE PODER

A personalização de resultados de busca é a modulação da informação

disponível baseada em informações do usuário e de outros usuários que fizeram

pesquisas semelhantes no passado. Como vimos anteriormente, a justificativa

técnica e funcional para isso ocorrer é distribuir a atenção, que é um recurso

finito, de forma eficiente. Há também aspectos estruturais da própria rede que

afetam essa modulação, como a tendência do PageRank a estabelecer

resultados de busca com anexo preferencial (sites que já tem boa reputação

tendem a continuar visíveis, enquanto sites que não tem boa reputação tendem

a nunca atingir-la). Entretanto, a modulação dos resultados de busca não é

regida apenas por fatores técnicos ou internos do sistema de pesquisa.

68

A modulação dos resultados dos mecanismos de busca é moldada por três

tipos de políticas: os algoritmos construídos pelas empresas de mecanismos de

pesquisa, as políticas dos governos nacionais e a cultura da sociedade na qual

está inserido. A filtragem realizada pelos mecanismos de busca não é facilmente

manipulável por indivíduos, mas permanece sujeita àqueles que

tradicionalmente detêm o poder social.

Particularmente, quando pensamos sobre o "viés" do mecanismo de pesquisa, o viés mais premente é a sopa social na qual o mecanismo de pesquisa nada. Cada parte do mecanismo de pesquisa depende de relações sociais, expectativas e popularidade. Os mecanismos de pesquisa destilam os comportamentos sociais de seus usuários, a estrutura socialmente definida da World Wide Web e nossa criação coletiva de conhecimento para atender a outras necessidades sociais. A ideia de que a pesquisa pode ser tudo menos social é absurda (HALAVAIS, 2017, p.73).

Portanto, enquanto pessoas que usam mecanismos de busca e outras

tecnologias forem elas mesmas sociais, a busca continuará a ser social. Existe

um contexto social que se estende além das interações com o sistema de busca

– visões de mundo, contexto social e cultural internalizados – de modo que duas

pessoas que recebem e processam os mesmos resultados de pesquisa poderão

chegar a conclusões diferentes, que talvez resultem até mesmo em

comportamentos diferentes.

Estas influências sociais na busca já são consideradas pela maioria dos

mecanismos de busca, ainda que implicitamente. O PageRank infere a qualidade

de um site com base em julgamentos sociais – não questiona diretamente

usuários sobre a qualidade das páginas da web, mas infere que mais hiperlinks

significam mais relevância, codificando um julgamento humano latente (idem,

p.85). A política de rastreamento do Google, que define o que deve ou não ser

indexado, também parte de premissas sociais implícitas semelhantes para

identificar aquilo que é relevante ou não em um site, e se este “merece” fazer

parte do banco de dados de pesquisa.

O Google exerce poder de forma consciente, e a face mais visível deste

“governo da web” são as políticas para rastreamento, indexação e relevância.

Sites que não estão de acordo com essas políticas podem ser retirados dos

69

rankings do buscador, o que, em termos práticos, significa pena de morte. Mas

há também a possibilidade de restrição ao Google AdWords e demonetização

de canais do YouTube, permitindo a listagem do conteúdo, mas retirando as

chances de impulsionar o acesso ou de ganhar dinheiro com ele. Exemplos deste

tipo de censura são abundantes. Em alguns casos, eles o fazem por motivos que

parecem estar relacionados à proteção de seus usuários. Em 2016, por exemplo,

o Google anunciou que havia rejeitado anúncios de quase 800 milhões de golpes

de perda de peso (idem, p.180). Mais tarde, naquele mesmo ano, anunciou que

deixaria de aceitar publicidade para “empréstimos em dia de pagamento”, uma

indústria que o Google considera predatória.

Entretanto, o motivo mais comum para remoção de sites do índice do Google

é a percepção de que eles tentaram elevar sua posição na página de resultados

de maneiras que afrontam as políticas de indexação e relevância determinadas

pelo Google. Em cada caso, o Google sozinho tomou a decisão e, embora haja

vias de recurso, nem todo mundo sabe onde encontrá-los ou como esses

recursos são tratados.

Mais grave, no entanto, é a face oculta do poder que o Google exerce sobre

seus usuários e a sobre a web – e nem sempre exercido de forma consciente ou

intencional. O Google é uma multinacional estadounidense, cujo idioma principal

é o inglês norte-americano. Apesar do Google ter trabalhado ao longo dos

últimos anos para melhorar sua indexação entre idiomas, ainda há dificuldade

de realizar cálculos de relevância de sites em idiomas que fazem uso de

alfabetos não-romanos (árabe, japonês, mandarim, grego, russo, etc.). Isso

também significa que há uma relativa falta de análise semântica dos termos de

busca nestes idiomas, levando a pesquisas menos precisas. Geralmente,

buscadores locais desenvolvidos especificamente para buscas nestes idiomas

retornam resultados mais precisos. Devido a esses déficits, muitos optam por

pesquisar em inglês, e não em sua primeira língua. Em um estudo com

estudantes árabes, quase 75% preferiram concluir suas pesquisas em inglês e

não em árabe (idem, p.138).

Foi constatado também uma tendência no Google e outros mecanismos de

pesquisa nativos dos EUA de vincularem a seus bancos de dados (e portanto

70

potencialmente exibirem nos resultados de busca) uma proporção maior do total

de websites deste país do que de qualquer outro. Halavais argumenta que isso

não parece ser uma questão de idioma, e nem uma forma disfarçada de

xenofobia. De acordo com ele, para o PageRank, os sites dos EUA tem mais

autoridade simplesmente porque mais links levam a eles. Isso pode ter ocorrido

porque o crescimento inicial da internet foi nos EUA, e isso dá aos sites de lá

uma certa vantagem em relação a sites de outros países (idem, p.139). Se

aproximarmos este fato ao argumento da seção anterior, sobre anexo

preferencial, através do qual sites que já tem boa reputação tendem a crescer, o

domínio americano do banco de dados do Google fica ainda mais evidente. Os

mecanismos de busca não apenas refletem uma suposta autoridade de um país

em relação a outro, mas também ajudam a reproduzi-la.

Seria possível argumentar que esta multiplicação de poder de determinados

países está em linha com o que deveria acontecer em um mercado de atenção.

Afinal, se as fontes de informação dos EUA conseguem atrair mais tráfego (e

mais hiperlinks), isso representaria a utilidade deste conteúdo. A falha neste

argumento está no fato de que usuários não são capazes de selecionar

livremente uma opção dentre a totalidade de opções. O sistema de busca pode

não ser intencionalmente tendencioso, e esta estrutura baseada na “opinião”

(agregada através de links de entrada e saída) poderia até representar um tipo

de democracia – cada usuário votando com cliques do mouse. Mas, como não

permite a deliberação e a discussão nos níveis locais, isso nos torna uma

multidão global, facilmente liderada por aqueles que estão no centro deste

mercado de atenção. A suposição de que um mercado de atenção com

vencedores e perdedores escolhidos pelas forças do mercado seria a

configuração "ideal" para um buscador é profundamente ideológica (idem,

p.140). Enquanto tecnologia, sistemas de busca não são sempre

homogeneizantes ou autoritários, mas implementações que reproduzem a

autoridade vigente são de natureza conservadora.

O próprio conceito de relevância conforme entendido pelo algoritmo do

Google sempre tem um viés, re-inscrevendo as diferenças de poder e controle

existentes na sociedade em grande escala através do ordenamento dos

71

resultados de busca. No verão de 2016, um estudante do ensino médio chamado

Kaber Alli enviou um vídeo no Twitter mostrando os resultados de pesquisa do

Google Images para “três adolescentes brancos” e para “três adolescentes

negros”; os primeiros geralmente mostravam modelos em sites de imagens de

ações, sendo os últimos, principalmente, fotos de prisões. O tweet foi

compartilhado mais de 80.000 vezes e provocou uma discussão sobre se o

Google era racialmente tendencioso. Alli, em um tweet subseqüente, indicou que

não sentia que esse era o caso. O Google insistiu que seu mecanismo de busca

era neutro e refletia os preconceitos existentes da sociedade, em vez de

introduzir qualquer um deles, e geralmente o consenso era que os algoritmos

neutros simplesmente destacavam o viés existente em imagens de pessoas

negras on-line.

Figura 12 - Imagem publicada por Kaber Alli

Fonte: Twitter, Sam White, @samwhiteout, 10:38 PM - 30 Mar 2016

Os resultados de pesquisa do Google, ao apresentarem conteúdos que

circulam no imaginário midiático, reproduzem desequilíbrios de poder social, e

quando o fazem, os amplificam, naturalizam, justificam e fortalecem. Quando

uma pesquisa de imagens sobre “três adolescentes negros” retorna imagens

72

relacionadas a criminalidade, não está apenas reproduzindo preconceitos

sociais existentes. Está reforçando, naturalizando e fortalecendo estes

preconceitos, pois apresenta como resultado de busca “neutro” uma perspectiva

enviesada que não representa a totalidade do significado que o termo de busca

possui, mas apenas um recorte específico determinado pelos desequilíbrios de

poder social.

2.3. DISPOSITIVO DA SOCIEDADE DE CONTROLE

O Google é uma ferramenta estruturante da interação de usuários com a web

e, ao realizar esta estruturação, inscreve uma relação de poder – aplica um filtro

personalizado aos resultados de pesquisa, exibindo ou não conteúdos com base

em uma lógica opaca; determina o que é relevante com base em políticas

próprias; coopera com governos para estabelecer censura; reproduz aspectos

culturais em suas ferramentas, dentre outros aspectos e ações que vimos

anteriormente. Giorgio Agamben, filósofo italiano, dando continuidade ao que

Michel Foucault denominou dispositivo, propõe que este seja entendido como

“qualquer coisa que tenha de algum modo a capacidade de capturar, orientar,

determinar, interceptar, modelar, controlar e assegurar os gestos, as condutas,

as opiniões e os discursos dos seres viventes” (AGAMBEN, 2016. p.39).

Um dispositivo é uma instituição, como família, escola, empresa ou hospital,

que produz subjetividade – que regula as condutas, opiniões e discursos dos

seres viventes. Assim, o dispositivo regula multiplicidades, e as faz convergir.

Maurizio Lazzarato, filósofo italiano, salienta a importância da noção de

multiplicidade segundo Deleuze. Em suas palavras, “uma das mais importantes

inovações teóricas de Deleuze diz respeito à questão da multiplicidade: os

indivíduos e as classes nada mais são do que a captura, a integração e a

diferenciação da multiplicidade” (LAZZARATO, 2006. p.61). De acordo com ele,

as sociedades se configuram de forma a controlar e limitar as multiplicidades,

para criar grupos relativamente homogêneos imbuídos de propósito. As técnicas

de controle reforçadas pelos dispositivos impõem tarefas ou condutas para

viabilizar a produção dos bens necessários, sob a condição de que a

multiplicidade seja pouco numerosa e atue em um espaço bem definido e

limitado (a escola, a fábrica, o hospital, etc.). (idem, p.64).

73

As técnicas disciplinares são acompanhadas das técnicas biopolíticas (saúde

pública, políticas familiares, sexualidade, etc.), que são exercidas como gestão

da vida de uma multiplicidade, seja qual for. Assim, através dos dispositivos

disciplinares (escola, prisão, hospital, fábrica) e dos dispositivos biopolíticos

(estado de bem-estar social, saúde pública, definição social de família),

multiplicidades humanas são integradas e homogeneizadas, formalizadas dentro

das estruturas existentes.

O conjunto de dispositivos disciplinares e biopolíticos, e os indivíduos a eles

sujeitados, compõe o que Lazzarato define como sociedade disciplinar

(baseando-se nas contribuições de Foucault e Deleuze).

É preciso refletir com cuidado se, e de que maneira, o Google é um

dispositivo de controle disciplinar e biopolítico. Apesar de capturar, orientar,

determinar, interceptar, modelar e controlar multiplicidades, direcionando

condutas, opiniões e discursos, o Google não opera da mesma maneira que

dispositivos disciplinares tradicionais como a escola e a família. O buscador atua

de forma menos evidente, modulando a oferta de informações de acordo com o

perfil de usuário. É um tipo de controle que, ao menos em sua forma, parece

diferente daqueles outros que buscam oprimir, reprimir ou recriminar diretamente

certos comportamentos e condutas.

Conforme entendida por Foucault, Deleuze e Lazzarato, a sociedade de

controle se superpõe à sociedade disciplinar, que surge como passo seguinte

nas formas de organização das multiplicidades:

Como tanto o fora [os devires possíveis, as multiplicidades] e a potência de proliferação da diferença rompem o regime de encerramento, essas forças podem apenas ser moduladas. Não se trata, portanto, de discipliná-las em um espaço fechado [como na sociedade disciplinar], mas de modulá-las em um espaço aberto. O controle se superpõe, dessa maneira, à disciplina (LAZZARATO, 2006, P.72).

Nas sociedades disciplinares, os diferentes meios de confinamento

(dispositivos) pelos quais passa o indivíduo são variáveis independentes: supõe-

se que a cada vez ele recomece do zero, e a linguagem comum a todos esses

meios existe, mas é analógica. Nas sociedades de controle, a disciplina

permanece, porém enquanto os confinamentos disciplinares são moldes

74

distintos, os controles são uma modulação – uma moldagem auto-deformante

que muda continuamente (DELEUZE, 2013. p.225).

O Google, enquanto dispositivo da sociedade de controle, produz olhares –

faz enxergar e ignorar. Porém faz isso não segundo uma lógica disciplinar, de

censura explícita. Ele modula os resultados de acordo com cada perfil de

usuário, e também de acordo com o contexto social no qual está inserido. É uma

modulação fluida e sempre em fluxo.

É uma causa que se atualiza em seu efeito, que se integra em seu efeito, que se diferencia em seu efeito. Ou melhor, a causa imanente é aquela cujo efeito a atualiza, integra e diferencia. Por isso, nela há correlação, pressuposição recíproca entre a causa e o efeito, entre máquina abstrata e os agenciamentos concretos (é a esses que Foucault reserva mais frequentemente o nome de “dispositivos”) (DELEUZE, 2013. P.46).

A cada vez que um usuário faz uma nova busca, as condições de controle

são atualizadas, pois o Google é abastecido com novas informações, permitindo

assim a atualização dos parâmetros de seleção de resultados. O Google, munido

de novas informações, pode filtrar de forma ainda mais personalizada os

resultados de busca, exercendo controle de forma cada vez mais eficiente.

SUBJETIVAÇÃO E SEMIÓTICA A-SIGNIFICANTE

Os motores de busca da web são dispositivos da sociedade de controle, e

portanto têm influência na “condução das condutas”. Mas como, exatamente?

De acordo com Maurizio Lazzarato, a produção de subjetividade no capitalismo

opera de duas maneiras, que Deleuze e Guattari denominam dispositivos de

sujeição social e servidão maquínica (LAZZARATO, 2014, p.17).

Os processos de sujeição social dotam os indivíduos de uma subjetividade,

atribuindo uma identidade, sexo, corpo, profissão e nacionalidade. Operam

através de dispositivos disciplinares e de controle, e através da linguagem, em

uma camada semiótica significante e representativa, para produzir um “sujeito

individuado”.

Por outro lado, na servidão maquínica, o indivíduo não é mais instituído como

um “sujeito individuado”. Ao invés disso, ele é considerado uma engrenagem

intercambiável, uma peça, “um componente do agenciamento ‘empresa’, do

agenciamento ‘sistema financeiro’, do agenciamento mídia, do agenciamento

75

‘Estado de bem-estar social’ e de seus ‘equipamentos coletivos’ (escolas,

hospitais, museus, teatros, televisão, internet, etc.)”. (idem, p.28).

É na interseção da sujeição social e servidão maquínica que Lazzarato julga

operar a produção de riqueza (e produção, pura e simplesmente) do capitalismo:

A sujeição produz e sujeita indivíduos, enquanto na servidão, [in]divíduos se tornam ‘dividuais’, e as massas se tornam amostras, dados, mercados ou ‘bancos’. O dividual ‘funciona’ na servidão da mesma maneira que os componentes ‘não humanos’ das máquinas técnicas, como procedimentos organizacionais, semióticas e assim por diante (LAZZARATO, 2014, P.29).

A sujeição fabrica um “sujeito individuado” vinculado a um objeto externo

(uma máquina, um dispositivo de comunicação, o algoritmo do Google ou

Facebook) de que o sujeito faz uso e com o qual ele age. A máquina-objeto-

algoritmo funciona como “meio” ou mediação de sua ação ou uso. “Em

contrapartida, a servidão maquínica não se constrange com os dualismos

sujeito/objeto, palavras/coisas ou natureza/cultura. O dividual não se opõe às

máquinas, nem faz uso de um objeto externo; ele é adjacente às máquinas”

(LAZZARATO, 2014, p.29). Juntos, sujeição social e servidão maquínica

constituem dispositivos “homens-máquinas”, nos quais homens e máquinas são

meras partes recorrentes e intercambiáveis de um processo de produção,

comunicação, consumo, etc.

O dividual é mais do que uma peça conectada ao agenciamento maquínico

– os componentes da subjetividade do “sujeito individuado” são despedaçados,

fragmentados para e pelos acoplamentos às máquinas. “Inteligência, afetos,

sensações, cognição, memória e força física são agora componentes cuja

síntese não reside mais na pessoa, mas, sim, no agenciamento ou no processo

(empresa, mídia, serviços públicos, educação escolar, etc.)”. (idem, P.30).

Ao coletar dados de cada usuário, categorizando-os e organizando-os em

fragmentos (data mining), o Google pode usá-los para modular os resultados de

pesquisa de forma personalizada. O usuário é parte da máquina, um agente de

fornecimento de dados e inputs, um componente.

Lazzarato argumenta que desde o início do século XX a governamentalidade,

no sentido de Foucault, significa cada vez mais o “governo dos dividuais”.

Dispositivos como o Google e Facebook (mas também antes deles, a televisão

e a propaganda moderna) produzem e/ou baseiam-se em bancos de dados que

76

reúnem, selecionam e vendem milhões de dados sobre o comportamento,

aquisições, hábitos, gostos e preferências dos indivíduos.

Essas informações concernem os ‘dividuais’, cujos perfis, compostos pelo cruzamento desses dados, são meros relés de entradas e saídas, de input e output nas máquinas de produção-consumo (LAZZARATO, 2014, p.37). (...). De uma perspectiva semiótica, a servidão maquínica e a sujeição social implicam regimes distintos de signos. A sujeição mobiliza semióticas significantes, em particular a linguagem que, destinada à consciência, mobiliza representações com vistas a constituir um sujeito individuado (“capital humano”). A servidão maquínica, por sua vez, funciona baseada em semióticas a-significantes (índices do mercado de ações, moeda, equações matemáticas, diagramas, linguagens de computador, contas nacionais e de corporações, etc.) que não envolvem a consciência e as representações e não têm o sujeito como referente (LAZZARATO, 2014, p.39).

Enquanto a sujeição social opera em uma camada semiótica significante e

representativa, a servidão maquínica emprega técnicas de modelização e de

modulação que assumem o controle dos seres humanos “por dentro”, no nível

pré-pessoal (no nível pré-cognitivo e pré-verbal), e “por fora”, no nível

suprapessoal, ao atribuir a eles certos modos de percepção e sensibilidade e

fabricar o inconsciente. A formatação exercida pela servidão maquínica (através

de semióticas a-significantes) intervém no funcionamento básico do

comportamento perceptivo, sensitivo, afetivo, cognitivo e linguístico.

Lazzarato resume a distinção de diferentes tipos de semióticas realizada por

Guattari ao longo de sua obra, que não são medidas ou hierarquizadas segundo

a linguagem humana: codificações a-semióticas “naturais” (sistemas cristalinos

e DNA, por exemplo), semiologias significantes, incluindo semiologias simbólicas

(ou pré-significantes, gestuais, rituais, produtivas, corporais, musicais, etc.),

semiologias de significação e, finalmente, semióticas a-significantes (ou pós-

significantes).

Semióticas a-significantes não são prisioneiras das significações e dos

sujeitos individuados que as carregam. Elas deslizam em vez de produzir

significações ou representações (LAZZARATO, 2014, p.72). É a linguagem das

máquinas, dos diagramas, das contas e equações matemáticas, cujas

representações não têm o sujeito como referente. Seus signos funcionam como

input e output da máquina, sem passar pela denotação, representação e

significação. Esses fluxos de signos a-significantes mobilizam fluxos reais,

77

produzem mudanças de condições e permitem às máquinas “falarem” e “se

expressarem” com o humano, com outras máquinas e com fenômenos reais.

Ao modular o que será exibido para cada usuário, o Google modula a

percepção do “sujeito individuado” e modeliza sua sensibilidade. Como

demonstrado anteriormente, estes serviços da web são dispositivos da

sociedade de controle, mas operam nessa dimensão não-discursiva, a-

significante e não-representantiva.

MEMÓRIA, DESEJO E IDENTIDADE

Mas quais implicações trazem a modelização e a modulação da percepção

e sensibilidade do “sujeito individuado” realizada pela lógica do algoritmo do

Google? Implica em uma captura do desejo e, consequentemente, no

condicionamento de possíveis.

Lazzarato argumenta que o desejo na sociedade capitalista contemporânea

não é uma expressão da subjetividade humana – ele emerge do agenciamento

de fluxos humanos e não humanos, de uma multiplicidade de máquinas técnicas

e sociais. “O desejo desterritorializado nada sabe de ‘pulsões’ e de ‘conatus’. Em

vez disso, ele deve ser relacionado ao possível, à criação de novas potências, à

emergência do que parece ser impossível dentro do quadro da dominação

capitalista” (LAZZARATO, 2014, p.49).

O desejo não é uma força natural ou espontânea, mas é artificial e maquínico

(DELEUZE e GUATTARI, 1997). O desejo não vem de dentro do sujeito. Ele

emana de um fora, de um encontro, de um acoplamento, de um agenciamento.

Nunca se deseja apenas uma pessoa ou uma coisa, mas também os mundos e

os possíveis que se sentem neles. Assim, o desejo é, antes de tudo, coletivo.

Para avançar na reflexão sobre os processos de produção de desejo do

Google, precisamos retomar resumidamente o que já se viu anteriormente sobre

como os filtros de personalização de resultados de busca funcionam. O sistema

de construção de perfil do usuário do Google opera através da captura de

diversos dados, que são processados e usados para modular multiplicidades. O

perfil do usuário, conforme entendido pelo algoritmo, “molda” os resultados que

78

o Google irá apresentar. No entanto, é preciso também apontar o óbvio contido

nesta afirmação – o inverso – ou seja, o Google também “molda” o usuário.

Ao fazer uso de um objeto ou tecnologia, o sujeito não está apenas

interagindo com ele em sua dimensão instrumental, mas também está em

acoplamento com sua dimensão social e maquínica. Ao pegar uma chave de

fenda para apertar um parafuso, o sujeito está fazendo uso do instrumento para

um objetivo particular, mas há também modos de uso determinados pelo objeto,

tanto no sentido físico quanto social – não se pode usar uma chave de fenda

para pegar comida, somente a mão humana acopla com a chave de fenda, e o

instrumento encaixa em determinados objetos e não em outros. Entender uma

mídia como um instrumento de mão única, a ser “usado” por alguém, faz

prevalecer seu aspecto maquínico em detrimento do seu aspecto de aparato, no

sentido desenvolvido por Flusser:

A análise desta oposição parte da concepção de instrumento como um objeto produzido para um determinado propósito, ou, nas palavras de Flusser, um objeto ‘bom para algo’. Este ‘algo’, motivo e propósito do instrumento, a um só tempo, faz parte e dá forma ao instrumento de modo a formatar tudo que pode ser gerado por meio dele (BAIO, 2013. p.09 apud Flusser, 1994, p.189).

A concepção de funcionário de Vilém Flusser é que um usuário que acredita

“usar” o aparato como instrumento de seu propósito não percebe que o resultado

de sua ação está condicionado às virtualidades das formas previamente

programadas no aparato. “Na tentativa de objetificar o aparato, o funcionário

acaba sendo usado pelos modelos de conhecimento, poder e estética que estão

inscritos na máquina, sendo assim incorporado ao seu programa” (BAIO, 2013.

p.9).

A máquina ou, em nosso caso específico, o sistema lógico que está inscrito

no algoritmo do Google, é um agenciamento digital e semiótico que, antes de ser

técnico, é diagramático – ou seja, embutido por diagramas, planos e equações.

Deleuze define diagrama como uma máquina abstrata, quase muda e cega, mas

que faz ver e falar. “Todo diagrama é intersocial, e em devir. Ele nunca age para

representar um mundo preexistente, ele produz um novo tipo de realidade, um

79

novo modelo de verdade” (DELEUZE, 2013. p.45). As funções diagramáticas

fazem inscrições que são operacionais antes de serem representativas.

Interagir com um aparato técnico consiste, portanto, em ser sujeitado

àquelas outras dimensões não instrumentais inscritas na máquina. “Em um

mundo maquinocêntrico, para falar, ver, cheirar e agir, fazemos corpo com as

máquinas e as semióticas a-significantes. É nesse sentido que as semióticas a-

significantes constituem focos de enunciação e vetores de subjetivação.”

(LAZZARATO, 2014, P.78 – grifo nosso).

Ao modular os resultados de buscas e restringir as linhas de fuga e os

devires possíveis, o dispositivo ultrapassa sua dimensão instrumental de trazer

à vista aquilo que o usuário procura. Ele também define quais devires estão à

disposição. Quais possíveis são possíveis. Ao “fazer uso” do Google, o “sujeito

individuado” incorpora a dimensão diagramática lá inscrita. É um acoplamento,

que captura desejos e condiciona os possíveis.

A web não é somente um meio de informação que transmite aquilo que é no

presente ou que está por vir no futuro imediato, como faça talvez um jornal diário,

que tem uma conexão causal com o passado. A web mantém vivo em arquivo

aquilo que está no passado – ao buscar uma informação na web, não se está

procurando apenas o presente, mas também o passado, aquilo que já foi. É

nesta perspectiva que o filtro personalizado de buscas captura e estabelece

estratos visíveis (e invisíveis) de presente e também de passado, propondo um

tipo de “memória algoritmizada”.

O funcionamento do algoritmo de seleção de resultados, sua lógica, foi

criada para gerar repetição, em alguma medida, daquilo que o usuário já

conhece ou se interessa. Desenvolvido pensando usuários como consumidores

ao invés de cidadãos, o algoritmo promove um eterno retorno ao já conhecido.

É bastante claro que este modus operandi afeta o equilíbrio cognitivo entre o

fortalecimento de ideias existentes e a aquisição de novas ideias.

O filtro-bolha tem a tendência de cercar o usuário de ideias com as quais já

há familiaridade, reforçando aquilo que já se conhece em detrimento de um

desconhecido, de um fora. Existe uma tendência humana a acreditar no que

80

reforça noções preexistentes, fazendo enxergar o que se quer ver, chamada viés

de confirmação. Jean Piaget, uma das principais figuras da psicologia do

desenvolvimento, descreve o aprendizado como um processo de assimilação e

acomodação. O filtro personalizado de resultados de busca tende a amplificar

drasticamente o viés da confirmação – de certa forma, é este seu objetivo ao

modular multiplicidades da web e faze-las convergir com aquilo que o usuário

espera.

Se o aprendizado é, na definição de Piaget, um encontro com o que não se

conhece, com narrativas, discursos e ideias que nos são estranhas, o tipo de

filtro que o Google interpõe entre quem faz uma busca na internet e os resultados

dessa busca dificulta o usuário de ter esses encontros. Ao afastar conteúdos que

estão fora da esfera do conhecido pelo usuário, o Google dificulta o encontro

com o outro – com a alteridade em si. A personalização de resultados de busca

é a construção de um ambiente composto inteiramente do desconhecido

adjacente – trazendo à vista somente aquilo que não pode abalar o que já se

conhece, mas que parece ser nova informação. Neste contexto, Pariser cita uma

frase magistral de Pablo Picasso quanto às máquinas de computação de seu

tempo, que com a personalização de resultados de busca ganha um novo

significado: “Os computadores são inúteis. Eles só nos dão respostas”.

Esta é mais uma das formas pelas quais os filtros personalizados podem interferir na nossa capacidade de compreender adequadamente o mundo: eles alteram a noção que temos de mapa. Ainda mais perturbador é o fato de removerem suas áreas em branco, transformando os deconhecidos conhecidos em desconhecidos desconhecidos (PARISER, 2012. p.96).

Portanto, pode-se dizer que a lógica de funcionamento do algoritmo do

Google, como dispositivo, limita o acesso a discursos desconhecidos, e opera

uma subjetivação que reforça os discursos e narrativas com que o usuário já tem

familiaridade. Mais do que isso, a lógica de funcionamento do algoritmo do

Google promove um tipo de sensibilidade e de percepção que reforça o que é

familiar e afasta a alteridade.

Robert Putnam, professor de Políticas Públicas da John F. Kennedy School

of Government da Harvard University, identifica em seu livro “Bowling Alone: The

Collapse and Revival of American Community”, dois tipos de capital social: o

81

capital de “ligação”, orientado para o interior de grupos já formados e criados,

que fortalece laços já existentes, agindo como uma força centrípeta e unificando

ainda mais aquele grupo; e o capital social de tipo “ponte”, que é gerado quando

há integração entre diferentes grupos sociais, agindo como uma força centrífuga

que conecta o grupo ou indivíduo a outros grupos e outros indivíduos que são

diferentes e diversos do primeiro (PUTNAM, 2000, p.23).

A internet, enquanto tecnologia, permite a interação entre usuários de

qualquer localização geográfica e qualquer matiz cultural que esteja conectado

à rede. No entanto, no espaço virtual, serviços da web que fazem uso de filtros

personalizados, como já vimos anteriormente, limitam as linhas de fuga e fazem

convergir os conteúdos ao que é familiar. Esta lógica de operação conecta com

mais facilidade usuários com discursos, narrativas e idéias semelhantes do que

usuários que pensam de forma diversa. Assim, a rede estabelece um mecanismo

no qual a conexão entre usuários que pensam de forma semelhante ficam

ligados mais facilmente, independentemente de localização geográfica, e

refratando usuários diferentes. É um modus operandi que favorece capital social

de ligação, e desfavorece capital social do tipo ponte.

Há apenas alguns anos, parte da esquerda afirmava que a mídia tradicional

não podia mais controlar a política face às “novas mídias”. A nova esfera pública

seria baseada em mídias sociais, com conteúdo gerado por usuários e sem

liderança. De acordo com Angela Nagle, doutura na Escola de Comunicações

da Dublin City University e especialista em sub-culturas online, essa rede se

materializou, mas ajudou a levar a direita, não a esquerda, ao poder. “Aqueles

da esquerda que fetichizaram a rede espontânea centrada na Internet e sem

líderes, declarando antiquadas todas as outras formas de fazer política, falharam

em perceber que a forma sem líder realmente nos dizia pouco sobre o conteúdo

filosófico, moral ou conceitual dos movimentos envolvidos” (NAGLE, 2017, p.27).

Redes sociais (Facebook, Twitter, etc.) que constituiriam essa “nova esfera

pública”, assim como o Google, fazem uso de algoritmos personalizados para

filtrar o conteúdo. Agora que são águas passadas, é evidente como a mera

potencialidade democrática da internet enquanto tecnologia nada significa se o

82

modus operandi desta, na prática, é centralizador e intensificador de laços

identitários (em detrimento de relações de alteridade).

Há muitas explicações possíveis para o surgimento de uma nova

sensibilidade de direita, especialmente nas gerações mais jovens, e que mudou

rapidamente o discurso político mais para a direita do que qualquer um poderia

imaginar. É inegável, no entanto, que ao menos nos EUA, a “nova direita” surgiu

a partir da internet. A “alt-right” se desenvolveu em oposição à cultura on-line

inimiga de esquerda, que fazia território especialmente nas lutas identitárias de

raça e gênero. A esquerda on-line tornava a retórica “cada vez mais anti-

masculina, anti-brancos, anti-heterosexual, anti-cisgênero” (NAGLE, 2017.

p.68). Segundo a autora, todas as novas identidades, da esquerda e da direita,

podem ser entendidas como uma resposta a uma resposta a uma resposta, cada

um respondendo com raiva à existência do outro (NAGLE, 2017. p.7).

A esquerda on-line estadunidense – e, certamente, a esquerda brasileira que

se deixa conduzir por discursos de países centrais, em especial a esquerda

universitária de classe média – fez valer nas redes sociais uma obscura cultura

de acusação e censura, que emana das políticas de identidade, nas quais “desde

comer macarrão até ler Shakespeare foi declarado ‘problemático’, e até os atos

mais mundanos ‘misóginos’ ou ‘supremacistas brancos’” (NAGLE, 2017. p.8). A

direita on-line estadunidense se organizou em oposição aos avanços desta

esquerda identitária, que tornou as plataformas de mídia social um tipo de

panóptico no qual os “menos progressistas” viviam com medo de ofenderem

alguém e se tornarem alvo público de expiação: “As encarnações particulares da

esquerda e da direita on-line que existem hoje são, sem dúvida, um produto

desse estranho período de ultra-puritanismo. Esses obscuros inícios políticos on-

line tornaram-se formativos para toda uma geração e impactaram as

sensibilidades e até a linguagem mainstream” (NAGLE, 2017. p.8).

83

3. ESTUDO DE CASO – GOOGLEBOT

3.1. PESQUISAS ANTERIORES SOBRE PERSONALIZAÇÃO DE RESULTADOS DE

BUSCA NA WEB

A personalização de resultados de busca na web levantou preocupações

crescentes sobre a possibilidade dos usuários estarem recebendo apenas os

resultados favoráveis ou em conformidade com seus interesses e visões de

mundo (enquanto outros resultados potencialmente importantes permaneceriam

ocultos), efeito conhecido como filtro-bolha. Eli Pariser demonstrou durante sua

apresentação em uma conferência TED em 2011 que, durante a Revolução

Egípcia, alguns usuários que pesquisavam “Tahrir Square” (em tradução livre,

Praça Tahrir, principal local de concentração de manifestações políticas contra

o governo da época) haviam recebido links para notícias sobre protestos,

enquanto outros recebiam links para agências de viagens. Demonstrações como

esta levaram à popularização do conceito de filtro-bolha e impulsionaram o

crescimento de mecanismos de busca alternativos que não personalizam

resultados, como o DuckDuckGo. Entretanto, naquele momento (HANNAK et al.,

2013, p.1). ainda havia pouca quantificação científica da extensão da

personalização de resultados de busca.

Foi neste contexto que alguns grupos de pesquisa começaram a trabalhar

para tentar mensurar a personalização de resultados de busca por serviços da

web como o Google, sendo o mais proeminente sediado na Northeastern

University, na cidade de Boston (EUA), em conjunto com pesquisadores da

Technical University of Denmark, Brown University e do AT&T Labs–Research.

O primeiro experimento do grupo sediado na Northeastern University consistiu

na realização de consultas controladas no Google para identificar quais recursos

(sinais, características, dados) do usuário acionam a personalização de

resultados.

Cada um dos experimentos realizados pelo grupo segue um padrão

semelhante, que consiste na execução dos seguintes procedimentos: (1) criação

de um determinado número de contas do Google; (2) execução de um

determinado número de consultas idênticas no Google em cada conta, uma vez

84

por dia, por um determinado número de dias, salvando cada um dos resultados;

(3) comparação dos resultados das consultas para determinar se os mesmos

resultados estão sendo exibidos na mesma ordem para cada conta. Se os

resultados variarem entre as contas, as alterações podem ser atribuídas à

personalização vinculada ao sinal ou recurso experimental em teste. Em alguns

dos tratamentos experimentais também foram realizadas consultas sem conta

do Google, para simular usuários sem cadastro no buscador (HANNAK et al.,

2013, p.3).

MENSURANDO PERSONALIZAÇÃO EM PESQUISAS NA WEB

O objetivo da pesquisa do grupo da Northeastern University foi identificar

quanto os algoritmos de personalização de resultados efetivamente alteram os

resultados para cada usuário. “Se o delta entre os resultados ‘normais’ e

‘personalizados’ for pequeno, as preocupações com o efeito filtro-bolha

poderiam estar equivocadas” (HANNAK et al., 2013, p.3).

Apesar da metodologia de pesquisa deste grupo ser relativamente simples,

houve a necessidade de identificar e controlar várias fontes de ruído que

poderiam prejudicar a confiabilidade e reprodutibilidade dos resultados

analisados. Estas fontes de ruído são (HANNAK et al., 2013, p.4):

• Atualizações do índice de pesquisa: buscadores atualizam seus

índices constantemente, portanto consultas realizadas em momentos

diferentes do mesmo dia podem retornar resultados diferentes sem

influência de personalização de busca. Para contornar essa fonte de

ruído, o experimento buscou uma solução técnica para realizar todas

as consultas simultaneamente.

• Infraestrutura distribuída: serviços de pesquisa em larga escala

possuem vários datacenters (centrais de bancos de dados).

Diferentes datacenters podem gerar resultados diferentes para as

mesmas perguntas. Essas diferenças podem ser atribuídas a

inconsistências na pesquisa de dados de cada datacenter. Para

eliminar esta fonte de ruído, os pesquisadores direcionaram todo o

85

tráfego de consulta para um endereço IP do Google específico. Isso

elimina erros decorrentes de diferenças entre datacenters.

• Geolocalização: serviços de busca inferem a localização do usuário

através de seu endereço IP e podem usar esta informação para

personalização de resultados. Para medir apenas a personalização

de resultados decorrente dos sinais não geográficos do usuário,

todas as consultas foram enviadas a partir da mesma rede.

• Teste A/B: Por vezes, os serviços de pesquisa na web realizam testes

A/B, onde determinadas funcionalidades são disponibilizadas para

alguns usuários e não para outros, de forma que estas empresas

possam medir quais configurações do serviço provocam mais

cliques. Não foi encontrada solução definitiva para esta questão.

Para efeitos de comparação, em todos os testes também foram

medidos os resultados de pesquisa de consultas sem cadastro no

Google.

• Efeito de transferência (carry-over effect): buscadores consideram

pesquisas imediatamente anteriores àquela sendo realizada para

personalizar resultados, pois compreendem que usuários realizam

pesquisas sequenciais para refinar resultados de busca. Portanto, se

um usuário realizar a consulta A e em seguida a consulta B, os

resultados de B poderão ser influenciados pela pesquisa anterior A.

Os pesquisadores da Northeaster University nomearam este

fenômeno de carry-over effect, ou efeito de transferência. De acordo

com os pesquisadores, as páginas de resultados têm, em média,

70% de resultados comuns quando o intervalo entre consultas é

inferior a 10 minutos. Após este intervalo, o efeito de transferência

cessa. Todas as consultas nos experimentos realizados pelo grupo

foram realizados com ao menos 11 minutos de intervalo, evitando

assim o efeito de transferência (HANNAK et al., 2013, p.4).

O grupo de pesquisadores da Northeastern University realizou os seguintes

experimentos para identificar quais recursos do usuário acionam personalização,

86

(resultado positivo equivale a identificação de personalização, enquanto

resultado negativo significa ausência de personalização):

Quadro 2 - Resultados do experimento realizado pelo grupo da Northeastern University

Sinal analisado Resultado Observações

Usuário logado vs não logado Positivo Resultados iguais,

porém com ordenação

diferente (2 resultados

reordenados)

Rastreamento por cookies Positivo Resultados iguais,

porém com ordenação

diferente (2 resultados

reordenados)

Navegador Negativo

Sistema operacional Negativo

Atributos da conta do usuário Negativo

Localização por IP Positivo Ao menos 1 resultado

diferente por consulta, 2

reordenações de

resultados em média.

Fonte: Elaborado pelo autor com base nas informações do artigo “Measuring personalization of

web search”, 2013, de autoria dos pesquisadores da Northeastern University.

Ao comparar páginas de resultados de pesquisa para a mesma consulta, é

possível observar dois aspectos principais: resultados e ordenação. Resultados

são os links sugeridos pelo buscador, enquanto a ordenação se limita à posição

de um resultado na página. Os experimentos iniciais deste grupo demonstraram

que há personalização nos resultados de pesquisa, entretanto ela afetaria mais

a ordenação do conteúdo na página do que os resultados propriamente ditos.

87

Em seguida, o grupo da Northeaster examinou se o histórico de atividades

de uma conta aciona a personalização de resultados de busca. Eles

consideraram três tipos diferentes de histórico: pesquisas anteriores sem clicar

em resultados, pesquisas anteriores em que o usuário clicou em um dos

resultados e histórico de navegação na web. Em todos os casos, tomaram os

cuidados descritos anteriormente para evitar o efeito de transferência (HANNAK

et al., 2013, p.7). Não foi observada pelo grupo qualquer personalização dos

resultados de pesquisa baseada em histórico, tanto nos resultados quanto em

sua ordenação:

Ficamos surpresos que os testes baseados em histórico não revelaram personalização na pesquisa do Google. Uma explicação para essa descoberta é que o histórico da conta pode impactar apenas os resultados da pesquisa por um breve período de tempo, ou seja, o efeito de transferência é a extensão da personalização orientada pelo histórico na pesquisa do Google (HANNAK et al., 2013. p.8).

O resultado negativo poderia ter ainda outras causas além desta levantada

pelos pesquisadores (de que a personalização estaria limitada ao efeito de

transferência). O algoritmo de cálculo de relevância do Google considera

centenas de sinais do usuário, e apesar de ser bastante provável que

determinados sinais tenham mais “peso” do que outros na composição da página

de resultados, é possível que apenas um deles não seja suficiente para ativar a

personalização de resultados de forma observável em laboratório. O

experimento tinha a intenção de verificar quais sinais ativam a personalização,

no entanto, o mais provável é que os sinais sejam considerados em conjunto,

em rede, o que impediria que a personalização fosse detectada facilmente em

experimento controlado e, especialmente, ao isolar em cada experimento um

determinado sinal para verificação de personalização.

Esta contestação quanto à validade dos resultados obtidos pela estratégia

metodológica de isolamento dos sinais é reforçada por outra descoberta

realizada pelo mesmo grupo, no mesmo conjunto de experimentos. Os

pesquisadores coletaram dados reais de resultados de pesquisa de usuários

88

através do AMT 17 (Amazon’s Mechanical Turk), onde foi oferecida uma

recompensa de US$2 por participação no estudo. Foram recrutados 200

participantes através do AMT, com idades auto declaradas entre 12 e 48 anos.

Os usuários foram instruídos a configurarem seus navegadores para usar um

proxy HTTP controlado pelos pesquisadores e, em seguida, foram direcionados

para uma página da web que realizava automaticamente 80 buscas no Google.

Os dados coletados pelos dos usuários foram comparados aos dados coletados

em laboratório, e foi possível observar ampla personalização. Resultados dos

usuários tiveram uma probabilidade de 11,7% maior de diferirem uns dos outros

do que os resultados obtidos em testes controlados (HANNAK et al., 2013, p.5).

Além dessa diferença entre os resultados obtidos em testes controlados e

de usuários reais, foi observado que alguns termos ativam mais personalização

do que outros. Consultas relacionadas a negócios locais e política (por exemplo,

“Grécia”, “direitos humanos” ou “loja de ferragens”) são mais personalizadas do

que consultas ao estilo “o que é X?” (por exemplo, “o que é lupus?”, “ipad 2”,

“fatos sobre o monstro de gila”). Aproximadamente 82% dos resultados para

consultas "o que é X?" são idênticos, enquanto apenas 43% dos resultados para

"gadgets" são idênticos. “No geral, ‘política’ é a categoria de consulta mais

personalizada, seguida por ‘lugares’ e ‘gadgets’” (HANNAK et al., 2013, p.8).

O experimento também demonstrou que há diferença na volatilidade

(alteração do resultado ou sua ordenação) de acordo com sua posição.

Resultados exibidos no topo da página são menos voláteis, porém podem mudar

de lugar na ordenação. Cerca de 73% dos resultados na posição 1 (topo da

página) que foram diferentes para usuários vieram da posição 2, e 58% dos

resultados na posição 1 que foram alterados passaram para a posição 2. O

17 O Amazon Mechanical Turk é uma ferramenta que permite que indivíduos e empresas (conhecidos como solicitantes) coordenem trabalho humano para executar tarefas que os computadores atualmente não conseguem realizar. Os solicitantes publicam trabalhos conhecidos como Human Intelligence Tasks (HITs), como identificar conteúdo específico em uma imagem ou vídeo, redigir descrições de produtos ou responder a perguntas, entre outros. Os trabalhadores, coloquialmente conhecidos como Turkers ou crowdworkers, navegam entre tarefas existentes e os completam em troca de uma taxa definida pelo solicitante.

89

resultado na 7ª posição é o mais volátil (33% de alteração) (HANNAK et al., 2013,

p.9).

IMPACTO DA GEOLOCALIZAÇÃO NA PERSONALIZAÇÃO DE BUSCA NA WEB

A relação entre geolocalização e personalização não havia sido detalhada

no primeiro experimento do grupo de pesquisadores da Northeastern University,

então o grupo realizou um segundo experimento dedicado a esta questão. O

experimento levou em consideração todos os ruídos identificados anteriormente

e aplicou as mesmas soluções, exceto para o ruído causado pela geolocalização

a partir do IP do usuário, que é central neste segundo estudo. A metodologia

básica consiste no envio de consultas idênticas ao Google, no mesmo momento,

a partir de locais diferentes (HANNAK et al., 2015, p.02).

Foram escolhidos 66 locais para o estudo, distribuídos em 3 granularidades:

• Nacional: 22 estados dos EUA.

• Estadual: 22 condados do estado de Ohio, EUA (cada condado é

separado por aproximadamente 100 milhas).

• Distrital: 15 distritos eleitorais no condado de Cuyahoga, o mais

populoso de Ohio (separados, em média, por 1 milha).

Os termos de pesquisa selecionados foram categorizados em 3 níveis,

sendo 33 consultas locais (“banco”, “hospital”, “KFC”), 87 consultas controversas

(“aquecimento global é verdade?”, “autismo causado por vacinas”, “casamento

gay”), e 120 nomes de políticos (membros do legislativo local, estadual e federal,

bem como o presidente e vice presidente na época do estudo, Barack Obama e

Joe Biden).

Os pesquisadores realizaram consultas controversas idênticas com a

mesma coordenada de GPS em 50 máquinas diferentes do Planet Lab nos EUA

e observaram que 94% dos resultados da pesquisa recebidos são idênticos. Isso

confirmaria que a pesquisa do Google personaliza os resultados da pesquisa em

grande parte com base nas coordenadas de GPS fornecidas, em vez do

endereço IP. Em vista desta constatação, ao contrário do experimento anterior,

90

este experimento foi realizado apenas em smartphones. Todos os tratamentos

experimentais foram repetidos por 5 dias para verificar a consistência ao longo

do tempo (HANNAK et al., 2015, p.03).

Os resultados obtidos indicaram que consultas locais são muito mais

personalizadas do que as consultas controversas e políticas. Os resultados

exibidos variam entre 18% e 34% com base na localização para consultas locais,

enquanto 6 a 10 dos resultados exibidos são apresentados em ordem diferente.

As consultas controversas e políticas exibem pequenas diferenças de acordo

com a localização, mas as quantidades de alteração de resultados e de

reordenações ficaram muito próximas dos níveis de ruído, dificultando a

afirmação de que essas alterações se devem à personalização.

A segunda constatação do estudo é que a personalização aumenta com a

distância. A alteração nos resultados é especialmente alta entre os níveis de

distrito e estado, com 2 resultados de pesquisa adicionais alterados e 4

reordenados. No geral, a personalização baseada em localização varia

drasticamente por consulta. O número de resultados da pesquisa que são

alterados varia entre 5 e 17 (17 é o total de resultados de uma página de

pesquisa). Como era de se esperar, termos gerais como “escola” ou “correio”

são mais personalizados por localização do que nomes de marca como

“Starbucks” ou “KFC” (HANNAK et al., 2015, p.05).

Assim como no experimento anterior, o grupo de pesquisadores optou por

isolar a maior quantidade de variáveis possíveis e verificar a variação dos

resultados de busca com base apenas na localização e termos de busca. Neste

contexto, é preciso esclarecer que os resultados de busca referentes às

consultas de termos controversos e políticos não apresentaram variação

relevante apenas em relação à localização – ou seja, a localização enquanto

fator isolado não leva à personalização de termos controversos e políticos.

Permanece necessário demonstrar como a personalização de resultados de

pesquisa realizada pelo Google ocorre quando levados em conta todos os sinais,

em rede.

91

AUDITORIA DA PERSONALIZAÇÃO DE PÁGINAS DE RESULTADOS DE MECANISMOS

DE PESQUISA RELACIONADAS A POLÍTICA

Com o objetivo de verificar empiricamente se o Google personaliza

resultados de busca em consultas de termos relacionadas a política, o mesmo

grupo de pesquisadores da Northeaster University realizou um terceiro

experimento. Durante a semana de posse do mandato do presidente

estadunidense Donald Trump e nas quatro semanas seguintes, os

pesquisadores analisaram resultados de busca nos computadores de 187

pessoas (entre 14 e 46 pessoas por semana). Os participantes foram recrutados

através das ferramentas CrowdFlower e Prolific Academic, semelhantes ao AMT,

utilizando em pesquisa anterior para os mesmos fins (LAZER et al., 2018, p.02).

A análise foi baseada em dados coletados por uma extensão desenvolvida

pelos pesquisadores, instalada nos navegadores Chrome dos participantes da

pesquisa. A extensão realizou automaticamente a consulta de 21 nomes de

pessoas, locais e países ou grupos potencialmente relacionados com a posse

de Trump, recuperou todas as consultas realizadas no Google e suas respectivas

páginas de resultados, bem como as sugestões de preenchimento automático

fornecidas pelo buscador (LAZER et al., 2018, p.03). Essa abordagem permitiu

utilizar os navegadores de indivíduos – com seus cookies, logins e histórico de

pesquisa intactos – como um proxy para coletar dados de pesquisa

personalizadas reais.

Os pesquisadores constataram que usuários que relataram fazer uso de

vários serviços do Google (ou Alphabet, a empresa que agrega Google, Youtube

e demais unidades de negócio) e estavam cadastrados às suas contas Google

tinham personalização de páginas de resultado 19,3% maior do que outros

usuários. Encontraram também diferenças significativas entre as páginas de

resultados de pesquisa de usuários que se declaravam a favor e contra Donald

Trump. As consultas apresentaram páginas de resultados com volatilidade de

14% para usuários a favor daquele presidente, e 19% de volatilidade para

usuários que se declaravam contrários – sendo volatilidade definida neste

experimento como diferenças de resultados e também de ordenação de links

(LAZER et al., 2018, p.07).

92

Este estudo demonstrou que a personalização em buscas no Google

politicamente relacionadas é, para os autores da pesquisa, “relativamente baixa”

(até 20% dos resultados da página), e varia de acordo com o termo de busca

(LAZER et al., 2018, p.07).

EXPANSÃO DA MENSURAÇÃO DE PERSONALIZAÇÃO EM PESQUISAS NA WEB

Os pesquisadores da Northeastern University refizeram os experimentos de

2013, atualizando seus resultados e examinando não apenas o Google, mas

também o buscador Bing e o DuckDuckGo (que diz não personalizar resultados

de busca). Os resultados desta atualização de pesquisa foram apresentados em

2017, e todos os resultados anteriores foram confirmados. As mesmas fontes de

ruído foram identificadas e as soluções adotadas anteriormente foram

consideradas suficientes.

Nesta repetição do experimento anterior, testaram uma nova forma de

verificar personalização relacionada a histórico. Considerando que naquela

pesquisa anterior não encontraram indícios de personalização que considerasse

o histórico de navegação ou de pesquisa, optaram por um método que

denominaram “Targeted Domain Clicking” (Cliques em domínios específicos).

Esta variação do método anterior consistiu na criação de 10 contas, cada uma

das quais direcionada a um site de notícias bem conhecido. Um sistema

automatizado logado em cada conta executou 6 consultas relacionadas a

notícias, 4 vezes por dia (portanto, 24 pesquisas por dia, uniformemente

espaçadas ao longo do dia). Depois de cada consulta o sistema automatizado

clica no link do site de notícias atribuído àquela conta. Por exemplo, uma conta

foi atribuída a www.foxnews.com; 24 vezes por dia, essa conta executava

consultas relacionadas a notícias e sempre clicava em resultados apontando

para www.foxnews.com (se eles aparecessem nos 10 melhores resultados)

(HANNAK et al., 2017, p.20). Para os autores desta pesquisa, isso criaria um

sinal forte de personalização a ser seguido pelo buscador, pois o sistema de

busca conseguiria identificar com clareza que o usuário favorece determinado

site.

93

Mais uma vez os resultados surpreenderam o grupo de pesquisa, que não

encontrou praticamente nenhuma diferença entre as páginas de resultados,

independentemente de terem sido clicados. Este experimento foi realizado tanto

no Google quanto no Bing. Concluíram, portanto, que clicar em determinados

domínios, isoladamente, não eleva a classificação deste domínio para o sistema

de busca e portanto não afeta a personalização de resultados de busca

(HANNAK et al., 2017, p.20).

Por fim, este experimento demonstrou que o Google incorpora seus próprios

serviços na personalização da página de resultados cerca 9% das vezes, muitas

vezes em posições de alta relevância (15% dos casos na primeira posição).

Aproximadamente 12% dos links em páginas personalizadas apontam para

serviços, contra 8% em páginas não personalizadas. Essa tendência é

relativamente uniforme em todos os níveis do Google (HANNAK et al., 2017,

p.25). Isso demonstra que a personalização aumenta o número de serviços da

própria empresa vistos pelos usuários da pesquisa do Google, e parece ter

relação com a constatação da pesquisa de 2018, onde foi identificado que

usuários que fazem uso de mais serviços do Google tem suas páginas de

resultados de pesquisa mais personalizadas.

3.2. METODOLOGIA DO ESTUDO DE CASO

O algoritmo de relevância do sistema de pesquisa do Google calcula, a partir

de dezenas de parâmetros (ao menos “57 sinais”, como visto anteriormente),

quais resultados de busca são exibidos para o usuário a cada consulta. O

objetivo primeiro da presente pesquisa de mestrado é compreender a lógica do

filtro de resultados de busca do Google, mapeando de que forma e em qual

medida o algoritmo personaliza resultados de pesquisa para cada usuário.

Para atingir este objetivo, foi considerada a abordagem de análise técnica

do código do sistema. Entretanto, o algoritmo do Google é um segredo comercial,

então dissecar seu modo de funcionamento pelo código, levantando os critérios

técnicos que estabelecem o que deve ser filtrado não é viável. Foi também

considerada a possibilidade de recrutar usuários reais para que realizassem

determinadas consultas, para posterior análise. Esta metodologia permitiria a

94

verificação empírica da hipótese do Google personalizar resultados, porém

impossibilitaria o isolamento de uma série de variáveis – sistema operacional,

navegador, histórico de navegação, histórico de pesquisa no Google, etc.

Considerando estas limitações, optamos pela seguinte metodologia de

pesquisa:

1. Criação de 5 contas no Google com atributos pessoais variados: cada

uma das contas foi configurada como se fosse de um usuário real (ver

anexo 1). A quantidade de contas é suficiente para análise qualitativa

dos dados, uma vez que a análise não requer que os dados sejam

representativos de grandes populações para atingir o objetivo

esperado.

2. Criação de histórico de pesquisa para cada uma das contas: as contas

Google foram populadas com histórico de pesquisa real, baseado em

dados disponíveis na web (mais detalhes sobre este tópico adiante).

Assim, esperava-se que cada uma das contas Google pudesse

simular adequadamente um usuário frequente da web.

3. Execução de um determinado número de consultas idênticas em cada

conta, salvando as páginas de resultados de pesquisa.

4. Comparação dos resultados das consultas para determinar se os

mesmos links são exibidos na mesma ordem nas páginas de

resultados de cada conta.

5. Análise dos resultados em conformidade com os conceitos

apresentados no capítulo anterior, em especial verificando a

possibilidade de modulação de resultados a partir da noção de

sociedade de controle (Foucault / Deleuze/ Lazzarato).

Caso os resultados de pesquisa para consultas iguais sejam

significativamente diferentes entre contas, será possível afirmar que houve

personalização com base no perfil do usuário (atributos da conta Google e

histórico de pesquisa).

95

CONTROLE DE FONTES DE RUÍDO

Conforme explicitado em estudos anteriores, para que os resultados do

experimento sejam confiáveis e capazes de serem reproduzidos, é necessário

identificar e controlar as fontes de ruído. Entretanto, uma possível falha

metodológica constatada nos estudos anteriores decorre especificamente do

controle excessivo destas fontes de ruído, a ponto de isolar variáveis e manter o

sistema sem contexto suficiente para ativar a personalização de resultados de

forma semelhante à experiência real de um usuário. Sendo assim, optou-se pela

seguinte abordagem quanto às fontes de ruído:

• Atualização do índice de pesquisa: buscadores atualizam seus

índices de pesquisa regularmente. Para não eliminar completamente

esta variável, mas ao mesmo tempo manter os resultados de

consultas com contas diferentes consistentes, as consultas para

construção de histórico de pesquisa foram realizadas com intervalos

de 11 minutos. As consultas cujos objetos são alvo de análise

também foram espaçadas em 11 minutos, para evitar o efeito de

transferência (exceto nos experimentos onde houve intenção de

medir influência do efeito de transferência).

• Infraestrutura distribuída: diferenças nos resultados de pesquisa em

decorrência de inconsistências no banco de dados de cada

datacenter não são desejáveis porque não são resultados de

personalização, mas de erro. Todas as consultas foram realizadas a

partir do mesmo endereço IP, o que não elimina a possibilidade de

consultas diferentes terem sido direcionadas para datacenters

diferentes, porém reduz sensivelmente a possibilidade disso ocorrer.

O usuário normalmente é direcionado para o datacenter com menor

latência possível e, apesar da localização ser um dos fatores, não é o

único (outras variáveis que afetam latência: volume de tráfego,

volume de processamento do datacenter e basicamente qualquer

coisa que afete a capacidade de determinado datacenter responder

com rapidez à solicitação de consulta).

96

• Geolocalização: todas as consultas foram realizadas a partir do

mesmo endereço IP, portanto a geolocalização capturada pelo

sistema foi sempre a mesma, efetivamente eliminando esta variável

como razão para personalização de resultados de pesquisa entre as

contas do experimento.

• Teste A/B: não foi encontrada solução metodológica para esta

questão.

• Efeito de transferência: realizar a mesma consulta várias vezes,

refinando os resultados obtidos, é uma prática comum entre usuários.

O experimento realiza tanto consultas únicas (um único termo de

busca, e posterior análise da página de resultados) quanto consultas

sequenciais (3 consultas de variações do mesmo termo, e posterior

análise da página de resultados). Quando realizadas consultas

únicas, houve espera de 11 minutos entre consultas (inclusive

consultas de usuários diferentes) na mesma rede para não haver

efeito de transferência. O mesmo cuidado foi tomado para captura de

resultados de consulta que consideram efeito de transferência.

• Rastreamento por cookies: ao realizar uma pesquisa no Google, o

sistema cria cookies para identificação de cada conta e também

cookies que são compartilhados entre sessões (todos os usuários do

Google daquela máquina). Todos os cookies da máquina onde o

experimento foi realizado foram apagados antes do experimento.

Todos os cookies após o início do experimento foram mantidos. Esta

abordagem tem por objetivo fornecer ao Google todas as informações

necessárias para ativar a personalização de resultados de busca,

porém somente aquelas que foram inseridas de forma controlada

durante o experimento.

• Navegador: experimentos do grupo da Northeastern University

demonstraram que o navegador, isoladamente, não tem relação com

personalização de resultados de busca. O navegador utilizado na

composição dos históricos de pesquisa de cada conta Google foi o

97

Mozilla Firefox 3.6.24, única versão compatível com o GoogleBot

elaborado para este experimento (mais detalhes sobre o bot adiante).

Entretanto, todas as consultas que foram objeto de análise foram

realizadas manualmente em um navegador Chrome atualizado.

• Sistema operacional: experimentos do grupo da Northeastern

University demonstraram que o sistema operacional, isoladamente,

não tem relação com personalização de resultados de busca. O

sistema operacional da máquina onde o experimento foi realizado é

Windows 10 Pro versão 1803 de 64 bits.

• Login na conta Google: experimentos anteriores demonstraram que

estar logado na conta Google tem impacto na personalização de

resultados de pesquisa. Todas as consultas foram realizadas com

uma das contas logada na conta Google.

As opções de controle de ruído foram eleitas com o objetivo de que o

experimento pudesse simular adequadamente o comportamento real de um

usuário no sistema de pesquisa do Google, ao mesmo tempo que certas

variáveis importantes para o mapeamento da personalização de resultados

permanecessem estáveis, em especial geolocalização, navegador, sistema

operacional, rastreamento por cookies, login na conta Google e efeito de carga.

CRIAÇÃO DE HISTÓRICO DE PESQUISA

Em agosto de 2006 a AOL (conhecida na época como America Online)

publicou na internet registros detalhados de pesquisa de um grande número de

usuários que fizeram consultas em seu buscador, o AOL Search. A publicação

tinha o objetivo de contribuir para pesquisas acadêmicas na área de sistemas de

busca. Os registros foram publicados em um arquivo de texto compactado

contendo 20 milhões de palavras-chave de pesquisa para mais de 658 mil

usuários durante um período de 3 meses. Os dados de pesquisa estavam

anonimizados, identificando cada um dos usuários apenas pelo número de

registro (e possibilitando, assim, que pesquisadores verificassem o que um

usuário único pesquisou no período de cobertura dos dados).

98

Apesar dos dados serem destinados apenas ao meio acadêmico, foram

publicados na internet com livre acesso público. A opção por anonimizar os

dados mantendo os número de registro de cada usuário permitiu a identificação

de alguns usuário através de suas consultas de pesquisa (algumas consultas

continham informações pessoais). O New York Times, na época, vasculhou

alguns dos termos de pesquisa e descobriu a identidade do usuário 4417749.

Suas consultas no buscador incluíam "casas vendidas na subdivisão do Shadow

Lake e Condado Gwinnett na Georgia", juntamente com várias pessoas cujo

sobrenome era Arnold. Isso foi suficiente para realizar cruzamentos com listas

telefônicas e identificar o usuário 4417749 como Thelma Arnold, uma mulher de

62 anos que morava na Geórgia. Este fato levou a AOL a reconhecer que a

publicação destes dados teve consequências imprevistas, e os retirou de seu

site. No entanto, uma vez publicados os dados, permaneceram disponíveis na

web ao serem replicados por diversos outros sites.

Os dados publicados pela AOL em 2006 até hoje são o maior e mais

detalhado conjunto de informações de usuários reais e suas pesquisas em um

sistema de buscas da web. É preciso reconhecer que o uso destes dados para

pesquisa pode levantar questões éticas, já que os usuários cujos dados foram

publicados não foram consultados e não deram seu consentimento para tanto.

Por outro lado, os dados estão anonimizados o suficiente para que a imensa

maioria dos usuário não fosse identificada (até hoje há pouco mais de 100

usuários identificados, em uma base de 658 mil, ou seja, menos de 0,02% do

total).

Os históricos de pesquisa de cada uma das 5 contas elaboradas para este

experimento foram inspirados em recortes dos registros de pesquisa da AOL dos

seguintes usuários:

• Usuário 1 (baseado no usuário 98280 da AOL): Foram realizadas 545

consultas para compor o histórico de pesquisa deste usuário. Os

temas das consultas são gravidez, vício em cocaína, convívio com

cônjuge abusivo, móveis, dietas e cristianismo (Bíblia, Jesus, orações

para diversas finalidades). O Google classificou estas consultas nas

seguintes categorias: Calendário Chinês, Conhecimento Bíblico,

99

Relacionamento Intimo, Saúde, Mobiliário, Ator, Personalidade, Co-

dependência.

• Usuário 2 (baseado no usuário 329019 da AOL): Foram realizadas

201 consultas para compor o histórico de pesquisa deste usuário. Os

temas das consultas são principalmente passagens bíblicas e dietas.

O Google classificou estas consultas nas seguintes categorias: Peso,

Portal da Bíblia, Conhecimento Bíblico, Mulheres, Youtube, Professor,

Comida, Saúde.



temas das consultas são herpes no nariz, lipoaspiração de papada,

comportamento de bebês, produtos para piscina e doenças felinas. O

Google classificou estas consultas nas seguintes categorias: Gatos,

Piscinas, Crianças, Saúde, Notícias médicas, Bochechas, Nariz.



temas das consultas são emuladores de jogos, instalação de peças

de computadores, jardins internos, maconha e crossdressing. O

Google classificou estas consultas nas seguintes categorias:

Cannabis, Youtube, Emuladores, Jardinagem, Roupas, Sistemas

operacionais.



temas das consultas são auto-defesa feminina, defesa contra estupro,

mulheres batendo em homens, aeróbica e musculação. O Google

classificou estas consultas nas seguintes categorias: Artes marciais,

Auto-defesa, Mulheres, Negócios, Soco, Exercícios, MMA.

Os termos de pesquisa utilizados para composição do histórico de cada perfil

estão no Anexo 2. A opção por fazer uso destes dados para popular o histórico

de pesquisa de cada conta teve como objetivo simular com a maior precisão

possível quais termos são buscados por uma variedade de usuários comuns.

100

Como argumentado no início do capítulo 2, o uso da web é social, e os termos

de busca inseridos por cada usuário guardam uma relação muito próxima à vida

pessoal de cada um. Perfis de pesquisa criados artificialmente, especificamente

para o experimento, não poderiam refletir a variedade de interesses de pesquisa

de cada usuário sem incorrer em arbitrariedades ou suposições dos modos de

busca, e portanto, não simulariam adequadamente o comportamento de

usuários reais. Uma fonte possível de dados seria recuperar históricos de

pesquisa de usuários reais, entretanto, seria necessário convencer usuários a

abrirem seus históricos de pesquisa para estudo – o que revelaria muito de sua

vida privada e interesses pessoais. Assim, os dados de usuários da AOL se

mostraram a opção mais viável para compor um extenso histórico de pesquisa

para vários usuários, replicando suas consultas e mantendo uma diversidade de

interesses e preocupações que pôde ser aproveitada durante a análise de

resultados de busca.

EXECUÇÃO DAS CONSULTAS - GOOGLEBOT

As consultas realizadas no presente experimento para composição de

histórico de pesquisa de cada conta foram executadas por um programa

chamado GoogleBot, criado especificamente para esta pesquisa.

O programa é um robô (a partir de agora referido apenas como bot ou

GoogleBot) que usa uma extensão chamada WatiN. WatiN significa “Web

Application Testing in .NET” e é derivado de WaTiR, que significa “Aplicação de

Teste da Web em Ruby”. O WatiN é uma extensão que permite testes

automatizados em navegadores. O procedimento realizado pelo bot é: (1) abre

o navegador indicado; (2) navega até a URL indicada (www.google.com.br); (3)

digita a palavra-chave a partir de uma lista de palavras-chave; (4) aguarda o

carregamento da lista de resultados de pesquisa; (5) captura o HTML da lista de

resultados de pesquisa; (6) clica em um link aleatório da página de resultados;

(7) aguarda o link clicado abrir; (8) fecha o navegador. Um usuário que está

logado no Google permanece logado mesmo quando o navegador é fechado e

aberto novamente, portanto o funcionamento do bot deve, em teoria, fazer o

Google considerar normalmente que o usuário permaneceu logado.

101

O bot opera desta forma para que todos os dados de cada consulta sejam

devidamente registrados no Google como uma pesquisa válida, que resultou em

um clique. Em experimentos anteriores, estas ações (consulta seguida de

clique), quando isolada de outras variáveis, não ativou personalização.

Entretanto, este experimento pretende replicar mais comportamentos do usuário

do que experimentos anteriores (e controlar menos variáveis). Dentre as opções

possíveis – não clicar em nenhum link, clicar em um link específico ou clicar em

um link aleatório – a última alternativa foi escolhida por ter mais correspondência

com o comportamento de usuários reais e assegura que o Google registrará o

acesso.

Durante a execução do bot, o Google detectou a automação e, por vezes,

bloqueou a conexão, fazendo com que fosse necessário esperar o desbloqueio

(entre 5 e 10 minutos) para continuar. Isso ocorreu durante as consultas

automatizadas para compor histórico de pesquisa de todas as contas Google. Já

nas consultas que são objeto de análise, idênticas em cada conta Google e em

mais um perfil de controle sem conta, não houve bloqueio algum. Elas foram

realizadas manualmente.

3.3. APRESENTAÇÃO GERAL DOS RESULTADOS COLETADOS

Foram realizados 6 experimentos com consultas simples e 3 experimentos

considerando o efeito de transferência. Os termos de pesquisa selecionados

para cada consulta, em geral (veremos caso a caso), já haviam sido consultados

por um dos perfis. Ou seja, um dos perfis de usuário já contém uma consulta do

termo de pesquisa a ser analisado em cada experimento. Em seguida, todas as

páginas de resultados de pesquisa de cada uma das 5 contas Google foram

comparadas.

A análise consistiu na formatação das páginas de resultados de busca em

planilha, a descaracterização de cada um dos links, de forma que cada um deles

fosse representado por uma letra do alfabeto. Assim, durante a análise, cada um

dos links teria analisada sua posição na página com mais facilidade, além de

permitir destacar a singularidade de cada link (se é único ou há repetições).

102

Posteriormente, quando encontradas diferenças entre as páginas de resultados

de cada perfil, os links ou alterações de posição são analisadas qualitativamente.

Como as contas criadas para este experimento foram baseadas em

históricos de pesquisa na língua inglesa, todos os experimentos foram realizados

com consultas neste mesmo idioma.

EXPERIMENTO 1 – “PREGNANCY MENTAL DISORDER”

Quadro 3 - Análise do experimento 1

Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em

nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente

dos outros perfis.

Este experimento consistiu na realização da consulta “pregnancy mental

disorder” (gravidez distúrbio mental) em todas as 5 contas do Google. Esta

consulta já havia sido realizada pelo perfil 1, e com este item no histórico de

103

pesquisa desta conta seria possível verificar se houve personalização dos

resultados de busca quando comparadas às páginas de resultado de outros

perfis.

Verificou-se que os resultados de busca foram, em sua maioria, idênticos, o

que está alinhado com os achados de pesquisas anteriores – consultas do tipo

“o que é” ou que buscam por definições acerca de um tema conhecido produzem

pouca personalização (HANNAK et al., 2013, p.8). Entretanto, houve uma

inversão de posição de dois links no usuário 5, sendo melhor classificado um link

sobre saúde mental da mãe no período pós-parto do que outro link sobre mães

com problemas mentais planejando gravidez futura. Este usuário tem em seu

histórico várias buscas sobre defesa contra estupro e treinamento para

autodefesa de mulheres. Neste contexto vale questionar se o Google considera

de alguma forma que, para o usuário 5, é mais relevante a saúde da mulher do

que buscas sobre mulheres com distúrbios mentais.

Na seção “Pessoas também perguntam” (People also ask), houve uma

sugestão diferente de todas as outras para o usuário 2. Este usuário tem em seu

histórico de buscas consultas relacionadas à religião (Bíblia, Jesus, salmos, etc.)

e dietas, especialmente dietas com uso de medicamentos. A sugestão do Google

para este usuário, diferente de todas as outras, foi “Can you take antipsychotics

while pregnant?” (Você pode tomar antipsicóticos enquanto grávida?). É possível

inferir que o Google relacionou as buscas anteriores deste usuário com a

consulta atual, efetivamente personalizando as sugestões de buscas futuras.

EXPERIMENTO 2 – “ANSWERING THE CALL OF GOD”

Este experimento consistiu na realização da consulta “answering the call of

god” (respondendo ao chamado de deus) em todas as 5 contas do Google. Esta

consulta já havia sido realizada pelo perfil 2, e com este item no histórico de

pesquisa seria possível verificar se houve personalização dos resultados de

busca quando comparadas as páginas de resultado de outros perfis.

104




dos outros perfis.

Todas as páginas de resultados foram diferentes umas das outras, ao

contrário do experimento anterior. As páginas de resultados dos usuários 1 e 4

apresentaram apenas 1 link no topo da página antes das outras seções de

conteúdo, enquanto a página do usuário 2 tinha 5 links, dos usuários 3 e 5 tinham

3 links. Foram retornados 3 vídeos como resultados para cada usuário,

entretanto o terceiro resultado de vídeo para o usuário 2 foi encontrado apenas

na página do usuário 5. Os links da web tinham ordenação bastante diferente

para cada usuário, e vários usuários receberam links que outros não receberam:

• Usuário 1 não recebeu os links T, U e V.

105

• Usuário 2 não recebeu os links D e K.

• Usuário 3 não recebeu os links T e U.

• Usuário 4 não recebeu os links K, T e V.

• Usuário 5 não recebeu os links D, U e V.

Os links U e V foram os menos presentes em páginas de resultados de

pesquisa (ambos foram exibidos para o usuário 2, e outros usuários receberam

apenas um deles ou nenhum), e são os únicos que correspondem a links de

compra – links orgânicos para o site da Amazon indicando um livro cujo título

tem incorporado o termo de pesquisa “answering the call of god”.

Além disso, todos os usuários receberam 20 links na página de resultados

(contando imagens como um único link, e cada video e cada pesquisa

relacionada como link além dos resultados da web), exceto o usuário 5, que

recebeu apenas 19 links.

Foi possível constatar que houve personalização dos resultados de busca, e

que esta personalização consiste majoritariamente na reordenação dos links na

página de resultados de busca. Entretanto, não foi possível deduzir a lógica

seguida pelo sistema de busca para retornar cada um dos resultados. Houve,

em média, 2,6 links diferentes para cada usuário em relação a outro (12,5% de

diferença de links entre páginas). Este resultado está em linha com pesquisas

anteriores, que indicam entre 10% e 15% de personalização da página de

resultados para cada usuário (sem considerar links reordenados) (HANNAK et

al., 2013, p.5). Além disso, a variação foi menor em links com posições mais

altas na classificação da página de resultados, indicando que o Google tende a

personalizar mais os resultados que estão com classificações menores

(confirmando, mais uma vez, resultados de pesquisas anteriores).

Houve relativa semelhança entre os resultados obtidos pelos usuários 3 e 5

(2 reordenações e 2 links diferentes) e usuários 1 e 4 (1 link diferente apenas).

O usuário 2 foi o mais diferente dos demais, o que evidencia o efeito do histórico

de pesquisa deste usuário na composição de sua página de resultados de busca.

106

EXPERIMENTO 3 – EFEITO DE TRANSFERÊNCIA RESULTANDO EM “DETERMINED

TO SEE JESUS”

Este experimento consistiu na realização da consulta “answering the call of

god” (respondendo ao chamado de deus) em todas as 5 contas do Google,

seguido imediatamente por “seeking Jesus” (procurando Jesus) e, por fim,

“determined to see Jesus” (determinado a ver Jesus).




dos outros perfis.

A pesquisa foi realizada desta forma, com 3 consultas subsequentes, para

verificar se há personalização significativa quando considerado o efeito de

transferência (que leva em conta pesquisas realizadas nos últimos minutos para

107

retornar resultados relacionados às páginas recentes). Cada uma destas

consultas já havia sido realizada pelo perfil 2.

Houve menos personalização quando o experimento foi realizado

considerando o efeito de transferência. Todos os usuários receberam os

mesmos links da web e de vídeos, porém não receberam os mesmos links de

pesquisas relacionadas. Houve também menor quantidade de reordenações.

• Usuário 1 não recebeu o link V (“what did Jesus say to the man who

climbed on a tree to see him?”).

• Usuário 2 não recebeu o link U (“nehemiah determination”).

• Usuário 3 não recebeu o link U (“nehemiah determination”).

• Usuário 4 não recebeu o link Q (“Bible verse about hard work and

determination”).

• Usuário 5 não recebeu o link V (“what did Jesus say to the man who

climbed on a tree to see him?”).

É possível constatar que o Google altera menos os resultados em

classificações mais altas na página de resultados, assim como nos experimentos

anteriores. Além disso, foi possível identificar que, ao menos neste experimento,

o efeito de transferência contribuiu para páginas de resultados mais uniformes e

menos personalizadas, entretanto as sugestões de pesquisas relacionadas

ainda guardam personalização baseada no perfil de cada usuário.

EXPERIMENTO 4 – “TRICKED HER PARTNER”

Este experimento consistiu na realização da consulta “tricked her partner”

(ela enganou seu parceiro) em todas as 5 contas do Google. Esta consulta já

havia sido realizada pelo perfil 3, e com este item no histórico de pesquisa desta

conta seria possível verificar se houve personalização dos resultados de busca

quando comparadas às páginas de resultado de outros perfis.

108




dos outros perfis.

Como constatado anteriormente, houve poucas alterações entre páginas de

resultados nos itens com classificação mais alta. A maioria das alterações são

ordenações, com os usuário 3 e 5 recebendo na 6ª posição um link único que

nenhum outro usuário obteve como resultado.

• Usuário 1 não recebeu os links H, I e K.

• Usuário 2 não recebeu os links H, I e L.

• Usuário 3 não recebeu os links I e L.

• Usuário 4 não recebeu os links H, I e K.

• Usuário 5 não recebeu os links H, K e L.

É notável que o link H, recebido apenas pelo usuário 3, e cujo histórico de

pesquisa já continha o termo pesquisado, seja o único dentre todos que instrui

sobre a possibilidade acusar de estupro uma parceira que teria enganado um

homem para ter relações sexuais. O outro link único (I), presente apenas na

página de resultados do usuário 5 (e cujo histórico de pesquisa está relacionado

a auto-defesa de mulheres e proteção contra estupro) é sobre mulheres que se

sentem culpadas por terem enganado homens. A partir destes indicadores, é

possível inferir que o Google personalizou os resultados de busca para cada

109

usuário seguindo os mesmos padrões verificados anteriormente (menos

personalização nos links do topo da página, mais reordenações do que links

novos, proporção de aproximadamente 10% a 15% de personalização na

página). Entretanto, parece haver uma relação tênue entre as seleções de links

novos e o histórico de pesquisa de cada usuário.

EXPERIMENTO 5 – EFEITO DE TRANSFERÊNCIA RESULTANDO EM “TRICKED

BOYFRIEND INTO BECOMING A FATHER”

Este experimento consistiu na realização da consulta “tricked her partner”

(ela enganou seu parceiro) em todas as 5 contas do Google, seguido

imediatamente por “tricked into fatherhood” (enganado para ser pai) e por fim,

“tricked boyfriend into becoming a father” (enganou o namorado para que ele se

tornasse pai). A pesquisa foi realizada desta forma, com 3 consultas

subsequentes, para verificar se há personalização significativa quando

considerado o efeito de transferência (que considera pesquisas realizadas nos

últimos minutos para retornar resultados relacionados às páginas recentes).

Cada uma destas consultas já havia sido realizada pelo perfil 3.

Ao contrário do experimento 3, que também considerou efeito de

transferência, este resultado implica manutenção da quantidade de

personalização de resultados de busca. Houve grande quantidade de

reordenações e de um link único para o usuário 2 nos resultados da web, além

de resultados únicos para os usuários 3 e 5 nas pesquisas relacionadas.

O usuário com maior conformidade com o termo buscado (usuário 3) e com

maior repulsa pelo assunto (usuário 5, em vista de suas pesquisas anteriores por

defesa pessoal de mulheres e demais correlatos) foram aqueles com maior

personalização. Para o usuário 3, a sugestão de pesquisa única foi “father’s

rights unwanted pregnancy” (direitos do pai gravidez indesejada) e para o usuário

5 foi “my boyfriend made me get pregnant” (meu namorado me fez engravidar).

Isso indica que o Google realiza seu cálculo de relevância levando em conta o

histórico de pesquisa de cada usuário e pondera que determinados interesses

anteriores podem estar relacionados com pontos de vista diferentes, mesmo que

a consulta sendo realizada seja a mesma.

110

• Usuário 1 não recebeu os links H, J, L, U e V.

• Usuário 2 não recebeu os links G, H, K, U e V.

• Usuário 3 não recebeu os links J, K, L, S, T e V.

• Usuário 4 não recebeu os links I, K, L, U e V.

• Usuário 5 não recebeu os links H, J, L, S e U.


Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não

encontrados em nenhum outro perfil, enquanto marcações em amarelo significam links

em ordenação diferente dos outros perfis.

O usuário 3 teve a pesquisa mais personalizada do que todos os outros, com

6 links ausentes em sua página de resultados (mais do que todos os outros, com

5 links ausentes). Isso poderia indicar que usuários que fizeram uma busca por

111

um assunto e a refazem mais vezes recebem páginas progressivamente mais

personalizadas do que usuários que estão pesquisando determinado assunto

pela primeira vez.

O usuário 2 recebeu um link único e não exibido para nenhum outro (L), que

é de um site de mães cristãs falando sobre como nunca é aceitável enganar um

homem para que ele se torne pai (“It Is Never OK to Trick a Man Into Fatherhood

| CafeMom”). Esta personalização dos resultados de busca está alinhada com

seu histórico de pesquisa particular, relacionado à religião.

EXPERIMENTOS 6 E 7 – “RAPE INSTRUCTOR” E EFEITO DE TRANSFERÊNCIA

RESULTANDO EM “BECOME A CERTIFIED RAPE PREVENTION INSTRUCTOR”

O experimento 6 consistiu na realização da consulta “rape instructor”

(instrutor estupro) em todas as 5 contas do Google. Esta consulta já havia sido

realizada pelo perfil 5, e com este item no histórico de pesquisa desta conta seria

possível verificar se houve personalização dos resultados de busca quando

comparadas às páginas de resultado de outros perfis. Entretanto, ao comparar

todas as páginas de resultado, constatou-se que todas estavam idênticas.




dos outros perfis.

Um segundo experimento (7) foi realizado, desta vez levando em conta o

efeito de transferência, em que a consulta inicial foi seguida das consultas

112

“become a certified rape instructor” (tornar-se um instrutor estupro certificado) e

“become a certified rape prevention instructor” (tornar-se um instrutor de

prevenção de estupro certificado).

Em ambos os experimentos (6 e 7), as páginas de resultados de todos os

usuários foram idênticas.




dos outros perfis.

Considerados os resultados de experimentos anteriores, onde houve ao

menos uma quantidade mínima de variação, é possível imaginar que o Google

não personaliza determinados tipos de pesquisa (entretanto, não é possível

afirmar quais seriam estes tipos de pesquisa que não são personalizados). O

tema da consulta permite inferir que rape (estupro) pode ser uma palavra que

impede a personalização de resultados.

EXPERIMENTO 8 – “FLAT EARTH”

Este experimento consistiu na realização da consulta “flat Earth” (Terra

plana) em todas as 5 contas do Google. Esta consulta não havia sido realizada

por nenhum dos perfis, e o objetivo era verificar se uma pesquisa não

relacionada com o histórico de pesquisa dos usuários resultaria em

personalização dos resultados de busca.

113




dos outros perfis.

Apesar de todas as páginas de resultados terem sido idênticas, uma delas

(usuário 1) apresentou um único link publicitário no final. Este link tem o título

“God proves Earth is flat”, e leva a uma página em que se relacionam passagens

bíblicas e a famigerada teoria da Terra plana. Ainda que não tenha havido

personalização direta pelo cálculo de relevância do Google, houve exibição de

uma publicidade personalizada com base nos critérios e sinais disponíveis no

sistema de busca do Google. Assim, é possível inferir que, mesmo páginas de

resultados idênticas entre usuários (ou seja, que provavelmente tiveram sua

personalização de alguma forma impedida ou impossibilitada), ainda exibem

anúncios personalizados com base no histórico de pesquisa.

EXPERIMENTO 9 – EFEITO DE TRANSFERÊNCIA RESULTANDO EM “PROVES

EARTH IS FLAT”

Este experimento consistiu na realização da consulta “flat Earth” (Terra

plana) em todas as 5 contas do Google, seguido imediatamente por “is Earth flat”

(a Terra é plana?) e por fim, “proves Earth is flat” (provas que a Terra é plana).

114




dos outros perfis.

A pesquisa no Google foi realizada com 3 consultas subsequentes para

verificar se há personalização significativa quando considerado o efeito de

transferência (que considera pesquisas realizadas nos últimos minutos para

retornar resultados relacionados às páginas recentes). Nenhuma destas

consultas haviam sido feitas anteriormente em nenhum dos perfis.

Os resultados foram semelhantes ao experimento anterior (8), em que não

houve personalização das páginas de resultados de pesquisa, porém houve

exibição de publicidade personalizada ao final da página de resultados de

pesquisa dos usuários 1, 2 e 5. O link publicitário sempre foi o mesmo, e era o

mesmo encontrado na pesquisa anterior (“God proves Earth is flat”). É possível

verificar que o link publicitário foi exibido nas páginas dos usuários que tinham

histórico de pesquisa ligado a religião, sendo o usuário 5 a única exceção. Não

foi possível constatar a razão do usuário 5 ter recebido a publicidade.

Assim como nos experimentos 6 e 7, parece haver algum tipo de

impedimento à personalização de páginas de resultados de certos assuntos

(mas que não impõe limites à publicidade). Isso pode ser inferido a partir da

115

resposta padrão do Google quando realizada a 2ª consulta neste experimento

de efeito de transferência (“is Earth flat”).

Figura 13 - Reprodução da tela de resultados de busca da consulta “is Earth flat”

Fonte: Reprodução da tela de resultados de busca do Google durante um dos experimentos,

quando realizada a consulta “is Earth flat”. Em tradução livre, o Google responde “Não, a terra é

uma esfera”.

3.4. CONCLUSÕES DOS RESULTADOS EXPERIMENTAIS

O buscador Google rastreia a web seguindo critérios próprios para abastecer

um banco de dados, no qual realiza cálculos de relevância para classificar as

páginas de acordo com sua conformidade com determinados termos de busca.

A personalização de resultados de busca foi visível na maior parte dos

experimentos, e consiste principalmente de reordenação de links na página.

Entretanto, entre 10% e 15% dos links podem não ser exibidos para todos os

usuários quando estes realizam consultas idênticas.

A personalização de resultados de busca pôde ser comprovada de forma

empírica nesta pesquisa, porém foi também possível verificar que esta

modulação tem escopo limitado. Considerada a dimensão social do uso dos

buscadores na contemporaneidade, a personalização de resultados é

significativa, entretanto, parece não representar a prisão que Pariser nomeou

filtro-bolha. Vale lembrar que Pariser apresentou o conceito de filtro-bolha como

resultado da interação de um sujeito com múltiplas plataformas que realizam

personalização e, neste contexto, seria possível afirmar que o Google contribui

em alguma medida para manter um usuário da web dentro de um território

conhecido e confortável, mais favorável a seus próprios interesses e opiniões.

116

A partir dos experimentos verificamos que consultas do tipo “o que é X?” ou

similares, cujo objetivo é buscar a definição de determinado termo, são menos

personalizadas do que outros tipos de consulta. Foi também possível constatar

que o Google personaliza toda a página de resultados de busca, inclusive as

seções “Pessoas também perguntam”, videos e “Pesquisas relacionadas”.

Entretanto, a personalização destas categorias não é equivalente – a

personalização afeta menos os links com classificação mais alta, que ficam

posicionados no topo das páginas de resultados. A menor personalização de

links com classificações mais altas pode sinalizar que o Google realmente

reforça o fenômeno conhecido como anexo preferencial, onde a distribuição de

sites nos resultados de cada pesquisa encoraja sua própria reprodução,

fornecendo um caminho fácil para o conteúdo que o buscador “considera” mais

interessante (ver capítulo 2 para mais detalhes sobre essa questão).

Quando realiza personalização de resultados de pesquisa, o Google parece

ponderar que determinados interesses (revelados através do histórico de

pesquisa do usuário) podem estar relacionados com pontos de vista diferentes

acerca do assunto sendo pesquisado. O Google, desta forma, modula os

resultados de pesquisa para trazer links em conformidade com os interesses

anteriores de cada usuário. Adicionalmente a estas características, foi possível

observar que as buscas mais personalizadas eram aquelas de usuários que já

haviam realizado anteriormente consultas semelhantes ou idênticas ao termo de

busca de cada experimento. Estes resultados estão alinhados com a teoria de

que o Google realiza data mining, coletando e analisando as ações de milhões

de usuário, o que culmina em uma “base de dados de intenções” (HALAVAIS,

2017, p.211).

Os experimentos demonstraram que o Google personaliza resultados de

pesquisa mesmo após buscas consecutivas, apesar de haver uma sensível

redução na quantidade de reordenações e links novos a cada consulta

subsequente.

Por fim, os resultados dos experimentos 6, 7, 8 e 9 nos levam a crer que o

Google não personaliza determinados tipos de pesquisa (entretanto, não é

possível afirmar quais seriam estes tipos de pesquisa que não são

117

personalizados). Os termos de pesquisa rape (estupro) e flat Earth (Terra plana)

podem ser palavras que impedem a personalização de resultados. No entanto,

mesmo que a página de resultados de busca não tenha apresentado

personalização, não parece haver limites quanto a publicidade a ser exibida.

Ao modular o que será exibido para cada usuário, o Google modula a

percepção do sujeito e condiciona sua sensibilidade, ainda que de forma tênue.

Este buscador é um dispositivo da sociedade de controle e opera em uma

dimensão não-discursiva, a-significante e não-representativa – não diz nada ao

usuário de forma direta, mas através de seu modo de funcionamento restringe

as linhas de fuga e estabelece quais são os devires possíveis, ultrapassando sua

dimensão instrumental de trazer ou exibir aquilo que o usuário procura.

118

4. CONSIDERAÇÕES FINAIS

A lógica do filtro de resultados de busca do Google pôde ser compreendida

e mapeada ao percorrermos dois caminhos distintos nesta pesquisa:

mapeamento do desenvolvimento do algoritmo ao longos dos anos através das

divulgações de atualização do algoritmo, buscando no discurso da empresa, nas

justificativas dos aprimoramentos técnicos, e na imprensa, as evidências de

personalização e de seu modo de funcionamento; e análise empírica dos

resultados da personalização de resultados de busca operada pelo buscador, no

experimento com automação de busca detalhado no último capítulo.

A metodologia de pesquisa possibilitou demonstrar que o buscador tem a

intenção de personalizar em alguma medida os resultados de busca para cada

usuário, por compreender que esta é uma forma de retornar resultados mais

relevantes para estes, e que é bem-sucedido neste aspecto. Entre 10% e 15%

dos resultados de pesquisa eram diferentes para cada usuário em consultas

idênticas, além da extensiva reordenação de resultados com base no histórico

de pesquisas. Mais do que retornar links diferentes para cada usuário a partir de

uma mesma consulta, o buscador pôde ponderar que determinados interesses

(revelados através do histórico de pesquisa do usuário) podem estar

relacionados com pontos de vista diferentes acerca do assunto sendo

pesquisado.

Com a compreensão da lógica do filtro de buscas do Google, foi possível

constatar que o buscador inscreve relações de poder ao determinar o que deve

ser indexado e, principalmente, ao realizar um cálculo de relevância do conteúdo

seguindo políticas próprias. É evidente que o sucesso do serviço se deve à sua

inegável utilidade para encontrar conteúdo na web, entretanto, por trás desta

dimensão instrumental, há também uma dimensão política que demanda mais

investigação.

Um exemplo desta dimensão política é a determinação de quais termos

ativam personalização, e quais não ativam. Os experimentos indicaram que

existe a possibilidade do Google não personalizar pesquisas cujos termos de

pesquisa são especialmente polêmicos, como “estupro” e “Terra plana”. Se isso

ocorre de fato, é devido a uma política interna do sistema, que não é transparente

119

para o usuário. Entretanto, este bloqueio parece não afetar publicidade ligada a

estes termos de pesquisa. Uma pesquisa futura poderia apontar com mais

clareza quais termos o Google não personaliza, se a empresa de alguma forma

divulga quais termos não ativam personalização e as razões pelas quais a

publicidade personalizada ligada a estes termos permanece ativa.

Ainda sobre as dimensões políticas do Google, é fato conhecido que o

buscador exibe páginas com classificação mais alta mais frequentemente, e que

isso reforça um ciclo no qual as páginas mais bem pontuadas no PageRank

ganham cada vez mais links, concentrando atenção nestes conteúdos (anexo

preferencial). Para o Google, atenção é um recurso comercializável, como se

fosse uma commodity a ser negociada em um mercado – sites competem por

atenção, e os que recebem mais atenção são exibidos a mais usuários. O Google

calcula relevância a partir desta premissa, o que sugere um entendimento de

que o mercado de atenção é o modelo ideal para definir quais conteúdos devem

ser exibidos. Esta é uma definição claramente ideológica, cuja política parece

anterior à implementação técnica.

O próprio conceito de relevância aplicado pelo algoritmo do Google tem um

viés, re-inscrevendo as diferenças de poder e controle existentes na sociedade

ao replicar e amplificar comportamentos sociais comuns. Ao considerar mais

relevante o que tem mais chances de ser clicado pelo usuário, o Google reproduz

o que seus usuários já pensam.

O percurso teórico e conceitual desta pesquisa indicou que os processos de

filtragem utilizados pelo sistema de busca do Google, por si só, não favorecem

ou desfavorecem discursos ou narrativas específicas. Ao invés disso, a própria

lógica do sistema, através de seu modo de uso e da forma como retorna

resultados, favorece estratos de visibilidade que tem mais chance de serem

clicados pelo usuário, retornando mais resultados dentro do universo conhecido

dele e afastando em alguma medida o contato com a alteridade.

Uma questão para futuras pesquisas seria compreender a fundo como

sistemas com esta lógica operativa de retornar resultados com mais chances de

serem clicados e mais alinhados com os interesses de cada usuário afetam o

modo de pensar e agir de milhões de pessoas que os usam diariamente.

120

Ao longo desta pesquisa, foram encontradas formas de aprimorar a

metodologia de pesquisa, que poderão ser aplicadas em uma eventual

continuidade deste projeto. Um dos caminhos possíveis é analisar patentes do

Google, verificando as potencialidades técnicas dentre as propriedades

intelectuais da corporação Google, e relacionando-as às atualizações do

algoritmo. Esta estratégia tem por vantagem agarrar-se às definições técnicas

do sistema, analisando o modus operandi do sistema a partir de seu potencial

enquanto tecnologia. Outra possibilidade metodológica inexplorada nesta

pesquisa é a realização de experimento com usuários reais, que proporcionaria

um conjunto de dados supostamente mais confiáveis, pois nem todas as

variáveis consideradas pelo sistema de busca podem ser emuladas

realisticamente através de simulação ou automação.

Os processos de modulação de resultados de busca compreendidos a partir

da noção de sociedade de controle funcionam em rede, inseridos em um

contexto técnico, social, econômico e político, que ultrapassa o escopo desta

pesquisa. Se a sociedade de controle, enquanto técnica de controle, funciona

em rede, a continuidade desta pesquisa deverá estar atrelada ao estudo de

outros serviços da web acessados massivamente, como redes sociais

(Facebook, Twitter, LinkedIn), agregadores de conteúdo (Pinterest, Tumblr,

YouTube), dentre outros, e como seus respectivos algoritmos operam, levando

à compreensão de suas respectivas dimensões políticas, processos de

subjetivação e modulação. Seria possível expandir o assunto desta pesquisa

levando em conta as contribuições de Antonio Negri e Michael Hardt, em

especial relacionadas ao que eles denominam Império, situando o Google e

outros dispositivos da sociedade de controle em uma teoria mais abrangente do

capitalismo contemporâneo.

Ao longo desta pesquisa identificamos que o acoplamento maquínico entre

buscador do Google e usuário implica uma modulação da sensibilidade do sujeito

individuado, impondo modos de ver e pensar. Apesar de termos tocado

brevemente na questão da memória algoritmizada, há ainda muito o que

explorar, e uma série de questões permanecem sem resposta – como vários

algoritmos em conjunto atuam sobre a memória individual e coletiva? Se a web

121

tem se tornado um repositório de experiências e de conhecimento coletivo, como

a organização de desta informação por algoritmos afeta as capacidades de

cognição e memória dos sujeitos? Quais as consequências deste modo de

organização e acesso à informação via algoritmos para a democracia

representativa ocidental?

A pesquisa realizada pode também dar pistas sobre fenômenos que

emergem no ciberespaço, como o que se passou a chamar de “fake news”. É

possível pensar que a lógica do Google, ao favorecer o que o usuário tem mais

chance de clicar, ao retornar resultados que tendem a se alinhar ao histórico de

pesquisa do usuário em alguma medida, poderia impulsionar ou propagar, ao

menos em teoria, conteúdo que favorece as visões particulares de cada usuário.

Assim, esta lógica algorítmica poderia estar contribuindo para a divulgação de

“fake news”.

A lógica de filtragem de conteúdo do algoritmo do Google poderia ainda ser

um dos fatores que contribuem para o notável aumento da polarização política

no ocidente ao favorecer conteúdos mais alinhados com os interesses do

usuário. Ainda que a relação do Google com este fenômeno possa ser tênue à

primeira vista, a quantidade de informação diferente exibida a cada usuário (em

decorrência de reordenação e também de links não exibidos para todos os

usuário para uma mesma consulta) é bastante significativa, ainda mais se

considerarmos que cada pessoa potencialmente realiza várias consultas diárias

no buscador – cada uma delas, personalizada.

122

5. REFERÊNCIAS BIBLIOGRÁFICAS

AGAMBEN, Giorgio. O Amigo & O que é um dispositivo?. 1ª edição. Chapecó:

Argos, 2016.

________________. O Aberto – O homem e o animal. 1ª edição. Rio de

Janeiro: Editora Civilização Brasileira, 2013.

BAIO, Cesar. O filósofo que gostava de jogar: o pensamento dialógico de

Vilém Flusser e a sua busca pela liberdade. Flusser Studies, n. 15m p. 1-11,

2013.

CALDEIRA, Fátima Hassan. O mecanismo de busca do Google e a relevância

na relação sistema-usuário. Letrônica, Revista Digital do Programa de Pós-

graduação em Letras da PUCRS, Porto Alegre, v. 8, n. 1, p. 91-106, 2015.

DELEUZE, Gilles. Conversações. 3ª edição. São Paulo: Editora 34, 2013.

______________. Foucault. 1ª edição. São Paulo: Brasiliense, 2013.

DELEUZE, Gilles e GUATTARI, Félix. Mil Platôs: capitalismo e esquizofrenia

2, vol. 1. 2ª edição. São Paulo: Editora 34, 2011.

______________. Mil Platôs: capitalismo e esquizofrenia Vol. 5. 2ª edição.

Rio de Janeiro: Editora 34, 1997.

FLUSSER, Vilém. Más allá de las máquinas. Los gestos. Barcelona: Herder,

1994.

GALLOWAY, Alex. Protocol, or, how control exists after decentralization.

Rethinking Marxism, v. 13, n. 3-4, p. 81-88, 2001.

HALAVAIS, Alexander. Search Engine Society. 1ª edição. Arizona: Polity, 2017.

Hannak, Lazer, et al. “Measuring Personalization of Web Search.” New York:

Proceedings of the 22nd international conference on World Wide Web, 2013.

527-538.

123

Hannak, Lazer, et al. “Measuring personalization of web search”.

https://arxiv.org/abs/1706.05011, 2017.

Hannak, Kliman-Silver, et al. “Location, Location, Location: The Impact of

Geolocation on Web Search Personalization”. In Proceedings of the 2015

Internet Measurement Conference (IMC ’15). ACM, New York, NY, USA, p. 121–

127.

HARDT, Michael. A sociedade mundial de controle. In: ALLIEZ, E. (Org.).

Gilles Deleuze: uma vida filosófica. São Paulo: Ed. 34, 2000.

HJARVARD, Stig. A midiatização da cultura e da sociedade. 1ª edição. São

Leopoldo: Ed. UNISINOS, 2014.

LEÃO, Lucia. O Labirinto da Hipermídia – Arquitetura e navegação no

ciberespaço. 3ª edição. São Paulo: Iluminuras, 2005.

Lazer, Robertson, et al. “Auditing the Personalization and Composition of

Politically-Related Search Engine Results Pages”, Proceedings of the

International World Wide Web Conference Committee, 2018.

LAZZARATO, Maurizio. As revoluções do capitalismo. 1ª edição. Rio de

Janeiro: Editora Civilização Brasileira, 2006.

___________________. Signos, Máquinas, Subjetividades. 1ª edição. São

Paulo: N-1 edições, 2014.

MONTEIRO, Silvana Drumond – Os mecanismos de busca: à guisa de uma

tipologia das múltiplas sintaxes . In TOMAÉL, Maria Inês<< Fontes de

informação na internet>> Londrina: EDUEL, 2008. ISBN 978-85-2716-493-1 p.

97- 122.

MONTEIRO, Silvana Drumond et al. As categorias dos mecanismos de

busca: objeto em construção e em permanente modificação. SEMINÁRIO

EM CIÊNCIA DA INFORMAÇÃO, III, 2009, Londrina. Anais... Londrina: Dep.

Ciência da Informação, 2009. p. 1-20.

124

MONTEIRO, Silvana Drumond. As múltiplas sintaxes dos mecanismos de

busca no ciberespaço. Informação & Informação, v. 14, p. 68-102, 2009.

MONTEIRO, Silvana Drumond; FERNANDES, Rogério P. Muller; DICARLO,

Gian Carlo; TREVISAN, Gustavo Lunardelli. Sistemas de recuperação da

informação e o conceito de relevância nos mecanismos de busca:

semântica e significação. Encontros Bibli. Florianópolis, v. 22, n. 50, p. 161-

175, 2017.

NAGLE, Angela. KILL ALL NORMIES – Online culture wars from 4chan and

Tumblr to Trump and the alt-right. 1ª edição. New York: Zero Books, 2017.

PARISER, Eli. O Filtro Invisível - o Que a Internet Está Escondendo de Você.

1ª edição. São Paulo: Ed. Zahar, 2012.

PUTNAM, Robert D. Bowling Alone: The Collapse and Revival of American

Community. 1ª edição. Nova Iorque: Simon & Schuster, 2000.

SUNSTEIN, Cass R. #Republic – Divided Democracy in the Age of Social

Media. 1ª edição. Princeton: Princeton University Press, 2017.

DADOS, INFORMAÇÕES E NOTÍCIAS CONSULTADAS ON-LINE

CLARK, Jack. Google Turning Its Lucrative Web Search Over to AI

Machines. In: BLOOMBERG. 26 de Outubro de 2015. Disponível em: <

https://www.bloomberg.com/news/articles/2015-10-26/google-turning-its-

lucrative-web-search-over-to-ai-machines >. Acesso em: 20 set. 2018.

ELGIN, Ben. Google: Whiz Kids or Naughty Boys?. In: BUSINESSWEEK. 19

de Agosto de 2004. Disponível em: <

https://www.webcitation.org/5hT7Hw63l?url=http://www.businessweek.com/tech

nology/content/aug2004/tc20040819_6843_tc120.htm >. Acesso em: 20 set.

2018.

125

BENTLEY, Matt. 100+ Sites Impacted By Google Medic Update Analyzed. In:

CAN I RANK. 22 de Agosto de 2018. Disponível em: <

http://www.canirank.com/blog/google-medic-update-data/ >. Acesso em: 20 set.

2018.

OLSEN, Stefanie. Google, Yahoo bury the legal hatchet. In: CNET. 09 de

Agosto de 2004. Disponível em: < https://www.cnet.com/news/google-yahoo-

bury-the-legal-hatchet/ >. Acesso em: 20 set. 2018.

MCCULLAGH, Declan. Testing Google's Panda algorithm: CNET analysis. In:

CNET. 18 de Abril de 2011. Disponível em: < https://www.cnet.com/news/testing-

googles-panda-algorithm-cnet-analysis/ >. Acesso em: 20 set. 2018.

KOTTASOVÁ, Ivana. EU slaps Google with record $2.7 billion fine. In: CNN.

27 de Junho de 2017. Disponível em: <

https://money.cnn.com/2017/06/27/technology/business/google-eu-antitrust-

fine/index.html >. Acesso em: 20 set. 2018.

Desconhecido. EU charges Google with violation of competition rules. In:

DW. 20 de Abril de 2016. Disponível em: < https://www.dw.com/en/eu-charges-

google-with-violation-of-competition-rules/a-19200814 >. Acesso em: 20 set.

2018.

DANIEL, Caroline; PALMER, Maija. Google’s goal: to organise your daily life.

In: FINANCIAL TIMES. 22 de Maio de 2007. Disponível em: <

https://www.ft.com/content/c3e49548-088e-11dc-b11e-000b5df10621 >. Acesso

em: 20 set. 2018.

GOOGLE. Technology Overview. Disponível em: <

https://web.archive.org/web/20110412200014/http://www.google.com/corporate/

tech.html>. Acesso em: 20 set. 2018.

GOOGLE. Webmaster Guidelines. Disponível em: <

https://support.google.com/webmasters/answer/35769?hl=en>. Acesso em: 20

set. 2018.

126

GOOGLE. Your business information in the knowledge panel. Disponível

em: < https://support.google.com/business/answer/6331288>. Acesso em: 20

set. 2018.

CUTTS, Matt. Another step to reward high-quality sites. In: GOOGLE

OFFICIAL BLOG. 24 de Abril de 2012. Disponível em: <

https://search.googleblog.com/2012/04/another-step-to-reward-high-quality.html

>. Acesso em: 20 set. 2018.

SINGHAL, Amit. More guidance on building high-quality sites. In: GOOGLE

OFFICIAL BLOG. 06 de Maio de 2011. Disponível em: <

https://webmasters.googleblog.com/2011/05/more-guidance-on-building-high-

quality.html >. Acesso em: 20 set. 2018.

HORLING, Bryan; KULICK, Matthew. Personalized Search for everyone. In:

GOOGLE OFFICIAL BLOG. 04 de Dezembro de 2009. Disponível em: <

https://googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html

>. Acesso em: 20 set. 2018.

MAYER, Marissa. Universal Search: The best answer is still the best answer.

In: GOOGLE OFFICIAL BLOG. 16 de Maio de 2007. Disponível em: <

https://googleblog.blogspot.com/2007/05/universal-search-best-answer-is-

still.html >. Acesso em: 20 set. 2018.

GOOGLE USER CONTENT. General Guidelines. Disponível em: <

https://static.googleusercontent.com/media/www.google.com/en//insidesearch/h

owsearchworks/assets/searchqualityevaluatorguidelines.pdf >. Acesso em: 20

set. 2018.

PHAN, Doantam. Mobile First Indexing. In: GOOGLE WEBMASTERS

CENTRAL BLOG. 04 de Novembro de 2016. Disponível em: <

https://webmasters.googleblog.com/2016/11/mobile-first-indexing.html >.

Acesso em: 20 set. 2018.

Desconhecido. Google earnings up 12% in third quarter even as Motorola

losses deepen. In: THE GUARDIAN. 17 de Outubro de 2013. Disponível em: <

https://web.archive.org/web/20131017221536/http://www.theguardian.com/tech

127

nology/2013/oct/17/google-q3-revenue-earnings-report >. Acesso em: 20 set.

2018.

INTERBRAND. Best Global Brands 2016. Disponível em: <

https://www.interbrand.com/best-brands/best-global-

brands/2016/ranking/#?listFormat=ls>. Acesso em: 20 set. 2018.

INTERNET LIVE STATS. Total number of websites. Disponível em: <

http://www.internetlivestats.com/total-number-of-websites/>. Acesso em: 20 set.

2018.

INTERNET WORLD STATS. Internet Users in the World. Disponível em: <

https://www.internetworldstats.com/stats.htm>. Acesso em: 20 set. 2018.

SULLIVAN, Danny. All About The New Google “Hummingbird” Algorithm. In:

SEARCH ENGINE LAND. 26 de Setembro de 2013. Disponível em: <

https://searchengineland.com/google-hummingbird-172816 >. Acesso em: 20

set. 2018.

SULLIVAN, Danny. Google Launches “Universal Search” & Blended

Results. In: SEARCH ENGINE LAND. 16 de Maio de 2007. Disponível em: <

https://searchengineland.com/google-20-google-universal-search-11232 >.


SULLIVAN, Danny. Google uses RankBrain for every search, impacts

rankings of “lots” of them. In: SEARCH ENGINE LAND. 23 de Junho de 2016.

Disponível em: < https://searchengineland.com/google-loves-rankbrain-uses-for-

every-search-252526 >. Acesso em: 20 set. 2018.

BAKER, Loren. Yahoo! Visual Timeline 1996-2006. In: SEARCH ENGINE

JOURNAL. 21 de Abril de 2006. Disponível em: <

https://www.searchenginejournal.com/yahoo-visual-timeline-1996-2006/3306/ >.


Desconhecido. YMYL Google Core Updates – All You Need to Know. In:

SEARCH ENGINE NATION. 25 de Agosto de 2018. Disponível em: <

http://searchenginenation.com/ymyl-google-core-updates/ >. Acesso em: 20 set.

2018.

128

YOUNG, Rob. Who Uses Search Engines? 92% of Adult U.S. Internet Users.

In: SEARCH ENGINE WATCH. 11 de Agosto de 2011. Disponível em: <

https://searchenginewatch.com/sew/study/2101282/search-engines-92-adult-

internet-users-study >. Acesso em: 20 set. 2018.

DOMINGUEZ, Trace. How Much of the Internet Is Hidden?. In: SEEKER. 02

de Setembro de 2015. Disponível em: < https://www.seeker.com/how-much-of-

the-internet-is-hidden-1792697912.html >. Acesso em: 20 set. 2018.

HANLEY, Rachel. From Googol to Google. In: THE STANFORD DAILY. 12 de

Fevereiro de 2003. Disponível em: <

https://web.archive.org/web/20100327141327/http://www.stanforddaily.com/200

3/02/12/from-googol-to-google >. Acesso em: 20 set. 2018.

PEREZ, Sarah. Google’s mobile-first search index has rolled out to a

handful of sites. In: TECH CRUNCH. 20 de Dezembro de 2017. Disponível em:

< https://techcrunch.com/2017/12/20/googles-mobile-first-search-index-has-

rolled-out-to-a-handful-of-sites/ >. Acesso em: 20 set. 2018.

PARISER, Eli. “Beware online ‘filter bubbles’”. In: TED Talks. 2011.

Disponível em: <

https://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles/transcript?l

anguage=en >. Acesso em: 26 set. 2018.

ROSEN., J.J. The Internet you can’t Google. In: TENNESSEAN. 02 de Maio

de 2014. Disponível em: <

https://www.tennessean.com/story/money/tech/2014/05/02/jj-rosen-popular-

search-engines-skim-surface/8636081/ >. Acesso em: 20 set. 2018.

BOHN., Dieter. Google Now: behind the predictive future of search. In: THE

VERGE. 29 de Outubro de 2012. Disponível em: <

https://www.theverge.com/2012/10/29/3569684/google-now-android-4-2-

knowledge-graph-neural-networks >. Acesso em: 20 set. 2018.

JENKINS JR., Holman. Google and the Search for the Future. In: WALL

STREET JOURNAL. 14 de Agosto de 2010. Disponível em: <

129

https://www.wsj.com/articles/SB10001424052748704901104575423294099527

212 >. Acesso em: 20 set. 2018.

VISE, David. Online Ads give Google huge gain in profits. In: WASHINGTON

POST. 21 de Outubro de 2005. Disponível em: <

https://www.washingtonpost.com/wp-

dyn/content/article/2005/10/20/AR2005102002058.html >. Acesso em: 20 set.

2018.

DEWEY, Caitlin. You probably haven’t even noticed Google’s sketchy quest

to control the world’s knowledge. In: WASHINGTON POST. 11 de Maio de

2016. Disponível em: < https://www.washingtonpost.com/news/the-

intersect/wp/2016/05/11/you-probably-havent-even-noticed-googles-sketchy-

quest-to-control-the-worlds-

knowledge/?noredirect=on&utm_term=.affc2a5a89b8 >. Acesso em: 20 set.

2018.

WIKIPEDIA. List of search engines. Disponível em: <

https://en.wikipedia.org/wiki/List_of_search_engines >. Acesso em: 20 set. 2018.

METZ, Cade. Google is 2 Billion lines of code — and it’s all in one place. In:

WIRED. 16 de Setembro de 2015. Disponível em: <

https://www.wired.com/2015/09/google-2-billion-lines-codeand-one-place/ >.


LEVY, Steven. How Google’s Algorithm Rules the Web. In: WIRED. 22 de

Fevereiro de 2010. Disponível em: <

https://web.archive.org/web/20110417034921/http://www.wired.com/magazine/

2010/02/ff_google_algorithm/all/1 >. Acesso em: 20 set. 2018.

MARRS, Megan. Predictive Search: Is This the Future or the End of

Search?. In: WORDSTREAM. 3 de Abril de 2015. Disponível em: <

https://www.wordstream.com/blog/ws/2013/06/24/predictive-search >. Acesso

em: 20 set. 2018.

130

ANEXOS

CONFIGURAÇÃO DE DADOS PESSOAIS DAS CONTAS GOOGLE UTILIZADAS NOS

EXPERIMENTOS DETALHADOS NO CAPÍTULO 3

USUÁRIO 1

Nome: Mary

Sobrenome: Smith

Data de nascimento: 10/01/1992

Sexo: Feminino

Número de telefone (obrigatório para confirmação de cadastro): 11 95320-2696

E-mail: [email protected]

USUÁRIO 2

Nome: John

Sobrenome: Smith


Sexo: Masculino



USUÁRIO 3

Nome: Stephen

Sobrenome: O’Neil


Sexo: Masculino

131



USUÁRIO 4

Nome: Randall

Sobrenome: Prestley


Sexo: Masculino



USUÁRIO 5

Nome: Chelsea

Sobrenome: Mann


Sexo: Feminino



132

TERMOS DE PESQUISA PARA COMPOSIÇÃO DE HISTÓRIO DAS CONTAS GOOGLE

UTILIZADAS NOS EXPERIMENTOS DETALHADOS NO CAPÍTULO 3

Abaixo estão listados todos os termos de pesquisa consultados para compor o

histórico de pesquisa de cada usuário. Os termos em destaque foram

analisados em experimentos detalhados no capítulo 3.

USUÁRIO 1

Foram realizadas 545 consultas para compor o histórico de pesquisa do Usuário

1.

aol concert tickets www.aoltickets.com aol concert tickets www.aoltickets.com ticket master outlets www.ticketmaster.com

residential pages in houston tx www.switchboard.com public search for person www.firstgov.gov measurement conversion table

www.onlineconversion.com victoria's secret fila

premier cinemas in baytown tx www.pccmovies.com black girls black girls www.blackglamors.com

girls girls nude girls www.purescans.com

shoes shoes shoes

girl gone wild www.bodsforthemods.com fine black girls www.efmalliance.org fine black girls www.sustainableag.net

shoes fine black girls fine black girls www.photographysites.com

fine black girls www.themiraclemaker.com fine black girls www.clockworksgames.com ovulation calculator www.woman.gov

ovulation calculator www.babycenter.com premier cinema www.pccmovies.com fine black girls

fine black girls www.photographysites.com fine black girls www.themiraclemaker.com fine black girls www.clockworksgames.com

ovulation calculator www.woman.gov ovulation calculator www.babycenter.com premier cinema www.pccmovies.com

fine black girls fine black girls shoes

fila pregnancy calculator pregnancy.about.com pregnancy calculator parenting.ivillage.com

pregnancy calculators www.myparentime.com pregnancy calculators www.glendaleadventist.com pregnancy calculator and pictures of fetus

www.paternityangel.com pregnancy calendar and fetus growth pictures www.pregnancy.org

pregnancy calendar and fetus growth pictures www.homeandfamilynetwork.com pregnancy calculator pregnancy.about.com

chinese gender calendar www.chinesefortunecalendar.com chinese gender calendar www.tryingtoconceive.com

chinese gender calendar www.immihelp.com chinese gender calendar chinesefood.about.com chinese gender predictor www.thelaboroflove.com

chinese gender predictor www.obfocus.com pregnancy weeks calculator pregnancy.about.com bible scriptures concerning prayers of faith

www.religioustolerance.org bible scriptures concerning prayers of faith www.his-net.com

how to open a grocery store and gas station how to open a grocery store and gas station in texas grocery store gas station franchises

pregnancy weeks calculator pregnancy calculator chinese gender calendar

commercial acreage for sale in dayton tx commercial acreage on hwy. for sale in tx commercial land for sale in dayton tx

commercial land for sale in dayton tx commercial land for sale in dayton tx full moon for april

november birthstone www.jewelryformother.com november birthstone www.bernardine.com november birthstone www.bernardine.com

ksbj www.ksbj.org healing prayers www.amazon.com healing prayers www.fourgates.com

bible scriptures for healing www.alighthouse.com bible scriptures for healing www.healingscriptures.com bible scriptures for healing www.prayingscriptures.com

healing for bipolar disorders www.mcmanweb.com healing for bipolar disorders www.ofspirit.com healing scriptures for mental illness

outofmind.blogspot.com healing scriptures for mental illness www.wholepersonconcepts.org

pregnancy calculator pregnancy.about.com is spiritual fasting okay for pregnant women www.bennyhinn.org

is spiritual fasting okay for pregnant women www.usccb.org is fasting safe for pregnant women

www.stonyfield.com criss-cross reference phone numbers www.reversephonedirectory.com

area code www.thedirectory.org bible scriptures for defeating the enemy www.bible-knowledge.com

133

first trimester of pregnancy www.woman.gov http www. clickhouston.com clickhouston www.clickhouston.com

criss-cross phone number reference www.internetpeoplesearch.com criss-cross phone number reference

www.reversephonedirectory.com criss-cross phone number reference phone prefix of www.thedirectory.org

a drug with slang name of ice www.kci.org information on methamphetamines www.thebeachcomberrehabilitation.com

residential listings www.switchboard.com pregnancy calculator pregnancy.about.com family poems www.netpoets.com

poems about cousins www.scrapbook.com poems about cousins www.poemsforfree.com poems about cousins

poems about cousins poems about cousins poems about cousins

poems about cousins family poems www.netpoets.com family poems www.poemhunter.com

ksbj www.ksbj.org st. jude's shrine www.stjudeshrine.org jdm ministries www.jdm.org

symptoms of cocaine addiction nickscape.net symptoms of cocaine addiction www.cocaine-effects.com

symptoms of cocaine addiction www.cocaine-effects.com symptoms of cocaine addiction

www.friendsofnarconon.org symptoms of cocaine addiction www.addictionca.com symptoms of cocaine addiction www.diagnose-me.com

symptoms of cocaine addiction www.drugabuse.gov affects of cocaine use if you are diabetic diabetic's use of cocaine

i am diabetic and use cocaine www.realitycheck.org.au i am diabetic and use cocaine forums.studentdoctor.net gastrointestinal problems associated with cocaine use

www.focusas.com gastrointestinal problems associated with cocaine use www.jrsm.org

gastrointestinal problems associated with cocaine use www.rochester.edu gastrointestinal problems associated with cocaine use

www.ncbi.nlm.nih.gov gastrointestinal problems associated with cocaine use www.goaskalice.columbia.edu

gastrointestinal problems associated with cocaine use www.drug-rehab.com co-dependency www.allaboutcounseling.com

co-dependency www.recoveryresources.org co-dependency www.recoveryresources.org co-dependency www.recovery-man.com

co-dependency skepdic.com is bipolar disorder hereditary www.bipolarworld.net is bipolar disorder hereditary www.familyaware.org

is bipolar disorder hereditary www.bipolar.com is bipolar disorder hereditary www.bipolar.com are people with bipolar disorder prone to use drugs and

alcohol www.nimh.nih.gov are people with bipolar disorder prone to use drugs and alcohol concernedcounseling.com

are people with bipolar disorder prone to use drugs and alcohol www.aamft.org are people with bipolar disorder prone to use drugs and

alcohol www.dbsalliance.org www.joelosteen.org joel osteen www.joelosteen.com

joel osteen www.joelosteen.com pregnancy calculator pregnancy.about.com continental airlines www.continental.com

bible scriptures for defeating the enemy www.bible-knowledge.com bible scriptures concerning praying in agreement

pregnancy calculator pregnancy.about.com will drinking caffeine hurt my unborn baby babyfit.com pencil test pregnancy accuracy www.pregnancy-

info.net pencil test pregnancy accuracy www.everything.com pencil test pregnancy accuracy www.everything.com

accuracy of chinese calendar gender test www.pregnancystore.com accuracy of chinese calendar gender test

www.childbirth.org risk of having multiple births after age www.marchofdimes.com

risk of having multiple births after age www.fertilitext.org risk of having multiple births after age

www.fertilitext.org adcc toll free numbers for adcc

bible scripture concerning speakl it out as if it were bible scripture saying to speak out your miracle as if it were here www.bible-knowledge.com

bible scripture saying to speak out your miracle as if it were here www.bible-knowledge.com bible scripture saying to speak out your miracle as if it

were here www.elroy.net bible scriptures concerning the miracle in our mouth chinese gender calculator www.obfocus.com

summer maternity clothing clothing.listings.ebay.com summer maternity clothing www.mimimaternity.com summer maternity clothing www.maternityapparel.com

format for a formal apology letter www.writeexpress.com format for a formal apology letter

www.letterwritingguide.com format for a formal apology letter www.nccaom.org format for a formal apology letter www.tamiu.edu

format for a formal apology letter www.bcs.org form letter for a formal apology to co-worker archives.thedaily.washington.edu

form letter for a formal apology to co-worker thomashawk.com form letter for a formal apology to co-worker

www.uq.edu.au apology letter formats www.writeexpress.com apology letter formats www.letterwritingguide.com

apology letter formats www.letterrep.com apology letter formats www.letterrep.com apology letter formats www.evidyarthi.com

apology letter formats writing-business-letters.com apology letter for misconduct to employer format www.letterrep.com

apology letter for misconduct to employer format www.letterrep.com apology letter for misconduct to employer format

www.chron.com apology letter for misconduct to employer format https://magnusoft.com/letterrep/letter_list.cfm?catid=

apology letter for misconduct to employer format https://magnusoft.com/letterrep/letter_list.cfm?catid= apology letter for misconduct to employer format

how to write a letter saying your sorry www.writeexpress.com apology letters for professionals www.letterrep.com

apology letters for professionals officetime.thespeciousreport.com apology letters for professionals www.writinghelp-

central.com apology letters for professionals www.savvychicks.com

apology letters for professionals ezinearticles.com apology letters for professionals www.clickz.com pregnancy calculator pregnancy.about.com

134

crosby tx real estate for sale www.homes.com acreage for sale in crosby tx bonniebutler.homes.com eva mendez information www.celebritywonder.com

eva mendez information www.celebritywonder.com bio on eva mendes www.fulllatin.com is there an illness disorder associated with a person

wanting to have numerous pets disorders with people owning numerous dogs psychological disorders

is it a disorder to want to own violent dogs faculty.ncwc.edu is it a disorder to want to own violent dogs

www.americansdeserveprivacy.com is it a disorder to want to own violent dogs www.mental-health-today.com

symptoms of narcissism www.toddlertime.com symptoms of narcissism www.angelfire.com symptoms of narcissism it.stlawu.edu

personality disorders www.degreez.com personality disorders personalitydisorders.mentalhelp.net

personality disorders www.focusas.com personality disorders stormie omartian www.stormieomartian.com

stormie omartian stormieomartian.com stormie omartian's bio stormie omartian's mother's mental illness

www.christianitytoday.com stormie omartian's mother's mental illness www.christianitytoday.com

dealing with abuse from a spouse with mental disorder www.helpguide.org dealing with abuse from a spouse with mental disorder

mentalhelp.net dealing with abuse from a spouse with mental disorder dealing with abuse from a spouse with mental disorder

incestabuse.about.com dealing with abuse from a spouse with mental disorder pages.zdnet.com

dealing with spouse that has bipolar disorder christianblogs.christianet.com dealing with spouse that has bipolar disorder

www.bipolarworld.net dealing with spouse that has bipolar disorder spouse is cruel to everyone in family including animals

coping with abusive spouses divorcesupport.about.com coping with abusive spouses

coping with abusive spouses coping with spouse who has personality disorder dealing with abusive spouse

www.covenantkeepers.org dealing with abusive spouse coping with spouse who has personality disorder

spouse is cruel to everyone in family including animals coping with abusive spouses divorcesupport.about.com

personality disorders personality disorders dealing with verbally abusive spouse www.drirene.com

dealing with verbally abusive spouse dealing with a spouse with personality disorder dealing with a spouse with personality disorder

symptoms of a personality disorder symptoms of a personality disorder symptoms of an abusive spouse www.helpguide.org

symptoms of an abusive spouse open-mind.org chinese baby predictor www.chinesefortunecalendar.com

chinese baby predictor www.thelaboroflove.com chinese baby predictor www.obfocus.com residential pages - houston tx www.switchboard.com

pregnancy mental disorder nina amada mia novela www.alma-latina.net nina amada mia novela foro.telenovela-world.com

maternity clothing www.duematernity.com maternity clothing www.thelaboroflove.com construction industry cfr code book spanish translation

www.bookworkz.com construction industry cfr code book spanish translation teexweb.tamu.edu

construction industry cfr code book spanish translation www.abc.org construction industry cfr code book spanish translation

www.bookworkz.com construction industry cfr code book spanish translation www.bookworkz.com

hispanic safety publications inc. www.hispanicsafetypubs.com construction industry cfr code book spanish translation

www.bookworkz.com construction industry cfr code book spanish translation convenience store franchises in texas dmoz.org

convenience store franchises in texas www.businessnation.com how to start your own gasoline convenience store

business furlow programs definition for furlough program www.english-test.net

olga lidia hernandez in houston tx olga contreras massage therapist in houston tx www.dshs.state.tx.us

olga hernandez phone for olga contreras www.secondfederal.com white pages for houston tx www.hellohouston.com

motherhood maternity how to kill lice in hair www.astdhpphe.org how to kill lice in hair www.walgreens.com

pregnancy calculator pregnancy.about.com dictionary definition for varmit www.campchase.com dictionary definition for varmit venus.soci.niu.edu

dictionary definition for varmit www.dailykos.com dictionary definition for varmit www.texans-r-us.com how many mpg do you get in a dodge intrepid

www.theautochannel.com premier cinemas www.pccmovies.com pregnancy calculator pregnancy.about.com

full moon date for may www.almanac.com full moon dates for central time sunearth.gsfc.nasa.gov full moon dates for central time www.hugs-edu.org

full moon dates for central time www.seasky.org full moon dates for central time www.psychic-corner.com

full moon dates for central time sunearth.gsfc.nasa.gov www.psychic-corner.com shoes www.shoes.com

beyonce pictures www.eforu.com beyonce pictures www.weirdspot.com beyonce pictures www.tombraideru.com

beyonce pictures www.beyonce-knowles.com pregnancy calculator pregnancy.about.com www.verizonwireless.

sloths sloths sloths sloths.org

sloths www.museum.state.il.us beyonce beyonce pictures www.beyonce-knowles.com

beyonce naked pictures www.acmegirls.com beyonce naked pictures www.lifestyle.com sloths

sloths www.geocities.com sloths www.geocities.com sloths www.q-net.net.au

sloths www.crystalinks.com sloths sloths

www.gentryschhol.com www.baytownschooldistrict.com www.gccisdschholdistrict.com

135

karyme lozano www.alma-latina.net karyme lozano www.alma-latina.net karyme lozano www.fulllatin.com

nina amada mia novela tdmymas.tripod.com nina amada mia novela tdmymas.tripod.com nina amada mia novela www.imdb.com

nina amada mia novela www.moviesunlimited.com nina amada mia novela foro.telenovela-world.com karyme lozano hairstyles showhappy.info

karyme lozano hairstyles perso.wanadoo.es isabela soriano hairstyles karyme lozano hairstyles showhappy.info

karyme lozano hairstyles mayeumagic.com karyme lozano hairstyles www.matrix.com karyme lozano hairstyles perso.wanadoo.es

karyme lozano hairstyles ... karyme lozano hairstyles karyme lozano pictures www.alma-latina.net

karyme lozano pictures www.alma-latina.net karyme lozano pictures www.netglimse.com karyme lozano pictures www.netglimse.com

karyme lozano pictures allactors.co.uk karyme lozano pictures www.celebritywizard.com karyme lozano pictures www.celebritywizard.com

karyme lozano pictures www.serials.ru karyme lozano karyme lozano

karyme lozano karyme lozano www.alma-latina.net karyme lozano www.alma-latina.net

karyme lozano www.starfool.com karyme lozano www.celebritywizard.com karyme lozano babeinvasion.com

karyme lozano babeinvasion.com prolean supplements www.bodyactive-online.co.uk prolean supplements www.proimageteam.com

prolean supplements ebay diet pills with ephedra rdenya.no.sapo.pt

pro lean diet supplements pro lean www.iwr.com pro lean www.proimageteam.com

pro lean www.proimageteam.com pro lean www.proimagenutrition.com pro lean www.sncdirect.com

pro lean pro image supplements www.proimageteam.com pro image supplements www.tryprovitamin.com

pro image supplements www.tryprovitamin.com pro image supplements www.tryprovitamin.com fiesta days in sanantonio tx www.fiesta-sa.org

what do i need to do to become an actress www.kidlink.org what do i need to do to become an actress

www.things.com what do i need to do to become an actress www.ehow.com

what do i need to do to become an actress experts.about.com how do i get auditions for acting gigs

experts.about.com how do i get an agent for acting jobs www.theatrgroup.com

how do i get an agent for acting jobs grills grillz www.lyricsmania.com

how to make grillz www.xanga.com how to make grillz www.xanga.com how to make grillz www.stereogum.com

how to make grillz www.howtomakegrillz.com grillz www.gangstagrillz.com

grill starter kit www.mrbling.com success rate to . chain letters www.breakthechain.org religious fasting tips www.allaboutprayer.org

gccisd www.gccisd.net bape www.pickyourshoes.com bape www.brandchannel.com

bape www.nicekicks.com www.verizonwireless.co derivative citizenship information

canberra.usembassy.gov derivative citizenship information immlaw.com derivative citizenship information

derivative citizenship requirements in the us immigration.about.com stories of miracles www.blessedcause.org

stories of miracles www.creativespirit.net stories of miracles adventist.tv stories of miracles www.hypernews.org

stories of miracles www.geocities.com jesse duplantis jesse duplantis during his rock band days

jesse duplantis www.jdm.org .lyrimania.com .lyricmania.com www.lyricmania.com

.lyricmania.com www.lyricmania.com .lyricmania.com music.jdmag.net .lyricmania.com music.jdmag.net

girls www.desktopgirls.com girls www.desktopgirls.com girls

girls supermodels www.supermodelsunlimited.com supermodels www.mxdpi.com

bible scriptures defeating the enemy www.victorious.org bible scriptures defeating the enemy

www.victorious.org bible scriptures defeating the enemy www.victorious.org

bible scriptures defeating the enemy www.victorious.org bible scriptures defeating the enemy www.bible-

knowledge.com remedies for burns from dry ice what to do for a dryice burn www.painenterprises.com

bible scriptures for defeating the enemy www.bible-knowledge.com bible scriptures for defeating the enemy www.bible-

knowledge.com bible scriptures for defeating the enemy www.prayer-warriors.org

bible scriptures for defeating the enemy www.bible-knowledge.com bible scriptures for defeating the enemy

intercessory prayers www.spirithome.com intercessory prayers www.rockies.net intercessory prayers www.beliefnet.com

intercessory prayers christianity.about.com bible scriptures for healing from mental disorders www.religioustolerance.org

bible scriptures for healing from mental disorders www.gotquestions.org bible scriptures for healing from mental disorders

www.walking-wounded.net bible scriptures for healing from mental disorders www.amen.org.uk

bible scriptures for healing from mental disorders bible scriptures for healing from mental disorders healing prayers for people with bipolar disorder

www.beliefnet.com bible scriptures concerning worshiping the lord www.annieshomepage.com

bible scriptures concerning worshiping the lord spiritual warfare through worship www.brandonweb.com

bible scriptures defeating enemy www.theherbsplace.com bible scriptures defeating enemy

136

religious fasting tips mommyconnie.blogstream.com religious fasting tips www.morningstarministries.com furniture outlets in north carolina

www.ncfurnitureonline.com furniture outlets in north carolina www.boyles.com furniture outlets in north carolina ncnet.com

furniture outlets in north carolina north-carolina.uscity.net furniture outlets in north carolina

living room sets for wholesale prices www.nextag.com living room sets for wholesale prices whispy.com living room sets for wholesale prices www.gowfb.com

ksbj www.ksbj.org big screen televisions www.askmen.com wal mart www.walmart.com

zss omni loveseat foley's furniture foley's furniture warehouse

living room sets www.hoobly.com living room sets www.bizrate.com living room sets www.thefurniturewarehouse.net

living room sets www.barnfurnituremart.com living room sets www.losangelesfurniture.com living room sets www.peoplesfurniture.net

living room sets www.overstock.com living room sets living room sets

pictures of living room sets for sale shopping.msn.com pictures of living room sets for sale jerusalem.craigslist.org

pictures of living room sets for sale www.sanjosefurniture.com fila www.fila.com

fila www.silvertomakeagrill.com silver to make a grill

pregnancy calculator pregnancy.about.com beige colored fabric livingroom sets www.dealtime.com beige colored fabric livingroom sets

www.mysimon.com beige colored fabric livingroom sets www.feldmanfurniture.com

beige colored fabric livingroom sets www.sortprice.com beige colored fabric livingroom sets www.sortprice.com beige colored fabric livingroom sets

shopping.yahoo.com beige colored fabric livingroom sets quality-furniture.com

beige colored fabric livingroom sets www.feldmanfurniture.com discount living room furniture

www.thefurniturewarehouse.net discount living room furniture www.classifiedtoday.com discount living room furniture www.directlyhome.com

discount living room furniture www.furnitureontheweb.com discount living room furniture www.kelleyfurniture.com

discount living room furniture www.furniturebuzz.com discount living room furniture www.furniturebuzz.com discount living room furniture

www.furnitureesuperstore.com discount living room furniture www.peoplesfurniture.net

premier cinemas www.premierecinemas.net premier cinemas www.pccmovies.com pregnancy calculator pregnancy.about.com

spiritual beliefs on abortion www.safehavenministries.com spiritual beliefs on abortion www.beliefnet.com

pregnancy calculator healthlink.mcw.edu pregnancy calculator pregnancy.about.com ksbj www.ksbj.org

lakewood church www.joelosteen.com lakewood church www.lakewood.cc ksbj www.ksbj.org

bible scriptures defeating enemy www.khouse.org bible scriptures defeating enemy www.bible-knowledge.com

bible scriptures for healing www.alighthouse.com bible scriptures for healing www.mswm.org bible scriptures for healing www.religioustolerance.org

bible scriptures for healing www.healingscriptures.com bible scriptures for healing www.prayingscriptures.com bible scriptures for healing

bible scriptures for defeating the enemy www.bible-knowledge.com prayers for pleading the blood of jesus as an

intercessor prayers for pleading the blood of jesus pleading the blood of jesus against mental disorder

www.bible-knowledge.com pleading the blood of jesus against mental disorder spiritualwarfare.jesuswork.org

pleading the blood of jesus against mental disorder spiritualwarfare.jesuswork.org pleading the blood of jesus against mental disorder

www.issuesetc.org pleading the blood of jesus www.bible-knowledge.com pleading the blood of jesus www.cybertime.net

pleading the blood of jesus www.believers.org pleading the blood of jesus www.wordlibrary.co.uk pleading the blood of jesus www.yourgoingtohell.com

pleading the blood of jesus christianblogs.christianet.com intercessory prayers for healing www.spirithome.com

intercessory prayers for healing www.centralpc.org intercessory prayers for healing www.prayerlinks.net joel osteen-- www.joelosteen.com

prayers for relationship problems www.divorcehope.com prayers for relationship problems

www.selfhealingexpressions.com prayers for relationship problems www.bible.com prayers to break curses www.withoneaccord.org

prayers to break curses www.demonbuster.com prayers to break curses www.demonbuster.com prayers to break curses www.yourgoingtohell.com

prayers for cleansing www.porn-free.org prayers for defeating enemy www.faithfulhope.com bible scriptures for defeating the enemy www.bible-

knowledge.com prayers to plead the blood of jesus against problems www.bible-knowledge.com

prayers to plead the blood of jesus against problems www.bible-knowledge.com prayers to plead the blood of jesus against problems

www.christianblog.com how does a male's cocaine use affect a fetus www.fasalaska.com

how does a male's cocaine use affect a fetus https://my.inova.com/public/healthresearch/content birth defects caused by father's cocaine use

otispregnancy.org birth defects caused by father's cocaine use www.tripdatabase.com

are chainletter scams ever successful are chainletter scams ever successful marketing.mcdar.net

are chainletter scams ever successful . mailing list fee letter scams www.breakthechain.org pregnancy calculator pregnancy.about.com

area code www.thedirectory.org area code - government grants for women owned businesses

www.proposalwriter.com government grants for women owned businesses www.womanowned.com

chinese pregnancy calendar www.holodeck.com chinese pregnancy calendar www.holodeck.com chinese pregnancy calendar www.thelaboroflove.com

137

ksbj www.ksbj.org prayers for healing from serious diseases www.lyricmania www.lyricmania.com

joel osteen www.joelosteen.com suvrail paul shepherd

paul sheppard www.enduringtruth.org worleyparsons www.worleyparsons.com worley parsons - houston tx office www.worley.com.au

chinese pregnancy calendar www.baby-parenting.com chinese gender calendar www.webwomb.com chinese gender calendar

www.chinesefortunecalendar.com chinese gender calendar www.obfocus.com chinese gender calendar

www.chinesefortunecalendar.com chinese gender calendar www.obfocus.com

USUÁRIO 2


2.

valentines day e-cards http://www.superlaugh.com not your mommas banana pudding http://www.northpole.com

paul and silas in jail http://www.ainglkiss.com crosswalk.com http://www.crosswalk.com 3 -6 mafia

3-6 mafia stay fly http://www.lyricsandsongs.com photographs http://www.newseum.org family photographs

handicap photographs http://www.fotosearch.com photographs of the handicapped http://www.fotosearch.com

handicap photographs http://www.imdb.com family photo gallery http://www.american-pictures.com you can shout at midnight

deliverance at midnight god delivers at midnight http://www.amazon.com deliverance at midnight

paul and silas delivered at midnight http://www.amazingchange.org paul and silas delivered at

midnight http://www.allaboutturkey.com biblegateway http://www.biblegateway.com your midnight experience

god delivers at midnight paul and silas delivered at midnight http://www.amazingchange.org

paul and silas delivered at midnight http://biblia.com acts http://www.godrules.net bible commentaries http://eword.gospelcom.net

bodybuilder clip art http://www.acclaimimages.com march sunday school lesson http://www.christianstandard.com

psalm http://www.usccb.org psalm god knows all ... http://www.barclaychurch.org.uk

state of maryland pension withdrawl http://www.twin-music.com directorate of civilian personnel operations

civilian employment directorate of civilian personnel operation delaware duel action cleanse http://www.thecoloncleanser.com

duel action cleanse duel action cleanse http://www.thecoloncleanser.com duel action cleanse http://www.thecoloncleanser.com

duel action cleanse http://duelactionclnsfrsmpl.ianomalynews.info natural laxatives http://www.nativeremedies.com

home remedy laxatives http://www.fatfreekitchen.com isca.idiana.edu liquid protein diets http://www.annecollins.com

liquid protein diets http://www.atkinsexposed.org lap band surgeons in delaware http://www.obesityhelp.com

lap band surgeons in delaware http://www.readyachange.com

women determined to seek jesus women determined to see jesus women determined to see the king

christian women determined to see the king christian women determined to see the king biblical women determined to see jesus

woman with the alabaster box http://bible.cc woman with the alabaster box http://bible.cc woman with the alabaster box http://www.savior-of-

all.com woman with the alabaster box http://www.arvopart.org woman with the alabaster box http://www.amazon.com

woman with the alabaster box http://www.gospelflava.com woman with the alabaster

box http://www.tentmaker.org stop watering what doesn't belong to you determined to see god

luke http://bible.cc luke http://www.godrules.net luke http://www.biblegateway.com

capitol school district http://www.k.de.us house rentals in dover delaware house rentals in dover delaware

family court state of delaware http://www.delcode.state.de.us family court state of

delaware http://www.divorcesource.com family court state of delaware http://www.state.de.us family court state of

delaware http://www.completecase.com family court state of delaware http://www.ilrg.com determined to see king jesus

i am determined to seek jesus http://miracleprayers.blogspot.com women determined to see jesus http://www.woman.ch

bible commentaries http://bible.crosswalk.com lap band surgery http://www.obesitylapbandsurgery.com

lap band surgery http://ww.khou.com lap band surgery http://womenshealth.about.com delaware lap band

surgeons http://www.locateadoc.com delaware lap band surgeons http://www.locateadoc.com

delaware lap band surgeons http://www.healthgrades.com state of delaware internal revenue

delaware division of revenue http://www.state.de.us delaware division of revenue http://www.online-taxes.com

ezee pass delaware ezee pass applying for e-z pass

applying for delaware e-z pass http://www.ezpassde.com

138

lap band surgeons in delaware http://www.bariatric-surgery.info constructive criticism classroom

activities http://www.foundationcoalition.org constructive criticism classroom activities http://www.foundationcoalition.org

constructive criticism classroom activities http://www.aec.asef.org constructive criticism classroom

activities http://www.psychologicalscience.org constructive criticism classroom activities http://www.eklavya.org

constructive criticism classroom activities occupational oulook handbook -- http://www.ndcrn.com sex --

intercourse -- intercourse -- sucks -- [/url]

purpose and destiny in christ http://www.calgaryworship.com my purpose in christ

not your mammas banana pudding http://www.amazon.ca not your mammas banana

pudding http://www.recipezaar.com jiffy corny bread http://recipes.egullet.org jiffy corny bread http://www.heb.com

design a cereal box http://teacher.scholastic.com design a cereal box http://mtl.math.uiuc.edu design a cereal box http://www.cynical-c.com

design a cereal box http://www.uen.org design a cereal box http://www.flickr.com design a cereal box http://www.painstick.com

hair weaving hair weaving hair weaving techniques

full head weave weaving a full head of hair weaving a full head of hair

bible commentaries http://bible.crosswalk.com bible commentaries http://eword.gospelcom.net bible commentaries http://eword.gospelcom.net

bible commentaries http://eword.gospelcom.net answering the call of god http://www.mark-shea.com answering the call of god http://www.intouch.org

answering the call of god http://www.exchangedlife.com answering the call of

god http://www.trinitybiblecollege.edu answering the call of god http://www.frtommylane.com answering the call of god http://www.all-creatures.org

created for a purpose http://www.thelastdays.net created for a purpose http://www.deeperdevotion.com primates and monkeys http://anthro.palomar.edu

apes http://www.enchantedlearning.com created for a purpose http://www.berean.com the alabaster box http://www.lyricsdownload.com

the alabaster box http://www.amazon.com the alabaster box http://bible.cc

i am determined to see jesus http://www.sofnet.com biblical women determined to see jesus http://www.continuetolearn.uiowa.edu

luke 7-37 http://www.bible.org luke 7-37 http://www.rc.net luke 7-37 http://www.wcg.org

luke 7-37 http://home.austarnet.com.au luke 7-37 luke 7-37

luke 7-37 sinners determined to see jesus http://www.wiu.edu harlot determined to see jesus

seeking jesus determined to see jesus determined to seek jesus http://www.regnumchristi.org

mapquest are you determined to see jesus http://www.nd.edu are you determined to see

jesus http://www.whosoever.org the harlot determined to see jesus seeking jesus http://www.covchurch.org

determined to seek jesus women seeking jesus http://r.webring.com he that comes to god must believe that he

is http://www.blueletterbible.org steps to seeking jesus http://lurasbookcase.com steps to seeing

jesus http://culturalsavage.wordpress.com sin prevents us from seeing jesus clearly http://www.hollywoodjesus.com

sin prevents us from seeing jesus clearly http://www.bridges-across.org what does it mean to see jesus

motives for seeing jesus the 10 virgins seek jesus women with issue of blood seeks jesus

preparing to see jesus preparing to see jesus preparing to meet jesus

soul train line http://video.google.com soul train line http://media.putfile.com soul train line http://www.jumptheshark.com

soul train line http://www.dailymotion.com la weight loss menus http://www.changingshape.com la weight loss menus http://www.dwlz.com

la weight loss menus http://www.dietbites.com la weight loss menus http://www.dietbites.com la weight loss menus http://www.dietbites.com

la weight loss menus http://www.dietbites.com la weight loss menus http://www.dietbites.com pounds in days http://slimming.onemorebite.com

9 pounds in 11 days http://www.things.com 9 pounds in 11 days http://diet.com

USUÁRIO 3


3.

symptoms of childhood leukemia 2006-05-11

1 http://www.cancer.org is it normal to have no sexual drive 5 months after son's birth http://parents.berkeley.edu

is it normal to have no sexual drive 5 months after son's birth

what is an asymmetrical mean when used with breast

lumps http://www.goaskalice-cms.org what is an asymmetrical mean when used with breast lumps

baby in position at 32 weeks device that beeps when child is out of range

139

is it normal to have no sexual drive 5 months after son's birth what are the symptoms of postpartum hyperthyroid

http://www.thyroid.org.au sores and itching up your nose sores and touching up your nose

sores and touching up your nose sores and touching up your nose sores and touching up your nose

can you get herpes in your nose http://kidshealth.org can you get herpes in your nose can you get herpes in your nose

can you get herpes in your nose can you get herpes in your nose can you get herpes in your nose

can you get herpes in your nose can you get herpes in your nose can you get herpes in your nose

is inducing my pregnancy bad do paternal grandparents always get the shaft do paternal grandparents always get the shaft

do paternal grandparents always get the shaft do paternal grandparents always get the shaft what gets rid of jowls

what gets rid of jowls what gets rid of jowls what gets rid of jowls

does liposuction get rid of jowls http://www.washingtonian.com does liposuction get rid of jowls

does liposuction get rid of jowls does liposuction get rid of jowls tricked her partner

scraping the lining of he uterus to stop menstrual cycle having lining of uterus scrped to stop mentrual cycle having lining of uterus scraped to stop menstrual cycle

if girlfriend was on birth control and tricked me am i responsible for pregnancy http://www.metafilter.com if girlfriend was on birth control and tricked me am i

responsible for pregnancy http://www.stormfront.org if girlfriend was on birth control and tricked me am i responsible for pregnancy http://www.stormfront.org

if girlfriend was on birth control and tricked me am i responsible for pregnancy http://beautyversusthebeast.blogspot.com

if girlfriend was on birth control and tricked me am i responsible for pregnancy if girlfriend was on birth control and tricked me am i

responsible for pregnancy if girlfriend was on birth control and tricked me am i responsible for pregnancy http://www.hoinews.com

how to clean bionaire air filter merena iud birth co tricked into fatherhood

Tricked boyfriend into becoming a father what is an asymmetrical mean when used with breast lumps http://www.hopkinsmedicine.org

what kind of effects are there on children during hurricanes http://www.nola.com what kind of effects are there on children during

hurricanes http://www.apa.org how to make a stuffed animal with light inside simple science inventions

at what tempature does water boil at what temperature does water boil can you test positve for majuanna from second hand

smoke can you test positive for marijuana from second hand smoke http://www.goaskalice.columbia.edu

can you test positive for marijuana from second hand smoke http://www.goaskalice.columbia.edu can you test positive for marijuana from second hand

smoke http://my.marijuana.com my.marijuana.com 4th grade science project http://www.isd77.k12.mn.us

5-month old infants head is flat in the back of the head http://www.gillettechildrens.org 5-month old infants head is flat in the back of the

head http://filipowskirace.typepad.com 5-month old infants head is flat in the back of the head http://www.plagiocephaly.org

what causes plagiocephaly http://www.babycenter.com intex pool 18x48 http://www.shopzilla.com how many gallons of water does an in ground pool

take http://texas.sierraclub.org how many gallons of water does an in ground pool take http://www.patiostore.com

how many gallons of water does an in ground pool take http://texas.sierraclub.org intex pools health risks http://www.llnl.gov

book titled the little girl of terror http://www.amazon.com permenant chlorine for pools permanent chlorine for pools

permanent chlorine for pools permanent chlorine for pools decorative outdoor fountains

rain and wind gauges http://www.kbvrtv.org tennessee made fountains http://www.tnloghomes.com rodbenders restaurant in miami florida

cat bleeding from mouth http://www.zzcat.com cat bleeding from mouth http://www.zzcat.com feline leukemia http://www.felineleukemia.org

can a cat with feline leukemia test negative and still be positive http://www.vetinfo.com what is an ink file

kate berlin http://cgi.ebay.com stanley home cleaner http://www.stanleyhomecare.com key west resorts http://www.oceankey.com

.ups.com watkins cleaning products http://www.vanillaone.com how to change the driver side mirror on the ford

expediton miami-dade county school board website http://www.dadeschools.net

medmore insurance

USUÁRIO 4


4.

ardi http://www.ardi.com basilisk system http://www.everything.com

basilisk beos emulator http://sisbe.sourceforge.net beos . download http://downloads-zdnet.com.com

beos http://www.beforever.com

www.gardenpower.com www.gardenpower.com

build an indoor greenhouse http://www.nleindex.com build an indoor greenhouse http://www.nleindex.com build an indoor grow room

indoor garden http://www.webterrace.com

140

beos . on athlon http://www.bedrivers.com beos . on athlon http://slashdot.org betips.net http://www.betips.net

beos pesonal into pro beos personal into pro http://www.bootmanager.com beos software download http://www.xsall.nl

beos software download http://www.bebits.com men wearing panties sizes http://www.brieftales.com men wearing panties sizes

men wearing panties sizes beos http://www.bebits.com beos athlon xp http://www.bebits.com

beos athlon xp patch http://www.bebits.com install beos athlon xp beos personal install on athlon xp

http://www.bebits.com beos personal install on athlon xp http://www.bebits.com

beos personal install on athlon xp http://www.windowsmarketplace.com beos personal install on athlon xp

http://www.computing.net beos athlon xp patch http://www.begroovy.com beos athlon xp patch http://www.osnews.com

beos pe max download http://www.osnews.com beos pe max download http://www.computing.net beos pe max download http://freshmeat.net

beos pe max download http://sourceforge.net beos pe max download http://www.linux-proshop.de breeding parakeets http://www.lisashea.com

breeding parakeets http://www.lisashea.com windows emulators emulators http://www.emulator-zone.com

emulators http://www.emulators.com amiga downloads http://free-game-downloads.mosw.com

amiga downloads http://www.amigaforever.com amiga downloads http://www.cebl.auckland.ac.nz winuae http://www.winuae.net

winuae setup http://www.mameworld.net amiga rom file download http://www.rom-world.com amiga rom file download http://www.amigaforever.com

amiga rom file download http://www.tweakguides.com amiga rom file download http://www.theoldcomputer.com

amiga rom download http://www.rom-world.com men in thongs exposed thong http://www.bostonphoenix.com

exposed thong show your thong http://mythong.textamerica.com show your thong http://www.nzgirl.co.nz

show your thong http://www.writtenroad.com my humps free download http://www.empworld.com my humps free download http://www.mp-center.org

my humps free download http://www.artistdirect.com getting a thong that fits getting a thong that fits http://www.epinions.com

mame roms http://www.romnation.net nintendo roms http://www.freeroms.com nintendo roms http://www.coolrom.com

project plugins http://www.zophar.net project plugins http://www.ngemu.com victorias secret http://www.victoriassecret.com

what size hip waist help what size jeans hip waist http://www.danangstore.com

help what size jeans hip waist help what size jeans hip waist help what size jeans hip

walmart thongs http://www.usatoday.com walmart thongs skirtini

what is a skirtini what is a skirtini guys who wear thongs http://groups.teenhelp.org

indoor garden http://www.helpfulgardener.com indoor vegetable garden http://gardengal.net indoor vegetable garden http://mtmt.essortment.com

indoor vegetable garden http://www.ext.vt.edu indoor vegetable garden http://www.ext.vt.edu indoor vegetable garden

http://www.helpfulgardener.com indoor vegetable garden http://www.megagro.com indoor vegetable garden http://www.ext.colostate.edu

florescent light indoor vegetable garden fluorescent light indoor vegetable garden http://members.optusnet.com.au

fluorescent light indoor vegetable garden http://www.megagro.com fluorescent light indoor vegetable garden

http://www.oldhouseweb.com new bright rockrawler mods new bright rockcrawler mods http://www.rcboards.com

greenhouse equipment home greenhouse http://www.greenhousekit.com home greenhouse http://www.agnr.umd.edu

home greenhouse http://www.greenhouses-etc.net home greenhouse heating a pvc greenhouse http://www.wvu.edu

heating a pvc greenhouse http://sdnew.net heating a pvc greenhouse http://davesgarden.com heating a pvc greenhouse http://sdnew.net

heating a pvc greenhouse http://forums.gardenweb.com heating a pvc greenhouse

http://cecalaveras.ucdavis.edu garden zones http://www.blossomswap.com garden zones http://www.thegardenhelper.com

indoor vegetables http://mtmt.essortment.com indoor garden http://www.webterrace.com artficial light garden

artficial light garden plant lights http://retirees.uwaterloo.ca n controller http://www.stuffo.com

indoor greenhouse http://www.gardenpower.com indoor greenhouse http://dansgardenshop.com www.gardenpower.com

n roms http://www.nroms.org n roms http://www.dgemu.com n roms http://httpd.chello.nl

n roms http://www.snesheaven.org n roms http://www.nemu.net neo geo http://home.swipnet.se

neo geo http://thedump.classicgaming.gamespy.com rom utilities rom utilities http://www.emuconnect.com

neogeo emulator http://www.emuconnect.com neogeo emulator http://home.swipnet.se mame neogeo http://www.arcadeathome.com

mame neogeo http://www.geoshock.com winvice http://www.download-full-games.com winvice http://www.download-full-games.com

winvice http://www.download-full-games.com c downloads http://lastninja.lemon.com c downloads http://www.cgg.com

c downloads http://www.c.com seed catalog http://www.parkseed.com seed catalog http://www.territorial-seed.com

seed catalog http://www.johnnyseeds.com garden catalog http://www.gardenlist.com badger care http://www.dhfs.state.wi.us

fucking determined lyrics http://www.sing.com fucking determined tab http://www.ultimate-guitar.com mudvayne http://www.mudvayne.com

mudvayne http://www.mudvayne.com growing pot http://www.allpotseeds.com white persian seed

http://mothergeckobotanicals.com.whsites.net white persian poppy http://opioids.com dove feeder http://www.hurleybyrd.com

141

guys who wear thongs http://www.weeklygripe.co.uk guys who wear thongs racine crossdressers

http://www.milwaukeetransgendered.com racine crossdressers http://upscaleescorts.net racine crossdress

www.jennasdollhouse.com racine sluts build a greenhouse http://www.wvu.edu

build a greenhouse http://www.plumeria.com build a hydroponic garden http://wiki.ehow.com build a hydroponic garden http://www.hydroponics.net

build a grow chamber http://www.marijuanamagazines.com build a grow chamber http://www.indoor-gardening-

guide.com build a grow room http://www.cannabisculture.com build a grow room http://www.sgs-hydroponic.com

indoor greenhouse http://www.klimagro.com indoor greenhouse http://www.gardenpower.com indoor greenhouse http://dansgardenshop.com

indoor greenhouse http://www.gardenpower.com www.gardenpower.com build an indoor greenhouse http://www.omnisterra.com

build an indoor greenhouse http://www.gardenpower.com build an indoor greenhouse

http://www.michaelholigan.com

mourning dove feeder http://forums.gardenweb.com mourning dove feeder http://www.enature.com parakeet red nostrils http://animal-world.com

parakeet red nostrils http://en.wikipedia.org parakeet red nostrils http://en.wikipedia.org parakeet red cere http://en.wikipedia.org

parakeet red cere http://www.avianweb.com home depot http://www.homedepot.com tobacco seeds http://www.coffinails.com

tobacco seeds http://www.victoryseeds.com jeep cherokee sunroof jeep cherokee power sunroof will not close

how to fix jeep cherokee power sunroof http://www.faqfarm.com jeep power sunroof

jeep power sunroof trouble jeep power sunroof trouble how to clone plants

how to clone pot plants http://cannabisculture.com how to clone pot plants http://www.marijuanapassion.com

punk rock girl tab -- http://www.tabcrawler.com seed starting jiffy strips seed starting using jiffy strips

http://www.selectedplants.com

USUÁRIO 5


5.

weapon disarming technique black martial arts magazine how many people obtain the rank of black belt in the

martial arts self defense self defense systems

self defense academy commerical fitness equipment commerical fitness curcuit training equipment

360 self defense full circle self defense street smart self defense

hardcore self defense military terms animals names

krav maga reality based self defense fighting

small business opportunities knee strikes blocks with punches

rape instructor

a fighting chance self defense escape proof self defense stay safe self defense

i want to pick a name for my business i want to become a rape escape instructor become a certified rape instructor

become a certified rape prevention instructor a woman beating up a man a woman fighting a man

self defense training ppct mangement i want to be a ppct management certified instructor

ground fighting self defense techique what martial art do wesley snipes practice what new in self defense

mcdonalds shift managers job description i am we todd it i am sofa king i am sofa king we todd did slowly

brazilian jui jitsu bruce lee

renê eduardo arruda.pdf

Documents