renê eduardo arruda.pdf
TRANSCRIPT
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
PUC-SP
PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM COMUNICAÇÃO E
SEMIÓTICA - COS
Renê Eduardo Arruda
Orientadora: Profa. Dra. Lucia Isaltina Clemente Leão
O DISPOSITIVO DA WEB – UM ESTUDO SOBRE A LÓGICA DO FILTRO
DE BUSCA DO GOOGLE
MESTRADO EM COMUNICAÇÃO E SEMIÓTICA
SÃO PAULO
2019
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
PUC-SP
Renê Eduardo Arruda
O DISPOSITIVO DA WEB – UM ESTUDO SOBRE A LÓGICA DO FILTRO DE
BUSCA DO GOOGLE
MESTRADO EM COMUNICAÇÃO E SEMIÓTICA
Dissertação apresentada à Banca Examinadora da
Pontifícia Universidade Católica de São Paulo, como
exigência parcial para obtenção do título de MESTRE
em Comunicação e Semiótica, na área de Processo de
Criação nas Mídias, sob orientação da Profa. Dra. Lucia
Isaltina Clemente Leão (PEPGCOS/PUC-SP).
SÃO PAULO
2019
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
PUC-SP
Renê Eduardo Arruda
O DISPOSITIVO DA WEB – UM ESTUDO SOBRE A LÓGICA DO FILTRO DE
BUSCA DO GOOGLE
Banca Examinadora
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Agradecimento à agência de fomento à pesquisa
A presente pesquisa foi realizada com apoio da CAPES, Coordenação de
Aperfeiçoamento de Pessoal de Nível Superior, Brasil. Este suporte foi
importante por permitir maior tempo de dedicação à pesquisa, o que resultou em
mais oportunidades de aprendizado e mais qualidade na produção científica.
Agradecimentos
Agradeço à minha esposa, Roberta Krem, pelo inestimável apoio à realização
deste Mestrado, sempre com uma palavra amiga e carinhosa, me incentivando
a continuar, progredir e jamais me dar por vencido, acreditando no meu melhor.
Agradeço à Profª. Lucia Leão, minha mentora na academia, cuja gentileza,
prestatividade e inteligência contribuíram para meu desenvolvimento tanto
enquanto pesquisador quanto como ser humano.
Agradeço ao meu amigo Leandro Furlan da Silva, pelas inúmeras discussões
acerca do assunto pesquisado, fomentando idéias e tirando dúvidas, além de ter
codificado o Googlebot utilizado no capítulo 3 desta pesquisa.
Agradeço à meus amigos Orian, Thiago e Caio, pelas excelentes conversas
acerca do assunto pesquisado, sempre dispostos a discutirem as relações entre
tecnologia e sociedade.
Agradeço aos membros do grupo de pesquisa CCM (Comunicação e Criação
nas Mídias), cujas discussões, palestras e questionamentos me levaram à
descoberta de novos autores, ideias e conceitos que puderam ser aproveitados
nesta pesquisa.
Agradeço aos meus pais, Vânia e Flávio, por terem se esforçado para me
proporcionar uma educação de qualidade, e por fomentarem em mim a idéia que
estudo e pesquisa podem ser caminhos para crescimento pessoal e profissional.
Resumo
O DISPOSITIVO DA WEB: UM ESTUDO SOBRE A LÓGICA DO FILTRO DE BUSCA DO GOOGLE
No contexto das pesquisas em processos de criação na comunicação e na cultura, especificamente no universo da cultura das redes informacionais, a presente pesquisa visa estudar as complexidades que permeiam o fenômeno comunicacional das interações entre usuários do ciberespaço e os resultados de pesquisas através do uso de motores de busca. Mecanismos de busca indexam o conteúdo da web, organizando-o segundo uma lógica própria para compor páginas de resultados de pesquisa. Estes sistemas são desenvolvidos para considerar uma série de critérios quando um usuário realiza uma busca, como palavras-chave, histórico de pesquisa, localização geográfica, entre outros. Assim, a lista de resultados de busca é, em certa medida, diferente para cada usuário. Desde 2009 o Google é a ferramenta de busca mais acessada do mundo, processando um vasto número de informações. A presente dissertação pretende compreender a lógica do filtro de resultados de busca do Google, mapeando como os resultados de pesquisa são personalizados para cada usuário. Devido à vastidão de conteúdo na web, buscadores como o Google tornaram-se ferramentas estruturantes da interação dos usuários neste espaço informacional, determinando o que é exibido como resultado. Seguindo a lógica definida por seus filtros, o Google estabelece relações de poder, agindo como dispositivo, à medida em que modula os resultados de busca de acordo com o perfil de cada usuário, e também de acordo com o contexto social no qual está inserido. O método de pesquisa consiste, primeiramente, em análise do filtro de busca do Google a partir das perspectivas teóricas de Foucault, Deleuze e Guattari, Lazzarato e Halavais. Em paralelo, foi realizado um experimento para verificação empírica do modo de funcionamento do filtro de buscas. O experimento consiste em uma análise qualitativa dos resultados de busca de 5 perfis de usuários elaborados pelo pesquisador, a fim de identificar divergências nos resultados de pesquisa para os mesmos termos de busca. A pesquisa resultou na conceituação da lógica do filtro de busca do Google, verificação da hipótese de divergência de resultados de busca de acordo com características de cada usuário e revelou indícios da subjetivação operada pelo dispositivo.
Palavras-chave: comunicação, cultura e mídias digitais; ferramentas de busca;
pagerank; algoritmos; modulação.
Abstract
APPARATUS OF THE WEB: A STUDY ABOUT GOOGLE’S FILTER LOGIC
In the context of research in communication and culture creation processes, specifically in the information network culture universe, the present work aims to study the complexities that permeate the communicational phenomenon of the interactions between users of cyberspace and search results from search engines. Search engines index content from the web, organizing it according to its own logic to compose search results pages. These systems were developed to consider a series of criteria when a user inserts a query, such as keywords, user’s search history, geographic location, among others. Thus, the search results page is, to some extent, different for each user. Since 2009 Google is the most accessed search engine in the world, processing a vast amount of information. The present dissertation intends to understand the logic of the Google search results filter, mapping how the search results are personalized for each user. Due to the vastness of the web, search engines like Google have become structuring tools for user interaction in the digital informational space, determining what is displayed as a search result. Following the logic defined by its filters, Google establishes power relations, acting as an apparatus, as it modulates the search results according to the profile of each user, and also according to the social context in which it is inserted. The research method consists, first of all, in the analysis of the Google search filter from the theoretical perspectives of Foucault, Deleuze and Guattari, Lazzarato and Halavais. In parallel, an experiment was carried out to empirically verify the operation of the search filter. The experiment consists of a qualitative analysis of the search results of 5 user profiles created by the author, in order to identify differences in search results for the same search queries. The research resulted in the conceptualization of the Google search filter logic, verification of the hypothesis of divergence of search results according to each user's characteristics, and revealed evidence of the subjectivation operated by the device.
Keywords: communication, culture and digital media; search engines; pagerank;
algorithms; modulation.
Sumário
INTRODUÇÃO....................................................................................................................................... 11
1. SISTEMAS DE BUSCA NA WWW E O GOOGLE .............................................................................. 17
1.1. O QUE É UM SISTEMA DE BUSCA NA WEB? ...................................................................................... 17
1.2. TIPOLOGIA DE SISTEMAS DE BUSCA ............................................................................................... 18
Indexação e ordenação de resultados .......................................................................... 20 Diretórios ou catálogos ......................................................................................................... 20 Programas ou robôs de busca ............................................................................................... 22 Híbridos, metabuscadores e segmentados ............................................................................ 31
1.3. GOOGLE ................................................................................................................................. 33
1.4. BUSCA PREDITIVA E FILTRO-BOLHA............................................................................................. 51
2. CONTROLE E LÓGICA OPERATIVA DOS ALGORITMOS DE SERVIÇOS DA WEB ............................... 58
2.1. ALGORITMOS E A ESTRUTURAÇÃO DO MODO DE USO DA INTERNET ........................................................ 58
Uso social de buscadores ............................................................................................. 59
Anexo preferencial ....................................................................................................... 60
Atenção, recurso finito ................................................................................................. 62
2.2. RELAÇÕES ENTRE DATA MINING E MODULAÇÃO DE RESULTADOS COMO LÓGICA TÉCNICA QUE PERMITE O
CONTROLE ........................................................................................................................................... 64
Modulação de resultados de busca e exercício de poder ............................................... 67
2.3. DISPOSITIVO DA SOCIEDADE DE CONTROLE ...................................................................................... 72
Subjetivação e semiótica a-significante ........................................................................ 74
Memória, desejo e identidade ...................................................................................... 77
3. ESTUDO DE CASO – GOOGLEBOT ................................................................................................. 83
3.1. PESQUISAS ANTERIORES SOBRE PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB................................. 83
Mensurando personalização em pesquisas na web....................................................... 84
Impacto da geolocalização na personalização de busca na web ................................... 89
Auditoria da personalização de páginas de resultados de mecanismos de pesquisa
relacionadas a política ................................................................................................................. 91
Expansão da mensuração de personalização em pesquisas na web .............................. 92
3.2. METODOLOGIA DO ESTUDO DE CASO ............................................................................................. 93
Controle de fontes de ruído .......................................................................................... 95
Criação de histórico de pesquisa .................................................................................. 97
Execução das consultas - Googlebot ........................................................................... 100
3.3. APRESENTAÇÃO GERAL DOS RESULTADOS COLETADOS ...................................................................... 101
Experimento 1 – “pregnancy mental disorder” ........................................................... 102
Experimento 2 – “Answering the call of god” .............................................................. 103
Experimento 3 – Efeito de transferência resultando em “determined to see jesus” ...... 106
Experimento 4 – “Tricked her partner” ....................................................................... 107
Experimento 5 – Efeito de transferência resultando em “tricked boyfriend into
becoming a father” .................................................................................................................... 109
Experimentos 6 e 7 – “rape instructor” e efeito de transferência resultando em “become
a certified rape prevention instructor” ........................................................................................ 111
Experimento 8 – “flat earth” ...................................................................................... 112
Experimento 9 – efeito de transferência resultando em “proves earth is flat” ............. 113
3.4. CONCLUSÕES DOS RESULTADOS EXPERIMENTAIS ............................................................................. 115
4. CONSIDERAÇÕES FINAIS ............................................................................................................ 118
5. REFERÊNCIAS BIBLIOGRÁFICAS .................................................................................................. 122
ANEXOS ............................................................................................................................................. 130
CONFIGURAÇÃO DE DADOS PESSOAIS DAS CONTAS GOOGLE UTILIZADAS NOS EXPERIMENTOS DETALHADOS NO CAPÍTULO 3
...................................................................................................................................................... 130
Usuário 1 ................................................................................................................................... 130
Usuário 2 ................................................................................................................................... 130
Usuário 3 ................................................................................................................................... 130
Usuário 4 ................................................................................................................................... 131
Usuário 5 ................................................................................................................................... 131
TERMOS DE PESQUISA PARA COMPOSIÇÃO DE HISTÓRIO DAS CONTAS GOOGLE UTILIZADAS NOS EXPERIMENTOS
DETALHADOS NO CAPÍTULO 3 ................................................................................................................. 132
Usuário 1 ................................................................................................................................... 132
Usuário 2 ................................................................................................................................... 137
Usuário 3 ................................................................................................................................... 138
Usuário 4 ................................................................................................................................... 139
Usuário 5 ................................................................................................................................... 141
Lista de Diagramas:
Diagrama 1 – Tipologia dos mecanismos de busca, segundo Monteiro (2009) ................ 19
Lista de Figuras:
Figura 1 - Página principal do buscador via diretório Yahoo!, em 1996 ................................. 21
Figura 2 - Reprodução traduzida da organização conceitual de um motor de buscas via
rastreador ....................................................................................................................................................................... 30
Figura 3 - Página de resultados de busca do Glassdoor ................................................................. 32
Figura 4 - Esquema ilustrativo de cálculo de reputação do Pagerank ..................................... 34
Figura 5 - Universal Search do Google em 2007 .................................................................................. 38
Figura 6 - Esquema ilustrativo do MapReduce ....................................................................................... 39
Figura 7 – Knowledge Graph do Google em 2018 ............................................................................... 42
Figura 8 - Reprodução de uma busca semântica ................................................................................. 45
Figura 9 - Autocomplete do Google em 2004 .......................................................................................... 52
Figura 10 - Google Assistant .............................................................................................................................. 54
Figura 11 - Cards do Google Now .................................................................................................................. 55
Figura 12 - Imagem publicada por Kaber Alli........................................................................................... 71
Figura 13 - Reprodução da tela de resultados de busca da consulta “is Earth flat” ..... 115
Lista de Quadros:
Quadro 1 - Processos de sistemas de busca x atualizações do algoritmo do Google .. 51
Quadro 2 - Resultados do experimento realizado pelo grupo da Northeastern
University ........................................................................................................................................................................ 86
Quadro 3 - Análise do experimento 1 ........................................................................................................ 102
Quadro 4 - Análise do experimento 2 ........................................................................................................ 104
Quadro 5 - Análise do experimento 3 ........................................................................................................ 106
Quadro 6 - Análise do experimento 4 ........................................................................................................ 108
Quadro 7 - Análise do experimento 5 ........................................................................................................ 110
Quadro 8 - Análise do experimento 6 ........................................................................................................ 111
Quadro 9 - Análise do experimento 7 ........................................................................................................ 112
Quadro 10 - Análise do experimento 8 ..................................................................................................... 113
Quadro 11 - Análise do experimento 9 ..................................................................................................... 114
11
INTRODUÇÃO
A abertura da internet para fins comerciais no início da década de 1990,
deixando os restritos círculos militares onde teve origem e o subsequente uso
em universidades para finalmente tornar-se disponível à população geral, trazia
uma série de promessas de democratização do acesso à informação. A
possibilidade de publicar praticamente qualquer conteúdo, sem intermediários, a
partir de qualquer lugar com uma conexão, e acessível a quase qualquer pessoa,
nunca antes havia sido possível.
Sob uma perspectiva utópica, a internet, enquanto tecnologia, poderia
tornar-se um meio emancipador das massas. Ela possibilita a construção e
divulgação colaborativa de narrativas, divulgação imediata de acontecimentos
em qualquer lugar do mundo, e a vastidão do espaço virtual não conhece limites
de tamanho, quantidade de fontes e formatos de informação. Mais do que isso,
a internet guarda a possibilidade, enquanto tecnologia, de proporcionar também
o acesso a conhecimentos, narrativas e discursos diversos daqueles propagados
pela mídia hegemônica e tradicional.
Os estudos acerca dos usos e práticas sociais dos meios de comunicação,
tanto no início da popularização da internet quanto hoje, provam que prever quais
potencialidades das tecnologias comunicacionais irão se realizar, mesmo que
considerando o contexto socioeconômico, político e cultural no qual estas estão
inseridas, pode mostrar-se bastante difícil. Ao longo do século XX, os meios de
comunicação de massa deixaram de ser considerados instituições culturais, no
sentido de instituições que, em nome do interesse público, representam a
sociedade inteira para o público em geral. Uma forte orientação de mercado
levou os veículos de comunicação de massa a preocuparem-se mais em atender
seus próprios interesses do que em cumprir uma função social pública. Ao
menos parte da web seguiu o mesmo percurso que os veículos de comunicação
de massa do século passado.
Em sua maioria os estudos da cibercultura descrevem a internet como uma
massa de dados imprevisível, rizomática e sem um centro único organizador (a
exemplo de Manuel Castells e Pierre Levy). Esse posicionamento afirma que as
novas tecnologias comunicacionais são baseadas em eliminação de comando
12
centralizado e hierárquico. Neste contexto, a internet seria uma enorme
biblioteca, com serviços como aqueles prestados por buscadores (Google, Bing,
Yahoo!, etc.) fornecendo um mapa universal, um tipo de catálogo de conteúdo.
No entanto, essa perspectiva não abrange todos os aspectos do fenômeno e
suas complexidades.
A internet permitiu uma mudança radical na forma como nós interagimos com
conteúdo – passamos de espectadores a agentes ativos, construindo caminhos
por entre páginas, estabelecendo ligações em um espaço informacional
praticamente infinito. Dentro desta perspectiva, Lucia Leão, em seu livro “O
Labirinto da Hipermídia”, afirma que o sujeito passa a ser um construtor de
labirintos: “O viajante, ao percorrer o sistema, faz existir um espaço que se
desdobra. No momento em que este atualiza escolhas, o desenho de um labirinto
é criado. Labirinto, como sempre, pessoal e único” (2005, p.46).
Penetrar na internet pode ser uma experiência nômade pois, ao percorrer
este labirinto, o viajante vivencia a perda de orientação, posto que não conhece
a ordem global da rede. O sujeito teria diante de si milhões de opções de portas
de entrada, e é humanamente impossível passar por todas elas. Neste contexto,
o grande desafio, ainda segundo Leão, seria reconhecer passagens, reencontrar
pontos familiares, que irão definir o contorno da área do viajante, de seu território
(2005, p.133). Território, aqui, no sentido dado por Deleuze e Guattari – como
algo móvel, em constante gênese, semelhante talvez à relação que os
muçulmanos tem, por exemplo, com seus tapetes. Ao serem desdobrados no
momento da prece, representam uma terra sagrada e dão aos fiéis o contato
com a espiritualidade. Foi neste contexto que emergiram ferramentas de
localização, busca, pesquisa e direcionamento – espaços estriados, sistemas
desenvolvidos com a promessa de auxiliar viajantes em suas respectivas
jornadas.
Plataformas cujos proprietários são mega-corporações oferecem a estes
viajantes uma gama impressionante de serviços das mais diversas naturezas –
e-mail, redes sociais, motores de busca, aplicativos online e muito mais. É
perfeitamente possível que um usuário da internet passe todo o seu tempo online
em uma dessas plataformas ou navegando apenas dentro do ecossistema de
13
serviços da mesma companhia, lá realizando todas as suas atividades e
conduzindo todos os seus negócios.
Dentre estes serviços, destacam-se os buscadores, que fornecem aos
usuários da web um meio de procurar por sites e conteúdo disponível com base
em termos de busca. Estes sistemas foram desenvolvidos para varrer o espaço
informacional da web segundo critérios próprios, coletando dados sobre sites
para popular um banco de dados. Quando um usuário faz uma busca, o sistema
recupera dados deste banco – os dados que o sistema “entende” como
compatíveis e relevantes com o que o usuário está buscando. Portanto, estas
ferramentas são especialmente importantes para o uso efetivo da web por conta
de sua centralidade no uso do meio digital – agem como guia, direcionam fluxos
e apontam os destinos possíveis aos viajantes. Sem eles, a web pode se parecer
com um labirinto indecifrável.
Google, Bing e Yahoo! são sistemas de busca que indexam, categorizam,
ordenam e agregam conteúdo, filtram os resultados de busca colocando em
evidência somente aqueles links que eles “entendem” como de interesse do
usuário. Ou seja, estes sites filtram as informações a serem exibidas e mostram
somente os que tem maior chance de serem clicados pelo usuário.
O Portal de Periódicos da CAPES/MEC indica que há mais de 25 mil artigos
com a palavra Google no assunto. Entretanto, a imensa maioria destes artigos
tem como objeto aspectos técnicos do Google ou de tecnologias da informação
contemporâneas. Há apenas 36 artigos que incluem as palavras-chave Google
e “filter bubble” (filtro bolha). Quando consultada sobre artigos com as palavras-
chave Google e personalização, centrais nesta pesquisa, houve retorno de
apenas 288 artigos. Parece haver necessidade de mais estudos acerca do
Google sob uma perspectiva humanística.
O Google é o buscador mais acessado da web, e processa
aproximadamente 40.000 pesquisas personalizadas por segundo. Desde 2009
esse buscador aplica um mecanismo de filtragem de resultados chamado de "57
sinais". Trata-se de um conjunto de características que envolve desde o local de
onde o usuário está se conectando, identificação da placa de rede, tipo de
navegador utilizado e até memória das pesquisas anteriores, no intuito de
14
personalizar os resultados de busca para cada usuário. Nesse sentido, podemos
afirmar que não existe um Google padrão. É perfeitamente possível que, quando
dois usuários fizerem buscas idênticas no Google, tenham páginas de resultados
de busca significativamente diferentes.
Esta diferença no retorno de resultados levanta uma série de questões
relevantes: qual a lógica destes algoritmos para filtrar conteúdo, definindo o que
deve ou não ser exibido a cada usuário? O que não é mostrado ao usuário, quem
define o que fica de fora, e o quão transparente é este processo? Quais as
consequências desta diferença nos resultados de busca de um mesmo assunto
para cada pessoa? Quais os impactos que os buscadores podem ter na
percepção de mundo de um sujeito? De um ponto de vista macro social, onde
populações inteiras fazem uso de ferramentas como esta, quais seriam as
implicações políticas de um sistema de recuperação de informação que
personaliza os resultados de busca?
À medida que os meios de comunicação se tornam cada vez mais presentes
na vida cotidiana dos indivíduos, os textos, imagens e discursos propagados pela
mídia podem tornar-se parte da construção da identidade individual, e, portanto,
podem influenciar como cada pessoa entende e interage com o mundo à sua
volta. Menos óbvio, no entanto, é que as próprias tecnologias, enquanto aparatos
técnicos que permitem acesso e interação com conteúdo de determinada
maneira, podem ser considerados agentes de mudança, influenciando
comportamentos e determinando modos de pensar e ver. É neste contexto que
a personalização de resultados de busca do Google torna-se um problema de
pesquisa. Considerando o que foi exposto até o momento, os objetivos desta
pesquisa são:
• Compreender a lógica do filtro de resultados de busca do Google,
mapeando de que forma e em qual medida o algoritmo personaliza
resultados de pesquisa para cada usuário;
• Verificar os processos de modulação de resultados a partir da noção
de sociedade de controle (Foucault/ Deleuze);
15
• Identificar se os processos de filtragem utilizados pelo sistema de
busca do Google favorecem ou desfavorecem discursos ou narrativas
específicas, e caso positivo, quais seriam estas.
Para responder estes questionamentos, a dissertação organiza-se em três
partes. No capítulo 1, começo por definir os buscadores enquanto sistemas de
recuperação de informação, delineando quais são suas características e quais
processos realizam durante o seu funcionamento. No mesmo capítulo, detalho o
objeto do estudo, o motor de buscas do Google, contextualizando o seu
desenvolvimento técnico com o crescimento do Google como corporação de
tecnologia. Por fim, explico a direção que o sistema está tomando, quais os
próximos desenvolvimentos e possíveis problemas a serem considerados
futuramente, como busca preditiva e inteligência artificial.
O capítulo seguinte dedica-se a explicar como os motores de busca
estruturam os modos de uso da web e quais as relações entre a captura de dados
dos conteúdos da web e também de seus usuários com técnicas de controle.
Para tanto, busco contribuições dos filósofos Gilles Deleuze, Félix Guattari,
Michel Foucault, Maurizio Lazzato e Giorgio Agamben, que auxiliam a
compreensão dos processos de modulação de resultados de busca a partir da
noção de sociedade de controle. É também através do uso de conceitos e teorias
destes autores que se torna possível delinear as relações de poder que os
motores de buscas estabelecem e como estes sistemas atuam na construção da
identidade e da subjetividade.
Como o buscador Google é um sistema opaco, que não pode ser examinado
em detalhes porque seu código é um segredo comercial da corporação, o
terceiro e último capítulo é um experimento empírico para verificação das
hipóteses levantadas nos capítulos 1 e 2. O objeto selecionado para tratamento
empírico são os resultados de busca no Google obtidos por perfis criados
especificamente para esta pesquisa. Os perfis são populados fazendo uso de
um software que realiza buscas no Google automaticamente, inserindo no
campo de busca palavras pré-definidas pelo pesquisador e clicando em links da
página de resultados de busca.
16
Os dados coletados foram submetidos à análise, permitindo assim identificar
se os processos de filtragem utilizados pelo sistema de busca do Google
favorecem ou desfavorecem discursos ou narrativas específicas.
As tecnologias de informação ocupam um lugar de destaque em
praticamente todos os ambientes e relações da sociedade contemporânea. A
midiatização é um processo macro-social visível na sociedade como um todo, à
semelhança de outros processos sociológicos importantes como a globalização
e a individuação. Dentre os meios de comunicação, a internet parece cada vez
mais assumir uma dimensão de domínio de experiências compartilhadas ao
convergir conteúdo de diversas instituições, midiáticas ou não, ao mesmo tempo
em que permite a interação e compartilhamento de informações entre usuários.
Estas tecnologias, como toda tecnologia, não são meramente técnicas, mas
políticas, proporcionando novas formas de interação, inscrevendo outras
relações de poder e, algumas vezes, impondo formas de controle. Em vista da
gravidade e importância dos fenômenos possibilitados pela tecnologia da
informação na contemporaneidade, o estudo visa contribuir para a compreensão
do mundo em que vivemos atualmente, e em especial, desta dimensão política
das tecnologias da informação.
17
1. SISTEMAS DE BUSCA NA WWW E O GOOGLE
1.1. O QUE É UM SISTEMA DE BUSCA NA WEB?
Em 2017 a internet ultrapassou a marca de 4 bilhões de usuário ativos no
mundo (INTERNET WORLD STATS, 2017). No Brasil, aproximadamente 64,7%
da população com idade acima dos 10 anos possui acesso à internet, de acordo
com pesquisa realizada pelo IBGE em 2016. A web, aquela acessada pela
imensa maioria dos usuários de internet, tem hoje mais de 1,9 bilhão de websites
(INTERNET LIVE STATS, 2018), que hospedam videos e imagens na ordem de
grandeza das dezenas de bilhões. Os usuários frequentemente fazem uso de
ferramentas de busca para encontrar o que procuram nesta vasta rede de
conteúdo.
De acordo com o Pew Research Center 1 , sites de busca são os mais
populares da web ao menos desde 2002, quando o instituto começou as
pesquisas de números de acesso. A principal diferença entre 2002 e 2011,
segundo eles, é que o uso de ferramentas de busca na web tornou-se ainda mais
frequente. Em 2011, 92% dos usuários de Internet dos EUA faziam uso de
ferramentas de busca, dos quais 59% realizavam buscas regularmente (ao
menos uma vez por dia) (SEARCH ENGINE WATCH, 2011).
Uma ferramenta de buscas é basicamente um sistema de recuperação de
informações que permite buscas por “palavra-chave” (HALAVAIS, 2017. P. 7). É
um sistema de software projetado para pesquisar informações em um banco de
dados. No entanto, se perguntarmos a algum usuário de internet o que é uma
ferramenta de buscas, provavelmente não teremos como resposta uma definição
como esta, mas seremos indicados a alguns sites de busca populares da web,
como Google ou Bing.
1 O Pew Research Center é um centro de pesquisas estadunidense sediado em Washington, DC, especializado em fornecer informações sobre questões sociais, opinião pública e tendências demográficas de impacto nos Estados Unidos e no mundo. Realiza pesquisas de opinião pública, pesquisas demográficas, análises de conteúdo midiático e outras pesquisas científicas empíricas. O Pew Research Center é uma subsidiária do The Pew Charitable Trusts, ONG criada em 1948 por herdeiros da Sun Oil Company.
18
Google, Yahoo!, Bing e Baidu, dentre outros, são empresas privadas
proprietárias de sites que oferecem um serviço gratuito e livremente acessível
aos usuários: sistemas desenvolvidos para buscar conteúdo (sites, imagens,
videos, etc.) na web com base em palavras-chave definidas pelo usuário.
A interação do usuário com ferramentas de busca geralmente aparenta ser
bastante simples: o usuário insere os termos de busca e clica em “Pesquisar”
(ou em outro termo equivalente, como “Buscar”), e o site retorna uma lista de
sites, imagens, videos ou outros conteúdos que tenham relação com o termo de
busca. De forma genérica (e bastante simplificada, como veremos a seguir), é
possível descrever o processo realizado pelos sites de busca como uma consulta
ao “universo de conteúdo disponível”, seguido por uma filtragem baseada nos
termos de busca, para retornar ao usuário uma página de conteúdo relevante.
Este “universo de conteúdo disponível” varia conforme os parâmetros definidos
pelo sistema de busca, bem como o que é considerado relevante.
1.2. TIPOLOGIA DE SISTEMAS DE BUSCA
Existe uma grande variedade de sistemas de busca, cada um com suas
peculiaridades, metodologias de coleta e organização de conteúdo, o que
dificulta a tipificação simples. Silvana Drumond Monteiro, Professora do
Departamento de Ciência da Informação da Universidade Estadual de Londrina,
propõe uma tipificação dos sistemas de busca de acordo com a multiplicidade
de sistemas e suas respectivas características, bem como da dinamicidade que
o desenvolvimento tecnológico impõe a estes sistemas. Segundo Monteiro, os
sistemas de busca podem variar bastante, mas devem apresentar: a) processos
de coleta e indexação; b) geração de índices; c) processos de busca. Os
sistemas de busca podem ter sua anatomia classificada da seguinte maneira
(MONTEIRO, 2009, p.73):
• Crawling (varrer): formas de captação e abastecimento do banco de
dados;
• Indexing (indexar ou gerar o índice a partir da base de dados): formas
de organizar as informações contidas do banco de dados;
19
• Searching (buscar através da interface de busca): formas de
ordenação e apresentação dos resultados de busca.
Diagrama 1 – Tipologia dos mecanismos de busca, segundo Monteiro (2009)
Fonte: MONTEIRO, 2009, p. 72.
20
Seguindo o modelo aristotélico de definição de gênero e espécie, Monteiro
tipifica os sistemas de busca de acordo com forma geral de organização ou
indexação, ordenação de resultados, apresentação dos resultados e paradigma
semiótico.
Apesar de, sob uma perspectiva classificatória, a anatomia dos sistemas de
busca se enquadrar na anatomia de Monteiro, a forma que cada uma das partes
desta anatomia opera apresenta bastante variação entre sistemas. Os eixos
definidos por Monteiro (coluna vermelha do Diagrama 1) agregam os processos
realizados por variados sistemas de busca. Alguns dos eixos abrangem mais de
uma classificação anatômica, o que se deve, segundo Monteiro, ao fato das duas
classificações estarem em pressuposição recíproca (MONTEIRO, 2009, p.10).
Esta pressuposição recíproca faz referência, segundo a pesquisadora, ao
conceito de “dobra” que, segundo a leitura que Deleuze elabora sobre o
pensamento de Leibniz, “[...] é a continuidade do avesso e do direito, a arte de
instaurar essa continuidade, de tal maneira que o sentido na superfície se
distribui dos dois lados ao mesmo tempo” (DELEUZE, 1998, p. 130). Ou seja, há
um sentido de continuidade entre o avesso e o direito de certos processos
realizados por classificações da anatomia dos sistemas de busca (MONTEIRO,
2009, p.10). A forma geral de organização ou indexação está simultaneamente
nas classificações crawling e indexing – o primeiro processo é realizado na web,
e o segundo processo dentro do banco de dados do Google. A ordenação dos
resultados está ao mesmo tempo nas classificações indexing e searching –
sendo o primeiro processo realizado apenas no banco de dados do Google e o
segundo na web, aberto ao usuário.
INDEXAÇÃO E ORDENAÇÃO DE RESULTADOS
Os mecanismos que realizam as buscas podem ser: diretórios ou catálogos,
programas ou robôs de busca, sistemas híbridos e meta-buscadores.
DIRETÓRIOS OU CATÁLOGOS
Os sistemas de busca via diretórios ou catálogos preenchem suas bases de
dados através do esforço humano. Funcionam da seguinte forma: o proprietário
21
do site ou conteúdo a ser incluído na base de dados envia uma breve descrição
daquilo que deseja incluir junto com a categoria a ser listada. A equipe do site de
buscas via diretório revisa manualmente o conteúdo enviado e aprova ou rejeita
a inclusão na base de dados. Como cada conteúdo é revisado quanto à
relevância antes de ser incluído, teoricamente bases de dados de sites de busca
via diretório teriam maior qualidade do que bases de dados construídas de forma
automatizada.
Figura 1 - Página principal do buscador via diretório Yahoo!, em 1996
Fonte: Search Engine Journal, Yahoo! Visual Timeline 1996-2006 - acesso em 16/02/2019.
A indexação do conteúdo enviado é baseada na descrição submetida pelo
proprietário do conteúdo, bem como nos critérios para aprovação próprios de
cada site de busca via diretório.
O cálculo de relevância para selecionar e ordenar os resultados de pesquisa
variam, mas normalmente correspondem os termos de busca com a descrição
de conteúdo informada durante a indexação. Isso significa que as alterações
feitas no conteúdo de uma página da Web não são levadas em consideração,
22
pois a busca é baseada na descrição do conteúdo, ao invés de basear-se no
conteúdo em si.
Sistemas de busca via diretório tem bases de dados relativamente pequenas,
pois a indexação de conteúdo é, em alguma medida, manual (não automatizada,
como nos sistemas de busca que fazem uso de crawlers). A consequência é que
buscas muito específicas ou obscuras podem não apresentar muitos resultados.
Além disso, a base de dados fica desatualizada com relativa facilidade, já que o
conteúdo indexado não será revisitado a não ser que exista uma solicitação
explícita para tanto. Por fim, o critério de qualidade que define se uma página
será incluída ou rejeitada no sistema de busca via diretório nem sempre é claro
o suficiente. Yahoo! Directories, Open Directory Project e Internet Public Library
são exemplos de sistemas de busca via diretório. Este tipo de buscador foi
bastante popular no início da internet, quando a rede ainda era relativamente
pequena, composta por algumas dezenas de milhares de websites. O
crescimento exponencial do conteúdo disponível na web, junto à dificuldade de
manter o diretório atualizado, fez com que este modelo entrasse em crise.
Quando os primeiros motores de busca automatizados, como o Google, surgiram
no final da década de 1990, sistemas de busca via diretório entraram em franco
declínio.
Atualmente, sistemas de busca via diretório ainda são utilizados em alguns
segmentos, como no meio acadêmico (Scopus e Web of Science). Nestes
sistemas, a maioria da indexação é realizada manualmente e o conteúdo é
sujeito à avaliação. Nestes casos, o cálculo de relevância leva em conta variáveis
específicas do segmento, como o índice-h do autor. Como nenhum dos mais
acessados sites de busca da atualidade é do tipo diretório, não trataremos mais
deles nesta dissertação.
PROGRAMAS OU ROBÔS DE BUSCA
Sistemas de busca via programas ou robôs de busca fazem uso de
ferramentas automatizadas para pesquisar conteúdo na web. O espaço de
pesquisa destes rastreadores é a web de superfície, e não a internet e nem
mesmo o ciberespaço como um todo. A Internet é uma rede global distribuída de
23
computadores, cujas raízes estão nos meios acadêmico e militar americanos das
décadas de 1950 e 1960. É uma rede de redes de computadores, composta por
atores privados, públicos, acadêmicos, comerciais e governamentais de escopo
local e global, mantida conectada por diversas tecnologias (cabos, redes sem
fio, fibra óptica, etc.). Essa rede de redes de computadores é baseada no
protocolo TCP/IP2 (Transmission Control Protocol/Internet Protocol), que regula
como as máquinas comunicam-se umas com as outras, possibilitando uma rede
na qual cada um dos atores pode enviar e receber informações de qualquer outro
ator (GALLOWAY, 2004. p. 4).
Se a internet é a infraestrutura técnica da rede, o ciberespaço pode ser
considerado como a rede mundial de signos e pessoas (MONTEIRO, 2008,
p.100). De acordo com Monteiro, o ciberespaço é:
“Uma grande máquina abstrata, porque semiótica, mas também social, onde se realizam não somente trocas simbólicas, mas transações econômicas, comerciais, novas práticas comunicacionais, relações sociais, afetivas e, sobretudo, novos agenciamentos cognitivos. [...] Um espaço semântico/semiótico, onde o signo se dá em várias semióticas, desterritorializado, nômade, em escrita espacializada e com a memória em constante modificação (2007, p.1-12)”.
Neste contexto, o ciberespaço é o território abstrato, semiótico e social
possibilitado pela infraestrutura técnica que é a internet.
2 TCP/IP é uma abreviação da Internet Protocol Suite (Conjunto de protocolos da Internet), que é o modelo conceitual e o conjunto de protocolos de comunicação usados na Internet e em redes de computadores semelhantes. É comumente conhecido como TCP/IP porque os protocolos fundamentais no conjunto são o TCP (Transmission Control Protocol, ou Protocolo de Controle de Transmissão) e o IP (Internet Protocol). Estes protocolos foram resultado de pesquisa e desenvolvimento conduzidos pela DARPA (Defense Advanced Research Projects Agency, Agência de Projetos de Pesquisa Avançada de Defesa dos EUA) no final da década de 1960. Depois de iniciar a pioneira ARPANET, em 1969, a DARPA começou a trabalhar em várias outras tecnologias de transmissão de dados. Em 1973, Robert E. Kahn e Vinton Cerf elaboraram uma reformulação do protocolo ARPANET no qual as diferenças entre protocolos de redes locais eram ocultas usando um protocolo comum de internetwork e, em vez de a rede ser responsável pela confiabilidade, como na ARPANET, função foi delegada aos hosts. O protocolo TCP foi publicado pela primeira vez em 1974. Inicialmente, o TCP gerenciava tanto as transmissões como o roteamento de datagramas, mas à medida que o protocolo cresceu, outros pesquisadores recomendaram uma divisão de funcionalidade nas camadas de protocolo. Um design monolítico seria inflexível e levaria a problemas de escalabilidade. Assim, o Transmission Control Program foi dividido em dois protocolos distintos, o TCP e o Internet Protocol.
24
A web, por sua vez, é um espaço informacional na internet governado pelo
World Wide Web Consortium3 (W3C). Esse consórcio internacional foi criado em
1994 para desenvolver protocolos de conteúdo comuns para serem usados na
rede, como o HTML (Hypertext Markup Language) e CSS (Cascading Style
Sheets) (GALLOWAY, 2004. p. 6). É no espaço informacional da web, uma rede
dentro da internet, uma parte do ciberespaço, que estão todos os sites com
endereços iniciados em “www”, URLs (Uniform Resource Locators) e
documentos acessíveis através de navegadores como Chrome, Internet
Explorer, Safari e Mozilla Firefox.
Assim, é preciso reforçar que, apesar dos termos Internet, ciberespaço e web
serem frequentemente usados sem muita distinção, referem-se a objetos
diferentes. Entretanto, é preciso lembrar que apesar de diferentes, ciberespaço,
internet e web frequentemente se sobrepõe – um usuário que acessa um site
qualquer da web está, simultaneamente, nos três. Enquanto a internet é o
sistema global de redes de computadores, a infraestrutura que conecta
máquinas em rede e permite a comunicação entre elas, o ciberespaço é o
território virtual, semiótico e social. A web é uma parte do ciberespaço, um
território informacional onde recursos são vinculados por hiperlinks e URLs.
Funcionalmente, pode-se definir que a web é a parte “pública” da internet,
acessível livremente por qualquer pessoa usando um navegador comum. É nela
que estão todos os sites comerciais, acadêmicos, redes sociais, noticiosos e
demais conteúdos.
No entanto, em contraste à web livremente acessível, também conhecida
como “web de superfície”, está a web profunda (deep web), composta por redes
fechadas (redes corporativas, bancárias, encriptadas, etc.), servidores privados
e domínios não registrados. A web profunda é acessível diretamente por aqueles
3 A web, abreviação de World Wide Web (WWW), foi criada por Tim Berners-Lee em 1989 através da publicação do HTTP (Hypertext Transfer Protocol, Protocolo de Transferência de HiperTexto). Até então o ciberespaço não era facilmente navegável, pois não havia padrões quanto às linguagens e uso de protocolos na criação e localização de sites. O protocolo criado por Berners-Lee é um padrão para divulgação e leitura de documentos e outros recursos. Além disso, cada recurso é identificado por URLs (Uniform Resource Locators), interligados por links de hipertexto e acessíveis pela Internet. Posteriormente, Berners-Lee viria a fundar o W3C.
25
que detém chaves de acesso às redes fechadas (um usuário de internet banking,
por exemplo) ou por ferramentas especializadas, como o navegador Tor (“The
Onion Router”). O Tor não permite que um usuário acesse redes fechadas,
ultrapassando a necessidade de chave de acesso, mas permite acessar redes
privadas abertas e domínios não registrados, localizáveis apenas pelo IP (ou
seja, a ferramenta permite ao usuário a navegação pela “parte aberta” da deep
web).
Sistemas de busca via rastreadores não poderiam usar a internet como fonte
de dados, pois ela é a infraestrutura comunicacional que conecta redes de
computadores. Redes fechadas, privadas, que não permitem acesso público,
também não podem, por definição, serem rastreadas. Assim, a fonte de dados
de todos os sites de busca que fazem uso de rastreadores é a web de superfície.
Conforme explicado anteriormente, o processo realizado por sites de busca
para construir um banco de dados e retornar resultados de pesquisa possui três
etapas distintas: crawling, indexing, searching. Sistemas de busca via programas
ou robôs de busca realizam todas estas etapas de forma automatizada.
Os robôs rastreadores (crawlers) são softwares que examinam
individualmente páginas da web de forma automatizada, verificando se a página
corresponde aos parâmetros de busca, isto é, se pode ser indexada ou não. Esta
análise de cada página ocorre de acordo com critérios definidos pela Política de
Rastreio (crawl policy). É esta política que determina o que o rastreador deve
procurar em uma página da web, quais os parâmetros aceitáveis para enviar a
página para indexação e como capturar informações suficientes para que o
processo de indexação seja realizado com sucesso. O crawler pode, por
exemplo, verificar o nome de arquivo padrão robots.txt, endereçado a ele, antes
de enviar determinadas informações para serem indexadas, dependendo de
vários fatores, como títulos, conteúdo da página, JavaScript4, CSS, cabeçalhos,
4 JavaScript, CSS e HTML são as tecnologias centrais da WWW. JavaScript permite a atualização dinâmica de páginas da web, ou seja, que a página responda a interações e inputs do usuário. CSS (Cascading Style Sheets) permite a separação entre apresentação e conteúdo, incluindo layout, cores e fontes. Essa separação tem o propósito de melhorar a acessibilidade de conteúdo, fornecer mais flexibilidade e controle na especificação de características de apresentação, permitir que várias
26
marcação HTML, metadados, etc. A Política de Rastreio assegura que o crawler
vai levar em conta apenas os conteúdos considerados relevantes, e
desconsiderar páginas vazias, spam ou websites sem links.
Ao enfrentar acusações de falta de transparência nos critérios de
rastreamento e indexação, o Google publicou em 2009 as linhas gerais de suas
políticas de rastreio (GOOGLE, 2018). Segundo o documento, proprietários de
websites devem evitar: conteúdo gerado automaticamente, esquemas para inflar
a quantidade de links de um site, páginas com pouco ou nenhum conteúdo
original, cloacking (configurar dados do site para que o link capturado pelo
rastreador seja diferente daquele acessado pelo usuário na web),
redirecionamentos, links e textos ocultos na página, conteúdo copiado de outras
páginas, palavras-chave irrelevantes em relação ao conteúdo da página, dentre
outros. Todos os fatores descritos acima impedem que rastreadores
recomendem a página para indexação, ou farão com que a página tenha um
cálculo de relevância mais baixo.
Se a Política de Rastreio é uma forma de aprovar ou reprovar conteúdo para
indexação, sempre haverá uma parte da web de superfície que o rastreador não
irá considerar (a rigor, o Google considera tudo, elenca segundo seus critérios e
exclui o que não é relevante ou que não está de acordo com suas políticas
internas). Portanto, quando um usuário faz uma busca em uma ferramenta de
pesquisa, estará buscando conteúdo dentro da parte da web indexada pelo
crawler daquele site, e não da web de superfície como um todo. Assim, a Política
de Rastreio é tanto um critério de inclusão do que deve ser indexado quanto de
exclusão.
Apesar do Google possuir um índice imenso de páginas e conteúdos da web,
fontes diversas no meio técnico e na imprensa assumem que o Google está
considerando em sua indexação menos de 4% (SEEKER, 2015; TENNESSEAN,
páginas da Web compartilhem formatação especificando o CSS relevante em um arquivo .css separado e reduzir a complexidade e a repetição no conteúdo estrutural. HTML (HyperText Markup Language) descreve a estrutura de uma página da web semanticamente e incluiu instruções para a aparência do documento (distribuição de texto e imagens, fonte de imagens, dentre muitos outros aspectos que definem o layout das páginas da web).
27
2014) do total da web, com o restante pertencente à deep web, inacessível por
meio de suas ferramentas de busca.
Quando um rastreador encontra uma página ou conteúdo da web que está
de acordo com a Política de Rastreio, faz uma cópia do conteúdo e adiciona seu
URL a um índice. Feito isso, o rastreador da web segue todos os links da página,
repetindo o processo de copiar, procurar por informações relevantes para o
processo de indexação e seguir links.
Rastreadores web refazem os processo de verificação de conteúdo
periodicamente para atualizar automaticamente a base de dados e apresentar
resultados de pesquisa válidos. Entre visitas do rastreador, a versão em cache
da página (parte ou todo o conteúdo necessário para renderizá-la) armazenada
na memória de trabalho do mecanismo de pesquisa é enviada quando um termo
de pesquisa solicita sua exibição na página de resultados. Nesse caso, a página
pode diferir dos termos de pesquisa indexados. A frequência de rastreio depende
do site de pesquisa, mas é comum que uma página que foi atualizada apareça
por dias sem atualização nos resultados de pesquisa.
Realizado o rastreamento, o conteúdo é indexado – ou seja, organizado
através da associação de palavras-chave, tags, nomes de domínio e campos
baseados em HTML. O crawler, ao visitar a página ou recomendar um conteúdo
para indexação, já coleta uma série de dados relevantes que serão usados na
organização e classificação. Em seguida associações são feitas em um banco
de dados, disponibilizado para consultas de pesquisa na web. Uma consulta de
um usuário pode ser uma única palavra. A indexação ajuda a encontrar
informações relacionadas à consulta o mais rápido possível. Algumas das
técnicas de indexação e armazenamento em cache são segredos comerciais,
enquanto o rastreamento da web é um processo direto de visitar todos os sites
de maneira sistemática.
Quando um usuário realiza uma pesquisa em um buscador que faz uso de
programas ou robôs de busca, o sistema recorre ao conteúdo indexado no banco
de dados. Em geral, é provável que uma quantidade enorme de conteúdo
indexado corresponda aos termos inseridos pelo usuário no campo de busca. No
entanto, o sistema utiliza parâmetros que definem as páginas que são
28
apresentadas e sua ordem. Para isso, o sistema realiza cálculos de relevância
dos conteúdos indexados. Esse procedimento se justifica pela ideia de que a
utilidade de um sistema de busca depende da relevância do conjunto de
resultados que ele retorna.
Relevância é um conceito que foi explorado pela primeira vez em
profundidade pelas Ciências da Informação em 1958 (MONTEIRO, FERNANDES,
DICARLO, TREVISAN, 2017, p.166), durante a “International Conference for
Scientific Information” (ICSI), em que a comunidade científica concordou com os
seguintes aspectos:
a) relevância não é, exclusivamente, uma propriedade do documento;
b) relevância não é uma propriedade dicotômica [isto é, entre documentos
satisfatórios e insatisfatórios ao pedido do usuário];
c) existe uma ‘relevância para o usuário’ que deve ser julgada [configurando-
se, portanto, em um julgamento da relevância].
Ao longo dos anos, os sistemas de busca evoluíram significativamente e eles
conseguem trazer à vista do usuário o que é relevante ao usuário segundo seus
critérios. Entretanto, resta aos criadores de sistemas de busca o desafio de
definir exatamente o que significa “conteúdo relevante ao usuário”.
“Basicamente, o problema reside em informar à máquina o que é relevante para um ser humano, pois até mesmo entre as pessoas há divergências em determinar com unanimidade o que é relevante para elas, talvez por se tratar de uma questão subjetiva, pessoal, intrínseca e imparcial” (MONTEIRO, FERNANDES, DICARLO, TREVISAN, 2017, p.168).
A maioria dos mecanismos de pesquisa emprega métodos para classificar os
resultados para fornecer os "resultados mais relevantes” primeiro. Como um
mecanismo de pesquisa decide quais páginas são as melhores
correspondências e em que ordem os resultados devem ser exibidos, varia muito
de um mecanismo para outro. Existem várias formas de calcular a relevância, e
cada um deles tem pesos relativos diferentes para fatores comuns, como
densidade de palavras-chave, links ou metatags, localização e frequência de
termos, e análise de links. O cálculo de relevância é normalmente realizado por
29
um ou mais algoritmos executados no banco de dados do sistema de busca. Em
ciências da computação, um algoritmo é uma sequência finita de ações
executáveis que visam obter uma solução para um determinado tipo de
problema. É uma sequência de passos computacionais que serão executados
pela máquina. Algoritmos diferentes são uma das principais razões pelas quais
diferentes sistemas de busca que fazem uso de rastreadores fornecem páginas
de resultados de pesquisa diferentes para os mesmos termos de pesquisa.
O Google deve seu sucesso, ao menos no início de sua trajetória enquanto
empresa de tecnologia e sistema de busca, por uma inovação neste ponto do
processo – o algoritmo PageRank. A maioria dos sistemas de busca
automatizada do final da década de 1990 calculavam relevância de páginas da
web com base na frequência com que o termo de busca sendo pesquisado
ocorria nos sites (ou seja, páginas com mais ocorrências de determinado termo
de busca sendo pesquisado eram consideradas mais relevantes do que outras
com menos ocorrências daquele termo). O algoritmo PageRank, em vez disso,
supõe que páginas da web com hiperlinks para outras páginas são mais
importantes. Durante o processo de indexação, o algoritmo analisa os links de
cada uma das páginas e atribui uma pontuação. Essa pontuação tem como base
a soma ponderada das outras páginas que se ligam a ela. Assim, o PageRank
realiza um cálculo de relevância com base na importância que cada página tem
na rede, ao invés de analisá-la isoladamente. Veremos detalhadamente como o
PageRank funciona mais adiante.
A última etapa na operação dos mecanismos de pesquisa é recuperar os
resultados com base nos termos de pesquisa inseridos pelo usuário. O
mecanismo de reconhecimento de termos de pesquisa também varia a cada
sistema de buscas – enquanto sistemas mais primitivos levarão em conta todos
os termos inseridos pelo usuário, exatamente como o usuário digitou,
buscadores mais recentes podem usar abordagens relacionais, baseadas em
inteligência artificial ou reconhecimento de padrões de escrita. Ao reconhecer
preposições, sistemas de busca como o Yahoo! podem excluí-las da lógica de
busca porque são comuns demais. Ou ainda, em sistemas como o Google,
preposições são reconhecidas e propiciam resultados de busca mais acurados,
30
porque o sistema foi programado para “compreender” as relações que elas
estabelecem entre palavras.
Figura 2 - Reprodução traduzida da organização conceitual de um motor de buscas via
rastreador
Fonte: HALAVAIS, Alexander. Search Engine Society, p. 20.
Há sistemas de busca (como o Google e Bing, dentre outros) que relacionam
a busca realizada por um usuário com buscas anteriores de outros usuários, a
fim de identificar erros de digitação e retornar uma página de resultados
adequada mesmo que o termo de pesquisa inserido contenha erros.
Sistemas de busca que fazem uso de crawlers dominaram o segmento de
buscadores porque conseguem indexar uma quantidade imensa de sites e
mante-la relativamente atualizada com baixo nível de esforço. No entanto, há
desvantagens relevantes: rastreadores são robôs relativamente fáceis de
manipular, e páginas podem ser configuradas para inflar artificialmente sua
relevância perante outras. Além disso, o processo de indexação está
diretamente ligado ao algoritmo de indexação, e páginas podem ser
erroneamente indexadas, sendo exibidas em páginas de resultados de busca
onde não deveriam estar.
31
O Google, Yahoo! e Bing são exemplos de mecanismos de pesquisa via robôs
de busca. Nesta dissertação, sites que fazem uso de crawlers serão referidos, a
partir de agora, indistintamente como buscadores, motores de busca,
ferramentas de busca, mecanismos de busca e serviços da web (esta última uma
categoria mais abrangente, que inclui outros serviços como redes sociais,
agregadores de conteúdo, armazenamento na nuvem, e-mail, etc.).
HÍBRIDOS, METABUSCADORES E SEGMENTADOS
Existem sistemas de busca híbridos, uma mistura de rastreadores e diretórios.
Estes mecanismos híbridos usam tanto a indexação manual quanto a baseada
em rastreadores para listar os sites nos resultados da pesquisa. A maioria dos
mecanismos de pesquisa baseados em rastreadores, como o Google, permite
em alguma medida a indexação manual e poderia ser considerado híbrido. Um
exemplo possível seria o Google capturar a descrição de uma página da web de
diretórios e mostrar nos resultados da pesquisa. Técnicas de SEO5 (Search
Engine Optimization), desenvolvidas para melhorar o ranking de um website nos
resultados de busca, frequentemente recorrem a descrições manuais criadas
pelo proprietário do conteúdo com objetivo de facilitar o rastreamento e
indexação. Estas descrições são disponibilizadas no arquivo padrão robots.txt
da página, e de certa forma replicam a lógica operacional dos sistemas de busca
via diretório – o proprietário do conteúdo submetido à indexação apresenta uma
descrição, que poderá afetar como o site será indexado. A principal diferença,
no entanto, é que a descrição é apenas um dos inúmeros fatores levados em
consideração durante o rastreamento e indexação, e pode inclusive ser
desconsiderada.
Há também metamecanismos de busca, que pesquisam vários outros
sistemas de pesquisa de uma só vez e combinam os resultados em uma única
5 SEO significa "search engine optimization" (otimização do mecanismo de busca). É o processo de otimização de páginas da web para obtenção de mais tráfego a partir de resultados de pesquisa de sistemas de busca. Esta otimização busca compreender como um sistema de busca realiza rastreamento, quais são suas políticas de rastreio, e como calcula relevância da página de resultados para que uma ou mais páginas da web sejam melhor posicionadas na página de resultados de pesquisa.
32
lista. Embora eles normalmente apresentem uma quantidade maior de
resultados para qualquer termo de busca, a relevância e a qualidade dos
resultados podem ser prejudicadas. Dogpile e Clusty são exemplos de motores
de busca do tipo meta.
Figura 3 - Página de resultados de busca do Glassdoor
Fonte: Glassdoor.com - acesso em 16/02/2019
Por fim, há mecanismos de busca direcionados ou segmentados, aqueles que
se especializam em buscar conteúdo restrito a um local, atividade, tipo. São
buscadores de emprego, acadêmicos6, de preços ou qualquer outro assunto.
Seus processos de rastreamento, indexação e cálculo de relevância são
direcionados para o tipo de conteúdo no qual são especializados. Exemplos não
faltam – Indeed e Glassdoor são buscadores de empregos, Yummly é um
buscador de receitas, FindMyPast é um buscador de genealogia, e o globalSpec
é um buscador de produtos industriais e de engenharia. Gigantes como Google
e Bing desenvolveram alguns sistemas de busca direcionados para competirem
6 Exemplos: SciELO — Scientific Electronic Library Online (www.scielo.org); Google Acadêmico (https://scholar.google.com.br); CiteSeerX (http://citeseer.ist.psu.edu); ResearchGate (https://www.researchgate.net); Mendeley (https://www.mendeley.com/); Portal de Periódicos CAPES (www.periodicos.capes.gov.br); Plataforma Sucupira: (https://sucupira.capes.gov.br); Lista de Periódico e Conferências: http://qualis.ic.ufmt.br.
33
na oferta de conteúdos específicos, como Google News, Bing News, Google
Scholar, Yahoo! Video, etc.
Dentre os buscadores direcionados ou segmentados há aqueles, como o
DuckDuckGo, que se especializam em buscar conteúdo de uma determinada
maneira (ao invés de restringir os resultados de busca por local, tema ou
atividade). Este buscador foi elaborado com preocupações específica acerca da
privacidade dos usuários, e oferece buscas sem fazer uso de nenhum dado do
usuário. Essa característica também apela àqueles que preferem realizar buscas
na internet sem qualquer tipo de personalização de resultados (veremos mais
sobre personalização de resultados de busca adiante).
1.3. GOOGLE
O Google foi criado em 1996 como projeto de pesquisa de doutorado de Larry
Page e Sergey Brin na Universidade de Stanford, na Califórnia. Enquanto os
mecanismos de busca da época classificavam os resultados contando quantas
vezes os termos da pesquisa apareciam nas páginas indexadas, os dois
teorizaram sobre um sistema que analisava as relações entre os sites,
estabelecendo um cálculo relacional de relevância. Este sistema determinaria o
ranking de um site dentro de um sistema de busca pelo número e importância de
páginas conectadas a ele, como se fosse um sistema de reputação. Eles
chamaram essa nova metodologia de cálculo de relevância de PageRank
(“classificador de página”, mas também pode ser entendido como uma
brincadeira com o sobrenome de seu inventor, Larry Page).
O PageRank é um algoritmo de análise de links que associa valores às
páginas da web, com o objetivo de "medir" sua importância relativa dentro do
conjunto. Ou seja, o algoritmo calcula relevância de uma página relacionalmente,
determinando qual o peso de cada website de acordo com a rede de conexões
que ele tem com outras páginas. Outros fatores, além da relação entre websites,
como o Rank do Autor de determinado conteúdo, podem contribuir para o cálculo
de relevância. O valor da classificação indica a importância de uma determinada
página. Um hiperlink para uma página conta como um voto de apoio. O
PageRank de uma página é definido de forma recursiva e depende do número e
34
da métrica de PageRank de todas as páginas vinculadas a ele ("links de
entrada"). Uma página que está ligada a vários sites relativamente importantes
(aqueles com alto PageRank) tem pontuação alta, enquanto um site que não tem
links de entrada (links que levam a ele a partir de outras páginas) é considerado
sem importância.
Para compreender o cálculo realizado pelo PageRank de forma simplificada,
imaginemos um universo com apenas quatro websites (A, B, C, D).
• A tem 1 link de saída (para D)
• B tem 2 links de saída (D e A)
• C tem 1 link de saída (para D)
O PageRank de D é igual à soma dos PageRanks dos sites que tem links
direcionados a ele dividido pela quantidade de links até D de cada um deles.
𝑃𝑅(𝐷) =𝑃𝑅(𝐴)
1+𝑃𝑅(𝐵)
2+𝑃𝑅(𝐶)
1
Figura 4 - Esquema ilustrativo de cálculo de reputação do Pagerank
Fonte: Elaborado pelo autor.
35
A partir desse exemplo é possível verificar que links de páginas com alto
PageRank e com poucos links de saída valem mais do que muitos links de
páginas de baixa pontuação no PageRank. E quanto mais links de saída, menor
a nota atribuída.
Há também distorções que precisam ser ponderadas. Alguns sites têm muitos
links de entrada, mas não se vinculam a outras páginas. Para equilibrar esse
fenômeno, o PageRank de sites sem links de saída é distribuído igualmente entre
todos os outros sites que levam a ele.
O nome original da ferramenta de busca que fazia uso do Pagerank era
Backrub, uma referência ao algoritmo subjacente que conta os backlinks
(hyperlink de um website a outro). Depois de aproximadamente um ano de
desenvolvimento, em 1997, o nome Backrub foi alterado para Google Search
Engine. O nome Google supostamente surgiu quando Larry e Sergey
procuravam por formas de definir número grandes. Procuraram na internet por
“googol”, que é um número 1 seguido por 100 zeros, mas teriam grafado o termo
de busca incorretamente, digitando “google”. A corruptela de “googol” era mais
fácil de escrever e pronunciar, e teria sido adotada rapidamente. De acordo com
o próprio Google, “não existe um googol de nada no universo. Nem de estrelas,
partículas ou átomos.” O nome, portanto, refletiria a missão do motor de buscas
de organizar a virtualmente ilimitada quantidade de informação da web
(STANFORD DAILY, 2003). No entanto, Google se parece tanto com “googol”
quanto com “googles”, que em inglês significa “óculos”, uma referência talvez até
mais apropriada ao serviço realizado pelo buscador.
Com o sucesso inicial do motor de buscas, Larry e Sergey buscaram
investidores para fazer a companhia crescer. Em 1998 o Google recebeu US$
100 mil de Andy Bechtolsheim, co-fundador da Sun Microsystems, e de outros
três investidores - Jeff Bezos, fundador da Amazon.com; David Cheriton,
professor de ciência da computação da Universidade de Stanford e do
empresário Ram Shriram. Em março de 1999, a empresa mudou seus escritórios
para Palo Alto, na Califórnia, que abriga várias start-ups de tecnologia do Vale
do Silício. No mesmo ano foi realizada uma nova rodada de investimentos na
36
companhia, somando US$ 25 milhões e incluindo empresas de capital de risco
como Kleiner Perkins Caufield & Byers e Sequoia Capital.
No ano seguinte (2000), o Google começou a vender anúncios associados
a palavras-chave de busca. Este modelo de venda de publicidade relacionado a
palavra-chave foi inspirado no modelo criado e implementado pela Goto.com,
uma start-up de tecnologia desenvolvida em uma incubadora de empresas
chamada Idealab. A Goto.com, entretanto, fazia uso da associação entre
anúncios pagos e palavras-chave de termos de busca para ordenar a página de
resultados de busca. Ou seja, sites que pagavam a Goto.com tinham melhor
classificação na página de resultados. No Google, anunciantes não poderiam
influenciar o cálculo de relevância dos resultados de busca. Tinham apenas a
possibilidade de pagar para que anúncios relacionados às palavras-chave
fossem exibidos no topo e lateral da página de resultados, em um modelo de
pagamento para cada mil exibições (CPM, ou Cost per mille).
O primeiro uso do "Google" como verbo na cultura pop aconteceu na série
de TV Buffy the Vampire Slayer, em 2002. Neste ano, o Google mudou sua
principal forma de ganhar financiamento ao permitir pagamento de anúncio por
clique, conhecido como CPC (Cost per Click) ou PPC (Pay per Click). O novo
modelo de negócios funciona da seguinte maneira: anunciantes cadastram seus
anúncios, determinam o limite em dólares de quanto gostariam de pagar por
clique e associam palavras-chave. Quando um usuário realiza uma busca, o
Google verifica quais anúncios podem ter relação com os resultados de busca.
Se há mais de um anunciante relevante para o conjunto de palavras-chave sendo
pesquisadas, um leilão automático é realizado.
O leilão automático é definido por dois fatores: limite determinado pelo
anunciante de quanto pagaria por clique e pontuação de qualidade determinada
pelo Google. A pontuação de qualidade é definida pela relevância da página
sendo anunciada (calculada pelo PageRank) e CTR (Click Through Rate, ou
Taxa de Cliques), que é o número de acessos da página sendo anunciada
dividido pelo número de visualizações de anúncio. Ou seja, um anúncio terá
pontuação de qualidade mais alta quando seu link tiver classificação alta no
PageRank e for clicado com frequência. Quanto maior for a pontuação de
37
qualidade e o valor limite determinado pelo anunciante para cada clique, mais
competitivo será o anúncio e maiores as chances dele ser exibido.
O Google continua a oferecer a anunciantes um modelo de pagamento para
cada mil exibições (CPM), mas sempre que houver anúncios concorrentes um
leilão automático ocorre como no modelo de custo por clique (CPC ou PPC).
Em 2004, o verbo “to google” foi adicionado ao Merriam-Webster Collegiate
Dictionary e ao Oxford English Dictionary, descrito como “usar o mecanismo de
pesquisa do Google para obter informações na internet”. O Google tornou-se
uma empresa de capital aberto no mesmo ano, quando realizou uma IPO (Initial
Public Offering) de 19,605,052 ações por US$ 85 cada (BUSINESSWEEK,
2004). A venda totalizou US$ 1,6 bilhões, e seu sucesso na bolsa de valores
americana fez com que a companhia atingisse um valor de mercado de US$ 23
bilhões. O Google deixou o status de start-up e tornou-se oficialmente uma
gigante global de tecnologia. Não por acaso, no ano seguinte o Washington Post
publicou uma reportagem sobre um aumento de 700% no lucro do terceiro
trimestre daquele ano para o Google, em grande parte graças a grandes
empresas que mudaram suas estratégias de publicidade de jornais, revistas e
televisão para a Internet (WASHINGTON POST, 2005).
Neste contexto, quando a Goto.com mudou de nome para Overture Services,
em 2007, processou o Google por violações de patentes na metodologia de
pagamento por clique e leilão automatizado entre anunciantes. A forma de
rentabilizar anúncios no Google era baseada na tecnologia da Goto.com, apesar
do modelo de negócio ser diferente (Goto.com cobrava para classificar
anunciantes nos resultados de pesquisa). Durante a disputa legal, a Overture
Services foi comprada pelo Yahoo! e renomeada como Yahoo! Search
Marketing. O caso foi resolvido fora do tribunal, quando o Google concordou em
emitir ações ordinárias para o Yahoo! em troca de uma licença perpétua (CNET,
2004).
Até então, qualquer usuário que realizasse uma busca no Google teria uma
página de resultados apenas com links para websites. Marissa Mayer, então
Vice-Presidente de Produtos de Pesquisa e Experiência do Usuário, explicou
que a empresa “tentava derrubar as barreiras que tradicionalmente separam
38
nossas várias propriedades de pesquisa e integrar as vastas quantidades de
informações disponíveis em um conjunto simples de resultados da pesquisa."
(GOOGLE OFFICIAL BLOG, 2007). Estava sendo lançada em 16 de maio de
2007 um aprimoramento significativo no mecanismo de busca, denominado
“Universal Search” (pesquisa universal). A pesquisa universal incorpora na
página de resultados de pesquisa uma ampla variedade de fontes, incluindo
sites, notícias, fotos, mapas, blogs e vídeos. Esta era nada menos que uma
revolução no formato de resultados de pesquisa em sistemas de busca. Mas
uma mudança ainda maior no sistema de busca do Google ainda estaria por vir.
Figura 5 - Universal Search do Google em 2007
Fonte: Search Engine Land, Google Universal Search, 2007
O Google convidou desenvolvedores da Web para testar uma nova
arquitetura de pesquisa, que recebeu o codinome "Caffeine" (Cafeína), e dar seu
feedback em agosto de 2009. A nova arquitetura não forneceu diferenças visuais
na interface do usuário, mas adicionou melhorias significativas de velocidade e
uma nova infra-estrutura de indexação no back-end da ferramenta.
Com o Caffeine, o Google mudou seu sistema de indexação de back-end do
MapReduce para Bigtable. O MapReduce é um modelo de programação
39
composto de um procedimento de mapeamento de dados que realiza filtragem
e ordenação, seguido de um método “reduce”, que executa uma operação de
resumo, ou consolidação de dados. Se o universo informacional fosse a flora de
uma determinada região, o mapeamento de dados consistiria na organização
das plantas de acordo com a classificação científica (ordem, família, gênero,
espécie). A operação “reduce”, por outro lado, contaria quantas plantas há em
casa fase de classificação científica e quantas são essas fases. O "MapReduce"
também pode ser considerada uma "infraestrutura" ou "framework" 7 , pois
orquestra o processamento organizando os servidores distribuídos em rede,
executando as várias tarefas em paralelo, gerenciando todas as comunicações
e transferências de dados entre as várias partes do sistema, e fornecendo
redundância e tolerância a falhas.
Figura 6 - Esquema ilustrativo do MapReduce
Fonte: Elaborado pelo autor.
O Bigtable tem o mesmo propósito básico que o MapReduce – armazenar
informação de forma organizada e classificada. A novidade não está, portanto,
no que o Bigtable faz, mas como faz. É um framework de banco de dados
distribuídos em rede baseado em tabelas cujos nomes e formato das colunas
podem variar de linha para linha na mesma tabela, produzindo um mapa
7 Framework é uma ferramenta ou metodologia é uma estrutura base, uma plataforma de desenvolvimento, como uma espécie de arcabouço, que contém ferramentas, guias, sistemas e componentes que agilizem o processo de desenvolvimento de soluções. O MapReduce é um framework porque é uma estrutura genérica e adaptável, que pode ser usada tanto para organizar e distribuir dados coletados durante o rastreamento da web quanto para organizar e distribuir processamento entre servidores.
40
ordenado e multidimensional. O Google anunciou a conclusão do projeto
"Caffeine" em 8 de junho de 2010, alegando melhoria de 50% na oferta de
resultados mais “frescos” devido à atualização contínua de seu índice
(provavelmente resultante de web crawling mais intenso e frequente).
Durante o período de final do desenvolvimento da atualização “Caffeine”, em
4 de dezembro de 2009, o Google lançou oficialmente o “Personalized Search”
(Busca Personalizada), que foi prontamente aplicada a todos os usuários da
pesquisa do Google, incluindo aqueles que não estavam conectados a uma
conta do Google.
A partir daquela manhã, o Google passaria a utilizar 57 “sinalizadores” – todo tipo de coisa, como o lugar de onde o usuário estava conectado, que navegador estava usando e os termos que já havia pesquisado – para tentar adivinhar quem era aquela pessoa e de que tipos de site gostaria. Mesmo que o usuário não estivesse usando sua conta do Google, o site padronizaria os resultados, mostrando as páginas em que o usuário teria mais probabilidade de clicar segundo a previsão do mecanismo (PARISER, 2012. p.7).
Todas as pesquisas no motor de buscas do Google seriam associadas a um
registro (cookie8) do navegador. Em seguida, quando um usuário realizasse uma
pesquisa, os resultados da pesquisa não se baseariam apenas na relevância de
cada página da Web para o termo de pesquisa, mas também em quais sites o
usuário (ou outra pessoa usando o mesmo navegador) visitou anteriormente.
Isso proporcionaria uma experiência personalizada que poderia aumentar a
relevância dos resultados de pesquisa para cada usuário específico (GOOGLE
OFFICIAL BLOG, 2009).
De acordo com Silvana Monteiro, a personalização se faz a partir da intenção
de busca, que é inferida por meio das trilhas sígnicas semânticas deixadas pelo
8 Um cookie é um pequeno volume de dados enviado de um site e armazenado no computador do usuário pelo navegador da web enquanto o usuário está navegando. Os cookies foram projetados para serem um mecanismo confiável para os sites lembrarem informações (como itens adicionados no carrinho de compras em uma loja online) ou para registrar a atividade de navegação do usuário (incluindo clicar em determinados botões, fazer login ou registrar quais páginas foram visitadas no passado).
41
sujeito navegador. Isso é possível através do processamento das informações
que o buscador coletou sobre o usuário.
“Hoje, é difícil fazer uma ‘busca pura’, isto é, sem algum tipo de personalização. O fato de estar ‘logado’, a cidade em que o usuário se localiza, a plataforma utilizada, o sistema operacional, a navegação, enfim, tudo é capturado por sistemas de busca” (MONTEIRO, FERNANDES, DICARLO, TREVISAN, 2017, p.171).
Além do PageRank, o Google, ao longo dos anos, adicionou muitos outros
critérios para determinar a classificação das páginas nas listas de resultados.
Em 2010, a companhia revelou que usava mais de 200 sinais para indexar,
classificar relevância e gerar a página de resultados de busca, cujas
especificidades são mantidas em segredo (WIRED, 2010).
Em fevereiro de 2011 o Google publicou uma nova mudança no algoritmo de
classificação de resultados de pesquisa, chamado Panda. O Panda (cujo nome
deriva do engenheiro Navneet Panda, principal responsável pela inovação
técnica que permitiu sua implementação) teve como principal objetivo reduzir a
classificação de “sites de baixa qualidade”, sites “pouco relevantes” e “content
farms”9.
O site CNET (2011) realizou testes e relatou um aumento no ranking de sites
de notícias e sites de redes sociais após esta atualização, e uma queda nos
rankings de sites que contêm grandes quantidades de publicidade. Essa
mudança teria afetado o posicionamento nos resultados de pesquisa de
aproximadamente 12% de todos os resultados do Google. O Panda recebeu
atualizações após o lançamento original em fevereiro de 2011 e seu efeito
tornou-se global em abril de 2011. Na mesma época, o Google forneceu uma
lista de 23 tópicos no seu blog, respondendo à pergunta "O que é um site de alta
qualidade para o Google?" que supostamente ajuda os webmasters a "entrar na
mentalidade do Google" (GOOGLE BLOG, 2011). Neste mesmo ano, o número
9 Uma content farm (fazenda de conteúdo ou fábrica de conteúdo) é uma empresa que emprega um grande número de escritores freelancers para gerar grandes quantidades de conteúdo textual especificamente projetado para satisfazer algoritmos para recuperação máxima por mecanismos de busca automatizados. Seu objetivo principal é gerar receita de publicidade através da atração de visualizações de páginas de leitores.
42
de visitantes únicos mensais do Google ultrapassou um bilhão pela primeira vez,
um aumento de 8,4% em relação a maio de 2010 (931 milhões).
Figura 7 – Knowledge Graph do Google em 2018
Fonte: Google Support - acesso em 21/09/2018
No ano seguinte, 2012, o Google passou a apresentar informações geradas
automaticamente a partir dos resultados de pesquisa em uma caixa chamada
“Knowledge Graph” (Grafo de Conhecimento) (GOOGLE, 2018). As informações
cobertas pelo Knowledge Graph cresceram significativamente após o
lançamento, triplicando seu tamanho original em sete meses, e sendo capazes
de responder "cerca de um terço" das 100 bilhões de pesquisas mensais
processadas pelo Google em maio de 2016 (WASHINGTON POST, 2016). São
as informações contidas no Knowledge Graph que costumam ser usadas como
43
resposta falada em outros serviços do Google, como o Google Assistant10 e o
Google Home11.
Aprimorando ainda mais seu algoritmo para diminuir a classificação de sites
que o Google “entende” como indesejáveis ou pouco relevantes, foi lançada em
abril de 2012 a atualização Penguin. Esta alteração teve como objetivo principal
reduzir a classificação de sites que não estão de acordo com as diretrizes para
Webmasters do Google nos resultados de pesquisa. Sites que fazem uso de
técnicas para manipular a quantidade de links apontando para a página (e
portanto afetando a classificação do PageRank do site) sofreram uma redução
significativa na sua relevância para o algoritmo de classificação de resultados.
De acordo com estimativas do próprio Google, o Penguin afeta
aproximadamente 3,1% das consultas de pesquisa em inglês, cerca de 3% das
consultas em idiomas como alemão, chinês e árabe, e uma porcentagem ainda
maior delas em idiomas "que facilitam spam" - por exemplo, 5% das consultas
em polonês foram afetadas (GOOGLE BLOG, 2012).
Diversas atualizações do Penguin foram lançadas ao longo dos anos, até
que em setembro de 2016 o Google anunciou que o Penguin faria parte
permanente do algoritmo central, o que significa que seria atualizado em tempo
real. Portanto, não haveriam mais anúncios do Google relacionados
10 Google Assistant é um assistente virtual desenvolvido com inteligência artificial para uso específico em smartphones e tablets. Os usuários interagem com o Google Assistant principalmente por meio de voz, embora ele também seja compatível com teclado. Quando inicialmente lançado (2016), o assistente virtual podia pesquisar na Internet, agendar eventos e alarmes, ajustar configurações de hardware no dispositivo do usuário e mostrar informações da Conta do Google do usuário. O Google também anunciou que o Assistente pode identificar objetos e coletar informações visuais por meio da câmera do dispositivo, além de oferecer suporte a compra de produtos e envio de dinheiro, e também identificar músicas. 11 Google Home é um alto-falante lançado no fim de 2016 e desenvolvido com inteligência artificial, que permite a utilização de comandos de voz para interagir com o assistente virtual do Google, o Google Assistant. O aparelho integra uma grande quantidade de serviços, permitindo que os usuários escutem músicas, controlem a reprodução de vídeos ou fotos ou recebam atualizações de notícias inteiramente por voz. Os dispositivos do Google Home também têm suporte integrado para automação residencial, permitindo que os usuários controlem eletrodomésticos inteligentes por voz. Uma atualização em 2017 trouxe o suporte a vários usuários, permitindo que o dispositivo diferencie até seis pessoas por voz. No mesmo ano, o Google anunciou várias atualizações para o Google Home, incluindo: chamadas gratuitas por telefone no Reino Unido e no Canadá; atualizações proativas antes de eventos agendados; respostas visuais em dispositivos móveis ou televisores compatíveis com Chromecast; Streaming de áudio Bluetooth; e a capacidade de adicionar lembretes e compromissos do calendário.
44
especificamente a atualizações sobre ele. Tempo real também significa que os
sites são avaliados em tempo real e os rankings são impactados em tempo real.
A receita consolidada da corporação para o terceiro trimestre de 2013 foi
divulgada em meados de outubro de 2013 como US$ 14,89 bilhões, um aumento
de 12% em relação ao trimestre anterior. O negócio de anúncios na Internet do
Google foi responsável por US$ 10,8 bilhões desse total, com um aumento no
número de cliques dos usuários em anúncios (GUARDIAN, 2013). De acordo
com o relatório anual da Best Global Brands da Interbrand, o Google foi a
segunda marca mais valiosa do mundo (atrás da Apple Inc.) em 2013, 2014,
2015 e 2016, com uma avaliação de aproximadamente US$ 133 bilhões
(INTERBRAND, 2016).
Foi também em 2013, em meio a resultados financeiros extremamente
promissores, que o Google realizou mais uma atualização significativa de seu
algoritmo de pesquisa, nomeada "Hummingbird". Seu nome teria sido inspirado
na velocidade e precisão do beija-flor – pássaro que move-se rapidamente de
flor em flor, pairando somente o tempo necessário para beber do néctar antes
de seguir para a próxima fonte de alimento. A mudança foi anunciada em 26 de
setembro de 2013, depois de já estar ativa para todos os usuário do Google havia
um mês. O Hummingbird coloca maior ênfase em consultas de linguagem
natural, considerando contexto e significado dos termos de busca ao invés de
palavras-chave individuais. Ele também analisa mais profundamente o conteúdo
de páginas individuais de um site, com capacidade aprimorada de levar os
usuários diretamente à página mais apropriada, em vez de direcionar à página
inicial de um site.
Amit Singhal, então chefe de busca do Google, disse à Search Engine Land
que o Hummingbird foi a mudança mais dramática do algoritmo desde 2001,
quando ele começou a trabalhar no Google (SEARCH ENGINE LAND, 2013). A
política de rastreamento e cálculo de relevância mudaram com a introdução do
Hummingbird. O algoritmo passa a considerar as relações entre os termos de
pesquisa, com o objetivo de retornar páginas de resultados que correspondem
ao significado total do termo sendo pesquisado, em vez de páginas que
combinam apenas algumas palavras. Embora a palavras-chave ainda sejam
45
individualmente importantes, o Hummingbird adiciona mais força aos termos de
pesquisa longos, como perguntas. O uso de sinônimos também foi otimizado –
em vez de listar os resultados com frases ou palavras-chave exatas, o Google
mostra mais resultados relacionados ao tema. Para tornar os resultados de
pesquisa mais relevantes, o Hummingbird considera a autoridade de uma página
(Ex. PageRank) e, em alguns casos, a autoridade do autor da página, para
determinar a importância de um site.
Figura 8 - Reprodução de uma busca semântica
Fonte: Elaborado pelo autor, com base no exemplo do artigo de CALDEIRA (2015).
A inovação introduzida por esta atualização do algoritmo é baseada em web
semântica, a chamada “busca semântica”. Para compreender o que é web
semântica é preciso primeiro definir o que é a web atual, do ponto de vista da
linguagem. Fátima Caldeira, pesquisadora da área de Letras da PUCRS, explica
que a internet atual é definida como a Web Sintática, na qual os computadores
meramente apresentam as informações, mas cujo processo de interpretação
ainda fica sob a responsabilidade de seres humanos (CALDEIRA, 2015). A
pesquisadora da PUCRS define web semântica como a tecnologia que interliga
significados de diferentes palavras e consegue atribuir um sentido aos conteúdos
publicados na internet (CALDEIRA, 2015). No ambiente informacional da web,
46
“otimizações” semânticas como estas tornadas possíveis pelo Hummingbird são
sinônimo de “relevância” (MONTEIRO, FERNANDES, DICARLO, TREVISAN, 2017).
Ao buscar por “qual a idade do Guga?” no Google, é possível verificar
rapidamente qual a funcionalidade real da otimização semântica trazida pelo
Hummingbird. A página de resultados de busca não apenas apresenta uma
resposta direta à pergunta acerca da idade de Guga (perceba-se que os
resultados apresentam-no como Gustavo Kuerten – termo que não fazia parte
da consulta), mas também uma caixa contendo vários outros dados acerca do
ex-atleta (CALDEIRA, 2015).
Neste novo cenário, desenvolvedores especializados em SEO (Search
Engine Optimization) foram incentivados a usar “linguagem natural” ao descrever
sites, em vez de usarem palavras-chave. O Google os aconselhou a fazer uso
efetivo dos recursos técnicos do site, como links de página, elementos na página,
incluindo tags de título, endereços de URL e tags HTML, além de escrever
conteúdo relevante e de alta qualidade sem duplicação.
Em 2013, a Comissão Europeia, órgão de fiscalização da União Europeia,
considerou que o motor de buscas do Google favorecia os produtos do próprio
Google no cálculo de relevância, em vez de oferecer aos consumidores o melhor
resultado para suas necessidades. A Comissão Europeia enfatizou que cerca de
80% dos smartphones vendidos no mercado europeu usam o Android (sistema
operacional para dispositivos móveis desenvolvido pelo Google) e, com suas
ações, o Google viola a lei antitruste. Margrethe Vestager, Comissária Europeia
para a Concorrência, afirmou em 2016 que acredita que o comportamento do
Google nega aos consumidores uma escolha ampla de aplicativos e serviços
móveis, além de impedir a inovação por parte de outros participantes, violando
as regras antitruste da UE (DW, 2016).
O Google foi considerado culpado pela Comissão Europeia em 7 de junho
de 2017 e recebeu uma multa recorde de US$ 2,7 bilhões. O veredito
correspondia a dois casos antitruste da União Européia: um envolvendo seus
produtos publicitários e outro relacionado à empresa de telefonia móvel e
sistema operacional Android (comprada pelo Google em julho de 2005). Em
ambos os casos, o Google foi considerado culpado de favorecer seus próprios
47
produtos e serviços em relação aos da concorrência. O Google negou as
acusações da União Européia alegou que "seus serviços ajudaram a economia
digital da região a crescer". Os US$ 2,7 bilhões de multa representaram pouco
mais de 2,5% da receita do Google em 2016 (CNN, 2017).
A gerente de engenharia do Google, Rachel Potvin, revelou detalhes sobre
o código de software do Google em uma conferência de engenharia de software
em setembro de 2015 (WIRED, 2015). Ela disse que a base de código do
Google, que abrange todos os seus serviços web12 (Google Search, Google
Maps, Google Docs, Google+, Google Calendar, Gmail, YouTube, etc.), consiste
em mais de 2 bilhões de linhas de código. Comparativamente, o Facebook inteiro
tem 61 milhões de linhas de código, enquanto o sistema operacional Android tem
aproximadamente 15 milhões de linhas de código e o Windows XP e Windows 7
atingem, cada um, a marca de pouco menos de 40 milhões de linhas de código
(WIRED, 2015).
Todo esse código é armazenado em um repositório de código disponível
para todos os 25.000 engenheiros do Google, e o código é copiado e atualizado
regularmente em dez data centers do Google. Segundo a gerente de engenharia,
desenvolvedores podem fazer uma única alteração de código e implantá-la em
todos os serviços ao mesmo tempo. A única exceção ao acesso irrestrito para
desenvolvedores é o algoritmo de resultados de pesquisa do PageRank
(armazenado separadamente e acessado por apenas alguns funcionários
específicos). Os códigos do sistema operacional Android e do navegador Google
Chrome também seriam mantidos separados, mas não são serviços web e
portanto não entram na conta do total de linhas de código feita pela funcionária
do Google.
Com o aumento no número de usuário que realizam buscas por aparelhos
móveis, como smartphones, e a subsequente captura de dados sobre
localização destes usuários no momento em que realizam a interação com o
12 O Google atualmente é uma multiplicidade de serviços, muito além de apenas um sistema de buscas. Serviços incluem serviço de e-mail, serviços de localização, aplicativos online para produção de texto, apresentação e planilha, dentre muitos outros.
48
sistema, o Google viu uma nova oportunidade de personalização de resultados
de busca. Lançada em julho de 2014, a atualização Pigeon teve como objetivo
aumentar a classificação de relevância em resultados de busca de sites locais,
ou seja, próximos da localização do usuário no momento da busca. As alterações
também afetaram os resultados da pesquisa mostrados no Google Maps,
juntamente com os resultados de pesquisa normais do Google.
Em outubro de 2015 o Google confirmou a existência e detalhou a utilidade
de uma parte do algoritmo Hummingbird, chamada RankBrain, cuja atuação e
impacto haviam sido especulados por anos. Esta parte do algoritmo
Hummingbird realiza machine learning 13 , e tem como objetivo fornecer
resultados de pesquisa mais relevantes para os usuários com base em web
semântica. Em uma entrevista no mesmo ano, um funcionário do Google afirmou
que o RankBrain era o terceiro fator mais importante no algoritmo de
classificação, juntamente com links e conteúdo (ou seja, juntamente com o
trabalho realizado pelo PageRank e conteúdo formatado de forma a “agradar” os
crawlers) (BLOOMBERG, 2015). De acordo com este membro da corporação, o
RankBrain produz entre 10% e 15% dos resultados de busca (SEARCH ENGINE
LAND, 2016).
O RankBrain foi projetado para “entender” quais palavras tem significados
semelhantes, frases e perguntas, considerando as relações entre as palavras
inseridas no campo de busca. Cada consulta é classificada em vetores de
palavras, também conhecidos como “representações distribuídas”, que são
termos próximos uns dos outros em termos de similaridade linguística. Este
algoritmo usa uma abordagem estatística para tentar mapear esta consulta em
palavras (entidades) ou clusters de palavras que têm chance razoável de
13 Machine learning (aprendizado de máquina) é um termo usado simultaneamente para definir a área de estudo, técnicas e tecnologias de algoritmos que os sistemas de computador usam para realizar efetivamente uma tarefa específica sem usar instruções explícitas, confiando em padrões e inferência baseada em estatística. É considerado um subconjunto da inteligência artificial. Algoritmos de aprendizado de máquina constroem um modelo matemático com base em dados de uma amostra, conhecido como "dados de treinamento", para fazer predições ou decisões sem ser explicitamente programado para realizar a tarefa. O aprendizado de máquina está intimamente relacionado à estatística computacional, que se concentra em fazer previsões usando computadores.
49
combinarem. Portanto, em uma simplificação, poderia-se dizer que o RankBrain
tenta adivinhar o que as pessoas querem dizer e registra os resultados.
Quando offline, o RankBrain recebe lotes de pesquisas anteriores e aprende,
correspondendo aos resultados da pesquisa. Estudos mostraram como o
RankBrain interpretou melhor as relações entre as palavras. Isso pode incluir o
uso de palavras que antes eram desconsideras em em uma consulta de pesquisa
por serem muito comuns ("o", "e", “sem”, etc.) – palavras que foram
historicamente ignoradas anteriormente pelo Google, mas que às vezes são de
grande importância para entender completamente o significado ou a intenção
subjacente da consulta de pesquisa. Também é possível analisar padrões entre
pesquisas que aparentemente não estão conectadas, para entender como essas
pesquisas são semelhantes entre si. Uma vez que os resultados do RankBrain
são verificados pela equipe do Google, o sistema é atualizado e entra em
operação novamente.
O RankBrain ajudou o Hummingbird a fornecer resultados mais precisos,
pois pode aprender palavras e frases que talvez não conheça. Além disso,
também os aprende especificamente para o país, bem como para o idioma, no
qual é feita uma consulta. Então, se um usuário pesquisar uma consulta com a
palavra "boot" dentro dos Estados Unidos, receberá informações sobre calçados.
No entanto, se a consulta vier através do Reino Unido, então as informações
também podem ser relativas a espaços de armazenamento de carros ou a uma
rede de lojas de cosméticos.
Usuários do Google continuaram a realizar buscas por dispositivos móveis,
como smartphones e tablets, ao ponto em que há mais buscas por celulares e
outros aparelhos semelhantes do que por computadores desktop e notebooks
em 2016 (GOOGLE WEBMASTERS CENTRAL BLOG, 2016). Pesquisas por
dispositivos móveis incluem não apenas aquelas realizadas em navegadores
móveis, mas também por voz, como pelo Google Assistant e Google Home. Por
conta desta mudança de comportamento, o Google anunciou naquele ano que o
algoritmo do mecanismo de busca seria alterado para ter dois índices de páginas
– um índice primário dedicado a dispositivos móveis e um índice secundário,
atualizado menos frequentemente, para uso em computadores. Essa alteração
50
começou a ser implementada em dezembro de 2017, de forma gradual (TECH
CRUNCH, 2017).
Uma das mais recentes atualizações do algoritmo do motor de buscas do
Google com grande impacto é de agosto de 2018, apelidada de “Medic”. Foi
desenvolvida para medir com mais precisão a relevância de sites tipo YMYL
(Your money or Your Life), e reduzir a presença de sites que a companhia julga
não oferecerem informações relevantes ao usuário (SEARCH ENGINE NATION,
2018). O Google mantém atualizado um documento chamado Search Quality
Evaluator Guidelines, onde define o que ele considera como relevante em uma
página da web, e portanto quais são os critérios para que uma página seja
considerada relevante. O documento define que páginas do tipo YMYL são
aquelas que podem potencialmente impactar a felicidade futura, saúde,
estabilidade financeira e segurança de usuários14. Isso inclui, portanto, páginas
de compras e transações financeiras, páginas de informações sobre finanças,
sobre informações médicas e de saúde, sobre aconselhamento legal e jurídico,
e outras diversas como sobre adoção de crianças e segurança no trânsito. O
Google diz que sua prioridade na atualização “Medic” é prover aos usuários
informações corretas e factuais, portanto estaria tentando reduzir a relevância
de páginas que julga ferirem este princípio (GOOGLE USER CONTENT, 2018).
A divisão proposta anteriormente de fasear a operação dos algoritmos dos
sistemas de busca em três grandes processos (crawling, indexing searching)
resumem as ações de: procurar por sites na web e capturar informações sobre
eles, organiza-las em bancos de dados, classificar os dados coletados, calcular
relevância dos dados de acordo com o input do usuário, formas de
“entendimento” do input do usuário e funcionalidades para “facilitar” a busca pelo
usuário. Assim, é possível classificar as atualizações e transformações que o
motor de buscas do Google sofreu ao longo do tempo da seguinte forma:
14 Exemplos de páginas do tipo YMYL que foram impactadas negativamente pela atualização “Medic”: MyProtein.com, OrganicFacts.net, KetoBootstrap.com (CAN I RANK, 2018).
51
Quadro 1 - Processos de sistemas de busca x atualizações do algoritmo do Google
Atualizações do Google
Processos --- Crawling Indexing Searching
PageRank X X
Autocomplete X X
Universal Search X X
Caffeine X X
Personalized Search X X
Panda X X
Knowledge Graph X X X
Penguin X X
HummingBird X X X
Pigeon X
RankBrain X X
Mobile Index X
"Medic" X
Fonte: Elaborado pelo autor.
Esta visualização indica que o Google, ao longo de sua trajetória, comunicou
mais atualizações no processo indexing, que compreende tanto a organização
do banco de dados quanto as operações realizadas neste banco de dados para
determinar relevância. Este, portanto, seria o processo mais importante para que
o Google se mantenha na liderança do mercado de buscadores.
1.4. BUSCA PREDITIVA E FILTRO-BOLHA
Em uma possível indicação da direção futura do Google para seu algoritmo
de busca, Eric Schmidt, então diretor executivo do Google, disse em uma
entrevista ao Financial Times em 2007: "o objetivo é permitir que os usuários do
Google façam perguntas como ‘o que eu devo fazer amanhã?’ e 'Qual trabalho
52
devo aceitar?'". Schmidt reafirmou isso durante uma entrevista de 2010 com o
Wall Street Journal: "Eu realmente acho que a maioria das pessoas não quer
que o Google responda às suas perguntas, eles querem que o Google diga a
eles o que eles devem fazer em seguida".
Figura 9 - Autocomplete do Google em 2004
Fonte: Wordstream – Predictive Search, 2013
O Google, dentre outros sistemas de busca, pretende prever de alguma forma
o que o usuário quer dizer e, principalmente, o que o usuário pretende com a
busca. Isso é conhecido como busca preditiva, e tem por objetivo retornar ao
usuário resultamos mais acurados. Desde 2004 o Google aplica uma forma de
busca preditiva em seu motor de buscas, popularmente conhecida como
“autocomplete”. A medida que o usuário digita os termos de busca, o buscador
sugere termos de busca semelhantes utilizados anteriormente por outros
usuários. A primeira vista, o “autocomplete” pode parecer uma ferramenta
simples para abreviar o trabalho de digitação, mas é fato conhecido que
normalmente as pessoas digitam mais lentamente do que leem, e a pesquisa
preditiva do Google economiza tempo, mas também, de certa forma, direciona a
busca sendo realizada para outras semelhantes realizadas anteriormente por
outros usuários. O Google afirma que uma pesquisa típica leva mais de 9
53
segundos para ser digitada, com algumas pesquisas demorando de 30 a 90
segundos para ser digitada completamente. Com o “autocomplete”, a empresa
esperava reduzir o tempo gasto mundialmente digitando termos de busca em 3,5
bilhões de segundos a cada dia, o que equivale a 11 horas salvas a cada
segundo (WORDSTREAM, 2013). Esse cálculo de economia de tempo é
baseado, evidentemente, na premissa de que o “autocomplete” exibiria
preditivamente a busca que o usuário estava digitando.
O Grafo de Conhecimento (Knowledge Graph) lançado em 2012 pode ser
considerado mais um passo do Google em direção à busca preditiva. O algoritmo
retorna uma quantidade de informação sobre o termo de pesquisa em escopo
mais ampla do que a que o usuário procurou, e gera automaticamente conteúdo
específico relacionado ao assunto.
Provavelmente o maior exemplo atual (2019) de busca preditiva são os
assistentes virtuais desenvolvidos pela Apple (Siri), Microsoft (Cortana), Amazon
(Alexa) e Google (Google Assistant, anteriormente Google Now). Um assistente
virtual é um software que pode executar tarefas ou serviços para um indivíduo
com base em comandos verbais ou inseridos por digitação. Todos os assistentes
virtuais supracitados são capazes de interpretar a fala humana e responder
através de vozes sintetizadas. Os usuários podem fazer perguntas aos seus
assistentes, controlar dispositivos de automação residencial, solicitar reprodução
de mídia via voz e gerenciar outras tarefas básicas, como e-mail, listas de tarefas
e calendários com comandos verbais. Desde 2017 as capacidades e o uso de
assistentes virtuais estão se expandindo rapidamente, com novos produtos
entrando no mercado e uma forte ênfase nas interfaces de usuário de voz.
O Google Assistant pode pesquisar na Internet, agendar eventos e alarmes,
ajustar configurações de hardware no dispositivo do usuário e mostrar
informações da conta do Google do usuário. O assistente pode se envolver em
um diálogo com o usuário, usando o algoritmo de processamento de linguagem
natural do Google. Os resultados da pesquisa são apresentados em um formato
de cartão que os usuários podem tocar para abrir a página. Em 2017 o Google
anunciou que os usuários do Google Home poderiam comprar produtos via voz
por meio do serviço de compras Google Express, com produtos disponíveis no
54
Whole Foods Market, Costco, Walgreens, PetSmart e Bed Bath & Beyond no
lançamento. A partir do mesmo ano, o assistente virtual também teria suporte a
um teclado para respostas digitadas e visuais, suporte a identificação de objetos
e coleta de informações visuais através da câmera do dispositivo e suporte à
compra de produtos e transferência de dinheiro. Também tornou-se possível
identificar músicas que estão sendo reproduzidas no momento, perguntando ao
Assistente.
Figura 10 - Google Assistant
Fonte: Wikipedia, Google Assistant, 2019
Em maio de 2018, o Google revelou o Duplex, uma extensão do Google
Assistant que permite realizar conversas naturais ao imitar a voz humana. O
assistente pode concluir tarefas autonomamente, como ligar para um salão de
cabeleireiro para marcar uma consulta, agendar uma reserva de restaurante ou
ligar para as empresas para verificar o horário das lojas para o fim de ano.
Embora o Duplex possa concluir a maioria de suas tarefas de maneira totalmente
autônoma, ele é capaz de reconhecer situações que não consegue concluir e
55
pode sinalizar um operador humano para concluir a tarefa. O Duplex foi criado
para falar em uma voz e linguagem mais natural, incorporando disfluências de
fala, como palavras de preenchimento como "hmm" e “uh", e usando frases
comuns e gírias, além de uma entonação humana e latência de resposta. O
Duplex está atualmente em desenvolvimento e teve um lançamento limitado no
final de 2018 para usuários do Google Pixel (smartphone oficial do Google).
Figura 11 - Cards do Google Now
Fonte: The Verge, 2012
O Google Assistant e o Duplex, dentre outros, destacam-se não apenas
pelas capacidades surpreendentes, mas porque trabalham ativamente com
busca preditiva – projetados para fornecerem automaticamente as “informações
certas no momento certo”, em vez de fazer com que os usuários as pesquisem.
Estes sistemas extraem informações do histórico de pesquisa, do Gmail e usam
vários sinais, como, por exemplo, lembretes relacionados à localização ou
tempo, para apresentarem cartões informativos com probabilidade de interesse
do usuário. Esses cartões podem conter informações sobre restaurantes locais,
dados de tráfego ou lembretes gerados automaticamente de compromissos
marcados via email. Assim, se o usuário criar uma lista de compras, o Google
Assistant provavelmente vai lembrá-lo do que precisa comprar quando ele
56
passar perto de um supermercado ou mercearia de bairro. Se houver um
concerto de uma banda do interesse do usuário, o dispositivo irá avisa-lo.
Esses recursos fazem parte dos esforços crescentes do Google para
fornecer resultados relevantes com base nos dados acumulados e processados
sobre cada usuário. "É claro que o Google vai acessar mais do que apenas as
informações públicas na Web", diz Scott Huffman, Diretor de Engenharia de
Qualidade de Pesquisa do Google. "O Google saberá o horário do meu voo, se
minha encomenda já chegou aqui e onde minha esposa está e quanto tempo vai
levar para ela chegar em casa esta tarde”. De acordo com ele, o Google já sabe
de tudo isso. A questão é se o usuário está ou não disposto a permitir que o
Google saiba muito sobre ele. “Isso exige que você confie bastante no Google,
mas a empresa espera que sua confiança seja recompensada”, afirma Huffman
(VERGE, 2012).
Iniciativas como o Google Assistant e o Google Personalized Search evocam
uma série de preocupações acerca de privacidade, segurança da informação e
controle informacional. Eli Pariser, webativista e autor do best-seller “O Filtro
Invisível: O que a internet está escondendo de você”, explica que a fórmula dos
gigantes da internet para a estratégia de personalização e controle informacional
é simples: quanto mais personalizadas forem as ofertas de informação a cada
pessoa, mais anúncios essas corporações conseguirão vender e maior será a
chance de que os produtos oferecidos sejam comprados (PARISER, 2012. p.13).
A personalização se baseia em uma barganha. Em troca do serviço de filtragem, damos às grandes empresas uma enorme quantidade de dados sobre nossa vida diária – dados que muitas vezes não dividiríamos com nossos amigos. Essas empresas estão ficando cada vez melhores no uso desses dados para traçar suas estratégias. No entanto, muitas vezes acreditamos excessivamente que essas empresas irão cuidar bem dessas informações, e, quando nossos dados são usados para tomar decisões que nos afetam negativamente, em geral não ficamos sabendo (PARISER, 2012. p.20).
Pariser acredita que o Google, assim como outros serviços da web que
buscam sinais para personalizar cada vez mais suas ofertas informacionais,
quando unidos, acabam por criar um universo de informações exclusivo para
cada usuário – o que ele chamou de filtro-bolha (filter bubble). Essa filtragem
57
personalizada de informação teria a capacidade de alterar fundamentalmente o
modo como cada pessoa se depara com ideias e informações. (PARISER, 2012.
p.14).
58
2. CONTROLE E LÓGICA OPERATIVA DOS ALGORITMOS DE
SERVIÇOS DA WEB
2.1. ALGORITMOS E A ESTRUTURAÇÃO DO MODO DE USO DA INTERNET
Em meados dos anos 2000, os mecanismos de pesquisa haviam
reorganizado a Web, tornando-a estruturada a partir deles. No final dos anos 90,
Jacques Altaber, um funcionário do CERN (Conselho Europeu para Pesquisa
Nuclear), a organização que primeiro apoiou a World Wide Web, sugeriu que a
web se tornaria um novo tipo de sistema operacional, a plataforma na qual maior
proporção de nossas tarefas de comunicação e informação seria realizada. De
acordo com Alexander Halavais, professor associado de tecnologias sociais da
Universidade Estadual do Arizona e ex-presidente da Associação de
Pesquisadores da Internet, ao longo dos anos os buscadores de fato tornaram-
se centrais para esse “sistema operacional”, passando de uma ferramenta útil
para um ponto focal de atenção coletiva (HALAVAIS, 2017, p.34).
Embora o Google tenha uma operação lucrativa em uma ampla variedade de
áreas, incluindo venda de hardware, a maior parte de sua renda tem origem na
venda de propaganda em seus próprios sites e em sites parceiros. Neste
aspecto, o buscador não é totalmente diferente da televisão aberta, cuja
lucratividade do negócio está em vender audiência aos anunciantes (“sell
eyeballs to advertisers”) (HALAVAIS, 2017, p.34). Como outras empresas
proprietárias de motores de busca, o Google posiciona publicidade “adjacente”
aos resultados orgânicos de pesquisa. O modelo de leilão reverso de palavras-
chave, junto a coleta e uso de informações sobre usuários, permite segmentar e
direcionar publicidade. Há uma motivação econômica significativa para que o
Google atraia o maior número possível de usuários para seus sites e anúncios,
e mecanismos de busca tem sido uma maneira eficiente de fazer isso
(HALAVAIS, 2017, p.34).
Sites de busca passaram a atrair muito tráfego e gerar lucro com o modelo
de negócio inaugurado pelo Google, o que motivou a competição neste setor. No
entanto, menos óbvio é o poder que estes mecanismo de busca tem de moldar
o tráfego: não apenas atraem usuários, mas os direcionam para partes
59
específicas da web. Os mecanismos de busca têm o poder de fomentar fortunas
e retirá-las – é como se fossem construtoras de estradas, semáforos e portas de
entrada para todos os negócios on-line (HALAVAIS, 2017, p.34).
USO SOCIAL DE BUSCADORES
De acordo com Halavais, pesquisar algo em sites de busca é um processo
interativo e raramente linear. A maioria das pessoas que insere uma consulta em
um mecanismo de pesquisa faz o acompanhamento com outra consulta ou duas,
modificando seus termos de busca para obter um resultado mais relevante. Em
muitos desses casos, o usuário está simplesmente re-digitando a consulta ou
ajustando a ortografia. Em outros, eles percebem que precisam alterar os termos
de busca para restringir os resultados que receberam (HALAVAIS, 2017, p.48).
Em outras palavras, é provável que a estratégia de consulta e pesquisa mude à
medida que mais informações se tornem disponíveis. É improvável que essa
informação venha de uma única fonte “vencedora”, mas sim um resultado da
coleta, avaliação e comparação de informações de diversas fontes.
Ao longo do processo de pesquisa, o usuário provavelmente estará avaliando
os resultados, permitindo que a natureza da pesquisa evolua à medida que mais
informações forem localizadas. A estratégia precisa difere de acordo com cada
buscador e cada usuário, mas como a maioria dos mecanismos de busca fornece
alguma forma de página de resultados, a avaliação começa aí. Ironicamente,
parte dessa avaliação decorre da confiança no próprio mecanismo de busca. O
simples fato de um mecanismo de pesquisa sugerir um site lhe dá credibilidade
(HALAVAIS, 2017, p.51). Essa confiança se estende aos próprios sites, e se um
mecanismo de pesquisa direcionar um usuário a uma página que não é
relevante, muitos usuários – especialmente usuários inexperientes – continuarão
navegando nesse site, supondo que eles tenham sido enviados para lá por algum
motivo.
Segundo a pesquisadora Fátima Hassan Caldeira, doutora e docente em
ciências da linguagem na Universidade do Sul de Santa Catarina (UNISUL), o
Google não é apenas um motor de busca, mas também, sob a perspectiva da
teoria da relevância, usado como um mecanismo de avaliação epistêmica. Ele
60
representaria, sob a forma de uma lista ordenada, os valores epistêmicos
relativos dos documentos da Web encontrados na pesquisa. “Quanto maior a
classificação de um documento, mais provável é conter as informações
relevantes e confiáveis”. De acordo com ela, dados da Pew Internet (2012)
demonstram que a grande maioria dos usuários de mecanismos de busca confia
nessas ferramentas, acreditando que são justas e imparciais, e também que os
resultados que elas geram são precisos e confiáveis (CALDEIRA, 2015, p.98).
Além disso, a web nos diz como fazer muitas das tarefas e ações cotidianas,
e os mecanismos de busca são os meios principais pelos quais é possível
procurar e encontrar soluções. Quando pessoas de todas as idades têm uma
“necessidade de saber algo no momento”, 87% primeiro procuram por seus
smartphones (HALAVAIS, 2017, p.58).
Analisando estes modos de uso e confrontando com os número de acesso
diário destes sites de busca, é possível afirmar que motores de busca são
ferramentas consideradas úteis por uma grande parte da população. Mais do
que isso, buscadores são uma das principais fontes de pesquisa de informações,
e provavelmente a principal destas fontes no meio digital.
Por fim, a interação entre usuário e o sistema não é um processo apenas de
inserção de termo e recuperação de dados, mas um loop no qual o usuário altera
o termo de busca para ajustar a resposta que o sistema lhe dá. Neste ciclo, o
usuário acaba por alterar não apenas o termo de busca, mas provavelmente até
o que estava buscando originalmente, à medida em que descobre novas
informações. A própria ferramenta impõe uma forma de uso.
ANEXO PREFERENCIAL
Com bilhões de páginas na web e outras milhares sendo criadas diariamente,
motores de busca optaram por não apresentar todo o conteúdo igualmente.
Sistemas de busca são tecnologias de filtragem de conteúdo. De um ponto de
vista técnico, o conteúdo ignorado pela ferramenta é tão importante quanto o que
é exibido ao usuário. Os buscadores contribuem para a seleção dos sites mais
proeminentes e, por sua vez, são influenciados por eles (HALAVAIS, 2017,
p.101).
61
Como vimos anteriormente na descrição do funcionamento do algoritmo
PageRank, links são uma maneira eficiente de estabelecer o “peso” de cada
página da web em relação a relevância. Porém, uma vez que grupos de páginas
com alto índice no PageRank ou clusters de sites são estabelecidos, eles tendem
a se reforçar (HALAVAIS, 2017, p.102). Afinal, um site considerado relevante
pelo Google irá aparecer mais vezes na página de resultados, e portanto terá
uma chance maior de ser acessado, o que abre mais oportunidades para ser
referenciado novamente e ter seu índice PageRank aumentado ainda mais.
Segundo Halavais, um vínculo muito forte a um pequeno número de sites
seria uma tendência natural dos algoritmos de motores de busca: “A web escolhe
vencedores” (HALAVAIS, 2017, p.102). Esta tendência da estrutura da web é
chamada de “preferential attachment” (anexo preferencial) (HALAVAIS, 2017,
p.105). A distribuição de sites nos resultados de cada pesquisa encoraja sua
própria reprodução, fornecendo um caminho fácil e convencional para o
conteúdo que o buscador “considera” mais interessante com base nos inputs e
características do usuário.
O anexo preferencial ocorre em grande parte porque se supõe que os
usuários e webmasters que criam hiperlinks (e que serão usado como medida
de relevância pelo PageRank) localizam as “melhores páginas de conteúdo”
navegando na web. Entretanto, grande parte do processo de busca e navegação
ocorre dentro dos mecanismos de busca e plataformas de redes sociais, ou seja,
a partir de uma amostragem de sites já filtrada de acordo com relevância. Para
que um site chegue à primeira página de resultados no Google, primeiro ele
precisa ter um grande número de links para ele. No entanto, sem estar na
primeira página de resultados, poucos autores do site saberão que ele existe e
será capaz de se vincular a ele. Cada autor é então confrontado com a questão
de como chamar bastante atenção para as páginas para permitir que sejam
vistas por grandes públicos. O PageRank e os algoritmos de busca relacionados
à melhoria de estima aumentam claramente o atual desequilíbrio, calcificando as
redes existentes de popularidade (HALAVAIS, 2017, p.110).
Fora do ambiente virtual, nas ruas das cidades, grande parte do sucesso de
um comércio é determinada por sua localização física – estar em uma avenida
62
de grande movimento ou em um shopping center, por exemplo, proporciona
visibilidade e público. Na web, isso não é tão diferente – em ambos os casos, a
visibilidade determina a quantidade de visitantes, e portanto quantas vendas são
possíveis (HALAVAIS, 2017, p.110). O anexo preferencial estabelece uma lógica
conservadora, na qual os mais bem posicionados continuam a ser cada vez mais
visíveis, e os de menor visibilidade tem sua exposição cada vez mais diminuída.
Este fenômeno é válido para páginas de quaisquer tipos de conteúdo, desde
comércios e mercados a páginas de notícias, blogs, redes sociais, etc.
ATENÇÃO, RECURSO FINITO
Caldeira, em seu artigo “O mecanismo de busca do Google e a relevância na
relação sistema-usuário”, afirma que várias pesquisas realizadas ao longo do
séc. XX apontam que o ser humano não consegue operar em um ambiente de
grande volume informacional sem utilizar um sistema de filtragem. A abertura de
acesso à informação proporcionada pela web, a velocidade das mídias digitais,
o que ela chama de “explosão informacional”, fez com que houvesse a
necessidade de uma mediação tecnológica capaz de filtrar e validar a
informação, “e, também, para aliviar a angústia gerada no ser humano pela
dificuldade de encontrar aquilo de que precisa” (CALDEIRA, 2015, p.94). Essa
mediação tecnológica a que Caldeira se refere seriam os mecanismos de busca.
A demanda por mecanismos de busca são, em grande parte, determinadas
pela finitude de nossa capacidade de atenção. Na área das Ciências da
Informação, isso é muitas vezes referido como o "princípio do menor esforço",
parte do título de um livro de 1949 de George Zipf15. De acordo com Halavais, o
argumento de Zipf é que, quando confrontados com uma tarefa de busca, e a
maioria das tarefas cognitivas são tarefas de busca em certa medida, as pessoas
geralmente tentam usar apenas a quantidade mínima de tempo e esforço
necessários para realizar sua busca de informação a um nível satisfatório
(HALAVAIS, 2017, p.112). Ou, em outras palavras, as pessoas desejam ganhar
algo com o menor esforço possível. Este princípio cognitivo do menor esforço é
15 ZIPF, George. Human behavior and the principle of least effort, 1949.
63
chamado de “satisficing” (junção das palavras satisfy e suffice – em português,
satisfação e suficiente, respectivamente).
Halavais argumenta que seria “tentador julgar a falta de vontade de buscar
correspondências ideais em uma pesquisa como preguiça ou veleidade”, mas
seria uma função natural na cognição humana (HALAVAIS, 2017, p.112). A web
aumenta a quantidade de informação disponível para a pessoa, mas não
aumenta a capacidade de consumir essa informação.
A mudança mais significativa trazida pela web está em como a atenção é
distribuída. Mesmo que a web esteja longe de ser plana, igualitária ou
democrática, ela oferece um número muito maior de opções do que o controle
remoto da televisão ou a banca de jornal. Uma riqueza de informações cria uma
pobreza de atenção, e assim surge a necessidade de distribuir essa atenção
eficientemente na superabundância de fontes de informação que poderiam
consumi-la (idem, p.113).
A atenção humana pode ser pensada como algo com valor comercializável,
e assim fornecer uma outra perspectiva sobre como a mídia é consumida (ou
ainda, como os públicos de mídia são consumidos pelas mensagens e fontes de
informação). Se a atenção é algo com valor comercializável, então o internauta
não é apenas um alvo de várias mensagens persuasivas (sejam elas
publicidade, notícias, ou qualquer outro tipo de conteúdo), mas sim alguém que
está fornecendo atenção em troca de informações. Essa atenção, portanto, é
uma mercadoria valiosa. Em uma economia de atenção, o mecanismo de busca
é o agregador final dessa riqueza, e os anunciantes são a fonte mais clara de
receita (idem, p.114). Como outros mecanismos de busca, o Google troca a
atenção de seus usuários pela receita de anunciantes que colocam anúncios em
seu site.
Existem limites reais para a quantidade de atenção que cada pessoa pode
despender. Biologicamente, a atenção é limitada pela habilidade de
concentração do indivíduo, sua capacidade de permanecer focado em
determinada tarefa e sua capacidade de processar as informações que recebe
sem perturbar o que está fazendo. Há também um limite temporal para a atenção
– não é possível permanecer atento a tudo por tempo indeterminado. A escassez
64
de atenção não é artificial. Porém o mercado de atenção é um constructo que
permite que a ideologia do mercado acesse novas áreas. Essa mercantilização
da atenção ocorre de maneira praticamente invisível. Os mecanismos de busca
extraem valor através do trabalho gratuito de milhões de pessoas e,
reconfigurando-o, usam-no para chamar a atenção para si mesmos. (idem,
P.125). Essa atenção é então vendida aos produtores que desejam anunciar
seus produtos.
A internet é plataforma de comunicação com potencial, enquanto tecnologia,
democrático e aberto. Mas a tecnologia é cooptada pelos valores culturais,
sociais e econômicos nos quais está inserida. Os interesses de lucro que
fundamentam os valores capitalistas não removem o potencial para a criação de
trabalhos cooperativos extraordinariamente articulados, como a Wikipédia ou o
desenvolvimento do sistema operacional Linux, mas tendem a restringir estes
esforços a determinados nichos, além de exigirem que iniciativas colaborativas
negociem dentro de um sistema de atenção e troca que se tornou altamente
mercantilizado (idem, p.125).
2.2. RELAÇÕES ENTRE DATA MINING E MODULAÇÃO DE RESULTADOS COMO
LÓGICA TÉCNICA QUE PERMITE O CONTROLE
A mineração de dados (data mining) é o processo de descobrir padrões em
grandes conjuntos de dados envolvendo métodos de machine learning,
estatística e sistemas de banco de dados. Esta técnica consiste em coletar dados
sobre algo, organiza-los em um sistema de banco de dados, e usa-lo para
reconhecer padrões. A mineração de dados é usada em larga escala por sites
de busca, com o objetivo de aprimorar os resultados de busca para cada termo.
Ao realizar uma busca em um site como o Google, cada input é gravado em
logs (registros) de transação. Estes registros guardam as ações realizadas pelo
usuário de forma imperceptível para ele. Segundo Halavais, a maioria dos
mecanismos de pesquisa agora controla quais links o usuário clica, permitindo
que eles vinculem consultas aos resultados que o usuário considera mais
interessantes. Esse tipo de acompanhamento de decisões implícitas é
particularmente importante para os mecanismos de pesquisa, pois é possível
65
inferir a relevância dos resultados produzidos, verificando quais itens o usuário
clica (HALAVAIS, 2017, p.57). O uso de cookies oferece ainda mais
oportunidades para rastrear o que os usuários estão fazendo quando pesquisam.
O Google deve seu sucesso e grande parte de sua receita devido a
capacidade de extrair com eficiência a mais-valia das informações que coleta de
seus usuários (idem, p.198). O Google fornece um login federado para todos os
seus serviços16, o que significa que ele pode rastrear o comportamento do
usuário em cada uma das páginas e aplicativos online. Um grande número de
websites usa o Google Analytics, um pacote gratuito de análise da web, além de
publicidade no Google AdWords, que supostamente fornece ao Google ainda
mais informações sobre o que os usuários estão fazendo, mesmo quando não
estão visitando sites da marca Google. No momento, o comportamento do
usuário é analisado de perto por várias plataformas on-line e geralmente é
combinado entre as plataformas para criar um dossiê surpreendentemente
detalhado dos hábitos on-line dos indivíduos.
Embora as informações de logs do lado do servidor que rastreiam a atividade
do usuário, incluindo sites visualizados, pressionamentos de teclas,
posicionamento do mouse ou uso de aplicativos diferentes do navegador da Web
possam ser imparciais e objetivas (usuário X clicou no link Y, por exemplo), elas
podem ser um tanto difusas e exigem muita inferência para identificar as
intenções do usuário.
Mecanismos de busca personalizam em alguma medida os resultados de
busca para cada usuário, com base nas informações coletadas neste processo
de data mining. Mais do que isso, a personalização realizada por buscadores é
uma combinação dos “sinais” específicos do usuário (localização inferida pelo
IP, idioma configurado no navegador ou conta Google, histórico de buscas, etc.)
com inferências realizadas a partir da análise das ações de milhões de outros
16 Uma conta de usuário em qualquer serviço do Google está interconectada com todos os outros serviços da empresa. Portanto, se um usuário criar uma conta no Gmail, por exemplo, estará na verdade criando uma conta com acesso a todos os serviços do Google (Youtube, Google Search, Keep, Forms, etc.). Isso é verdadeiro para a criação de qualquer conta de usuário em qualquer serviço do ecossistema do Google.
66
usuários em ações semelhantes. Quando um usuário insere o termo de busca
“Qual a idade do Guga?”, como visto no capítulo anterior, o buscador não está
apenas buscando as informações pessoais do usuário para elaborar uma
resposta adequada. Está também buscando referências em seu sistema das
buscas anteriores realizadas por outros usuários e, baseado em quais links
foram clicados, infere o que seria a resposta “correta”.
Oscar Gandy escreveu em 1993: um indivíduo é definido, em parte, pelo que ele faz ou não faz. Informações pessoais são produzidas por um observador na apreensão e interpretação do comportamento do outro. Podemos considerar o comportamento como gerando dados brutos e a interpretação desse comportamento como um processo de valor agregado, no qual informações adicionais são produzidas à medida que o comportamento é avaliado. Essa avaliação, como outras atividades produtivas, pode incluir o uso de outras informações que foram armazenadas a partir de experiências passadas ou que foram adquiridas de outras fontes (HALAVAIS, 2017. p.198).
O Google registra as ações que usuários realizam online, em cada uma de
suas páginas da web. E ao coletar e analisar as ações de milhões de usuário,
traduzidas em números em bancos de dados, constrói uma “base de dados de
intenções” (idem, p.211). Afinal, é através do Google que boa parte da população
mundial procura coisas que espera conhecer, fazer ou o que espera se tornar. É
um enorme banco de dados de desejos coletivos e individuais. Ao observar as
pesquisas que estão se tornando mais populares, o Google é capaz de avaliar
diretamente a consciência global. Se dezenas de milhares de pessoas
repentinamente procuram no Google o mesmo assunto, pessoa ou
acontecimento, é um bom indicador de que existe um consenso de que as
palavras-chave descrevem algo interessante. “Não lhe diz por que eles estão
interessados, mas mapear a atenção por si só é poderoso” (idem, p.211).
O Google mantém uma lista de pesquisas anteriores feitas por um usuário
com base em um cookie na máquina do usuário ou um login em um produto do
Google. Os usuários podem excluir seu próprio histórico, mas não está claro se
isso é excluído apenas da visualização do usuário ou de todos os registros do
Google. E isso não está restrito às pesquisas na Web: como o Google inova em
novas áreas ou adquire serviços existentes, novas fontes de informações
comportamentais são criadas, de dados de localização a dados de uso móvel, e
67
até mesmo em coisas como registro de saúde e horários diários. A lista de
aplicativos e serviços oferecidos pelo Google hoje é abrangente, e seria
perfeitamente possível comunicar e conduzir todos os seus negócios online sem
sair do ecossistema Google.
A personalização de pesquisa representa uma das áreas de pesquisa mais
ativas mas, como na pesquisa em geral, ao privilegiar determinadas fontes em
detrimento de outras, há o perigo de que um pesquisador fique preso ao próprio
histórico de pesquisa (idem, p.65). Pariser, argumenta que a personalização
excessiva da web (por buscadores, redes sociais, sites de notícia, etc.) criam
uma bolha cultural e informacional distorcida da realidade social na qual o
usuário está inserido, isolando-o. Apesar de haver muitas razões pelas quais a
personalização de pesquisa pode ser útil para encontrar e redescobrir
informação, tende a restringir nosso universo informacional a nossos interesses
anteriores, em vez de agir como uma força cosmopolita para a descoberta.
Existem evidências de que a busca personalizada não seja tão restritiva quanto
o que Pariser afirma ser (veremos detalhes no próximo capítulo), porém é
inegável que essas modulações da busca para um retorno ao que está mais
próximo do usuário torna muito mais fácil encontrar fontes familiares em vez de
explorar novas fontes.
MODULAÇÃO DE RESULTADOS DE BUSCA E EXERCÍCIO DE PODER
A personalização de resultados de busca é a modulação da informação
disponível baseada em informações do usuário e de outros usuários que fizeram
pesquisas semelhantes no passado. Como vimos anteriormente, a justificativa
técnica e funcional para isso ocorrer é distribuir a atenção, que é um recurso
finito, de forma eficiente. Há também aspectos estruturais da própria rede que
afetam essa modulação, como a tendência do PageRank a estabelecer
resultados de busca com anexo preferencial (sites que já tem boa reputação
tendem a continuar visíveis, enquanto sites que não tem boa reputação tendem
a nunca atingir-la). Entretanto, a modulação dos resultados de busca não é
regida apenas por fatores técnicos ou internos do sistema de pesquisa.
68
A modulação dos resultados dos mecanismos de busca é moldada por três
tipos de políticas: os algoritmos construídos pelas empresas de mecanismos de
pesquisa, as políticas dos governos nacionais e a cultura da sociedade na qual
está inserido. A filtragem realizada pelos mecanismos de busca não é facilmente
manipulável por indivíduos, mas permanece sujeita àqueles que
tradicionalmente detêm o poder social.
Particularmente, quando pensamos sobre o "viés" do mecanismo de pesquisa, o viés mais premente é a sopa social na qual o mecanismo de pesquisa nada. Cada parte do mecanismo de pesquisa depende de relações sociais, expectativas e popularidade. Os mecanismos de pesquisa destilam os comportamentos sociais de seus usuários, a estrutura socialmente definida da World Wide Web e nossa criação coletiva de conhecimento para atender a outras necessidades sociais. A ideia de que a pesquisa pode ser tudo menos social é absurda (HALAVAIS, 2017, p.73).
Portanto, enquanto pessoas que usam mecanismos de busca e outras
tecnologias forem elas mesmas sociais, a busca continuará a ser social. Existe
um contexto social que se estende além das interações com o sistema de busca
– visões de mundo, contexto social e cultural internalizados – de modo que duas
pessoas que recebem e processam os mesmos resultados de pesquisa poderão
chegar a conclusões diferentes, que talvez resultem até mesmo em
comportamentos diferentes.
Estas influências sociais na busca já são consideradas pela maioria dos
mecanismos de busca, ainda que implicitamente. O PageRank infere a qualidade
de um site com base em julgamentos sociais – não questiona diretamente
usuários sobre a qualidade das páginas da web, mas infere que mais hiperlinks
significam mais relevância, codificando um julgamento humano latente (idem,
p.85). A política de rastreamento do Google, que define o que deve ou não ser
indexado, também parte de premissas sociais implícitas semelhantes para
identificar aquilo que é relevante ou não em um site, e se este “merece” fazer
parte do banco de dados de pesquisa.
O Google exerce poder de forma consciente, e a face mais visível deste
“governo da web” são as políticas para rastreamento, indexação e relevância.
Sites que não estão de acordo com essas políticas podem ser retirados dos
69
rankings do buscador, o que, em termos práticos, significa pena de morte. Mas
há também a possibilidade de restrição ao Google AdWords e demonetização
de canais do YouTube, permitindo a listagem do conteúdo, mas retirando as
chances de impulsionar o acesso ou de ganhar dinheiro com ele. Exemplos deste
tipo de censura são abundantes. Em alguns casos, eles o fazem por motivos que
parecem estar relacionados à proteção de seus usuários. Em 2016, por exemplo,
o Google anunciou que havia rejeitado anúncios de quase 800 milhões de golpes
de perda de peso (idem, p.180). Mais tarde, naquele mesmo ano, anunciou que
deixaria de aceitar publicidade para “empréstimos em dia de pagamento”, uma
indústria que o Google considera predatória.
Entretanto, o motivo mais comum para remoção de sites do índice do Google
é a percepção de que eles tentaram elevar sua posição na página de resultados
de maneiras que afrontam as políticas de indexação e relevância determinadas
pelo Google. Em cada caso, o Google sozinho tomou a decisão e, embora haja
vias de recurso, nem todo mundo sabe onde encontrá-los ou como esses
recursos são tratados.
Mais grave, no entanto, é a face oculta do poder que o Google exerce sobre
seus usuários e a sobre a web – e nem sempre exercido de forma consciente ou
intencional. O Google é uma multinacional estadounidense, cujo idioma principal
é o inglês norte-americano. Apesar do Google ter trabalhado ao longo dos
últimos anos para melhorar sua indexação entre idiomas, ainda há dificuldade
de realizar cálculos de relevância de sites em idiomas que fazem uso de
alfabetos não-romanos (árabe, japonês, mandarim, grego, russo, etc.). Isso
também significa que há uma relativa falta de análise semântica dos termos de
busca nestes idiomas, levando a pesquisas menos precisas. Geralmente,
buscadores locais desenvolvidos especificamente para buscas nestes idiomas
retornam resultados mais precisos. Devido a esses déficits, muitos optam por
pesquisar em inglês, e não em sua primeira língua. Em um estudo com
estudantes árabes, quase 75% preferiram concluir suas pesquisas em inglês e
não em árabe (idem, p.138).
Foi constatado também uma tendência no Google e outros mecanismos de
pesquisa nativos dos EUA de vincularem a seus bancos de dados (e portanto
70
potencialmente exibirem nos resultados de busca) uma proporção maior do total
de websites deste país do que de qualquer outro. Halavais argumenta que isso
não parece ser uma questão de idioma, e nem uma forma disfarçada de
xenofobia. De acordo com ele, para o PageRank, os sites dos EUA tem mais
autoridade simplesmente porque mais links levam a eles. Isso pode ter ocorrido
porque o crescimento inicial da internet foi nos EUA, e isso dá aos sites de lá
uma certa vantagem em relação a sites de outros países (idem, p.139). Se
aproximarmos este fato ao argumento da seção anterior, sobre anexo
preferencial, através do qual sites que já tem boa reputação tendem a crescer, o
domínio americano do banco de dados do Google fica ainda mais evidente. Os
mecanismos de busca não apenas refletem uma suposta autoridade de um país
em relação a outro, mas também ajudam a reproduzi-la.
Seria possível argumentar que esta multiplicação de poder de determinados
países está em linha com o que deveria acontecer em um mercado de atenção.
Afinal, se as fontes de informação dos EUA conseguem atrair mais tráfego (e
mais hiperlinks), isso representaria a utilidade deste conteúdo. A falha neste
argumento está no fato de que usuários não são capazes de selecionar
livremente uma opção dentre a totalidade de opções. O sistema de busca pode
não ser intencionalmente tendencioso, e esta estrutura baseada na “opinião”
(agregada através de links de entrada e saída) poderia até representar um tipo
de democracia – cada usuário votando com cliques do mouse. Mas, como não
permite a deliberação e a discussão nos níveis locais, isso nos torna uma
multidão global, facilmente liderada por aqueles que estão no centro deste
mercado de atenção. A suposição de que um mercado de atenção com
vencedores e perdedores escolhidos pelas forças do mercado seria a
configuração "ideal" para um buscador é profundamente ideológica (idem,
p.140). Enquanto tecnologia, sistemas de busca não são sempre
homogeneizantes ou autoritários, mas implementações que reproduzem a
autoridade vigente são de natureza conservadora.
O próprio conceito de relevância conforme entendido pelo algoritmo do
Google sempre tem um viés, re-inscrevendo as diferenças de poder e controle
existentes na sociedade em grande escala através do ordenamento dos
71
resultados de busca. No verão de 2016, um estudante do ensino médio chamado
Kaber Alli enviou um vídeo no Twitter mostrando os resultados de pesquisa do
Google Images para “três adolescentes brancos” e para “três adolescentes
negros”; os primeiros geralmente mostravam modelos em sites de imagens de
ações, sendo os últimos, principalmente, fotos de prisões. O tweet foi
compartilhado mais de 80.000 vezes e provocou uma discussão sobre se o
Google era racialmente tendencioso. Alli, em um tweet subseqüente, indicou que
não sentia que esse era o caso. O Google insistiu que seu mecanismo de busca
era neutro e refletia os preconceitos existentes da sociedade, em vez de
introduzir qualquer um deles, e geralmente o consenso era que os algoritmos
neutros simplesmente destacavam o viés existente em imagens de pessoas
negras on-line.
Figura 12 - Imagem publicada por Kaber Alli
Fonte: Twitter, Sam White, @samwhiteout, 10:38 PM - 30 Mar 2016
Os resultados de pesquisa do Google, ao apresentarem conteúdos que
circulam no imaginário midiático, reproduzem desequilíbrios de poder social, e
quando o fazem, os amplificam, naturalizam, justificam e fortalecem. Quando
uma pesquisa de imagens sobre “três adolescentes negros” retorna imagens
72
relacionadas a criminalidade, não está apenas reproduzindo preconceitos
sociais existentes. Está reforçando, naturalizando e fortalecendo estes
preconceitos, pois apresenta como resultado de busca “neutro” uma perspectiva
enviesada que não representa a totalidade do significado que o termo de busca
possui, mas apenas um recorte específico determinado pelos desequilíbrios de
poder social.
2.3. DISPOSITIVO DA SOCIEDADE DE CONTROLE
O Google é uma ferramenta estruturante da interação de usuários com a web
e, ao realizar esta estruturação, inscreve uma relação de poder – aplica um filtro
personalizado aos resultados de pesquisa, exibindo ou não conteúdos com base
em uma lógica opaca; determina o que é relevante com base em políticas
próprias; coopera com governos para estabelecer censura; reproduz aspectos
culturais em suas ferramentas, dentre outros aspectos e ações que vimos
anteriormente. Giorgio Agamben, filósofo italiano, dando continuidade ao que
Michel Foucault denominou dispositivo, propõe que este seja entendido como
“qualquer coisa que tenha de algum modo a capacidade de capturar, orientar,
determinar, interceptar, modelar, controlar e assegurar os gestos, as condutas,
as opiniões e os discursos dos seres viventes” (AGAMBEN, 2016. p.39).
Um dispositivo é uma instituição, como família, escola, empresa ou hospital,
que produz subjetividade – que regula as condutas, opiniões e discursos dos
seres viventes. Assim, o dispositivo regula multiplicidades, e as faz convergir.
Maurizio Lazzarato, filósofo italiano, salienta a importância da noção de
multiplicidade segundo Deleuze. Em suas palavras, “uma das mais importantes
inovações teóricas de Deleuze diz respeito à questão da multiplicidade: os
indivíduos e as classes nada mais são do que a captura, a integração e a
diferenciação da multiplicidade” (LAZZARATO, 2006. p.61). De acordo com ele,
as sociedades se configuram de forma a controlar e limitar as multiplicidades,
para criar grupos relativamente homogêneos imbuídos de propósito. As técnicas
de controle reforçadas pelos dispositivos impõem tarefas ou condutas para
viabilizar a produção dos bens necessários, sob a condição de que a
multiplicidade seja pouco numerosa e atue em um espaço bem definido e
limitado (a escola, a fábrica, o hospital, etc.). (idem, p.64).
73
As técnicas disciplinares são acompanhadas das técnicas biopolíticas (saúde
pública, políticas familiares, sexualidade, etc.), que são exercidas como gestão
da vida de uma multiplicidade, seja qual for. Assim, através dos dispositivos
disciplinares (escola, prisão, hospital, fábrica) e dos dispositivos biopolíticos
(estado de bem-estar social, saúde pública, definição social de família),
multiplicidades humanas são integradas e homogeneizadas, formalizadas dentro
das estruturas existentes.
O conjunto de dispositivos disciplinares e biopolíticos, e os indivíduos a eles
sujeitados, compõe o que Lazzarato define como sociedade disciplinar
(baseando-se nas contribuições de Foucault e Deleuze).
É preciso refletir com cuidado se, e de que maneira, o Google é um
dispositivo de controle disciplinar e biopolítico. Apesar de capturar, orientar,
determinar, interceptar, modelar e controlar multiplicidades, direcionando
condutas, opiniões e discursos, o Google não opera da mesma maneira que
dispositivos disciplinares tradicionais como a escola e a família. O buscador atua
de forma menos evidente, modulando a oferta de informações de acordo com o
perfil de usuário. É um tipo de controle que, ao menos em sua forma, parece
diferente daqueles outros que buscam oprimir, reprimir ou recriminar diretamente
certos comportamentos e condutas.
Conforme entendida por Foucault, Deleuze e Lazzarato, a sociedade de
controle se superpõe à sociedade disciplinar, que surge como passo seguinte
nas formas de organização das multiplicidades:
Como tanto o fora [os devires possíveis, as multiplicidades] e a potência de proliferação da diferença rompem o regime de encerramento, essas forças podem apenas ser moduladas. Não se trata, portanto, de discipliná-las em um espaço fechado [como na sociedade disciplinar], mas de modulá-las em um espaço aberto. O controle se superpõe, dessa maneira, à disciplina (LAZZARATO, 2006, P.72).
Nas sociedades disciplinares, os diferentes meios de confinamento
(dispositivos) pelos quais passa o indivíduo são variáveis independentes: supõe-
se que a cada vez ele recomece do zero, e a linguagem comum a todos esses
meios existe, mas é analógica. Nas sociedades de controle, a disciplina
permanece, porém enquanto os confinamentos disciplinares são moldes
74
distintos, os controles são uma modulação – uma moldagem auto-deformante
que muda continuamente (DELEUZE, 2013. p.225).
O Google, enquanto dispositivo da sociedade de controle, produz olhares –
faz enxergar e ignorar. Porém faz isso não segundo uma lógica disciplinar, de
censura explícita. Ele modula os resultados de acordo com cada perfil de
usuário, e também de acordo com o contexto social no qual está inserido. É uma
modulação fluida e sempre em fluxo.
É uma causa que se atualiza em seu efeito, que se integra em seu efeito, que se diferencia em seu efeito. Ou melhor, a causa imanente é aquela cujo efeito a atualiza, integra e diferencia. Por isso, nela há correlação, pressuposição recíproca entre a causa e o efeito, entre máquina abstrata e os agenciamentos concretos (é a esses que Foucault reserva mais frequentemente o nome de “dispositivos”) (DELEUZE, 2013. P.46).
A cada vez que um usuário faz uma nova busca, as condições de controle
são atualizadas, pois o Google é abastecido com novas informações, permitindo
assim a atualização dos parâmetros de seleção de resultados. O Google, munido
de novas informações, pode filtrar de forma ainda mais personalizada os
resultados de busca, exercendo controle de forma cada vez mais eficiente.
SUBJETIVAÇÃO E SEMIÓTICA A-SIGNIFICANTE
Os motores de busca da web são dispositivos da sociedade de controle, e
portanto têm influência na “condução das condutas”. Mas como, exatamente?
De acordo com Maurizio Lazzarato, a produção de subjetividade no capitalismo
opera de duas maneiras, que Deleuze e Guattari denominam dispositivos de
sujeição social e servidão maquínica (LAZZARATO, 2014, p.17).
Os processos de sujeição social dotam os indivíduos de uma subjetividade,
atribuindo uma identidade, sexo, corpo, profissão e nacionalidade. Operam
através de dispositivos disciplinares e de controle, e através da linguagem, em
uma camada semiótica significante e representativa, para produzir um “sujeito
individuado”.
Por outro lado, na servidão maquínica, o indivíduo não é mais instituído como
um “sujeito individuado”. Ao invés disso, ele é considerado uma engrenagem
intercambiável, uma peça, “um componente do agenciamento ‘empresa’, do
agenciamento ‘sistema financeiro’, do agenciamento mídia, do agenciamento
75
‘Estado de bem-estar social’ e de seus ‘equipamentos coletivos’ (escolas,
hospitais, museus, teatros, televisão, internet, etc.)”. (idem, p.28).
É na interseção da sujeição social e servidão maquínica que Lazzarato julga
operar a produção de riqueza (e produção, pura e simplesmente) do capitalismo:
A sujeição produz e sujeita indivíduos, enquanto na servidão, [in]divíduos se tornam ‘dividuais’, e as massas se tornam amostras, dados, mercados ou ‘bancos’. O dividual ‘funciona’ na servidão da mesma maneira que os componentes ‘não humanos’ das máquinas técnicas, como procedimentos organizacionais, semióticas e assim por diante (LAZZARATO, 2014, P.29).
A sujeição fabrica um “sujeito individuado” vinculado a um objeto externo
(uma máquina, um dispositivo de comunicação, o algoritmo do Google ou
Facebook) de que o sujeito faz uso e com o qual ele age. A máquina-objeto-
algoritmo funciona como “meio” ou mediação de sua ação ou uso. “Em
contrapartida, a servidão maquínica não se constrange com os dualismos
sujeito/objeto, palavras/coisas ou natureza/cultura. O dividual não se opõe às
máquinas, nem faz uso de um objeto externo; ele é adjacente às máquinas”
(LAZZARATO, 2014, p.29). Juntos, sujeição social e servidão maquínica
constituem dispositivos “homens-máquinas”, nos quais homens e máquinas são
meras partes recorrentes e intercambiáveis de um processo de produção,
comunicação, consumo, etc.
O dividual é mais do que uma peça conectada ao agenciamento maquínico
– os componentes da subjetividade do “sujeito individuado” são despedaçados,
fragmentados para e pelos acoplamentos às máquinas. “Inteligência, afetos,
sensações, cognição, memória e força física são agora componentes cuja
síntese não reside mais na pessoa, mas, sim, no agenciamento ou no processo
(empresa, mídia, serviços públicos, educação escolar, etc.)”. (idem, P.30).
Ao coletar dados de cada usuário, categorizando-os e organizando-os em
fragmentos (data mining), o Google pode usá-los para modular os resultados de
pesquisa de forma personalizada. O usuário é parte da máquina, um agente de
fornecimento de dados e inputs, um componente.
Lazzarato argumenta que desde o início do século XX a governamentalidade,
no sentido de Foucault, significa cada vez mais o “governo dos dividuais”.
Dispositivos como o Google e Facebook (mas também antes deles, a televisão
e a propaganda moderna) produzem e/ou baseiam-se em bancos de dados que
76
reúnem, selecionam e vendem milhões de dados sobre o comportamento,
aquisições, hábitos, gostos e preferências dos indivíduos.
Essas informações concernem os ‘dividuais’, cujos perfis, compostos pelo cruzamento desses dados, são meros relés de entradas e saídas, de input e output nas máquinas de produção-consumo (LAZZARATO, 2014, p.37). (...). De uma perspectiva semiótica, a servidão maquínica e a sujeição social implicam regimes distintos de signos. A sujeição mobiliza semióticas significantes, em particular a linguagem que, destinada à consciência, mobiliza representações com vistas a constituir um sujeito individuado (“capital humano”). A servidão maquínica, por sua vez, funciona baseada em semióticas a-significantes (índices do mercado de ações, moeda, equações matemáticas, diagramas, linguagens de computador, contas nacionais e de corporações, etc.) que não envolvem a consciência e as representações e não têm o sujeito como referente (LAZZARATO, 2014, p.39).
Enquanto a sujeição social opera em uma camada semiótica significante e
representativa, a servidão maquínica emprega técnicas de modelização e de
modulação que assumem o controle dos seres humanos “por dentro”, no nível
pré-pessoal (no nível pré-cognitivo e pré-verbal), e “por fora”, no nível
suprapessoal, ao atribuir a eles certos modos de percepção e sensibilidade e
fabricar o inconsciente. A formatação exercida pela servidão maquínica (através
de semióticas a-significantes) intervém no funcionamento básico do
comportamento perceptivo, sensitivo, afetivo, cognitivo e linguístico.
Lazzarato resume a distinção de diferentes tipos de semióticas realizada por
Guattari ao longo de sua obra, que não são medidas ou hierarquizadas segundo
a linguagem humana: codificações a-semióticas “naturais” (sistemas cristalinos
e DNA, por exemplo), semiologias significantes, incluindo semiologias simbólicas
(ou pré-significantes, gestuais, rituais, produtivas, corporais, musicais, etc.),
semiologias de significação e, finalmente, semióticas a-significantes (ou pós-
significantes).
Semióticas a-significantes não são prisioneiras das significações e dos
sujeitos individuados que as carregam. Elas deslizam em vez de produzir
significações ou representações (LAZZARATO, 2014, p.72). É a linguagem das
máquinas, dos diagramas, das contas e equações matemáticas, cujas
representações não têm o sujeito como referente. Seus signos funcionam como
input e output da máquina, sem passar pela denotação, representação e
significação. Esses fluxos de signos a-significantes mobilizam fluxos reais,
77
produzem mudanças de condições e permitem às máquinas “falarem” e “se
expressarem” com o humano, com outras máquinas e com fenômenos reais.
Ao modular o que será exibido para cada usuário, o Google modula a
percepção do “sujeito individuado” e modeliza sua sensibilidade. Como
demonstrado anteriormente, estes serviços da web são dispositivos da
sociedade de controle, mas operam nessa dimensão não-discursiva, a-
significante e não-representantiva.
MEMÓRIA, DESEJO E IDENTIDADE
Mas quais implicações trazem a modelização e a modulação da percepção
e sensibilidade do “sujeito individuado” realizada pela lógica do algoritmo do
Google? Implica em uma captura do desejo e, consequentemente, no
condicionamento de possíveis.
Lazzarato argumenta que o desejo na sociedade capitalista contemporânea
não é uma expressão da subjetividade humana – ele emerge do agenciamento
de fluxos humanos e não humanos, de uma multiplicidade de máquinas técnicas
e sociais. “O desejo desterritorializado nada sabe de ‘pulsões’ e de ‘conatus’. Em
vez disso, ele deve ser relacionado ao possível, à criação de novas potências, à
emergência do que parece ser impossível dentro do quadro da dominação
capitalista” (LAZZARATO, 2014, p.49).
O desejo não é uma força natural ou espontânea, mas é artificial e maquínico
(DELEUZE e GUATTARI, 1997). O desejo não vem de dentro do sujeito. Ele
emana de um fora, de um encontro, de um acoplamento, de um agenciamento.
Nunca se deseja apenas uma pessoa ou uma coisa, mas também os mundos e
os possíveis que se sentem neles. Assim, o desejo é, antes de tudo, coletivo.
Para avançar na reflexão sobre os processos de produção de desejo do
Google, precisamos retomar resumidamente o que já se viu anteriormente sobre
como os filtros de personalização de resultados de busca funcionam. O sistema
de construção de perfil do usuário do Google opera através da captura de
diversos dados, que são processados e usados para modular multiplicidades. O
perfil do usuário, conforme entendido pelo algoritmo, “molda” os resultados que
78
o Google irá apresentar. No entanto, é preciso também apontar o óbvio contido
nesta afirmação – o inverso – ou seja, o Google também “molda” o usuário.
Ao fazer uso de um objeto ou tecnologia, o sujeito não está apenas
interagindo com ele em sua dimensão instrumental, mas também está em
acoplamento com sua dimensão social e maquínica. Ao pegar uma chave de
fenda para apertar um parafuso, o sujeito está fazendo uso do instrumento para
um objetivo particular, mas há também modos de uso determinados pelo objeto,
tanto no sentido físico quanto social – não se pode usar uma chave de fenda
para pegar comida, somente a mão humana acopla com a chave de fenda, e o
instrumento encaixa em determinados objetos e não em outros. Entender uma
mídia como um instrumento de mão única, a ser “usado” por alguém, faz
prevalecer seu aspecto maquínico em detrimento do seu aspecto de aparato, no
sentido desenvolvido por Flusser:
A análise desta oposição parte da concepção de instrumento como um objeto produzido para um determinado propósito, ou, nas palavras de Flusser, um objeto ‘bom para algo’. Este ‘algo’, motivo e propósito do instrumento, a um só tempo, faz parte e dá forma ao instrumento de modo a formatar tudo que pode ser gerado por meio dele (BAIO, 2013. p.09 apud Flusser, 1994, p.189).
A concepção de funcionário de Vilém Flusser é que um usuário que acredita
“usar” o aparato como instrumento de seu propósito não percebe que o resultado
de sua ação está condicionado às virtualidades das formas previamente
programadas no aparato. “Na tentativa de objetificar o aparato, o funcionário
acaba sendo usado pelos modelos de conhecimento, poder e estética que estão
inscritos na máquina, sendo assim incorporado ao seu programa” (BAIO, 2013.
p.9).
A máquina ou, em nosso caso específico, o sistema lógico que está inscrito
no algoritmo do Google, é um agenciamento digital e semiótico que, antes de ser
técnico, é diagramático – ou seja, embutido por diagramas, planos e equações.
Deleuze define diagrama como uma máquina abstrata, quase muda e cega, mas
que faz ver e falar. “Todo diagrama é intersocial, e em devir. Ele nunca age para
representar um mundo preexistente, ele produz um novo tipo de realidade, um
79
novo modelo de verdade” (DELEUZE, 2013. p.45). As funções diagramáticas
fazem inscrições que são operacionais antes de serem representativas.
Interagir com um aparato técnico consiste, portanto, em ser sujeitado
àquelas outras dimensões não instrumentais inscritas na máquina. “Em um
mundo maquinocêntrico, para falar, ver, cheirar e agir, fazemos corpo com as
máquinas e as semióticas a-significantes. É nesse sentido que as semióticas a-
significantes constituem focos de enunciação e vetores de subjetivação.”
(LAZZARATO, 2014, P.78 – grifo nosso).
Ao modular os resultados de buscas e restringir as linhas de fuga e os
devires possíveis, o dispositivo ultrapassa sua dimensão instrumental de trazer
à vista aquilo que o usuário procura. Ele também define quais devires estão à
disposição. Quais possíveis são possíveis. Ao “fazer uso” do Google, o “sujeito
individuado” incorpora a dimensão diagramática lá inscrita. É um acoplamento,
que captura desejos e condiciona os possíveis.
A web não é somente um meio de informação que transmite aquilo que é no
presente ou que está por vir no futuro imediato, como faça talvez um jornal diário,
que tem uma conexão causal com o passado. A web mantém vivo em arquivo
aquilo que está no passado – ao buscar uma informação na web, não se está
procurando apenas o presente, mas também o passado, aquilo que já foi. É
nesta perspectiva que o filtro personalizado de buscas captura e estabelece
estratos visíveis (e invisíveis) de presente e também de passado, propondo um
tipo de “memória algoritmizada”.
O funcionamento do algoritmo de seleção de resultados, sua lógica, foi
criada para gerar repetição, em alguma medida, daquilo que o usuário já
conhece ou se interessa. Desenvolvido pensando usuários como consumidores
ao invés de cidadãos, o algoritmo promove um eterno retorno ao já conhecido.
É bastante claro que este modus operandi afeta o equilíbrio cognitivo entre o
fortalecimento de ideias existentes e a aquisição de novas ideias.
O filtro-bolha tem a tendência de cercar o usuário de ideias com as quais já
há familiaridade, reforçando aquilo que já se conhece em detrimento de um
desconhecido, de um fora. Existe uma tendência humana a acreditar no que
80
reforça noções preexistentes, fazendo enxergar o que se quer ver, chamada viés
de confirmação. Jean Piaget, uma das principais figuras da psicologia do
desenvolvimento, descreve o aprendizado como um processo de assimilação e
acomodação. O filtro personalizado de resultados de busca tende a amplificar
drasticamente o viés da confirmação – de certa forma, é este seu objetivo ao
modular multiplicidades da web e faze-las convergir com aquilo que o usuário
espera.
Se o aprendizado é, na definição de Piaget, um encontro com o que não se
conhece, com narrativas, discursos e ideias que nos são estranhas, o tipo de
filtro que o Google interpõe entre quem faz uma busca na internet e os resultados
dessa busca dificulta o usuário de ter esses encontros. Ao afastar conteúdos que
estão fora da esfera do conhecido pelo usuário, o Google dificulta o encontro
com o outro – com a alteridade em si. A personalização de resultados de busca
é a construção de um ambiente composto inteiramente do desconhecido
adjacente – trazendo à vista somente aquilo que não pode abalar o que já se
conhece, mas que parece ser nova informação. Neste contexto, Pariser cita uma
frase magistral de Pablo Picasso quanto às máquinas de computação de seu
tempo, que com a personalização de resultados de busca ganha um novo
significado: “Os computadores são inúteis. Eles só nos dão respostas”.
Esta é mais uma das formas pelas quais os filtros personalizados podem interferir na nossa capacidade de compreender adequadamente o mundo: eles alteram a noção que temos de mapa. Ainda mais perturbador é o fato de removerem suas áreas em branco, transformando os deconhecidos conhecidos em desconhecidos desconhecidos (PARISER, 2012. p.96).
Portanto, pode-se dizer que a lógica de funcionamento do algoritmo do
Google, como dispositivo, limita o acesso a discursos desconhecidos, e opera
uma subjetivação que reforça os discursos e narrativas com que o usuário já tem
familiaridade. Mais do que isso, a lógica de funcionamento do algoritmo do
Google promove um tipo de sensibilidade e de percepção que reforça o que é
familiar e afasta a alteridade.
Robert Putnam, professor de Políticas Públicas da John F. Kennedy School
of Government da Harvard University, identifica em seu livro “Bowling Alone: The
Collapse and Revival of American Community”, dois tipos de capital social: o
81
capital de “ligação”, orientado para o interior de grupos já formados e criados,
que fortalece laços já existentes, agindo como uma força centrípeta e unificando
ainda mais aquele grupo; e o capital social de tipo “ponte”, que é gerado quando
há integração entre diferentes grupos sociais, agindo como uma força centrífuga
que conecta o grupo ou indivíduo a outros grupos e outros indivíduos que são
diferentes e diversos do primeiro (PUTNAM, 2000, p.23).
A internet, enquanto tecnologia, permite a interação entre usuários de
qualquer localização geográfica e qualquer matiz cultural que esteja conectado
à rede. No entanto, no espaço virtual, serviços da web que fazem uso de filtros
personalizados, como já vimos anteriormente, limitam as linhas de fuga e fazem
convergir os conteúdos ao que é familiar. Esta lógica de operação conecta com
mais facilidade usuários com discursos, narrativas e idéias semelhantes do que
usuários que pensam de forma diversa. Assim, a rede estabelece um mecanismo
no qual a conexão entre usuários que pensam de forma semelhante ficam
ligados mais facilmente, independentemente de localização geográfica, e
refratando usuários diferentes. É um modus operandi que favorece capital social
de ligação, e desfavorece capital social do tipo ponte.
Há apenas alguns anos, parte da esquerda afirmava que a mídia tradicional
não podia mais controlar a política face às “novas mídias”. A nova esfera pública
seria baseada em mídias sociais, com conteúdo gerado por usuários e sem
liderança. De acordo com Angela Nagle, doutura na Escola de Comunicações
da Dublin City University e especialista em sub-culturas online, essa rede se
materializou, mas ajudou a levar a direita, não a esquerda, ao poder. “Aqueles
da esquerda que fetichizaram a rede espontânea centrada na Internet e sem
líderes, declarando antiquadas todas as outras formas de fazer política, falharam
em perceber que a forma sem líder realmente nos dizia pouco sobre o conteúdo
filosófico, moral ou conceitual dos movimentos envolvidos” (NAGLE, 2017, p.27).
Redes sociais (Facebook, Twitter, etc.) que constituiriam essa “nova esfera
pública”, assim como o Google, fazem uso de algoritmos personalizados para
filtrar o conteúdo. Agora que são águas passadas, é evidente como a mera
potencialidade democrática da internet enquanto tecnologia nada significa se o
82
modus operandi desta, na prática, é centralizador e intensificador de laços
identitários (em detrimento de relações de alteridade).
Há muitas explicações possíveis para o surgimento de uma nova
sensibilidade de direita, especialmente nas gerações mais jovens, e que mudou
rapidamente o discurso político mais para a direita do que qualquer um poderia
imaginar. É inegável, no entanto, que ao menos nos EUA, a “nova direita” surgiu
a partir da internet. A “alt-right” se desenvolveu em oposição à cultura on-line
inimiga de esquerda, que fazia território especialmente nas lutas identitárias de
raça e gênero. A esquerda on-line tornava a retórica “cada vez mais anti-
masculina, anti-brancos, anti-heterosexual, anti-cisgênero” (NAGLE, 2017.
p.68). Segundo a autora, todas as novas identidades, da esquerda e da direita,
podem ser entendidas como uma resposta a uma resposta a uma resposta, cada
um respondendo com raiva à existência do outro (NAGLE, 2017. p.7).
A esquerda on-line estadunidense – e, certamente, a esquerda brasileira que
se deixa conduzir por discursos de países centrais, em especial a esquerda
universitária de classe média – fez valer nas redes sociais uma obscura cultura
de acusação e censura, que emana das políticas de identidade, nas quais “desde
comer macarrão até ler Shakespeare foi declarado ‘problemático’, e até os atos
mais mundanos ‘misóginos’ ou ‘supremacistas brancos’” (NAGLE, 2017. p.8). A
direita on-line estadunidense se organizou em oposição aos avanços desta
esquerda identitária, que tornou as plataformas de mídia social um tipo de
panóptico no qual os “menos progressistas” viviam com medo de ofenderem
alguém e se tornarem alvo público de expiação: “As encarnações particulares da
esquerda e da direita on-line que existem hoje são, sem dúvida, um produto
desse estranho período de ultra-puritanismo. Esses obscuros inícios políticos on-
line tornaram-se formativos para toda uma geração e impactaram as
sensibilidades e até a linguagem mainstream” (NAGLE, 2017. p.8).
83
3. ESTUDO DE CASO – GOOGLEBOT
3.1. PESQUISAS ANTERIORES SOBRE PERSONALIZAÇÃO DE RESULTADOS DE
BUSCA NA WEB
A personalização de resultados de busca na web levantou preocupações
crescentes sobre a possibilidade dos usuários estarem recebendo apenas os
resultados favoráveis ou em conformidade com seus interesses e visões de
mundo (enquanto outros resultados potencialmente importantes permaneceriam
ocultos), efeito conhecido como filtro-bolha. Eli Pariser demonstrou durante sua
apresentação em uma conferência TED em 2011 que, durante a Revolução
Egípcia, alguns usuários que pesquisavam “Tahrir Square” (em tradução livre,
Praça Tahrir, principal local de concentração de manifestações políticas contra
o governo da época) haviam recebido links para notícias sobre protestos,
enquanto outros recebiam links para agências de viagens. Demonstrações como
esta levaram à popularização do conceito de filtro-bolha e impulsionaram o
crescimento de mecanismos de busca alternativos que não personalizam
resultados, como o DuckDuckGo. Entretanto, naquele momento (HANNAK et al.,
2013, p.1). ainda havia pouca quantificação científica da extensão da
personalização de resultados de busca.
Foi neste contexto que alguns grupos de pesquisa começaram a trabalhar
para tentar mensurar a personalização de resultados de busca por serviços da
web como o Google, sendo o mais proeminente sediado na Northeastern
University, na cidade de Boston (EUA), em conjunto com pesquisadores da
Technical University of Denmark, Brown University e do AT&T Labs–Research.
O primeiro experimento do grupo sediado na Northeastern University consistiu
na realização de consultas controladas no Google para identificar quais recursos
(sinais, características, dados) do usuário acionam a personalização de
resultados.
Cada um dos experimentos realizados pelo grupo segue um padrão
semelhante, que consiste na execução dos seguintes procedimentos: (1) criação
de um determinado número de contas do Google; (2) execução de um
determinado número de consultas idênticas no Google em cada conta, uma vez
84
por dia, por um determinado número de dias, salvando cada um dos resultados;
(3) comparação dos resultados das consultas para determinar se os mesmos
resultados estão sendo exibidos na mesma ordem para cada conta. Se os
resultados variarem entre as contas, as alterações podem ser atribuídas à
personalização vinculada ao sinal ou recurso experimental em teste. Em alguns
dos tratamentos experimentais também foram realizadas consultas sem conta
do Google, para simular usuários sem cadastro no buscador (HANNAK et al.,
2013, p.3).
MENSURANDO PERSONALIZAÇÃO EM PESQUISAS NA WEB
O objetivo da pesquisa do grupo da Northeastern University foi identificar
quanto os algoritmos de personalização de resultados efetivamente alteram os
resultados para cada usuário. “Se o delta entre os resultados ‘normais’ e
‘personalizados’ for pequeno, as preocupações com o efeito filtro-bolha
poderiam estar equivocadas” (HANNAK et al., 2013, p.3).
Apesar da metodologia de pesquisa deste grupo ser relativamente simples,
houve a necessidade de identificar e controlar várias fontes de ruído que
poderiam prejudicar a confiabilidade e reprodutibilidade dos resultados
analisados. Estas fontes de ruído são (HANNAK et al., 2013, p.4):
• Atualizações do índice de pesquisa: buscadores atualizam seus
índices constantemente, portanto consultas realizadas em momentos
diferentes do mesmo dia podem retornar resultados diferentes sem
influência de personalização de busca. Para contornar essa fonte de
ruído, o experimento buscou uma solução técnica para realizar todas
as consultas simultaneamente.
• Infraestrutura distribuída: serviços de pesquisa em larga escala
possuem vários datacenters (centrais de bancos de dados).
Diferentes datacenters podem gerar resultados diferentes para as
mesmas perguntas. Essas diferenças podem ser atribuídas a
inconsistências na pesquisa de dados de cada datacenter. Para
eliminar esta fonte de ruído, os pesquisadores direcionaram todo o
85
tráfego de consulta para um endereço IP do Google específico. Isso
elimina erros decorrentes de diferenças entre datacenters.
• Geolocalização: serviços de busca inferem a localização do usuário
através de seu endereço IP e podem usar esta informação para
personalização de resultados. Para medir apenas a personalização
de resultados decorrente dos sinais não geográficos do usuário,
todas as consultas foram enviadas a partir da mesma rede.
• Teste A/B: Por vezes, os serviços de pesquisa na web realizam testes
A/B, onde determinadas funcionalidades são disponibilizadas para
alguns usuários e não para outros, de forma que estas empresas
possam medir quais configurações do serviço provocam mais
cliques. Não foi encontrada solução definitiva para esta questão.
Para efeitos de comparação, em todos os testes também foram
medidos os resultados de pesquisa de consultas sem cadastro no
Google.
• Efeito de transferência (carry-over effect): buscadores consideram
pesquisas imediatamente anteriores àquela sendo realizada para
personalizar resultados, pois compreendem que usuários realizam
pesquisas sequenciais para refinar resultados de busca. Portanto, se
um usuário realizar a consulta A e em seguida a consulta B, os
resultados de B poderão ser influenciados pela pesquisa anterior A.
Os pesquisadores da Northeaster University nomearam este
fenômeno de carry-over effect, ou efeito de transferência. De acordo
com os pesquisadores, as páginas de resultados têm, em média,
70% de resultados comuns quando o intervalo entre consultas é
inferior a 10 minutos. Após este intervalo, o efeito de transferência
cessa. Todas as consultas nos experimentos realizados pelo grupo
foram realizados com ao menos 11 minutos de intervalo, evitando
assim o efeito de transferência (HANNAK et al., 2013, p.4).
O grupo de pesquisadores da Northeastern University realizou os seguintes
experimentos para identificar quais recursos do usuário acionam personalização,
86
(resultado positivo equivale a identificação de personalização, enquanto
resultado negativo significa ausência de personalização):
Quadro 2 - Resultados do experimento realizado pelo grupo da Northeastern University
Sinal analisado Resultado Observações
Usuário logado vs não logado Positivo Resultados iguais,
porém com ordenação
diferente (2 resultados
reordenados)
Rastreamento por cookies Positivo Resultados iguais,
porém com ordenação
diferente (2 resultados
reordenados)
Navegador Negativo
Sistema operacional Negativo
Atributos da conta do usuário Negativo
Localização por IP Positivo Ao menos 1 resultado
diferente por consulta, 2
reordenações de
resultados em média.
Fonte: Elaborado pelo autor com base nas informações do artigo “Measuring personalization of
web search”, 2013, de autoria dos pesquisadores da Northeastern University.
Ao comparar páginas de resultados de pesquisa para a mesma consulta, é
possível observar dois aspectos principais: resultados e ordenação. Resultados
são os links sugeridos pelo buscador, enquanto a ordenação se limita à posição
de um resultado na página. Os experimentos iniciais deste grupo demonstraram
que há personalização nos resultados de pesquisa, entretanto ela afetaria mais
a ordenação do conteúdo na página do que os resultados propriamente ditos.
87
Em seguida, o grupo da Northeaster examinou se o histórico de atividades
de uma conta aciona a personalização de resultados de busca. Eles
consideraram três tipos diferentes de histórico: pesquisas anteriores sem clicar
em resultados, pesquisas anteriores em que o usuário clicou em um dos
resultados e histórico de navegação na web. Em todos os casos, tomaram os
cuidados descritos anteriormente para evitar o efeito de transferência (HANNAK
et al., 2013, p.7). Não foi observada pelo grupo qualquer personalização dos
resultados de pesquisa baseada em histórico, tanto nos resultados quanto em
sua ordenação:
Ficamos surpresos que os testes baseados em histórico não revelaram personalização na pesquisa do Google. Uma explicação para essa descoberta é que o histórico da conta pode impactar apenas os resultados da pesquisa por um breve período de tempo, ou seja, o efeito de transferência é a extensão da personalização orientada pelo histórico na pesquisa do Google (HANNAK et al., 2013. p.8).
O resultado negativo poderia ter ainda outras causas além desta levantada
pelos pesquisadores (de que a personalização estaria limitada ao efeito de
transferência). O algoritmo de cálculo de relevância do Google considera
centenas de sinais do usuário, e apesar de ser bastante provável que
determinados sinais tenham mais “peso” do que outros na composição da página
de resultados, é possível que apenas um deles não seja suficiente para ativar a
personalização de resultados de forma observável em laboratório. O
experimento tinha a intenção de verificar quais sinais ativam a personalização,
no entanto, o mais provável é que os sinais sejam considerados em conjunto,
em rede, o que impediria que a personalização fosse detectada facilmente em
experimento controlado e, especialmente, ao isolar em cada experimento um
determinado sinal para verificação de personalização.
Esta contestação quanto à validade dos resultados obtidos pela estratégia
metodológica de isolamento dos sinais é reforçada por outra descoberta
realizada pelo mesmo grupo, no mesmo conjunto de experimentos. Os
pesquisadores coletaram dados reais de resultados de pesquisa de usuários
88
através do AMT 17 (Amazon’s Mechanical Turk), onde foi oferecida uma
recompensa de US$2 por participação no estudo. Foram recrutados 200
participantes através do AMT, com idades auto declaradas entre 12 e 48 anos.
Os usuários foram instruídos a configurarem seus navegadores para usar um
proxy HTTP controlado pelos pesquisadores e, em seguida, foram direcionados
para uma página da web que realizava automaticamente 80 buscas no Google.
Os dados coletados pelos dos usuários foram comparados aos dados coletados
em laboratório, e foi possível observar ampla personalização. Resultados dos
usuários tiveram uma probabilidade de 11,7% maior de diferirem uns dos outros
do que os resultados obtidos em testes controlados (HANNAK et al., 2013, p.5).
Além dessa diferença entre os resultados obtidos em testes controlados e
de usuários reais, foi observado que alguns termos ativam mais personalização
do que outros. Consultas relacionadas a negócios locais e política (por exemplo,
“Grécia”, “direitos humanos” ou “loja de ferragens”) são mais personalizadas do
que consultas ao estilo “o que é X?” (por exemplo, “o que é lupus?”, “ipad 2”,
“fatos sobre o monstro de gila”). Aproximadamente 82% dos resultados para
consultas "o que é X?" são idênticos, enquanto apenas 43% dos resultados para
"gadgets" são idênticos. “No geral, ‘política’ é a categoria de consulta mais
personalizada, seguida por ‘lugares’ e ‘gadgets’” (HANNAK et al., 2013, p.8).
O experimento também demonstrou que há diferença na volatilidade
(alteração do resultado ou sua ordenação) de acordo com sua posição.
Resultados exibidos no topo da página são menos voláteis, porém podem mudar
de lugar na ordenação. Cerca de 73% dos resultados na posição 1 (topo da
página) que foram diferentes para usuários vieram da posição 2, e 58% dos
resultados na posição 1 que foram alterados passaram para a posição 2. O
17 O Amazon Mechanical Turk é uma ferramenta que permite que indivíduos e empresas (conhecidos como solicitantes) coordenem trabalho humano para executar tarefas que os computadores atualmente não conseguem realizar. Os solicitantes publicam trabalhos conhecidos como Human Intelligence Tasks (HITs), como identificar conteúdo específico em uma imagem ou vídeo, redigir descrições de produtos ou responder a perguntas, entre outros. Os trabalhadores, coloquialmente conhecidos como Turkers ou crowdworkers, navegam entre tarefas existentes e os completam em troca de uma taxa definida pelo solicitante.
89
resultado na 7ª posição é o mais volátil (33% de alteração) (HANNAK et al., 2013,
p.9).
IMPACTO DA GEOLOCALIZAÇÃO NA PERSONALIZAÇÃO DE BUSCA NA WEB
A relação entre geolocalização e personalização não havia sido detalhada
no primeiro experimento do grupo de pesquisadores da Northeastern University,
então o grupo realizou um segundo experimento dedicado a esta questão. O
experimento levou em consideração todos os ruídos identificados anteriormente
e aplicou as mesmas soluções, exceto para o ruído causado pela geolocalização
a partir do IP do usuário, que é central neste segundo estudo. A metodologia
básica consiste no envio de consultas idênticas ao Google, no mesmo momento,
a partir de locais diferentes (HANNAK et al., 2015, p.02).
Foram escolhidos 66 locais para o estudo, distribuídos em 3 granularidades:
• Nacional: 22 estados dos EUA.
• Estadual: 22 condados do estado de Ohio, EUA (cada condado é
separado por aproximadamente 100 milhas).
• Distrital: 15 distritos eleitorais no condado de Cuyahoga, o mais
populoso de Ohio (separados, em média, por 1 milha).
Os termos de pesquisa selecionados foram categorizados em 3 níveis,
sendo 33 consultas locais (“banco”, “hospital”, “KFC”), 87 consultas controversas
(“aquecimento global é verdade?”, “autismo causado por vacinas”, “casamento
gay”), e 120 nomes de políticos (membros do legislativo local, estadual e federal,
bem como o presidente e vice presidente na época do estudo, Barack Obama e
Joe Biden).
Os pesquisadores realizaram consultas controversas idênticas com a
mesma coordenada de GPS em 50 máquinas diferentes do Planet Lab nos EUA
e observaram que 94% dos resultados da pesquisa recebidos são idênticos. Isso
confirmaria que a pesquisa do Google personaliza os resultados da pesquisa em
grande parte com base nas coordenadas de GPS fornecidas, em vez do
endereço IP. Em vista desta constatação, ao contrário do experimento anterior,
90
este experimento foi realizado apenas em smartphones. Todos os tratamentos
experimentais foram repetidos por 5 dias para verificar a consistência ao longo
do tempo (HANNAK et al., 2015, p.03).
Os resultados obtidos indicaram que consultas locais são muito mais
personalizadas do que as consultas controversas e políticas. Os resultados
exibidos variam entre 18% e 34% com base na localização para consultas locais,
enquanto 6 a 10 dos resultados exibidos são apresentados em ordem diferente.
As consultas controversas e políticas exibem pequenas diferenças de acordo
com a localização, mas as quantidades de alteração de resultados e de
reordenações ficaram muito próximas dos níveis de ruído, dificultando a
afirmação de que essas alterações se devem à personalização.
A segunda constatação do estudo é que a personalização aumenta com a
distância. A alteração nos resultados é especialmente alta entre os níveis de
distrito e estado, com 2 resultados de pesquisa adicionais alterados e 4
reordenados. No geral, a personalização baseada em localização varia
drasticamente por consulta. O número de resultados da pesquisa que são
alterados varia entre 5 e 17 (17 é o total de resultados de uma página de
pesquisa). Como era de se esperar, termos gerais como “escola” ou “correio”
são mais personalizados por localização do que nomes de marca como
“Starbucks” ou “KFC” (HANNAK et al., 2015, p.05).
Assim como no experimento anterior, o grupo de pesquisadores optou por
isolar a maior quantidade de variáveis possíveis e verificar a variação dos
resultados de busca com base apenas na localização e termos de busca. Neste
contexto, é preciso esclarecer que os resultados de busca referentes às
consultas de termos controversos e políticos não apresentaram variação
relevante apenas em relação à localização – ou seja, a localização enquanto
fator isolado não leva à personalização de termos controversos e políticos.
Permanece necessário demonstrar como a personalização de resultados de
pesquisa realizada pelo Google ocorre quando levados em conta todos os sinais,
em rede.
91
AUDITORIA DA PERSONALIZAÇÃO DE PÁGINAS DE RESULTADOS DE MECANISMOS
DE PESQUISA RELACIONADAS A POLÍTICA
Com o objetivo de verificar empiricamente se o Google personaliza
resultados de busca em consultas de termos relacionadas a política, o mesmo
grupo de pesquisadores da Northeaster University realizou um terceiro
experimento. Durante a semana de posse do mandato do presidente
estadunidense Donald Trump e nas quatro semanas seguintes, os
pesquisadores analisaram resultados de busca nos computadores de 187
pessoas (entre 14 e 46 pessoas por semana). Os participantes foram recrutados
através das ferramentas CrowdFlower e Prolific Academic, semelhantes ao AMT,
utilizando em pesquisa anterior para os mesmos fins (LAZER et al., 2018, p.02).
A análise foi baseada em dados coletados por uma extensão desenvolvida
pelos pesquisadores, instalada nos navegadores Chrome dos participantes da
pesquisa. A extensão realizou automaticamente a consulta de 21 nomes de
pessoas, locais e países ou grupos potencialmente relacionados com a posse
de Trump, recuperou todas as consultas realizadas no Google e suas respectivas
páginas de resultados, bem como as sugestões de preenchimento automático
fornecidas pelo buscador (LAZER et al., 2018, p.03). Essa abordagem permitiu
utilizar os navegadores de indivíduos – com seus cookies, logins e histórico de
pesquisa intactos – como um proxy para coletar dados de pesquisa
personalizadas reais.
Os pesquisadores constataram que usuários que relataram fazer uso de
vários serviços do Google (ou Alphabet, a empresa que agrega Google, Youtube
e demais unidades de negócio) e estavam cadastrados às suas contas Google
tinham personalização de páginas de resultado 19,3% maior do que outros
usuários. Encontraram também diferenças significativas entre as páginas de
resultados de pesquisa de usuários que se declaravam a favor e contra Donald
Trump. As consultas apresentaram páginas de resultados com volatilidade de
14% para usuários a favor daquele presidente, e 19% de volatilidade para
usuários que se declaravam contrários – sendo volatilidade definida neste
experimento como diferenças de resultados e também de ordenação de links
(LAZER et al., 2018, p.07).
92
Este estudo demonstrou que a personalização em buscas no Google
politicamente relacionadas é, para os autores da pesquisa, “relativamente baixa”
(até 20% dos resultados da página), e varia de acordo com o termo de busca
(LAZER et al., 2018, p.07).
EXPANSÃO DA MENSURAÇÃO DE PERSONALIZAÇÃO EM PESQUISAS NA WEB
Os pesquisadores da Northeastern University refizeram os experimentos de
2013, atualizando seus resultados e examinando não apenas o Google, mas
também o buscador Bing e o DuckDuckGo (que diz não personalizar resultados
de busca). Os resultados desta atualização de pesquisa foram apresentados em
2017, e todos os resultados anteriores foram confirmados. As mesmas fontes de
ruído foram identificadas e as soluções adotadas anteriormente foram
consideradas suficientes.
Nesta repetição do experimento anterior, testaram uma nova forma de
verificar personalização relacionada a histórico. Considerando que naquela
pesquisa anterior não encontraram indícios de personalização que considerasse
o histórico de navegação ou de pesquisa, optaram por um método que
denominaram “Targeted Domain Clicking” (Cliques em domínios específicos).
Esta variação do método anterior consistiu na criação de 10 contas, cada uma
das quais direcionada a um site de notícias bem conhecido. Um sistema
automatizado logado em cada conta executou 6 consultas relacionadas a
notícias, 4 vezes por dia (portanto, 24 pesquisas por dia, uniformemente
espaçadas ao longo do dia). Depois de cada consulta o sistema automatizado
clica no link do site de notícias atribuído àquela conta. Por exemplo, uma conta
foi atribuída a www.foxnews.com; 24 vezes por dia, essa conta executava
consultas relacionadas a notícias e sempre clicava em resultados apontando
para www.foxnews.com (se eles aparecessem nos 10 melhores resultados)
(HANNAK et al., 2017, p.20). Para os autores desta pesquisa, isso criaria um
sinal forte de personalização a ser seguido pelo buscador, pois o sistema de
busca conseguiria identificar com clareza que o usuário favorece determinado
site.
93
Mais uma vez os resultados surpreenderam o grupo de pesquisa, que não
encontrou praticamente nenhuma diferença entre as páginas de resultados,
independentemente de terem sido clicados. Este experimento foi realizado tanto
no Google quanto no Bing. Concluíram, portanto, que clicar em determinados
domínios, isoladamente, não eleva a classificação deste domínio para o sistema
de busca e portanto não afeta a personalização de resultados de busca
(HANNAK et al., 2017, p.20).
Por fim, este experimento demonstrou que o Google incorpora seus próprios
serviços na personalização da página de resultados cerca 9% das vezes, muitas
vezes em posições de alta relevância (15% dos casos na primeira posição).
Aproximadamente 12% dos links em páginas personalizadas apontam para
serviços, contra 8% em páginas não personalizadas. Essa tendência é
relativamente uniforme em todos os níveis do Google (HANNAK et al., 2017,
p.25). Isso demonstra que a personalização aumenta o número de serviços da
própria empresa vistos pelos usuários da pesquisa do Google, e parece ter
relação com a constatação da pesquisa de 2018, onde foi identificado que
usuários que fazem uso de mais serviços do Google tem suas páginas de
resultados de pesquisa mais personalizadas.
3.2. METODOLOGIA DO ESTUDO DE CASO
O algoritmo de relevância do sistema de pesquisa do Google calcula, a partir
de dezenas de parâmetros (ao menos “57 sinais”, como visto anteriormente),
quais resultados de busca são exibidos para o usuário a cada consulta. O
objetivo primeiro da presente pesquisa de mestrado é compreender a lógica do
filtro de resultados de busca do Google, mapeando de que forma e em qual
medida o algoritmo personaliza resultados de pesquisa para cada usuário.
Para atingir este objetivo, foi considerada a abordagem de análise técnica
do código do sistema. Entretanto, o algoritmo do Google é um segredo comercial,
então dissecar seu modo de funcionamento pelo código, levantando os critérios
técnicos que estabelecem o que deve ser filtrado não é viável. Foi também
considerada a possibilidade de recrutar usuários reais para que realizassem
determinadas consultas, para posterior análise. Esta metodologia permitiria a
94
verificação empírica da hipótese do Google personalizar resultados, porém
impossibilitaria o isolamento de uma série de variáveis – sistema operacional,
navegador, histórico de navegação, histórico de pesquisa no Google, etc.
Considerando estas limitações, optamos pela seguinte metodologia de
pesquisa:
1. Criação de 5 contas no Google com atributos pessoais variados: cada
uma das contas foi configurada como se fosse de um usuário real (ver
anexo 1). A quantidade de contas é suficiente para análise qualitativa
dos dados, uma vez que a análise não requer que os dados sejam
representativos de grandes populações para atingir o objetivo
esperado.
2. Criação de histórico de pesquisa para cada uma das contas: as contas
Google foram populadas com histórico de pesquisa real, baseado em
dados disponíveis na web (mais detalhes sobre este tópico adiante).
Assim, esperava-se que cada uma das contas Google pudesse
simular adequadamente um usuário frequente da web.
3. Execução de um determinado número de consultas idênticas em cada
conta, salvando as páginas de resultados de pesquisa.
4. Comparação dos resultados das consultas para determinar se os
mesmos links são exibidos na mesma ordem nas páginas de
resultados de cada conta.
5. Análise dos resultados em conformidade com os conceitos
apresentados no capítulo anterior, em especial verificando a
possibilidade de modulação de resultados a partir da noção de
sociedade de controle (Foucault / Deleuze/ Lazzarato).
Caso os resultados de pesquisa para consultas iguais sejam
significativamente diferentes entre contas, será possível afirmar que houve
personalização com base no perfil do usuário (atributos da conta Google e
histórico de pesquisa).
95
CONTROLE DE FONTES DE RUÍDO
Conforme explicitado em estudos anteriores, para que os resultados do
experimento sejam confiáveis e capazes de serem reproduzidos, é necessário
identificar e controlar as fontes de ruído. Entretanto, uma possível falha
metodológica constatada nos estudos anteriores decorre especificamente do
controle excessivo destas fontes de ruído, a ponto de isolar variáveis e manter o
sistema sem contexto suficiente para ativar a personalização de resultados de
forma semelhante à experiência real de um usuário. Sendo assim, optou-se pela
seguinte abordagem quanto às fontes de ruído:
• Atualização do índice de pesquisa: buscadores atualizam seus
índices de pesquisa regularmente. Para não eliminar completamente
esta variável, mas ao mesmo tempo manter os resultados de
consultas com contas diferentes consistentes, as consultas para
construção de histórico de pesquisa foram realizadas com intervalos
de 11 minutos. As consultas cujos objetos são alvo de análise
também foram espaçadas em 11 minutos, para evitar o efeito de
transferência (exceto nos experimentos onde houve intenção de
medir influência do efeito de transferência).
• Infraestrutura distribuída: diferenças nos resultados de pesquisa em
decorrência de inconsistências no banco de dados de cada
datacenter não são desejáveis porque não são resultados de
personalização, mas de erro. Todas as consultas foram realizadas a
partir do mesmo endereço IP, o que não elimina a possibilidade de
consultas diferentes terem sido direcionadas para datacenters
diferentes, porém reduz sensivelmente a possibilidade disso ocorrer.
O usuário normalmente é direcionado para o datacenter com menor
latência possível e, apesar da localização ser um dos fatores, não é o
único (outras variáveis que afetam latência: volume de tráfego,
volume de processamento do datacenter e basicamente qualquer
coisa que afete a capacidade de determinado datacenter responder
com rapidez à solicitação de consulta).
96
• Geolocalização: todas as consultas foram realizadas a partir do
mesmo endereço IP, portanto a geolocalização capturada pelo
sistema foi sempre a mesma, efetivamente eliminando esta variável
como razão para personalização de resultados de pesquisa entre as
contas do experimento.
• Teste A/B: não foi encontrada solução metodológica para esta
questão.
• Efeito de transferência: realizar a mesma consulta várias vezes,
refinando os resultados obtidos, é uma prática comum entre usuários.
O experimento realiza tanto consultas únicas (um único termo de
busca, e posterior análise da página de resultados) quanto consultas
sequenciais (3 consultas de variações do mesmo termo, e posterior
análise da página de resultados). Quando realizadas consultas
únicas, houve espera de 11 minutos entre consultas (inclusive
consultas de usuários diferentes) na mesma rede para não haver
efeito de transferência. O mesmo cuidado foi tomado para captura de
resultados de consulta que consideram efeito de transferência.
• Rastreamento por cookies: ao realizar uma pesquisa no Google, o
sistema cria cookies para identificação de cada conta e também
cookies que são compartilhados entre sessões (todos os usuários do
Google daquela máquina). Todos os cookies da máquina onde o
experimento foi realizado foram apagados antes do experimento.
Todos os cookies após o início do experimento foram mantidos. Esta
abordagem tem por objetivo fornecer ao Google todas as informações
necessárias para ativar a personalização de resultados de busca,
porém somente aquelas que foram inseridas de forma controlada
durante o experimento.
• Navegador: experimentos do grupo da Northeastern University
demonstraram que o navegador, isoladamente, não tem relação com
personalização de resultados de busca. O navegador utilizado na
composição dos históricos de pesquisa de cada conta Google foi o
97
Mozilla Firefox 3.6.24, única versão compatível com o GoogleBot
elaborado para este experimento (mais detalhes sobre o bot adiante).
Entretanto, todas as consultas que foram objeto de análise foram
realizadas manualmente em um navegador Chrome atualizado.
• Sistema operacional: experimentos do grupo da Northeastern
University demonstraram que o sistema operacional, isoladamente,
não tem relação com personalização de resultados de busca. O
sistema operacional da máquina onde o experimento foi realizado é
Windows 10 Pro versão 1803 de 64 bits.
• Login na conta Google: experimentos anteriores demonstraram que
estar logado na conta Google tem impacto na personalização de
resultados de pesquisa. Todas as consultas foram realizadas com
uma das contas logada na conta Google.
As opções de controle de ruído foram eleitas com o objetivo de que o
experimento pudesse simular adequadamente o comportamento real de um
usuário no sistema de pesquisa do Google, ao mesmo tempo que certas
variáveis importantes para o mapeamento da personalização de resultados
permanecessem estáveis, em especial geolocalização, navegador, sistema
operacional, rastreamento por cookies, login na conta Google e efeito de carga.
CRIAÇÃO DE HISTÓRICO DE PESQUISA
Em agosto de 2006 a AOL (conhecida na época como America Online)
publicou na internet registros detalhados de pesquisa de um grande número de
usuários que fizeram consultas em seu buscador, o AOL Search. A publicação
tinha o objetivo de contribuir para pesquisas acadêmicas na área de sistemas de
busca. Os registros foram publicados em um arquivo de texto compactado
contendo 20 milhões de palavras-chave de pesquisa para mais de 658 mil
usuários durante um período de 3 meses. Os dados de pesquisa estavam
anonimizados, identificando cada um dos usuários apenas pelo número de
registro (e possibilitando, assim, que pesquisadores verificassem o que um
usuário único pesquisou no período de cobertura dos dados).
98
Apesar dos dados serem destinados apenas ao meio acadêmico, foram
publicados na internet com livre acesso público. A opção por anonimizar os
dados mantendo os número de registro de cada usuário permitiu a identificação
de alguns usuário através de suas consultas de pesquisa (algumas consultas
continham informações pessoais). O New York Times, na época, vasculhou
alguns dos termos de pesquisa e descobriu a identidade do usuário 4417749.
Suas consultas no buscador incluíam "casas vendidas na subdivisão do Shadow
Lake e Condado Gwinnett na Georgia", juntamente com várias pessoas cujo
sobrenome era Arnold. Isso foi suficiente para realizar cruzamentos com listas
telefônicas e identificar o usuário 4417749 como Thelma Arnold, uma mulher de
62 anos que morava na Geórgia. Este fato levou a AOL a reconhecer que a
publicação destes dados teve consequências imprevistas, e os retirou de seu
site. No entanto, uma vez publicados os dados, permaneceram disponíveis na
web ao serem replicados por diversos outros sites.
Os dados publicados pela AOL em 2006 até hoje são o maior e mais
detalhado conjunto de informações de usuários reais e suas pesquisas em um
sistema de buscas da web. É preciso reconhecer que o uso destes dados para
pesquisa pode levantar questões éticas, já que os usuários cujos dados foram
publicados não foram consultados e não deram seu consentimento para tanto.
Por outro lado, os dados estão anonimizados o suficiente para que a imensa
maioria dos usuário não fosse identificada (até hoje há pouco mais de 100
usuários identificados, em uma base de 658 mil, ou seja, menos de 0,02% do
total).
Os históricos de pesquisa de cada uma das 5 contas elaboradas para este
experimento foram inspirados em recortes dos registros de pesquisa da AOL dos
seguintes usuários:
• Usuário 1 (baseado no usuário 98280 da AOL): Foram realizadas 545
consultas para compor o histórico de pesquisa deste usuário. Os
temas das consultas são gravidez, vício em cocaína, convívio com
cônjuge abusivo, móveis, dietas e cristianismo (Bíblia, Jesus, orações
para diversas finalidades). O Google classificou estas consultas nas
seguintes categorias: Calendário Chinês, Conhecimento Bíblico,
99
Relacionamento Intimo, Saúde, Mobiliário, Ator, Personalidade, Co-
dependência.
• Usuário 2 (baseado no usuário 329019 da AOL): Foram realizadas
201 consultas para compor o histórico de pesquisa deste usuário. Os
temas das consultas são principalmente passagens bíblicas e dietas.
O Google classificou estas consultas nas seguintes categorias: Peso,
Portal da Bíblia, Conhecimento Bíblico, Mulheres, Youtube, Professor,
Comida, Saúde.
• Usuário 3 (baseado no usuário 1296531 da AOL): Foram realizadas
162 consultas para compor o histórico de pesquisa deste usuário. Os
temas das consultas são herpes no nariz, lipoaspiração de papada,
comportamento de bebês, produtos para piscina e doenças felinas. O
Google classificou estas consultas nas seguintes categorias: Gatos,
Piscinas, Crianças, Saúde, Notícias médicas, Bochechas, Nariz.
• Usuário 4 (baseado no usuário 3371143 da AOL): Foram realizadas
171 consultas para compor o histórico de pesquisa deste usuário. Os
temas das consultas são emuladores de jogos, instalação de peças
de computadores, jardins internos, maconha e crossdressing. O
Google classificou estas consultas nas seguintes categorias:
Cannabis, Youtube, Emuladores, Jardinagem, Roupas, Sistemas
operacionais.
• Usuário 5 (baseado no usuário 4485885 da AOL): Foram realizadas
153 consultas para compor o histórico de pesquisa deste usuário. Os
temas das consultas são auto-defesa feminina, defesa contra estupro,
mulheres batendo em homens, aeróbica e musculação. O Google
classificou estas consultas nas seguintes categorias: Artes marciais,
Auto-defesa, Mulheres, Negócios, Soco, Exercícios, MMA.
Os termos de pesquisa utilizados para composição do histórico de cada perfil
estão no Anexo 2. A opção por fazer uso destes dados para popular o histórico
de pesquisa de cada conta teve como objetivo simular com a maior precisão
possível quais termos são buscados por uma variedade de usuários comuns.
100
Como argumentado no início do capítulo 2, o uso da web é social, e os termos
de busca inseridos por cada usuário guardam uma relação muito próxima à vida
pessoal de cada um. Perfis de pesquisa criados artificialmente, especificamente
para o experimento, não poderiam refletir a variedade de interesses de pesquisa
de cada usuário sem incorrer em arbitrariedades ou suposições dos modos de
busca, e portanto, não simulariam adequadamente o comportamento de
usuários reais. Uma fonte possível de dados seria recuperar históricos de
pesquisa de usuários reais, entretanto, seria necessário convencer usuários a
abrirem seus históricos de pesquisa para estudo – o que revelaria muito de sua
vida privada e interesses pessoais. Assim, os dados de usuários da AOL se
mostraram a opção mais viável para compor um extenso histórico de pesquisa
para vários usuários, replicando suas consultas e mantendo uma diversidade de
interesses e preocupações que pôde ser aproveitada durante a análise de
resultados de busca.
EXECUÇÃO DAS CONSULTAS - GOOGLEBOT
As consultas realizadas no presente experimento para composição de
histórico de pesquisa de cada conta foram executadas por um programa
chamado GoogleBot, criado especificamente para esta pesquisa.
O programa é um robô (a partir de agora referido apenas como bot ou
GoogleBot) que usa uma extensão chamada WatiN. WatiN significa “Web
Application Testing in .NET” e é derivado de WaTiR, que significa “Aplicação de
Teste da Web em Ruby”. O WatiN é uma extensão que permite testes
automatizados em navegadores. O procedimento realizado pelo bot é: (1) abre
o navegador indicado; (2) navega até a URL indicada (www.google.com.br); (3)
digita a palavra-chave a partir de uma lista de palavras-chave; (4) aguarda o
carregamento da lista de resultados de pesquisa; (5) captura o HTML da lista de
resultados de pesquisa; (6) clica em um link aleatório da página de resultados;
(7) aguarda o link clicado abrir; (8) fecha o navegador. Um usuário que está
logado no Google permanece logado mesmo quando o navegador é fechado e
aberto novamente, portanto o funcionamento do bot deve, em teoria, fazer o
Google considerar normalmente que o usuário permaneceu logado.
101
O bot opera desta forma para que todos os dados de cada consulta sejam
devidamente registrados no Google como uma pesquisa válida, que resultou em
um clique. Em experimentos anteriores, estas ações (consulta seguida de
clique), quando isolada de outras variáveis, não ativou personalização.
Entretanto, este experimento pretende replicar mais comportamentos do usuário
do que experimentos anteriores (e controlar menos variáveis). Dentre as opções
possíveis – não clicar em nenhum link, clicar em um link específico ou clicar em
um link aleatório – a última alternativa foi escolhida por ter mais correspondência
com o comportamento de usuários reais e assegura que o Google registrará o
acesso.
Durante a execução do bot, o Google detectou a automação e, por vezes,
bloqueou a conexão, fazendo com que fosse necessário esperar o desbloqueio
(entre 5 e 10 minutos) para continuar. Isso ocorreu durante as consultas
automatizadas para compor histórico de pesquisa de todas as contas Google. Já
nas consultas que são objeto de análise, idênticas em cada conta Google e em
mais um perfil de controle sem conta, não houve bloqueio algum. Elas foram
realizadas manualmente.
3.3. APRESENTAÇÃO GERAL DOS RESULTADOS COLETADOS
Foram realizados 6 experimentos com consultas simples e 3 experimentos
considerando o efeito de transferência. Os termos de pesquisa selecionados
para cada consulta, em geral (veremos caso a caso), já haviam sido consultados
por um dos perfis. Ou seja, um dos perfis de usuário já contém uma consulta do
termo de pesquisa a ser analisado em cada experimento. Em seguida, todas as
páginas de resultados de pesquisa de cada uma das 5 contas Google foram
comparadas.
A análise consistiu na formatação das páginas de resultados de busca em
planilha, a descaracterização de cada um dos links, de forma que cada um deles
fosse representado por uma letra do alfabeto. Assim, durante a análise, cada um
dos links teria analisada sua posição na página com mais facilidade, além de
permitir destacar a singularidade de cada link (se é único ou há repetições).
102
Posteriormente, quando encontradas diferenças entre as páginas de resultados
de cada perfil, os links ou alterações de posição são analisadas qualitativamente.
Como as contas criadas para este experimento foram baseadas em
históricos de pesquisa na língua inglesa, todos os experimentos foram realizados
com consultas neste mesmo idioma.
EXPERIMENTO 1 – “PREGNANCY MENTAL DISORDER”
Quadro 3 - Análise do experimento 1
Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em
nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente
dos outros perfis.
Este experimento consistiu na realização da consulta “pregnancy mental
disorder” (gravidez distúrbio mental) em todas as 5 contas do Google. Esta
consulta já havia sido realizada pelo perfil 1, e com este item no histórico de
103
pesquisa desta conta seria possível verificar se houve personalização dos
resultados de busca quando comparadas às páginas de resultado de outros
perfis.
Verificou-se que os resultados de busca foram, em sua maioria, idênticos, o
que está alinhado com os achados de pesquisas anteriores – consultas do tipo
“o que é” ou que buscam por definições acerca de um tema conhecido produzem
pouca personalização (HANNAK et al., 2013, p.8). Entretanto, houve uma
inversão de posição de dois links no usuário 5, sendo melhor classificado um link
sobre saúde mental da mãe no período pós-parto do que outro link sobre mães
com problemas mentais planejando gravidez futura. Este usuário tem em seu
histórico várias buscas sobre defesa contra estupro e treinamento para
autodefesa de mulheres. Neste contexto vale questionar se o Google considera
de alguma forma que, para o usuário 5, é mais relevante a saúde da mulher do
que buscas sobre mulheres com distúrbios mentais.
Na seção “Pessoas também perguntam” (People also ask), houve uma
sugestão diferente de todas as outras para o usuário 2. Este usuário tem em seu
histórico de buscas consultas relacionadas à religião (Bíblia, Jesus, salmos, etc.)
e dietas, especialmente dietas com uso de medicamentos. A sugestão do Google
para este usuário, diferente de todas as outras, foi “Can you take antipsychotics
while pregnant?” (Você pode tomar antipsicóticos enquanto grávida?). É possível
inferir que o Google relacionou as buscas anteriores deste usuário com a
consulta atual, efetivamente personalizando as sugestões de buscas futuras.
EXPERIMENTO 2 – “ANSWERING THE CALL OF GOD”
Este experimento consistiu na realização da consulta “answering the call of
god” (respondendo ao chamado de deus) em todas as 5 contas do Google. Esta
consulta já havia sido realizada pelo perfil 2, e com este item no histórico de
pesquisa seria possível verificar se houve personalização dos resultados de
busca quando comparadas as páginas de resultado de outros perfis.
104
Quadro 4 - Análise do experimento 2
Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em
nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente
dos outros perfis.
Todas as páginas de resultados foram diferentes umas das outras, ao
contrário do experimento anterior. As páginas de resultados dos usuários 1 e 4
apresentaram apenas 1 link no topo da página antes das outras seções de
conteúdo, enquanto a página do usuário 2 tinha 5 links, dos usuários 3 e 5 tinham
3 links. Foram retornados 3 vídeos como resultados para cada usuário,
entretanto o terceiro resultado de vídeo para o usuário 2 foi encontrado apenas
na página do usuário 5. Os links da web tinham ordenação bastante diferente
para cada usuário, e vários usuários receberam links que outros não receberam:
• Usuário 1 não recebeu os links T, U e V.
105
• Usuário 2 não recebeu os links D e K.
• Usuário 3 não recebeu os links T e U.
• Usuário 4 não recebeu os links K, T e V.
• Usuário 5 não recebeu os links D, U e V.
Os links U e V foram os menos presentes em páginas de resultados de
pesquisa (ambos foram exibidos para o usuário 2, e outros usuários receberam
apenas um deles ou nenhum), e são os únicos que correspondem a links de
compra – links orgânicos para o site da Amazon indicando um livro cujo título
tem incorporado o termo de pesquisa “answering the call of god”.
Além disso, todos os usuários receberam 20 links na página de resultados
(contando imagens como um único link, e cada video e cada pesquisa
relacionada como link além dos resultados da web), exceto o usuário 5, que
recebeu apenas 19 links.
Foi possível constatar que houve personalização dos resultados de busca, e
que esta personalização consiste majoritariamente na reordenação dos links na
página de resultados de busca. Entretanto, não foi possível deduzir a lógica
seguida pelo sistema de busca para retornar cada um dos resultados. Houve,
em média, 2,6 links diferentes para cada usuário em relação a outro (12,5% de
diferença de links entre páginas). Este resultado está em linha com pesquisas
anteriores, que indicam entre 10% e 15% de personalização da página de
resultados para cada usuário (sem considerar links reordenados) (HANNAK et
al., 2013, p.5). Além disso, a variação foi menor em links com posições mais
altas na classificação da página de resultados, indicando que o Google tende a
personalizar mais os resultados que estão com classificações menores
(confirmando, mais uma vez, resultados de pesquisas anteriores).
Houve relativa semelhança entre os resultados obtidos pelos usuários 3 e 5
(2 reordenações e 2 links diferentes) e usuários 1 e 4 (1 link diferente apenas).
O usuário 2 foi o mais diferente dos demais, o que evidencia o efeito do histórico
de pesquisa deste usuário na composição de sua página de resultados de busca.
106
EXPERIMENTO 3 – EFEITO DE TRANSFERÊNCIA RESULTANDO EM “DETERMINED
TO SEE JESUS”
Este experimento consistiu na realização da consulta “answering the call of
god” (respondendo ao chamado de deus) em todas as 5 contas do Google,
seguido imediatamente por “seeking Jesus” (procurando Jesus) e, por fim,
“determined to see Jesus” (determinado a ver Jesus).
Quadro 5 - Análise do experimento 3
Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em
nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente
dos outros perfis.
A pesquisa foi realizada desta forma, com 3 consultas subsequentes, para
verificar se há personalização significativa quando considerado o efeito de
transferência (que leva em conta pesquisas realizadas nos últimos minutos para
107
retornar resultados relacionados às páginas recentes). Cada uma destas
consultas já havia sido realizada pelo perfil 2.
Houve menos personalização quando o experimento foi realizado
considerando o efeito de transferência. Todos os usuários receberam os
mesmos links da web e de vídeos, porém não receberam os mesmos links de
pesquisas relacionadas. Houve também menor quantidade de reordenações.
• Usuário 1 não recebeu o link V (“what did Jesus say to the man who
climbed on a tree to see him?”).
• Usuário 2 não recebeu o link U (“nehemiah determination”).
• Usuário 3 não recebeu o link U (“nehemiah determination”).
• Usuário 4 não recebeu o link Q (“Bible verse about hard work and
determination”).
• Usuário 5 não recebeu o link V (“what did Jesus say to the man who
climbed on a tree to see him?”).
É possível constatar que o Google altera menos os resultados em
classificações mais altas na página de resultados, assim como nos experimentos
anteriores. Além disso, foi possível identificar que, ao menos neste experimento,
o efeito de transferência contribuiu para páginas de resultados mais uniformes e
menos personalizadas, entretanto as sugestões de pesquisas relacionadas
ainda guardam personalização baseada no perfil de cada usuário.
EXPERIMENTO 4 – “TRICKED HER PARTNER”
Este experimento consistiu na realização da consulta “tricked her partner”
(ela enganou seu parceiro) em todas as 5 contas do Google. Esta consulta já
havia sido realizada pelo perfil 3, e com este item no histórico de pesquisa desta
conta seria possível verificar se houve personalização dos resultados de busca
quando comparadas às páginas de resultado de outros perfis.
108
Quadro 6 - Análise do experimento 4
Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em
nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente
dos outros perfis.
Como constatado anteriormente, houve poucas alterações entre páginas de
resultados nos itens com classificação mais alta. A maioria das alterações são
ordenações, com os usuário 3 e 5 recebendo na 6ª posição um link único que
nenhum outro usuário obteve como resultado.
• Usuário 1 não recebeu os links H, I e K.
• Usuário 2 não recebeu os links H, I e L.
• Usuário 3 não recebeu os links I e L.
• Usuário 4 não recebeu os links H, I e K.
• Usuário 5 não recebeu os links H, K e L.
É notável que o link H, recebido apenas pelo usuário 3, e cujo histórico de
pesquisa já continha o termo pesquisado, seja o único dentre todos que instrui
sobre a possibilidade acusar de estupro uma parceira que teria enganado um
homem para ter relações sexuais. O outro link único (I), presente apenas na
página de resultados do usuário 5 (e cujo histórico de pesquisa está relacionado
a auto-defesa de mulheres e proteção contra estupro) é sobre mulheres que se
sentem culpadas por terem enganado homens. A partir destes indicadores, é
possível inferir que o Google personalizou os resultados de busca para cada
109
usuário seguindo os mesmos padrões verificados anteriormente (menos
personalização nos links do topo da página, mais reordenações do que links
novos, proporção de aproximadamente 10% a 15% de personalização na
página). Entretanto, parece haver uma relação tênue entre as seleções de links
novos e o histórico de pesquisa de cada usuário.
EXPERIMENTO 5 – EFEITO DE TRANSFERÊNCIA RESULTANDO EM “TRICKED
BOYFRIEND INTO BECOMING A FATHER”
Este experimento consistiu na realização da consulta “tricked her partner”
(ela enganou seu parceiro) em todas as 5 contas do Google, seguido
imediatamente por “tricked into fatherhood” (enganado para ser pai) e por fim,
“tricked boyfriend into becoming a father” (enganou o namorado para que ele se
tornasse pai). A pesquisa foi realizada desta forma, com 3 consultas
subsequentes, para verificar se há personalização significativa quando
considerado o efeito de transferência (que considera pesquisas realizadas nos
últimos minutos para retornar resultados relacionados às páginas recentes).
Cada uma destas consultas já havia sido realizada pelo perfil 3.
Ao contrário do experimento 3, que também considerou efeito de
transferência, este resultado implica manutenção da quantidade de
personalização de resultados de busca. Houve grande quantidade de
reordenações e de um link único para o usuário 2 nos resultados da web, além
de resultados únicos para os usuários 3 e 5 nas pesquisas relacionadas.
O usuário com maior conformidade com o termo buscado (usuário 3) e com
maior repulsa pelo assunto (usuário 5, em vista de suas pesquisas anteriores por
defesa pessoal de mulheres e demais correlatos) foram aqueles com maior
personalização. Para o usuário 3, a sugestão de pesquisa única foi “father’s
rights unwanted pregnancy” (direitos do pai gravidez indesejada) e para o usuário
5 foi “my boyfriend made me get pregnant” (meu namorado me fez engravidar).
Isso indica que o Google realiza seu cálculo de relevância levando em conta o
histórico de pesquisa de cada usuário e pondera que determinados interesses
anteriores podem estar relacionados com pontos de vista diferentes, mesmo que
a consulta sendo realizada seja a mesma.
110
• Usuário 1 não recebeu os links H, J, L, U e V.
• Usuário 2 não recebeu os links G, H, K, U e V.
• Usuário 3 não recebeu os links J, K, L, S, T e V.
• Usuário 4 não recebeu os links I, K, L, U e V.
• Usuário 5 não recebeu os links H, J, L, S e U.
Quadro 7 - Análise do experimento 5
Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não
encontrados em nenhum outro perfil, enquanto marcações em amarelo significam links
em ordenação diferente dos outros perfis.
O usuário 3 teve a pesquisa mais personalizada do que todos os outros, com
6 links ausentes em sua página de resultados (mais do que todos os outros, com
5 links ausentes). Isso poderia indicar que usuários que fizeram uma busca por
111
um assunto e a refazem mais vezes recebem páginas progressivamente mais
personalizadas do que usuários que estão pesquisando determinado assunto
pela primeira vez.
O usuário 2 recebeu um link único e não exibido para nenhum outro (L), que
é de um site de mães cristãs falando sobre como nunca é aceitável enganar um
homem para que ele se torne pai (“It Is Never OK to Trick a Man Into Fatherhood
| CafeMom”). Esta personalização dos resultados de busca está alinhada com
seu histórico de pesquisa particular, relacionado à religião.
EXPERIMENTOS 6 E 7 – “RAPE INSTRUCTOR” E EFEITO DE TRANSFERÊNCIA
RESULTANDO EM “BECOME A CERTIFIED RAPE PREVENTION INSTRUCTOR”
O experimento 6 consistiu na realização da consulta “rape instructor”
(instrutor estupro) em todas as 5 contas do Google. Esta consulta já havia sido
realizada pelo perfil 5, e com este item no histórico de pesquisa desta conta seria
possível verificar se houve personalização dos resultados de busca quando
comparadas às páginas de resultado de outros perfis. Entretanto, ao comparar
todas as páginas de resultado, constatou-se que todas estavam idênticas.
Quadro 8 - Análise do experimento 6
Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em
nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente
dos outros perfis.
Um segundo experimento (7) foi realizado, desta vez levando em conta o
efeito de transferência, em que a consulta inicial foi seguida das consultas
112
“become a certified rape instructor” (tornar-se um instrutor estupro certificado) e
“become a certified rape prevention instructor” (tornar-se um instrutor de
prevenção de estupro certificado).
Em ambos os experimentos (6 e 7), as páginas de resultados de todos os
usuários foram idênticas.
Quadro 9 - Análise do experimento 7
Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em
nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente
dos outros perfis.
Considerados os resultados de experimentos anteriores, onde houve ao
menos uma quantidade mínima de variação, é possível imaginar que o Google
não personaliza determinados tipos de pesquisa (entretanto, não é possível
afirmar quais seriam estes tipos de pesquisa que não são personalizados). O
tema da consulta permite inferir que rape (estupro) pode ser uma palavra que
impede a personalização de resultados.
EXPERIMENTO 8 – “FLAT EARTH”
Este experimento consistiu na realização da consulta “flat Earth” (Terra
plana) em todas as 5 contas do Google. Esta consulta não havia sido realizada
por nenhum dos perfis, e o objetivo era verificar se uma pesquisa não
relacionada com o histórico de pesquisa dos usuários resultaria em
personalização dos resultados de busca.
113
Quadro 10 - Análise do experimento 8
Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em
nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente
dos outros perfis.
Apesar de todas as páginas de resultados terem sido idênticas, uma delas
(usuário 1) apresentou um único link publicitário no final. Este link tem o título
“God proves Earth is flat”, e leva a uma página em que se relacionam passagens
bíblicas e a famigerada teoria da Terra plana. Ainda que não tenha havido
personalização direta pelo cálculo de relevância do Google, houve exibição de
uma publicidade personalizada com base nos critérios e sinais disponíveis no
sistema de busca do Google. Assim, é possível inferir que, mesmo páginas de
resultados idênticas entre usuários (ou seja, que provavelmente tiveram sua
personalização de alguma forma impedida ou impossibilitada), ainda exibem
anúncios personalizados com base no histórico de pesquisa.
EXPERIMENTO 9 – EFEITO DE TRANSFERÊNCIA RESULTANDO EM “PROVES
EARTH IS FLAT”
Este experimento consistiu na realização da consulta “flat Earth” (Terra
plana) em todas as 5 contas do Google, seguido imediatamente por “is Earth flat”
(a Terra é plana?) e por fim, “proves Earth is flat” (provas que a Terra é plana).
114
Quadro 11 - Análise do experimento 9
Fonte: Elaborado pelo autor. Marcações em azul significam links únicos, não encontrados em
nenhum outro perfil, enquanto marcações em amarelo significam links em ordenação diferente
dos outros perfis.
A pesquisa no Google foi realizada com 3 consultas subsequentes para
verificar se há personalização significativa quando considerado o efeito de
transferência (que considera pesquisas realizadas nos últimos minutos para
retornar resultados relacionados às páginas recentes). Nenhuma destas
consultas haviam sido feitas anteriormente em nenhum dos perfis.
Os resultados foram semelhantes ao experimento anterior (8), em que não
houve personalização das páginas de resultados de pesquisa, porém houve
exibição de publicidade personalizada ao final da página de resultados de
pesquisa dos usuários 1, 2 e 5. O link publicitário sempre foi o mesmo, e era o
mesmo encontrado na pesquisa anterior (“God proves Earth is flat”). É possível
verificar que o link publicitário foi exibido nas páginas dos usuários que tinham
histórico de pesquisa ligado a religião, sendo o usuário 5 a única exceção. Não
foi possível constatar a razão do usuário 5 ter recebido a publicidade.
Assim como nos experimentos 6 e 7, parece haver algum tipo de
impedimento à personalização de páginas de resultados de certos assuntos
(mas que não impõe limites à publicidade). Isso pode ser inferido a partir da
115
resposta padrão do Google quando realizada a 2ª consulta neste experimento
de efeito de transferência (“is Earth flat”).
Figura 13 - Reprodução da tela de resultados de busca da consulta “is Earth flat”
Fonte: Reprodução da tela de resultados de busca do Google durante um dos experimentos,
quando realizada a consulta “is Earth flat”. Em tradução livre, o Google responde “Não, a terra é
uma esfera”.
3.4. CONCLUSÕES DOS RESULTADOS EXPERIMENTAIS
O buscador Google rastreia a web seguindo critérios próprios para abastecer
um banco de dados, no qual realiza cálculos de relevância para classificar as
páginas de acordo com sua conformidade com determinados termos de busca.
A personalização de resultados de busca foi visível na maior parte dos
experimentos, e consiste principalmente de reordenação de links na página.
Entretanto, entre 10% e 15% dos links podem não ser exibidos para todos os
usuários quando estes realizam consultas idênticas.
A personalização de resultados de busca pôde ser comprovada de forma
empírica nesta pesquisa, porém foi também possível verificar que esta
modulação tem escopo limitado. Considerada a dimensão social do uso dos
buscadores na contemporaneidade, a personalização de resultados é
significativa, entretanto, parece não representar a prisão que Pariser nomeou
filtro-bolha. Vale lembrar que Pariser apresentou o conceito de filtro-bolha como
resultado da interação de um sujeito com múltiplas plataformas que realizam
personalização e, neste contexto, seria possível afirmar que o Google contribui
em alguma medida para manter um usuário da web dentro de um território
conhecido e confortável, mais favorável a seus próprios interesses e opiniões.
116
A partir dos experimentos verificamos que consultas do tipo “o que é X?” ou
similares, cujo objetivo é buscar a definição de determinado termo, são menos
personalizadas do que outros tipos de consulta. Foi também possível constatar
que o Google personaliza toda a página de resultados de busca, inclusive as
seções “Pessoas também perguntam”, videos e “Pesquisas relacionadas”.
Entretanto, a personalização destas categorias não é equivalente – a
personalização afeta menos os links com classificação mais alta, que ficam
posicionados no topo das páginas de resultados. A menor personalização de
links com classificações mais altas pode sinalizar que o Google realmente
reforça o fenômeno conhecido como anexo preferencial, onde a distribuição de
sites nos resultados de cada pesquisa encoraja sua própria reprodução,
fornecendo um caminho fácil para o conteúdo que o buscador “considera” mais
interessante (ver capítulo 2 para mais detalhes sobre essa questão).
Quando realiza personalização de resultados de pesquisa, o Google parece
ponderar que determinados interesses (revelados através do histórico de
pesquisa do usuário) podem estar relacionados com pontos de vista diferentes
acerca do assunto sendo pesquisado. O Google, desta forma, modula os
resultados de pesquisa para trazer links em conformidade com os interesses
anteriores de cada usuário. Adicionalmente a estas características, foi possível
observar que as buscas mais personalizadas eram aquelas de usuários que já
haviam realizado anteriormente consultas semelhantes ou idênticas ao termo de
busca de cada experimento. Estes resultados estão alinhados com a teoria de
que o Google realiza data mining, coletando e analisando as ações de milhões
de usuário, o que culmina em uma “base de dados de intenções” (HALAVAIS,
2017, p.211).
Os experimentos demonstraram que o Google personaliza resultados de
pesquisa mesmo após buscas consecutivas, apesar de haver uma sensível
redução na quantidade de reordenações e links novos a cada consulta
subsequente.
Por fim, os resultados dos experimentos 6, 7, 8 e 9 nos levam a crer que o
Google não personaliza determinados tipos de pesquisa (entretanto, não é
possível afirmar quais seriam estes tipos de pesquisa que não são
117
personalizados). Os termos de pesquisa rape (estupro) e flat Earth (Terra plana)
podem ser palavras que impedem a personalização de resultados. No entanto,
mesmo que a página de resultados de busca não tenha apresentado
personalização, não parece haver limites quanto a publicidade a ser exibida.
Ao modular o que será exibido para cada usuário, o Google modula a
percepção do sujeito e condiciona sua sensibilidade, ainda que de forma tênue.
Este buscador é um dispositivo da sociedade de controle e opera em uma
dimensão não-discursiva, a-significante e não-representativa – não diz nada ao
usuário de forma direta, mas através de seu modo de funcionamento restringe
as linhas de fuga e estabelece quais são os devires possíveis, ultrapassando sua
dimensão instrumental de trazer ou exibir aquilo que o usuário procura.
118
4. CONSIDERAÇÕES FINAIS
A lógica do filtro de resultados de busca do Google pôde ser compreendida
e mapeada ao percorrermos dois caminhos distintos nesta pesquisa:
mapeamento do desenvolvimento do algoritmo ao longos dos anos através das
divulgações de atualização do algoritmo, buscando no discurso da empresa, nas
justificativas dos aprimoramentos técnicos, e na imprensa, as evidências de
personalização e de seu modo de funcionamento; e análise empírica dos
resultados da personalização de resultados de busca operada pelo buscador, no
experimento com automação de busca detalhado no último capítulo.
A metodologia de pesquisa possibilitou demonstrar que o buscador tem a
intenção de personalizar em alguma medida os resultados de busca para cada
usuário, por compreender que esta é uma forma de retornar resultados mais
relevantes para estes, e que é bem-sucedido neste aspecto. Entre 10% e 15%
dos resultados de pesquisa eram diferentes para cada usuário em consultas
idênticas, além da extensiva reordenação de resultados com base no histórico
de pesquisas. Mais do que retornar links diferentes para cada usuário a partir de
uma mesma consulta, o buscador pôde ponderar que determinados interesses
(revelados através do histórico de pesquisa do usuário) podem estar
relacionados com pontos de vista diferentes acerca do assunto sendo
pesquisado.
Com a compreensão da lógica do filtro de buscas do Google, foi possível
constatar que o buscador inscreve relações de poder ao determinar o que deve
ser indexado e, principalmente, ao realizar um cálculo de relevância do conteúdo
seguindo políticas próprias. É evidente que o sucesso do serviço se deve à sua
inegável utilidade para encontrar conteúdo na web, entretanto, por trás desta
dimensão instrumental, há também uma dimensão política que demanda mais
investigação.
Um exemplo desta dimensão política é a determinação de quais termos
ativam personalização, e quais não ativam. Os experimentos indicaram que
existe a possibilidade do Google não personalizar pesquisas cujos termos de
pesquisa são especialmente polêmicos, como “estupro” e “Terra plana”. Se isso
ocorre de fato, é devido a uma política interna do sistema, que não é transparente
119
para o usuário. Entretanto, este bloqueio parece não afetar publicidade ligada a
estes termos de pesquisa. Uma pesquisa futura poderia apontar com mais
clareza quais termos o Google não personaliza, se a empresa de alguma forma
divulga quais termos não ativam personalização e as razões pelas quais a
publicidade personalizada ligada a estes termos permanece ativa.
Ainda sobre as dimensões políticas do Google, é fato conhecido que o
buscador exibe páginas com classificação mais alta mais frequentemente, e que
isso reforça um ciclo no qual as páginas mais bem pontuadas no PageRank
ganham cada vez mais links, concentrando atenção nestes conteúdos (anexo
preferencial). Para o Google, atenção é um recurso comercializável, como se
fosse uma commodity a ser negociada em um mercado – sites competem por
atenção, e os que recebem mais atenção são exibidos a mais usuários. O Google
calcula relevância a partir desta premissa, o que sugere um entendimento de
que o mercado de atenção é o modelo ideal para definir quais conteúdos devem
ser exibidos. Esta é uma definição claramente ideológica, cuja política parece
anterior à implementação técnica.
O próprio conceito de relevância aplicado pelo algoritmo do Google tem um
viés, re-inscrevendo as diferenças de poder e controle existentes na sociedade
ao replicar e amplificar comportamentos sociais comuns. Ao considerar mais
relevante o que tem mais chances de ser clicado pelo usuário, o Google reproduz
o que seus usuários já pensam.
O percurso teórico e conceitual desta pesquisa indicou que os processos de
filtragem utilizados pelo sistema de busca do Google, por si só, não favorecem
ou desfavorecem discursos ou narrativas específicas. Ao invés disso, a própria
lógica do sistema, através de seu modo de uso e da forma como retorna
resultados, favorece estratos de visibilidade que tem mais chance de serem
clicados pelo usuário, retornando mais resultados dentro do universo conhecido
dele e afastando em alguma medida o contato com a alteridade.
Uma questão para futuras pesquisas seria compreender a fundo como
sistemas com esta lógica operativa de retornar resultados com mais chances de
serem clicados e mais alinhados com os interesses de cada usuário afetam o
modo de pensar e agir de milhões de pessoas que os usam diariamente.
120
Ao longo desta pesquisa, foram encontradas formas de aprimorar a
metodologia de pesquisa, que poderão ser aplicadas em uma eventual
continuidade deste projeto. Um dos caminhos possíveis é analisar patentes do
Google, verificando as potencialidades técnicas dentre as propriedades
intelectuais da corporação Google, e relacionando-as às atualizações do
algoritmo. Esta estratégia tem por vantagem agarrar-se às definições técnicas
do sistema, analisando o modus operandi do sistema a partir de seu potencial
enquanto tecnologia. Outra possibilidade metodológica inexplorada nesta
pesquisa é a realização de experimento com usuários reais, que proporcionaria
um conjunto de dados supostamente mais confiáveis, pois nem todas as
variáveis consideradas pelo sistema de busca podem ser emuladas
realisticamente através de simulação ou automação.
Os processos de modulação de resultados de busca compreendidos a partir
da noção de sociedade de controle funcionam em rede, inseridos em um
contexto técnico, social, econômico e político, que ultrapassa o escopo desta
pesquisa. Se a sociedade de controle, enquanto técnica de controle, funciona
em rede, a continuidade desta pesquisa deverá estar atrelada ao estudo de
outros serviços da web acessados massivamente, como redes sociais
(Facebook, Twitter, LinkedIn), agregadores de conteúdo (Pinterest, Tumblr,
YouTube), dentre outros, e como seus respectivos algoritmos operam, levando
à compreensão de suas respectivas dimensões políticas, processos de
subjetivação e modulação. Seria possível expandir o assunto desta pesquisa
levando em conta as contribuições de Antonio Negri e Michael Hardt, em
especial relacionadas ao que eles denominam Império, situando o Google e
outros dispositivos da sociedade de controle em uma teoria mais abrangente do
capitalismo contemporâneo.
Ao longo desta pesquisa identificamos que o acoplamento maquínico entre
buscador do Google e usuário implica uma modulação da sensibilidade do sujeito
individuado, impondo modos de ver e pensar. Apesar de termos tocado
brevemente na questão da memória algoritmizada, há ainda muito o que
explorar, e uma série de questões permanecem sem resposta – como vários
algoritmos em conjunto atuam sobre a memória individual e coletiva? Se a web
121
tem se tornado um repositório de experiências e de conhecimento coletivo, como
a organização de desta informação por algoritmos afeta as capacidades de
cognição e memória dos sujeitos? Quais as consequências deste modo de
organização e acesso à informação via algoritmos para a democracia
representativa ocidental?
A pesquisa realizada pode também dar pistas sobre fenômenos que
emergem no ciberespaço, como o que se passou a chamar de “fake news”. É
possível pensar que a lógica do Google, ao favorecer o que o usuário tem mais
chance de clicar, ao retornar resultados que tendem a se alinhar ao histórico de
pesquisa do usuário em alguma medida, poderia impulsionar ou propagar, ao
menos em teoria, conteúdo que favorece as visões particulares de cada usuário.
Assim, esta lógica algorítmica poderia estar contribuindo para a divulgação de
“fake news”.
A lógica de filtragem de conteúdo do algoritmo do Google poderia ainda ser
um dos fatores que contribuem para o notável aumento da polarização política
no ocidente ao favorecer conteúdos mais alinhados com os interesses do
usuário. Ainda que a relação do Google com este fenômeno possa ser tênue à
primeira vista, a quantidade de informação diferente exibida a cada usuário (em
decorrência de reordenação e também de links não exibidos para todos os
usuário para uma mesma consulta) é bastante significativa, ainda mais se
considerarmos que cada pessoa potencialmente realiza várias consultas diárias
no buscador – cada uma delas, personalizada.
122
5. REFERÊNCIAS BIBLIOGRÁFICAS
AGAMBEN, Giorgio. O Amigo & O que é um dispositivo?. 1ª edição. Chapecó:
Argos, 2016.
________________. O Aberto – O homem e o animal. 1ª edição. Rio de
Janeiro: Editora Civilização Brasileira, 2013.
BAIO, Cesar. O filósofo que gostava de jogar: o pensamento dialógico de
Vilém Flusser e a sua busca pela liberdade. Flusser Studies, n. 15m p. 1-11,
2013.
CALDEIRA, Fátima Hassan. O mecanismo de busca do Google e a relevância
na relação sistema-usuário. Letrônica, Revista Digital do Programa de Pós-
graduação em Letras da PUCRS, Porto Alegre, v. 8, n. 1, p. 91-106, 2015.
DELEUZE, Gilles. Conversações. 3ª edição. São Paulo: Editora 34, 2013.
______________. Foucault. 1ª edição. São Paulo: Brasiliense, 2013.
DELEUZE, Gilles e GUATTARI, Félix. Mil Platôs: capitalismo e esquizofrenia
2, vol. 1. 2ª edição. São Paulo: Editora 34, 2011.
______________. Mil Platôs: capitalismo e esquizofrenia Vol. 5. 2ª edição.
Rio de Janeiro: Editora 34, 1997.
FLUSSER, Vilém. Más allá de las máquinas. Los gestos. Barcelona: Herder,
1994.
GALLOWAY, Alex. Protocol, or, how control exists after decentralization.
Rethinking Marxism, v. 13, n. 3-4, p. 81-88, 2001.
HALAVAIS, Alexander. Search Engine Society. 1ª edição. Arizona: Polity, 2017.
Hannak, Lazer, et al. “Measuring Personalization of Web Search.” New York:
Proceedings of the 22nd international conference on World Wide Web, 2013.
527-538.
123
Hannak, Lazer, et al. “Measuring personalization of web search”.
https://arxiv.org/abs/1706.05011, 2017.
Hannak, Kliman-Silver, et al. “Location, Location, Location: The Impact of
Geolocation on Web Search Personalization”. In Proceedings of the 2015
Internet Measurement Conference (IMC ’15). ACM, New York, NY, USA, p. 121–
127.
HARDT, Michael. A sociedade mundial de controle. In: ALLIEZ, E. (Org.).
Gilles Deleuze: uma vida filosófica. São Paulo: Ed. 34, 2000.
HJARVARD, Stig. A midiatização da cultura e da sociedade. 1ª edição. São
Leopoldo: Ed. UNISINOS, 2014.
LEÃO, Lucia. O Labirinto da Hipermídia – Arquitetura e navegação no
ciberespaço. 3ª edição. São Paulo: Iluminuras, 2005.
Lazer, Robertson, et al. “Auditing the Personalization and Composition of
Politically-Related Search Engine Results Pages”, Proceedings of the
International World Wide Web Conference Committee, 2018.
LAZZARATO, Maurizio. As revoluções do capitalismo. 1ª edição. Rio de
Janeiro: Editora Civilização Brasileira, 2006.
___________________. Signos, Máquinas, Subjetividades. 1ª edição. São
Paulo: N-1 edições, 2014.
MONTEIRO, Silvana Drumond – Os mecanismos de busca: à guisa de uma
tipologia das múltiplas sintaxes . In TOMAÉL, Maria Inês<< Fontes de
informação na internet>> Londrina: EDUEL, 2008. ISBN 978-85-2716-493-1 p.
97- 122.
MONTEIRO, Silvana Drumond et al. As categorias dos mecanismos de
busca: objeto em construção e em permanente modificação. SEMINÁRIO
EM CIÊNCIA DA INFORMAÇÃO, III, 2009, Londrina. Anais... Londrina: Dep.
Ciência da Informação, 2009. p. 1-20.
124
MONTEIRO, Silvana Drumond. As múltiplas sintaxes dos mecanismos de
busca no ciberespaço. Informação & Informação, v. 14, p. 68-102, 2009.
MONTEIRO, Silvana Drumond; FERNANDES, Rogério P. Muller; DICARLO,
Gian Carlo; TREVISAN, Gustavo Lunardelli. Sistemas de recuperação da
informação e o conceito de relevância nos mecanismos de busca:
semântica e significação. Encontros Bibli. Florianópolis, v. 22, n. 50, p. 161-
175, 2017.
NAGLE, Angela. KILL ALL NORMIES – Online culture wars from 4chan and
Tumblr to Trump and the alt-right. 1ª edição. New York: Zero Books, 2017.
PARISER, Eli. O Filtro Invisível - o Que a Internet Está Escondendo de Você.
1ª edição. São Paulo: Ed. Zahar, 2012.
PUTNAM, Robert D. Bowling Alone: The Collapse and Revival of American
Community. 1ª edição. Nova Iorque: Simon & Schuster, 2000.
SUNSTEIN, Cass R. #Republic – Divided Democracy in the Age of Social
Media. 1ª edição. Princeton: Princeton University Press, 2017.
DADOS, INFORMAÇÕES E NOTÍCIAS CONSULTADAS ON-LINE
CLARK, Jack. Google Turning Its Lucrative Web Search Over to AI
Machines. In: BLOOMBERG. 26 de Outubro de 2015. Disponível em: <
https://www.bloomberg.com/news/articles/2015-10-26/google-turning-its-
lucrative-web-search-over-to-ai-machines >. Acesso em: 20 set. 2018.
ELGIN, Ben. Google: Whiz Kids or Naughty Boys?. In: BUSINESSWEEK. 19
de Agosto de 2004. Disponível em: <
https://www.webcitation.org/5hT7Hw63l?url=http://www.businessweek.com/tech
nology/content/aug2004/tc20040819_6843_tc120.htm >. Acesso em: 20 set.
2018.
125
BENTLEY, Matt. 100+ Sites Impacted By Google Medic Update Analyzed. In:
CAN I RANK. 22 de Agosto de 2018. Disponível em: <
http://www.canirank.com/blog/google-medic-update-data/ >. Acesso em: 20 set.
2018.
OLSEN, Stefanie. Google, Yahoo bury the legal hatchet. In: CNET. 09 de
Agosto de 2004. Disponível em: < https://www.cnet.com/news/google-yahoo-
bury-the-legal-hatchet/ >. Acesso em: 20 set. 2018.
MCCULLAGH, Declan. Testing Google's Panda algorithm: CNET analysis. In:
CNET. 18 de Abril de 2011. Disponível em: < https://www.cnet.com/news/testing-
googles-panda-algorithm-cnet-analysis/ >. Acesso em: 20 set. 2018.
KOTTASOVÁ, Ivana. EU slaps Google with record $2.7 billion fine. In: CNN.
27 de Junho de 2017. Disponível em: <
https://money.cnn.com/2017/06/27/technology/business/google-eu-antitrust-
fine/index.html >. Acesso em: 20 set. 2018.
Desconhecido. EU charges Google with violation of competition rules. In:
DW. 20 de Abril de 2016. Disponível em: < https://www.dw.com/en/eu-charges-
google-with-violation-of-competition-rules/a-19200814 >. Acesso em: 20 set.
2018.
DANIEL, Caroline; PALMER, Maija. Google’s goal: to organise your daily life.
In: FINANCIAL TIMES. 22 de Maio de 2007. Disponível em: <
https://www.ft.com/content/c3e49548-088e-11dc-b11e-000b5df10621 >. Acesso
em: 20 set. 2018.
GOOGLE. Technology Overview. Disponível em: <
https://web.archive.org/web/20110412200014/http://www.google.com/corporate/
tech.html>. Acesso em: 20 set. 2018.
GOOGLE. Webmaster Guidelines. Disponível em: <
https://support.google.com/webmasters/answer/35769?hl=en>. Acesso em: 20
set. 2018.
126
GOOGLE. Your business information in the knowledge panel. Disponível
em: < https://support.google.com/business/answer/6331288>. Acesso em: 20
set. 2018.
CUTTS, Matt. Another step to reward high-quality sites. In: GOOGLE
OFFICIAL BLOG. 24 de Abril de 2012. Disponível em: <
https://search.googleblog.com/2012/04/another-step-to-reward-high-quality.html
>. Acesso em: 20 set. 2018.
SINGHAL, Amit. More guidance on building high-quality sites. In: GOOGLE
OFFICIAL BLOG. 06 de Maio de 2011. Disponível em: <
https://webmasters.googleblog.com/2011/05/more-guidance-on-building-high-
quality.html >. Acesso em: 20 set. 2018.
HORLING, Bryan; KULICK, Matthew. Personalized Search for everyone. In:
GOOGLE OFFICIAL BLOG. 04 de Dezembro de 2009. Disponível em: <
https://googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html
>. Acesso em: 20 set. 2018.
MAYER, Marissa. Universal Search: The best answer is still the best answer.
In: GOOGLE OFFICIAL BLOG. 16 de Maio de 2007. Disponível em: <
https://googleblog.blogspot.com/2007/05/universal-search-best-answer-is-
still.html >. Acesso em: 20 set. 2018.
GOOGLE USER CONTENT. General Guidelines. Disponível em: <
https://static.googleusercontent.com/media/www.google.com/en//insidesearch/h
owsearchworks/assets/searchqualityevaluatorguidelines.pdf >. Acesso em: 20
set. 2018.
PHAN, Doantam. Mobile First Indexing. In: GOOGLE WEBMASTERS
CENTRAL BLOG. 04 de Novembro de 2016. Disponível em: <
https://webmasters.googleblog.com/2016/11/mobile-first-indexing.html >.
Acesso em: 20 set. 2018.
Desconhecido. Google earnings up 12% in third quarter even as Motorola
losses deepen. In: THE GUARDIAN. 17 de Outubro de 2013. Disponível em: <
https://web.archive.org/web/20131017221536/http://www.theguardian.com/tech
127
nology/2013/oct/17/google-q3-revenue-earnings-report >. Acesso em: 20 set.
2018.
INTERBRAND. Best Global Brands 2016. Disponível em: <
https://www.interbrand.com/best-brands/best-global-
brands/2016/ranking/#?listFormat=ls>. Acesso em: 20 set. 2018.
INTERNET LIVE STATS. Total number of websites. Disponível em: <
http://www.internetlivestats.com/total-number-of-websites/>. Acesso em: 20 set.
2018.
INTERNET WORLD STATS. Internet Users in the World. Disponível em: <
https://www.internetworldstats.com/stats.htm>. Acesso em: 20 set. 2018.
SULLIVAN, Danny. All About The New Google “Hummingbird” Algorithm. In:
SEARCH ENGINE LAND. 26 de Setembro de 2013. Disponível em: <
https://searchengineland.com/google-hummingbird-172816 >. Acesso em: 20
set. 2018.
SULLIVAN, Danny. Google Launches “Universal Search” & Blended
Results. In: SEARCH ENGINE LAND. 16 de Maio de 2007. Disponível em: <
https://searchengineland.com/google-20-google-universal-search-11232 >.
Acesso em: 20 set. 2018.
SULLIVAN, Danny. Google uses RankBrain for every search, impacts
rankings of “lots” of them. In: SEARCH ENGINE LAND. 23 de Junho de 2016.
Disponível em: < https://searchengineland.com/google-loves-rankbrain-uses-for-
every-search-252526 >. Acesso em: 20 set. 2018.
BAKER, Loren. Yahoo! Visual Timeline 1996-2006. In: SEARCH ENGINE
JOURNAL. 21 de Abril de 2006. Disponível em: <
https://www.searchenginejournal.com/yahoo-visual-timeline-1996-2006/3306/ >.
Acesso em: 20 set. 2018.
Desconhecido. YMYL Google Core Updates – All You Need to Know. In:
SEARCH ENGINE NATION. 25 de Agosto de 2018. Disponível em: <
http://searchenginenation.com/ymyl-google-core-updates/ >. Acesso em: 20 set.
2018.
128
YOUNG, Rob. Who Uses Search Engines? 92% of Adult U.S. Internet Users.
In: SEARCH ENGINE WATCH. 11 de Agosto de 2011. Disponível em: <
https://searchenginewatch.com/sew/study/2101282/search-engines-92-adult-
internet-users-study >. Acesso em: 20 set. 2018.
DOMINGUEZ, Trace. How Much of the Internet Is Hidden?. In: SEEKER. 02
de Setembro de 2015. Disponível em: < https://www.seeker.com/how-much-of-
the-internet-is-hidden-1792697912.html >. Acesso em: 20 set. 2018.
HANLEY, Rachel. From Googol to Google. In: THE STANFORD DAILY. 12 de
Fevereiro de 2003. Disponível em: <
https://web.archive.org/web/20100327141327/http://www.stanforddaily.com/200
3/02/12/from-googol-to-google >. Acesso em: 20 set. 2018.
PEREZ, Sarah. Google’s mobile-first search index has rolled out to a
handful of sites. In: TECH CRUNCH. 20 de Dezembro de 2017. Disponível em:
< https://techcrunch.com/2017/12/20/googles-mobile-first-search-index-has-
rolled-out-to-a-handful-of-sites/ >. Acesso em: 20 set. 2018.
PARISER, Eli. “Beware online ‘filter bubbles’”. In: TED Talks. 2011.
Disponível em: <
https://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles/transcript?l
anguage=en >. Acesso em: 26 set. 2018.
ROSEN., J.J. The Internet you can’t Google. In: TENNESSEAN. 02 de Maio
de 2014. Disponível em: <
https://www.tennessean.com/story/money/tech/2014/05/02/jj-rosen-popular-
search-engines-skim-surface/8636081/ >. Acesso em: 20 set. 2018.
BOHN., Dieter. Google Now: behind the predictive future of search. In: THE
VERGE. 29 de Outubro de 2012. Disponível em: <
https://www.theverge.com/2012/10/29/3569684/google-now-android-4-2-
knowledge-graph-neural-networks >. Acesso em: 20 set. 2018.
JENKINS JR., Holman. Google and the Search for the Future. In: WALL
STREET JOURNAL. 14 de Agosto de 2010. Disponível em: <
129
https://www.wsj.com/articles/SB10001424052748704901104575423294099527
212 >. Acesso em: 20 set. 2018.
VISE, David. Online Ads give Google huge gain in profits. In: WASHINGTON
POST. 21 de Outubro de 2005. Disponível em: <
https://www.washingtonpost.com/wp-
dyn/content/article/2005/10/20/AR2005102002058.html >. Acesso em: 20 set.
2018.
DEWEY, Caitlin. You probably haven’t even noticed Google’s sketchy quest
to control the world’s knowledge. In: WASHINGTON POST. 11 de Maio de
2016. Disponível em: < https://www.washingtonpost.com/news/the-
intersect/wp/2016/05/11/you-probably-havent-even-noticed-googles-sketchy-
quest-to-control-the-worlds-
knowledge/?noredirect=on&utm_term=.affc2a5a89b8 >. Acesso em: 20 set.
2018.
WIKIPEDIA. List of search engines. Disponível em: <
https://en.wikipedia.org/wiki/List_of_search_engines >. Acesso em: 20 set. 2018.
METZ, Cade. Google is 2 Billion lines of code — and it’s all in one place. In:
WIRED. 16 de Setembro de 2015. Disponível em: <
https://www.wired.com/2015/09/google-2-billion-lines-codeand-one-place/ >.
Acesso em: 20 set. 2018.
LEVY, Steven. How Google’s Algorithm Rules the Web. In: WIRED. 22 de
Fevereiro de 2010. Disponível em: <
https://web.archive.org/web/20110417034921/http://www.wired.com/magazine/
2010/02/ff_google_algorithm/all/1 >. Acesso em: 20 set. 2018.
MARRS, Megan. Predictive Search: Is This the Future or the End of
Search?. In: WORDSTREAM. 3 de Abril de 2015. Disponível em: <
https://www.wordstream.com/blog/ws/2013/06/24/predictive-search >. Acesso
em: 20 set. 2018.
130
ANEXOS
CONFIGURAÇÃO DE DADOS PESSOAIS DAS CONTAS GOOGLE UTILIZADAS NOS
EXPERIMENTOS DETALHADOS NO CAPÍTULO 3
USUÁRIO 1
Nome: Mary
Sobrenome: Smith
Data de nascimento: 10/01/1992
Sexo: Feminino
Número de telefone (obrigatório para confirmação de cadastro): 11 95320-2696
E-mail: [email protected]
USUÁRIO 2
Nome: John
Sobrenome: Smith
Data de nascimento: 15/04/1975
Sexo: Masculino
Número de telefone (obrigatório para confirmação de cadastro): 11 99988-4153
E-mail: [email protected]
USUÁRIO 3
Nome: Stephen
Sobrenome: O’Neil
Data de nascimento: 22/07/1995
Sexo: Masculino
131
Número de telefone (obrigatório para confirmação de cadastro): 11 99729-4574
E-mail: [email protected]
USUÁRIO 4
Nome: Randall
Sobrenome: Prestley
Data de nascimento: 28/09/1985
Sexo: Masculino
Número de telefone (obrigatório para confirmação de cadastro): 11 97494-5261
E-mail: [email protected]
USUÁRIO 5
Nome: Chelsea
Sobrenome: Mann
Data de nascimento: 01/10/2000
Sexo: Feminino
Número de telefone (obrigatório para confirmação de cadastro): 11 96196-7947
E-mail: [email protected]
132
TERMOS DE PESQUISA PARA COMPOSIÇÃO DE HISTÓRIO DAS CONTAS GOOGLE
UTILIZADAS NOS EXPERIMENTOS DETALHADOS NO CAPÍTULO 3
Abaixo estão listados todos os termos de pesquisa consultados para compor o
histórico de pesquisa de cada usuário. Os termos em destaque foram
analisados em experimentos detalhados no capítulo 3.
USUÁRIO 1
Foram realizadas 545 consultas para compor o histórico de pesquisa do Usuário
1.
aol concert tickets www.aoltickets.com aol concert tickets www.aoltickets.com ticket master outlets www.ticketmaster.com
residential pages in houston tx www.switchboard.com public search for person www.firstgov.gov measurement conversion table
www.onlineconversion.com victoria's secret fila
premier cinemas in baytown tx www.pccmovies.com black girls black girls www.blackglamors.com
girls girls nude girls www.purescans.com
shoes shoes shoes
girl gone wild www.bodsforthemods.com fine black girls www.efmalliance.org fine black girls www.sustainableag.net
shoes fine black girls fine black girls www.photographysites.com
fine black girls www.themiraclemaker.com fine black girls www.clockworksgames.com ovulation calculator www.woman.gov
ovulation calculator www.babycenter.com premier cinema www.pccmovies.com fine black girls
fine black girls www.photographysites.com fine black girls www.themiraclemaker.com fine black girls www.clockworksgames.com
ovulation calculator www.woman.gov ovulation calculator www.babycenter.com premier cinema www.pccmovies.com
fine black girls fine black girls shoes
fila pregnancy calculator pregnancy.about.com pregnancy calculator parenting.ivillage.com
pregnancy calculators www.myparentime.com pregnancy calculators www.glendaleadventist.com pregnancy calculator and pictures of fetus
www.paternityangel.com pregnancy calendar and fetus growth pictures www.pregnancy.org
pregnancy calendar and fetus growth pictures www.homeandfamilynetwork.com pregnancy calculator pregnancy.about.com
chinese gender calendar www.chinesefortunecalendar.com chinese gender calendar www.tryingtoconceive.com
chinese gender calendar www.immihelp.com chinese gender calendar chinesefood.about.com chinese gender predictor www.thelaboroflove.com
chinese gender predictor www.obfocus.com pregnancy weeks calculator pregnancy.about.com bible scriptures concerning prayers of faith
www.religioustolerance.org bible scriptures concerning prayers of faith www.his-net.com
how to open a grocery store and gas station how to open a grocery store and gas station in texas grocery store gas station franchises
pregnancy weeks calculator pregnancy calculator chinese gender calendar
commercial acreage for sale in dayton tx commercial acreage on hwy. for sale in tx commercial land for sale in dayton tx
commercial land for sale in dayton tx commercial land for sale in dayton tx full moon for april
november birthstone www.jewelryformother.com november birthstone www.bernardine.com november birthstone www.bernardine.com
ksbj www.ksbj.org healing prayers www.amazon.com healing prayers www.fourgates.com
bible scriptures for healing www.alighthouse.com bible scriptures for healing www.healingscriptures.com bible scriptures for healing www.prayingscriptures.com
healing for bipolar disorders www.mcmanweb.com healing for bipolar disorders www.ofspirit.com healing scriptures for mental illness
outofmind.blogspot.com healing scriptures for mental illness www.wholepersonconcepts.org
pregnancy calculator pregnancy.about.com is spiritual fasting okay for pregnant women www.bennyhinn.org
is spiritual fasting okay for pregnant women www.usccb.org is fasting safe for pregnant women
www.stonyfield.com criss-cross reference phone numbers www.reversephonedirectory.com
area code www.thedirectory.org bible scriptures for defeating the enemy www.bible-knowledge.com
133
first trimester of pregnancy www.woman.gov http www. clickhouston.com clickhouston www.clickhouston.com
criss-cross phone number reference www.internetpeoplesearch.com criss-cross phone number reference
www.reversephonedirectory.com criss-cross phone number reference phone prefix of www.thedirectory.org
a drug with slang name of ice www.kci.org information on methamphetamines www.thebeachcomberrehabilitation.com
residential listings www.switchboard.com pregnancy calculator pregnancy.about.com family poems www.netpoets.com
poems about cousins www.scrapbook.com poems about cousins www.poemsforfree.com poems about cousins
poems about cousins poems about cousins poems about cousins
poems about cousins family poems www.netpoets.com family poems www.poemhunter.com
ksbj www.ksbj.org st. jude's shrine www.stjudeshrine.org jdm ministries www.jdm.org
symptoms of cocaine addiction nickscape.net symptoms of cocaine addiction www.cocaine-effects.com
symptoms of cocaine addiction www.cocaine-effects.com symptoms of cocaine addiction
www.friendsofnarconon.org symptoms of cocaine addiction www.addictionca.com symptoms of cocaine addiction www.diagnose-me.com
symptoms of cocaine addiction www.drugabuse.gov affects of cocaine use if you are diabetic diabetic's use of cocaine
i am diabetic and use cocaine www.realitycheck.org.au i am diabetic and use cocaine forums.studentdoctor.net gastrointestinal problems associated with cocaine use
www.focusas.com gastrointestinal problems associated with cocaine use www.jrsm.org
gastrointestinal problems associated with cocaine use www.rochester.edu gastrointestinal problems associated with cocaine use
www.ncbi.nlm.nih.gov gastrointestinal problems associated with cocaine use www.goaskalice.columbia.edu
gastrointestinal problems associated with cocaine use www.drug-rehab.com co-dependency www.allaboutcounseling.com
co-dependency www.recoveryresources.org co-dependency www.recoveryresources.org co-dependency www.recovery-man.com
co-dependency skepdic.com is bipolar disorder hereditary www.bipolarworld.net is bipolar disorder hereditary www.familyaware.org
is bipolar disorder hereditary www.bipolar.com is bipolar disorder hereditary www.bipolar.com are people with bipolar disorder prone to use drugs and
alcohol www.nimh.nih.gov are people with bipolar disorder prone to use drugs and alcohol concernedcounseling.com
are people with bipolar disorder prone to use drugs and alcohol www.aamft.org are people with bipolar disorder prone to use drugs and
alcohol www.dbsalliance.org www.joelosteen.org joel osteen www.joelosteen.com
joel osteen www.joelosteen.com pregnancy calculator pregnancy.about.com continental airlines www.continental.com
bible scriptures for defeating the enemy www.bible-knowledge.com bible scriptures concerning praying in agreement
pregnancy calculator pregnancy.about.com will drinking caffeine hurt my unborn baby babyfit.com pencil test pregnancy accuracy www.pregnancy-
info.net pencil test pregnancy accuracy www.everything.com pencil test pregnancy accuracy www.everything.com
accuracy of chinese calendar gender test www.pregnancystore.com accuracy of chinese calendar gender test
www.childbirth.org risk of having multiple births after age www.marchofdimes.com
risk of having multiple births after age www.fertilitext.org risk of having multiple births after age
www.fertilitext.org adcc toll free numbers for adcc
bible scripture concerning speakl it out as if it were bible scripture saying to speak out your miracle as if it were here www.bible-knowledge.com
bible scripture saying to speak out your miracle as if it were here www.bible-knowledge.com bible scripture saying to speak out your miracle as if it
were here www.elroy.net bible scriptures concerning the miracle in our mouth chinese gender calculator www.obfocus.com
summer maternity clothing clothing.listings.ebay.com summer maternity clothing www.mimimaternity.com summer maternity clothing www.maternityapparel.com
format for a formal apology letter www.writeexpress.com format for a formal apology letter
www.letterwritingguide.com format for a formal apology letter www.nccaom.org format for a formal apology letter www.tamiu.edu
format for a formal apology letter www.bcs.org form letter for a formal apology to co-worker archives.thedaily.washington.edu
form letter for a formal apology to co-worker thomashawk.com form letter for a formal apology to co-worker
www.uq.edu.au apology letter formats www.writeexpress.com apology letter formats www.letterwritingguide.com
apology letter formats www.letterrep.com apology letter formats www.letterrep.com apology letter formats www.evidyarthi.com
apology letter formats writing-business-letters.com apology letter for misconduct to employer format www.letterrep.com
apology letter for misconduct to employer format www.letterrep.com apology letter for misconduct to employer format
www.chron.com apology letter for misconduct to employer format https://magnusoft.com/letterrep/letter_list.cfm?catid=
apology letter for misconduct to employer format https://magnusoft.com/letterrep/letter_list.cfm?catid= apology letter for misconduct to employer format
how to write a letter saying your sorry www.writeexpress.com apology letters for professionals www.letterrep.com
apology letters for professionals officetime.thespeciousreport.com apology letters for professionals www.writinghelp-
central.com apology letters for professionals www.savvychicks.com
apology letters for professionals ezinearticles.com apology letters for professionals www.clickz.com pregnancy calculator pregnancy.about.com
134
crosby tx real estate for sale www.homes.com acreage for sale in crosby tx bonniebutler.homes.com eva mendez information www.celebritywonder.com
eva mendez information www.celebritywonder.com bio on eva mendes www.fulllatin.com is there an illness disorder associated with a person
wanting to have numerous pets disorders with people owning numerous dogs psychological disorders
is it a disorder to want to own violent dogs faculty.ncwc.edu is it a disorder to want to own violent dogs
www.americansdeserveprivacy.com is it a disorder to want to own violent dogs www.mental-health-today.com
symptoms of narcissism www.toddlertime.com symptoms of narcissism www.angelfire.com symptoms of narcissism it.stlawu.edu
personality disorders www.degreez.com personality disorders personalitydisorders.mentalhelp.net
personality disorders www.focusas.com personality disorders stormie omartian www.stormieomartian.com
stormie omartian stormieomartian.com stormie omartian's bio stormie omartian's mother's mental illness
www.christianitytoday.com stormie omartian's mother's mental illness www.christianitytoday.com
dealing with abuse from a spouse with mental disorder www.helpguide.org dealing with abuse from a spouse with mental disorder
mentalhelp.net dealing with abuse from a spouse with mental disorder dealing with abuse from a spouse with mental disorder
incestabuse.about.com dealing with abuse from a spouse with mental disorder pages.zdnet.com
dealing with spouse that has bipolar disorder christianblogs.christianet.com dealing with spouse that has bipolar disorder
www.bipolarworld.net dealing with spouse that has bipolar disorder spouse is cruel to everyone in family including animals
coping with abusive spouses divorcesupport.about.com coping with abusive spouses
coping with abusive spouses coping with spouse who has personality disorder dealing with abusive spouse
www.covenantkeepers.org dealing with abusive spouse coping with spouse who has personality disorder
spouse is cruel to everyone in family including animals coping with abusive spouses divorcesupport.about.com
personality disorders personality disorders dealing with verbally abusive spouse www.drirene.com
dealing with verbally abusive spouse dealing with a spouse with personality disorder dealing with a spouse with personality disorder
symptoms of a personality disorder symptoms of a personality disorder symptoms of an abusive spouse www.helpguide.org
symptoms of an abusive spouse open-mind.org chinese baby predictor www.chinesefortunecalendar.com
chinese baby predictor www.thelaboroflove.com chinese baby predictor www.obfocus.com residential pages - houston tx www.switchboard.com
pregnancy mental disorder nina amada mia novela www.alma-latina.net nina amada mia novela foro.telenovela-world.com
maternity clothing www.duematernity.com maternity clothing www.thelaboroflove.com construction industry cfr code book spanish translation
www.bookworkz.com construction industry cfr code book spanish translation teexweb.tamu.edu
construction industry cfr code book spanish translation www.abc.org construction industry cfr code book spanish translation
www.bookworkz.com construction industry cfr code book spanish translation www.bookworkz.com
hispanic safety publications inc. www.hispanicsafetypubs.com construction industry cfr code book spanish translation
www.bookworkz.com construction industry cfr code book spanish translation convenience store franchises in texas dmoz.org
convenience store franchises in texas www.businessnation.com how to start your own gasoline convenience store
business furlow programs definition for furlough program www.english-test.net
olga lidia hernandez in houston tx olga contreras massage therapist in houston tx www.dshs.state.tx.us
olga hernandez phone for olga contreras www.secondfederal.com white pages for houston tx www.hellohouston.com
motherhood maternity how to kill lice in hair www.astdhpphe.org how to kill lice in hair www.walgreens.com
pregnancy calculator pregnancy.about.com dictionary definition for varmit www.campchase.com dictionary definition for varmit venus.soci.niu.edu
dictionary definition for varmit www.dailykos.com dictionary definition for varmit www.texans-r-us.com how many mpg do you get in a dodge intrepid
www.theautochannel.com premier cinemas www.pccmovies.com pregnancy calculator pregnancy.about.com
full moon date for may www.almanac.com full moon dates for central time sunearth.gsfc.nasa.gov full moon dates for central time www.hugs-edu.org
full moon dates for central time www.seasky.org full moon dates for central time www.psychic-corner.com
full moon dates for central time sunearth.gsfc.nasa.gov www.psychic-corner.com shoes www.shoes.com
beyonce pictures www.eforu.com beyonce pictures www.weirdspot.com beyonce pictures www.tombraideru.com
beyonce pictures www.beyonce-knowles.com pregnancy calculator pregnancy.about.com www.verizonwireless.
sloths sloths sloths sloths.org
sloths www.museum.state.il.us beyonce beyonce pictures www.beyonce-knowles.com
beyonce naked pictures www.acmegirls.com beyonce naked pictures www.lifestyle.com sloths
sloths www.geocities.com sloths www.geocities.com sloths www.q-net.net.au
sloths www.crystalinks.com sloths sloths
www.gentryschhol.com www.baytownschooldistrict.com www.gccisdschholdistrict.com
135
karyme lozano www.alma-latina.net karyme lozano www.alma-latina.net karyme lozano www.fulllatin.com
nina amada mia novela tdmymas.tripod.com nina amada mia novela tdmymas.tripod.com nina amada mia novela www.imdb.com
nina amada mia novela www.moviesunlimited.com nina amada mia novela foro.telenovela-world.com karyme lozano hairstyles showhappy.info
karyme lozano hairstyles perso.wanadoo.es isabela soriano hairstyles karyme lozano hairstyles showhappy.info
karyme lozano hairstyles mayeumagic.com karyme lozano hairstyles www.matrix.com karyme lozano hairstyles perso.wanadoo.es
karyme lozano hairstyles ... karyme lozano hairstyles karyme lozano pictures www.alma-latina.net
karyme lozano pictures www.alma-latina.net karyme lozano pictures www.netglimse.com karyme lozano pictures www.netglimse.com
karyme lozano pictures allactors.co.uk karyme lozano pictures www.celebritywizard.com karyme lozano pictures www.celebritywizard.com
karyme lozano pictures www.serials.ru karyme lozano karyme lozano
karyme lozano karyme lozano www.alma-latina.net karyme lozano www.alma-latina.net
karyme lozano www.starfool.com karyme lozano www.celebritywizard.com karyme lozano babeinvasion.com
karyme lozano babeinvasion.com prolean supplements www.bodyactive-online.co.uk prolean supplements www.proimageteam.com
prolean supplements ebay diet pills with ephedra rdenya.no.sapo.pt
pro lean diet supplements pro lean www.iwr.com pro lean www.proimageteam.com
pro lean www.proimageteam.com pro lean www.proimagenutrition.com pro lean www.sncdirect.com
pro lean pro image supplements www.proimageteam.com pro image supplements www.tryprovitamin.com
pro image supplements www.tryprovitamin.com pro image supplements www.tryprovitamin.com fiesta days in sanantonio tx www.fiesta-sa.org
what do i need to do to become an actress www.kidlink.org what do i need to do to become an actress
www.things.com what do i need to do to become an actress www.ehow.com
what do i need to do to become an actress experts.about.com how do i get auditions for acting gigs
experts.about.com how do i get an agent for acting jobs www.theatrgroup.com
how do i get an agent for acting jobs grills grillz www.lyricsmania.com
how to make grillz www.xanga.com how to make grillz www.xanga.com how to make grillz www.stereogum.com
how to make grillz www.howtomakegrillz.com grillz www.gangstagrillz.com
grill starter kit www.mrbling.com success rate to . chain letters www.breakthechain.org religious fasting tips www.allaboutprayer.org
gccisd www.gccisd.net bape www.pickyourshoes.com bape www.brandchannel.com
bape www.nicekicks.com www.verizonwireless.co derivative citizenship information
canberra.usembassy.gov derivative citizenship information immlaw.com derivative citizenship information
derivative citizenship requirements in the us immigration.about.com stories of miracles www.blessedcause.org
stories of miracles www.creativespirit.net stories of miracles adventist.tv stories of miracles www.hypernews.org
stories of miracles www.geocities.com jesse duplantis jesse duplantis during his rock band days
jesse duplantis www.jdm.org .lyrimania.com .lyricmania.com www.lyricmania.com
.lyricmania.com www.lyricmania.com .lyricmania.com music.jdmag.net .lyricmania.com music.jdmag.net
girls www.desktopgirls.com girls www.desktopgirls.com girls
girls supermodels www.supermodelsunlimited.com supermodels www.mxdpi.com
bible scriptures defeating the enemy www.victorious.org bible scriptures defeating the enemy
www.victorious.org bible scriptures defeating the enemy www.victorious.org
bible scriptures defeating the enemy www.victorious.org bible scriptures defeating the enemy www.bible-
knowledge.com remedies for burns from dry ice what to do for a dryice burn www.painenterprises.com
bible scriptures for defeating the enemy www.bible-knowledge.com bible scriptures for defeating the enemy www.bible-
knowledge.com bible scriptures for defeating the enemy www.prayer-warriors.org
bible scriptures for defeating the enemy www.bible-knowledge.com bible scriptures for defeating the enemy
intercessory prayers www.spirithome.com intercessory prayers www.rockies.net intercessory prayers www.beliefnet.com
intercessory prayers christianity.about.com bible scriptures for healing from mental disorders www.religioustolerance.org
bible scriptures for healing from mental disorders www.gotquestions.org bible scriptures for healing from mental disorders
www.walking-wounded.net bible scriptures for healing from mental disorders www.amen.org.uk
bible scriptures for healing from mental disorders bible scriptures for healing from mental disorders healing prayers for people with bipolar disorder
www.beliefnet.com bible scriptures concerning worshiping the lord www.annieshomepage.com
bible scriptures concerning worshiping the lord spiritual warfare through worship www.brandonweb.com
bible scriptures defeating enemy www.theherbsplace.com bible scriptures defeating enemy
136
religious fasting tips mommyconnie.blogstream.com religious fasting tips www.morningstarministries.com furniture outlets in north carolina
www.ncfurnitureonline.com furniture outlets in north carolina www.boyles.com furniture outlets in north carolina ncnet.com
furniture outlets in north carolina north-carolina.uscity.net furniture outlets in north carolina
living room sets for wholesale prices www.nextag.com living room sets for wholesale prices whispy.com living room sets for wholesale prices www.gowfb.com
ksbj www.ksbj.org big screen televisions www.askmen.com wal mart www.walmart.com
zss omni loveseat foley's furniture foley's furniture warehouse
living room sets www.hoobly.com living room sets www.bizrate.com living room sets www.thefurniturewarehouse.net
living room sets www.barnfurnituremart.com living room sets www.losangelesfurniture.com living room sets www.peoplesfurniture.net
living room sets www.overstock.com living room sets living room sets
pictures of living room sets for sale shopping.msn.com pictures of living room sets for sale jerusalem.craigslist.org
pictures of living room sets for sale www.sanjosefurniture.com fila www.fila.com
fila www.silvertomakeagrill.com silver to make a grill
pregnancy calculator pregnancy.about.com beige colored fabric livingroom sets www.dealtime.com beige colored fabric livingroom sets
www.mysimon.com beige colored fabric livingroom sets www.feldmanfurniture.com
beige colored fabric livingroom sets www.sortprice.com beige colored fabric livingroom sets www.sortprice.com beige colored fabric livingroom sets
shopping.yahoo.com beige colored fabric livingroom sets quality-furniture.com
beige colored fabric livingroom sets www.feldmanfurniture.com discount living room furniture
www.thefurniturewarehouse.net discount living room furniture www.classifiedtoday.com discount living room furniture www.directlyhome.com
discount living room furniture www.furnitureontheweb.com discount living room furniture www.kelleyfurniture.com
discount living room furniture www.furniturebuzz.com discount living room furniture www.furniturebuzz.com discount living room furniture
www.furnitureesuperstore.com discount living room furniture www.peoplesfurniture.net
premier cinemas www.premierecinemas.net premier cinemas www.pccmovies.com pregnancy calculator pregnancy.about.com
spiritual beliefs on abortion www.safehavenministries.com spiritual beliefs on abortion www.beliefnet.com
pregnancy calculator healthlink.mcw.edu pregnancy calculator pregnancy.about.com ksbj www.ksbj.org
lakewood church www.joelosteen.com lakewood church www.lakewood.cc ksbj www.ksbj.org
bible scriptures defeating enemy www.khouse.org bible scriptures defeating enemy www.bible-knowledge.com
bible scriptures for healing www.alighthouse.com bible scriptures for healing www.mswm.org bible scriptures for healing www.religioustolerance.org
bible scriptures for healing www.healingscriptures.com bible scriptures for healing www.prayingscriptures.com bible scriptures for healing
bible scriptures for defeating the enemy www.bible-knowledge.com prayers for pleading the blood of jesus as an
intercessor prayers for pleading the blood of jesus pleading the blood of jesus against mental disorder
www.bible-knowledge.com pleading the blood of jesus against mental disorder spiritualwarfare.jesuswork.org
pleading the blood of jesus against mental disorder spiritualwarfare.jesuswork.org pleading the blood of jesus against mental disorder
www.issuesetc.org pleading the blood of jesus www.bible-knowledge.com pleading the blood of jesus www.cybertime.net
pleading the blood of jesus www.believers.org pleading the blood of jesus www.wordlibrary.co.uk pleading the blood of jesus www.yourgoingtohell.com
pleading the blood of jesus christianblogs.christianet.com intercessory prayers for healing www.spirithome.com
intercessory prayers for healing www.centralpc.org intercessory prayers for healing www.prayerlinks.net joel osteen-- www.joelosteen.com
prayers for relationship problems www.divorcehope.com prayers for relationship problems
www.selfhealingexpressions.com prayers for relationship problems www.bible.com prayers to break curses www.withoneaccord.org
prayers to break curses www.demonbuster.com prayers to break curses www.demonbuster.com prayers to break curses www.yourgoingtohell.com
prayers for cleansing www.porn-free.org prayers for defeating enemy www.faithfulhope.com bible scriptures for defeating the enemy www.bible-
knowledge.com prayers to plead the blood of jesus against problems www.bible-knowledge.com
prayers to plead the blood of jesus against problems www.bible-knowledge.com prayers to plead the blood of jesus against problems
www.christianblog.com how does a male's cocaine use affect a fetus www.fasalaska.com
how does a male's cocaine use affect a fetus https://my.inova.com/public/healthresearch/content birth defects caused by father's cocaine use
otispregnancy.org birth defects caused by father's cocaine use www.tripdatabase.com
are chainletter scams ever successful are chainletter scams ever successful marketing.mcdar.net
are chainletter scams ever successful . mailing list fee letter scams www.breakthechain.org pregnancy calculator pregnancy.about.com
area code www.thedirectory.org area code - government grants for women owned businesses
www.proposalwriter.com government grants for women owned businesses www.womanowned.com
chinese pregnancy calendar www.holodeck.com chinese pregnancy calendar www.holodeck.com chinese pregnancy calendar www.thelaboroflove.com
137
ksbj www.ksbj.org prayers for healing from serious diseases www.lyricmania www.lyricmania.com
joel osteen www.joelosteen.com suvrail paul shepherd
paul sheppard www.enduringtruth.org worleyparsons www.worleyparsons.com worley parsons - houston tx office www.worley.com.au
chinese pregnancy calendar www.baby-parenting.com chinese gender calendar www.webwomb.com chinese gender calendar
www.chinesefortunecalendar.com chinese gender calendar www.obfocus.com chinese gender calendar
www.chinesefortunecalendar.com chinese gender calendar www.obfocus.com
USUÁRIO 2
Foram realizadas 201 consultas para compor o histórico de pesquisa do Usuário
2.
valentines day e-cards http://www.superlaugh.com not your mommas banana pudding http://www.northpole.com
paul and silas in jail http://www.ainglkiss.com crosswalk.com http://www.crosswalk.com 3 -6 mafia
3-6 mafia stay fly http://www.lyricsandsongs.com photographs http://www.newseum.org family photographs
handicap photographs http://www.fotosearch.com photographs of the handicapped http://www.fotosearch.com
handicap photographs http://www.imdb.com family photo gallery http://www.american-pictures.com you can shout at midnight
deliverance at midnight god delivers at midnight http://www.amazon.com deliverance at midnight
paul and silas delivered at midnight http://www.amazingchange.org paul and silas delivered at
midnight http://www.allaboutturkey.com biblegateway http://www.biblegateway.com your midnight experience
god delivers at midnight paul and silas delivered at midnight http://www.amazingchange.org
paul and silas delivered at midnight http://biblia.com acts http://www.godrules.net bible commentaries http://eword.gospelcom.net
bodybuilder clip art http://www.acclaimimages.com march sunday school lesson http://www.christianstandard.com
psalm http://www.usccb.org psalm god knows all ... http://www.barclaychurch.org.uk
state of maryland pension withdrawl http://www.twin-music.com directorate of civilian personnel operations
civilian employment directorate of civilian personnel operation delaware duel action cleanse http://www.thecoloncleanser.com
duel action cleanse duel action cleanse http://www.thecoloncleanser.com duel action cleanse http://www.thecoloncleanser.com
duel action cleanse http://duelactionclnsfrsmpl.ianomalynews.info natural laxatives http://www.nativeremedies.com
home remedy laxatives http://www.fatfreekitchen.com isca.idiana.edu liquid protein diets http://www.annecollins.com
liquid protein diets http://www.atkinsexposed.org lap band surgeons in delaware http://www.obesityhelp.com
lap band surgeons in delaware http://www.readyachange.com
women determined to seek jesus women determined to see jesus women determined to see the king
christian women determined to see the king christian women determined to see the king biblical women determined to see jesus
woman with the alabaster box http://bible.cc woman with the alabaster box http://bible.cc woman with the alabaster box http://www.savior-of-
all.com woman with the alabaster box http://www.arvopart.org woman with the alabaster box http://www.amazon.com
woman with the alabaster box http://www.gospelflava.com woman with the alabaster
box http://www.tentmaker.org stop watering what doesn't belong to you determined to see god
luke http://bible.cc luke http://www.godrules.net luke http://www.biblegateway.com
capitol school district http://www.k.de.us house rentals in dover delaware house rentals in dover delaware
family court state of delaware http://www.delcode.state.de.us family court state of
delaware http://www.divorcesource.com family court state of delaware http://www.state.de.us family court state of
delaware http://www.completecase.com family court state of delaware http://www.ilrg.com determined to see king jesus
i am determined to seek jesus http://miracleprayers.blogspot.com women determined to see jesus http://www.woman.ch
bible commentaries http://bible.crosswalk.com lap band surgery http://www.obesitylapbandsurgery.com
lap band surgery http://ww.khou.com lap band surgery http://womenshealth.about.com delaware lap band
surgeons http://www.locateadoc.com delaware lap band surgeons http://www.locateadoc.com
delaware lap band surgeons http://www.healthgrades.com state of delaware internal revenue
delaware division of revenue http://www.state.de.us delaware division of revenue http://www.online-taxes.com
ezee pass delaware ezee pass applying for e-z pass
applying for delaware e-z pass http://www.ezpassde.com
138
lap band surgeons in delaware http://www.bariatric-surgery.info constructive criticism classroom
activities http://www.foundationcoalition.org constructive criticism classroom activities http://www.foundationcoalition.org
constructive criticism classroom activities http://www.aec.asef.org constructive criticism classroom
activities http://www.psychologicalscience.org constructive criticism classroom activities http://www.eklavya.org
constructive criticism classroom activities occupational oulook handbook -- http://www.ndcrn.com sex --
intercourse -- intercourse -- sucks -- [/url]
purpose and destiny in christ http://www.calgaryworship.com my purpose in christ
not your mammas banana pudding http://www.amazon.ca not your mammas banana
pudding http://www.recipezaar.com jiffy corny bread http://recipes.egullet.org jiffy corny bread http://www.heb.com
design a cereal box http://teacher.scholastic.com design a cereal box http://mtl.math.uiuc.edu design a cereal box http://www.cynical-c.com
design a cereal box http://www.uen.org design a cereal box http://www.flickr.com design a cereal box http://www.painstick.com
hair weaving hair weaving hair weaving techniques
full head weave weaving a full head of hair weaving a full head of hair
bible commentaries http://bible.crosswalk.com bible commentaries http://eword.gospelcom.net bible commentaries http://eword.gospelcom.net
bible commentaries http://eword.gospelcom.net answering the call of god http://www.mark-shea.com answering the call of god http://www.intouch.org
answering the call of god http://www.exchangedlife.com answering the call of
god http://www.trinitybiblecollege.edu answering the call of god http://www.frtommylane.com answering the call of god http://www.all-creatures.org
created for a purpose http://www.thelastdays.net created for a purpose http://www.deeperdevotion.com primates and monkeys http://anthro.palomar.edu
apes http://www.enchantedlearning.com created for a purpose http://www.berean.com the alabaster box http://www.lyricsdownload.com
the alabaster box http://www.amazon.com the alabaster box http://bible.cc
i am determined to see jesus http://www.sofnet.com biblical women determined to see jesus http://www.continuetolearn.uiowa.edu
luke 7-37 http://www.bible.org luke 7-37 http://www.rc.net luke 7-37 http://www.wcg.org
luke 7-37 http://home.austarnet.com.au luke 7-37 luke 7-37
luke 7-37 sinners determined to see jesus http://www.wiu.edu harlot determined to see jesus
seeking jesus determined to see jesus determined to seek jesus http://www.regnumchristi.org
mapquest are you determined to see jesus http://www.nd.edu are you determined to see
jesus http://www.whosoever.org the harlot determined to see jesus seeking jesus http://www.covchurch.org
determined to seek jesus women seeking jesus http://r.webring.com he that comes to god must believe that he
is http://www.blueletterbible.org steps to seeking jesus http://lurasbookcase.com steps to seeing
jesus http://culturalsavage.wordpress.com sin prevents us from seeing jesus clearly http://www.hollywoodjesus.com
sin prevents us from seeing jesus clearly http://www.bridges-across.org what does it mean to see jesus
motives for seeing jesus the 10 virgins seek jesus women with issue of blood seeks jesus
preparing to see jesus preparing to see jesus preparing to meet jesus
soul train line http://video.google.com soul train line http://media.putfile.com soul train line http://www.jumptheshark.com
soul train line http://www.dailymotion.com la weight loss menus http://www.changingshape.com la weight loss menus http://www.dwlz.com
la weight loss menus http://www.dietbites.com la weight loss menus http://www.dietbites.com la weight loss menus http://www.dietbites.com
la weight loss menus http://www.dietbites.com la weight loss menus http://www.dietbites.com pounds in days http://slimming.onemorebite.com
9 pounds in 11 days http://www.things.com 9 pounds in 11 days http://diet.com
USUÁRIO 3
Foram realizadas 162 consultas para compor o histórico de pesquisa do Usuário
3.
symptoms of childhood leukemia 2006-05-11
1 http://www.cancer.org is it normal to have no sexual drive 5 months after son's birth http://parents.berkeley.edu
is it normal to have no sexual drive 5 months after son's birth
what is an asymmetrical mean when used with breast
lumps http://www.goaskalice-cms.org what is an asymmetrical mean when used with breast lumps
baby in position at 32 weeks device that beeps when child is out of range
139
is it normal to have no sexual drive 5 months after son's birth what are the symptoms of postpartum hyperthyroid
http://www.thyroid.org.au sores and itching up your nose sores and touching up your nose
sores and touching up your nose sores and touching up your nose sores and touching up your nose
can you get herpes in your nose http://kidshealth.org can you get herpes in your nose can you get herpes in your nose
can you get herpes in your nose can you get herpes in your nose can you get herpes in your nose
can you get herpes in your nose can you get herpes in your nose can you get herpes in your nose
is inducing my pregnancy bad do paternal grandparents always get the shaft do paternal grandparents always get the shaft
do paternal grandparents always get the shaft do paternal grandparents always get the shaft what gets rid of jowls
what gets rid of jowls what gets rid of jowls what gets rid of jowls
does liposuction get rid of jowls http://www.washingtonian.com does liposuction get rid of jowls
does liposuction get rid of jowls does liposuction get rid of jowls tricked her partner
scraping the lining of he uterus to stop menstrual cycle having lining of uterus scrped to stop mentrual cycle having lining of uterus scraped to stop menstrual cycle
if girlfriend was on birth control and tricked me am i responsible for pregnancy http://www.metafilter.com if girlfriend was on birth control and tricked me am i
responsible for pregnancy http://www.stormfront.org if girlfriend was on birth control and tricked me am i responsible for pregnancy http://www.stormfront.org
if girlfriend was on birth control and tricked me am i responsible for pregnancy http://beautyversusthebeast.blogspot.com
if girlfriend was on birth control and tricked me am i responsible for pregnancy if girlfriend was on birth control and tricked me am i
responsible for pregnancy if girlfriend was on birth control and tricked me am i responsible for pregnancy http://www.hoinews.com
how to clean bionaire air filter merena iud birth co tricked into fatherhood
Tricked boyfriend into becoming a father what is an asymmetrical mean when used with breast lumps http://www.hopkinsmedicine.org
what kind of effects are there on children during hurricanes http://www.nola.com what kind of effects are there on children during
hurricanes http://www.apa.org how to make a stuffed animal with light inside simple science inventions
at what tempature does water boil at what temperature does water boil can you test positve for majuanna from second hand
smoke can you test positive for marijuana from second hand smoke http://www.goaskalice.columbia.edu
can you test positive for marijuana from second hand smoke http://www.goaskalice.columbia.edu can you test positive for marijuana from second hand
smoke http://my.marijuana.com my.marijuana.com 4th grade science project http://www.isd77.k12.mn.us
5-month old infants head is flat in the back of the head http://www.gillettechildrens.org 5-month old infants head is flat in the back of the
head http://filipowskirace.typepad.com 5-month old infants head is flat in the back of the head http://www.plagiocephaly.org
what causes plagiocephaly http://www.babycenter.com intex pool 18x48 http://www.shopzilla.com how many gallons of water does an in ground pool
take http://texas.sierraclub.org how many gallons of water does an in ground pool take http://www.patiostore.com
how many gallons of water does an in ground pool take http://texas.sierraclub.org intex pools health risks http://www.llnl.gov
book titled the little girl of terror http://www.amazon.com permenant chlorine for pools permanent chlorine for pools
permanent chlorine for pools permanent chlorine for pools decorative outdoor fountains
rain and wind gauges http://www.kbvrtv.org tennessee made fountains http://www.tnloghomes.com rodbenders restaurant in miami florida
cat bleeding from mouth http://www.zzcat.com cat bleeding from mouth http://www.zzcat.com feline leukemia http://www.felineleukemia.org
can a cat with feline leukemia test negative and still be positive http://www.vetinfo.com what is an ink file
kate berlin http://cgi.ebay.com stanley home cleaner http://www.stanleyhomecare.com key west resorts http://www.oceankey.com
.ups.com watkins cleaning products http://www.vanillaone.com how to change the driver side mirror on the ford
expediton miami-dade county school board website http://www.dadeschools.net
medmore insurance
USUÁRIO 4
Foram realizadas 171 consultas para compor o histórico de pesquisa do Usuário
4.
ardi http://www.ardi.com basilisk system http://www.everything.com
basilisk beos emulator http://sisbe.sourceforge.net beos . download http://downloads-zdnet.com.com
beos http://www.beforever.com
www.gardenpower.com www.gardenpower.com
build an indoor greenhouse http://www.nleindex.com build an indoor greenhouse http://www.nleindex.com build an indoor grow room
indoor garden http://www.webterrace.com
140
beos . on athlon http://www.bedrivers.com beos . on athlon http://slashdot.org betips.net http://www.betips.net
beos pesonal into pro beos personal into pro http://www.bootmanager.com beos software download http://www.xsall.nl
beos software download http://www.bebits.com men wearing panties sizes http://www.brieftales.com men wearing panties sizes
men wearing panties sizes beos http://www.bebits.com beos athlon xp http://www.bebits.com
beos athlon xp patch http://www.bebits.com install beos athlon xp beos personal install on athlon xp
http://www.bebits.com beos personal install on athlon xp http://www.bebits.com
beos personal install on athlon xp http://www.windowsmarketplace.com beos personal install on athlon xp
http://www.computing.net beos athlon xp patch http://www.begroovy.com beos athlon xp patch http://www.osnews.com
beos pe max download http://www.osnews.com beos pe max download http://www.computing.net beos pe max download http://freshmeat.net
beos pe max download http://sourceforge.net beos pe max download http://www.linux-proshop.de breeding parakeets http://www.lisashea.com
breeding parakeets http://www.lisashea.com windows emulators emulators http://www.emulator-zone.com
emulators http://www.emulators.com amiga downloads http://free-game-downloads.mosw.com
amiga downloads http://www.amigaforever.com amiga downloads http://www.cebl.auckland.ac.nz winuae http://www.winuae.net
winuae setup http://www.mameworld.net amiga rom file download http://www.rom-world.com amiga rom file download http://www.amigaforever.com
amiga rom file download http://www.tweakguides.com amiga rom file download http://www.theoldcomputer.com
amiga rom download http://www.rom-world.com men in thongs exposed thong http://www.bostonphoenix.com
exposed thong show your thong http://mythong.textamerica.com show your thong http://www.nzgirl.co.nz
show your thong http://www.writtenroad.com my humps free download http://www.empworld.com my humps free download http://www.mp-center.org
my humps free download http://www.artistdirect.com getting a thong that fits getting a thong that fits http://www.epinions.com
mame roms http://www.romnation.net nintendo roms http://www.freeroms.com nintendo roms http://www.coolrom.com
project plugins http://www.zophar.net project plugins http://www.ngemu.com victorias secret http://www.victoriassecret.com
what size hip waist help what size jeans hip waist http://www.danangstore.com
help what size jeans hip waist help what size jeans hip waist help what size jeans hip
walmart thongs http://www.usatoday.com walmart thongs skirtini
what is a skirtini what is a skirtini guys who wear thongs http://groups.teenhelp.org
indoor garden http://www.helpfulgardener.com indoor vegetable garden http://gardengal.net indoor vegetable garden http://mtmt.essortment.com
indoor vegetable garden http://www.ext.vt.edu indoor vegetable garden http://www.ext.vt.edu indoor vegetable garden
http://www.helpfulgardener.com indoor vegetable garden http://www.megagro.com indoor vegetable garden http://www.ext.colostate.edu
florescent light indoor vegetable garden fluorescent light indoor vegetable garden http://members.optusnet.com.au
fluorescent light indoor vegetable garden http://www.megagro.com fluorescent light indoor vegetable garden
http://www.oldhouseweb.com new bright rockrawler mods new bright rockcrawler mods http://www.rcboards.com
greenhouse equipment home greenhouse http://www.greenhousekit.com home greenhouse http://www.agnr.umd.edu
home greenhouse http://www.greenhouses-etc.net home greenhouse heating a pvc greenhouse http://www.wvu.edu
heating a pvc greenhouse http://sdnew.net heating a pvc greenhouse http://davesgarden.com heating a pvc greenhouse http://sdnew.net
heating a pvc greenhouse http://forums.gardenweb.com heating a pvc greenhouse
http://cecalaveras.ucdavis.edu garden zones http://www.blossomswap.com garden zones http://www.thegardenhelper.com
indoor vegetables http://mtmt.essortment.com indoor garden http://www.webterrace.com artficial light garden
artficial light garden plant lights http://retirees.uwaterloo.ca n controller http://www.stuffo.com
indoor greenhouse http://www.gardenpower.com indoor greenhouse http://dansgardenshop.com www.gardenpower.com
n roms http://www.nroms.org n roms http://www.dgemu.com n roms http://httpd.chello.nl
n roms http://www.snesheaven.org n roms http://www.nemu.net neo geo http://home.swipnet.se
neo geo http://thedump.classicgaming.gamespy.com rom utilities rom utilities http://www.emuconnect.com
neogeo emulator http://www.emuconnect.com neogeo emulator http://home.swipnet.se mame neogeo http://www.arcadeathome.com
mame neogeo http://www.geoshock.com winvice http://www.download-full-games.com winvice http://www.download-full-games.com
winvice http://www.download-full-games.com c downloads http://lastninja.lemon.com c downloads http://www.cgg.com
c downloads http://www.c.com seed catalog http://www.parkseed.com seed catalog http://www.territorial-seed.com
seed catalog http://www.johnnyseeds.com garden catalog http://www.gardenlist.com badger care http://www.dhfs.state.wi.us
fucking determined lyrics http://www.sing.com fucking determined tab http://www.ultimate-guitar.com mudvayne http://www.mudvayne.com
mudvayne http://www.mudvayne.com growing pot http://www.allpotseeds.com white persian seed
http://mothergeckobotanicals.com.whsites.net white persian poppy http://opioids.com dove feeder http://www.hurleybyrd.com
141
guys who wear thongs http://www.weeklygripe.co.uk guys who wear thongs racine crossdressers
http://www.milwaukeetransgendered.com racine crossdressers http://upscaleescorts.net racine crossdress
www.jennasdollhouse.com racine sluts build a greenhouse http://www.wvu.edu
build a greenhouse http://www.plumeria.com build a hydroponic garden http://wiki.ehow.com build a hydroponic garden http://www.hydroponics.net
build a grow chamber http://www.marijuanamagazines.com build a grow chamber http://www.indoor-gardening-
guide.com build a grow room http://www.cannabisculture.com build a grow room http://www.sgs-hydroponic.com
indoor greenhouse http://www.klimagro.com indoor greenhouse http://www.gardenpower.com indoor greenhouse http://dansgardenshop.com
indoor greenhouse http://www.gardenpower.com www.gardenpower.com build an indoor greenhouse http://www.omnisterra.com
build an indoor greenhouse http://www.gardenpower.com build an indoor greenhouse
http://www.michaelholigan.com
mourning dove feeder http://forums.gardenweb.com mourning dove feeder http://www.enature.com parakeet red nostrils http://animal-world.com
parakeet red nostrils http://en.wikipedia.org parakeet red nostrils http://en.wikipedia.org parakeet red cere http://en.wikipedia.org
parakeet red cere http://www.avianweb.com home depot http://www.homedepot.com tobacco seeds http://www.coffinails.com
tobacco seeds http://www.victoryseeds.com jeep cherokee sunroof jeep cherokee power sunroof will not close
how to fix jeep cherokee power sunroof http://www.faqfarm.com jeep power sunroof
jeep power sunroof trouble jeep power sunroof trouble how to clone plants
how to clone pot plants http://cannabisculture.com how to clone pot plants http://www.marijuanapassion.com
punk rock girl tab -- http://www.tabcrawler.com seed starting jiffy strips seed starting using jiffy strips
http://www.selectedplants.com
USUÁRIO 5
Foram realizadas 153 consultas para compor o histórico de pesquisa do Usuário
5.
weapon disarming technique black martial arts magazine how many people obtain the rank of black belt in the
martial arts self defense self defense systems
self defense academy commerical fitness equipment commerical fitness curcuit training equipment
360 self defense full circle self defense street smart self defense
hardcore self defense military terms animals names
krav maga reality based self defense fighting
small business opportunities knee strikes blocks with punches
rape instructor
a fighting chance self defense escape proof self defense stay safe self defense
i want to pick a name for my business i want to become a rape escape instructor become a certified rape instructor
become a certified rape prevention instructor a woman beating up a man a woman fighting a man
self defense training ppct mangement i want to be a ppct management certified instructor
ground fighting self defense techique what martial art do wesley snipes practice what new in self defense
mcdonalds shift managers job description i am we todd it i am sofa king i am sofa king we todd did slowly
brazilian jui jitsu bruce lee