anÁlise de sentimentos da populaÇÃo brasileira em … · novas formas e meios de se comunicar. a...

73
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE ENSINO SUPERIOR DO SERIDÓ DEPARTAMENTO DE COMPUTAÇÃO E TECNOLOGIA BACHARELADO EM SISTEMAS DE INFORMAÇÃO ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM RELAÇÃO A ELEIÇÃO PRESIDENCIAL DE 2018 ATRAVÉS DA REDE SOCIAL TWITTER JANAILTON GALVÃO PEREIRA Caicó- RN 2019

Upload: others

Post on 14-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE ENSINO SUPERIOR DO SERIDÓ

DEPARTAMENTO DE COMPUTAÇÃO E TECNOLOGIA

BACHARELADO EM SISTEMAS DE INFORMAÇÃO

ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EMRELAÇÃO A ELEIÇÃO PRESIDENCIAL DE 2018 ATRAVÉS DA REDE

SOCIAL TWITTER

JANAILTON GALVÃO PEREIRA

Caicó- RN2019

Page 2: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

JANAILTON GALVÃO PEREIRA

ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EMRELAÇÃO A ELEIÇÃO PRESIDENCIAL DE 2018 ATRAVÉS DA REDE

SOCIAL TWITTER

Trabalho de conclusão de curso apresentado aocurso de graduação em Sistemas de Informação,como parte dos requisitos para obtenção dotítulo de Bacharel em Sistemas de Informação daUniversidade Federal do Rio Grande do Norte.

Orientador(a): Prof. Me. Humberto Rabelo.

Caicó- RN2019

Page 3: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Pereira, Janailton Galvão. Análise de sentimentos da população brasileira em relação aeleição presidencial de 2018 através da rede social Twitter /Janailton Galvão Pereira. - Caicó, 2019. 71f.: il. color.

Monografia (Bacharel em Sistemas de Informação) -Universidade Federal do Rio Grande do Norte. Centro de EnsinoSuperior do Seridó. Departamento de Computação e Tecnologia. Orientador: Prof. Dr. Humberto Rabelo.

1. Mineração de dados textuais - Monografia. 2. Previsãoeleitoral - Monografia. 3. Twitter (Rede social on-line) -Monografia. 4. Avaliação do comportamento - Monografia. 5.Análise de sentimentos - Monografia. I. Rabelo, Humberto. II.Título.

RN/UF/BS-Caicó CDU 004.62:324

Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Profª. Maria Lúcia da Costa Bezerra - ­ CERES­-Caicó

Elaborado por MARTINA LUCIANA SOUZA BRIZOLARA - CRB-15/844

Page 4: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

JANAILTON GALVÃO PEREIRA

ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EMRELAÇÃO A ELEIÇÃO PRESIDENCIAL DE 2018 ATRAVÉS DA REDE

SOCIAL TWITTER

Monografia apresentada em 26 de junho de 2019 pela banca examinadora composta pelosseguintes membros:

Prof. Me. Humberto RabeloOrientador - DCT/UFRN

Profa. Me. Angélica Felix MedeirosDCT/UFRN

Profa. Esp. Danieli Silva de Souza RabeloLAIS/SEDIS-UFRN

Prof. Me. Taciano de Morais SilvaDCT/UFRN

Caicó- RN2019

Page 5: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

A Deus, fonte de amor sem fim, por toda dedicação e bênçãos derramadas. Por segurar a minha

mão nos momentos difíceis, e por uma oração nunca ter sido em vão.

Aos meus pais, João e Maria, por mostrarem o amor através de gestos, e pelo incondicional

apoio de sempre, sou grato pelo privilégio de vivenciar esse conto de fadas genuíno.

A minha maravilhosa família, e aos incríveis anjos enviados que na terra chamamos de amigos.

Aos professores, que até nos mais obscuros dias, exercem o dom de lecionar com resiliência e

amor.

A minha amada e amiga, pelo carinho e afeto, pessoa radiante que tive a sorte de conhecer.

Page 6: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Resumo

Com o avanço tecnológico e a chegada da web 2.0, tornou-se corriqueiro o uso das rede sociaispara diversos fins, entre eles debater política e expor opinião. Nesse contexto um grande volumede dados se forma todos os dias, algo que se intensifica nos períodos eleitorais. Em paraleloa isso, até os dias de hoje são realizadas as tradicionais pesquisas eleitorais de campo quedemandam bastante tempo e dinheiro para serem produzidas, além disso suas publicações sãoperiódicas deixando uma lacuna de dias sem essas informações que são de extrema importância.O presente trabalho busca através da mineração de dados textuais e análise de sentimentos,mapear a popularidade dos candidatos à presidência da república do Brasil 2018 com base empublicações presentes na rede social Twitter durante o período eleitoral, após isso aferir relaçãoentre o apoio demonstrado na mídia social e o desempenho obtido no resultado da eleição e empesquisas eleitorais da época, podendo assim avaliar a viabilidade ou não da rede como umaferramenta de predição eleitoral de baixo custo e tempo.

Palavras-chave: Mineração de dados textuais; Análise de sentimentos; Predição eleitoral;Twitter.

Page 7: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Abstract

With the technological advance and the arrival of web 2.0, has became commonplace to usesocial networks for various purposes, between them politics and expressing opinions. In thiscontext a great amount of data is formed every day, something that intensifies in the electoralperiods. In parallel to this, until the present day the traditional electoral surveys of fields areperformed, and their results are periodical, leaving a gap of days without this information thatis of extreme importance. The present work, searches through the mining of textual data andsentiment analysis, to map the popularity of the candidates for the presidency of the Republicof Brazil 2018 based on publications present in the social network Twitter during the electoralperiod, after that to verify relationship between the support demonstrated in the social mediaand the performance obtained in the election results and in electoral surveys of the time, thusassessing the viability or not of the network as a low cost and time prediction tool.

Keywords: Text data mining; Sentiment analysis; Electoral surveys; Twitter.

Page 8: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

LISTA DE FIGURAS

Figura 1 – Algumas das tarefas e técnicas de mineração de dados . . . . . . . . . . . . 20Figura 2 – Etapas do KDT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20Figura 3 – Tabela de comparação entre os trabalhos relacionados . . . . . . . . . . . . 25Figura 4 – Metodologia empregada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26Figura 5 – Processo de armazenamento dos dados . . . . . . . . . . . . . . . . . . . . 27Figura 6 – Bases de amostras para treino e teste . . . . . . . . . . . . . . . . . . . . . 29Figura 7 – Lista de debates e sabatinas ocorridas no primeiro turno da eleição para

Presidência do Brasil em 2018 . . . . . . . . . . . . . . . . . . . . . . . . 31Figura 8 – Fluxo de implementação dos experimentos . . . . . . . . . . . . . . . . . . 32Figura 9 – Strings de busca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33Figura 10 – Quantidade de tweets armazenados para candidato . . . . . . . . . . . . . . 34Figura 11 – O antes e o depois dos tweets pré-processados . . . . . . . . . . . . . . . . 35Figura 12 – Porcentagem de dados selecionados pelos autores para treino e teste dos sus

modelos de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . 37Figura 13 – Porcentagem de dados selecionados por este trabalho para treino e teste dos

modelos de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . 38Figura 14 – Interpretação do coeficiente de Kappa . . . . . . . . . . . . . . . . . . . . 40Figura 15 – Valores do coeficiente de Kappa para o modelo classificador de cada candidato 41Figura 16 – Acurácia do modelo classificador de cada candidato por algoritmo . . . . . 42Figura 17 – Lista de inscrições para a disputa da Presidência da República . . . . . . . . 43Figura 18 – Lista de presença ou ausência dos candidatos nos eventos . . . . . . . . . . 44Figura 19 – Quantidade de tweets analisados por candidato . . . . . . . . . . . . . . . . 45Figura 20 – Quantidade de tweets analisados por candidato . . . . . . . . . . . . . . . . 46Figura 21 – Popularidade de Álvaro Dias, durante o primeiro turno eleitoral de 2018 . . 47Figura 22 – Popularidade de Cabo Daciolo, durante o primeiro turno eleitoral de 2018 . 47Figura 23 – Popularidade de Ciro Gomes, durante o primeiro turno eleitoral de 2018 . . 48Figura 24 – Popularidade de Fernando Haddad, durante o primeiro turno eleitoral de 2018 49Figura 25 – Popularidade de Geraldo Alckmin, durante o primeiro turno eleitoral de 2018 50Figura 26 – Popularidade de Guilherme Boulos, durante o primeiro turno eleitoral de 2018 51Figura 27 – Popularidade de Henrique Meirelles, durante o primeiro turno eleitoral de 2018 52Figura 28 – Popularidade de Jair Bolsonaro, durante o primeiro turno eleitoral de 2018 . 53Figura 29 – Popularidade de Marina Silva, durante o primeiro turno eleitoral de 2018 . . 54Figura 30 – Popularidade média, por candidato, durante o primeiro turno da eleição

presidencial de 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55Figura 31 – Percentual de votos por candidato no primeiro turno de 2018 . . . . . . . . 55

Page 9: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Figura 32 – Pesquisa sobre a intenção de votos, realizada no primeiro turno da eleiçãopelo IBOPE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Figura 33 – Popularidade entre os dois primeiros debates . . . . . . . . . . . . . . . . . 57

Page 10: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

LISTA DE ABREVIATURAS E SIGLAS

UFRN Universidade Federal do Rio Grande do Norte

TSE Tribunal Superior Eleitoral

IBOPE Instituto Brasileiro de Opinião Pública e Estatística

UFIR Unidade Fiscal de Referência

SVM Support Vector Machines

PLN Processamento de linguagem natural

API Application Programming Interface

Page 11: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.1 Contextualização e Problema . . . . . . . . . . . . . . . . . . . . . . 131.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.3 Delimitação do Estudo . . . . . . . . . . . . . . . . . . . . . . . . . . 151.4 Motivação e Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . 161.5 Classificação da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . 171.6 Apresentação do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . 17

2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . 182.1 Eleições no Brasil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.1 Mineração de dados textuais . . . . . . . . . . . . . . . . . . . . . . . . 202.2.2 Análise de sentimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.3 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.3.1 Processamento de linguagem natural e NLTK . . . . . . . . . . . . . . 222.3.2 Aprendizado de Máquina e Scikit-learn . . . . . . . . . . . . . . . . . . 222.4 Tarefa de classificação de dados . . . . . . . . . . . . . . . . . . . . 232.4.1 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4.2 Máquina de vetores de suporte - SVM . . . . . . . . . . . . . . . . . . 232.5 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.1 Coleta de dados e pré-processamento . . . . . . . . . . . . . . . . . 273.2 Montagem e treinamento do modelo classificador . . . . . . . . . 283.3 Classificação de publicações e resultados . . . . . . . . . . . . . . 29

4 DESENVOLVIMENTO DA PESQUISA . . . . . . . . . . . . . . . . . 314.1 Escopo dos experimentos . . . . . . . . . . . . . . . . . . . . . . . . 314.2 O fluxo dos experimentos . . . . . . . . . . . . . . . . . . . . . . . . 324.2.1 Coleta dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.2.2 Limpeza e pré-processamento . . . . . . . . . . . . . . . . . . . . . . . 354.2.3 Bases de amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.2.4 Treinamento e teste do modelos de classificação . . . . . . . . . . . . 39

Page 12: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

4.3 Técnica de classificação escolhida . . . . . . . . . . . . . . . . . . . 42

5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.1 Dados analisados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.2 Análise de popularidade individual . . . . . . . . . . . . . . . . . . . 465.2.1 Alvaro Dias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.2.2 Cabo Daciolo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.2.3 Ciro Gomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.2.4 Fernando Haddad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.2.5 Geraldo Alckmin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.2.6 Guilherme Boulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.2.7 Henrique Meirelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.2.8 Jair Bolsonaro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.2.9 Marina Silva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.3 Média de popularidade durante o primeiro turno . . . . . . . . . . 54

6 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596.1 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596.2 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596.3 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 606.4 Considerações finais e trabalhos futuros . . . . . . . . . . . . . . . 60

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

ANEXO A – SCRIPT DA API TWEEPY . . . . . . . . . . . . . . . . 66

ANEXO B – SCRIPT DE PRÉ-PROCESSAMENTO . . . . . . . . . 67

ANEXO C – SCRIPT DE SELEÇÃO ALEATÓRIA DE DADOS . . . 69

ANEXO D – SCRIPT DE MINERAÇÃO EM DADOS TEXTUAIS . . 70

ANEXO E – SCRIPT DE RESULTADOS . . . . . . . . . . . . . . . 72

Page 13: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

12

1 Introdução

Segundo Gabriel (2010), as redes sociais não são tão recentes como imaginamos. Naverdade, suas primeiras atividades estão datadas a pelo menos três mil anos, quando os humanosse juntavam entorno da fogueira para dialogar. Assim, com o passar dos anos, foram surgindonovas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas decomunicação, tais como: correio, e-mail, telefones e a rede mundial de computadores.

De acordo com Bernardo e Goulart (2011, p. 3), “Uma rede social é uma estruturasocial composta por pessoas ou organizações, conectadas por um ou vários tipos de relações,que partilham valores e objetivos comuns”. Neste sentido, Gabriel (2010) afirma também quecom a possibilidade de conectar o planeta em rede, surgiu a Web 2.0 e as redes sociais onlinefortalecidas pela disseminação de banda larga e a popularização de computadores e notebooks.

Dentre as diversas redes sociais online existentes temos o Twitter, que está presente deforma crescente na vida cotidiana. De acordo com Statistic Brain (2013 apud Murthy (2018) p.66,tradução nossa), a referida mídia social possui cerca de 554,7 milhões de pessoas espalhadaspelo mundo que utilizam a plataforma ativamente, publicando 58 milhões de “tweets” por dia erecebendo cerca de 135.000 novos registros diariamente.

Para Kaplan e Haenlein (2010, p. 61), “As Mídias sociais são um grupo de aplicativos,que possuem como base em fundamentos ideológicos e tecnológicos da Web 2.0, e que permitema criação e troca de conteúdo gerado pelos usuários.” Nesse sentido, as redes sociais on-linepodem ser consideradas enquanto mídias deste tipo.

Ressalta-se que dentre os diversos assuntos abordados na rede social temos a política,tema de interesse comum que gera milhares de comentários e interações. Por esta perspetiva, ofilósofo Lévy (2007) acredita no potencial das mídias sociais como ferramenta de compartilha-mento de conhecimento e diálogo político.

Em seu livro "A Inteligência Coletiva", Lévy (2007) relata a necessidade do homemde viver em sociedade, compartilhando vivências, além de ensinar e aprender. Na mesma obraLévy relata que a democracia ideal seria possível através de um ciberespaço, onde cada cidadãopassaria a interagir e ter importância única por expressar sua opinião e contribuir para o bem docoletivo.

A cada dia torna-se mais corriqueiro por parte dos políticos, o uso das tecnologiasoferecidas na internet com o intuito de atingir uma massa gigantesca do eleitorado (SILVA;JUNIOR, 2014). Nesse sentido, Maarek (2014) também pontua que tempos atrás, as habilidadescom palestras, somadas às mídias impressas e aos discursos de rádio e TV eram suficientes paraum bom desempenho nas campanhas eleitorais. Contudo o referido autor, ressalta que hoje o

Page 14: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 1. Introdução 13

marketing político moderno aderiu às mídias sociais como ferramenta potencial de comunicação,onde estratégias de campanhas já utilizam do que é chamado marketing direto que promoveinteração com o eleitorado através de envio de mensagens, telefonemas e uso das pesquisaseleitorais para tomada de decisão.

No Brasil, desde 2013 as redes sociais tornaram-se palco de muitas discussões políticas.De acordo com Ruediger, Grassi e Asensi (2017), os protestos pelo aumento das passagens deônibus ocorridos no referido ano, transformaram as redes sociais em ferramentas de disseminaçãodemocrática, devido à desconfiança da população em relação a cobertura dessas manifestações,feitas pelas mídias convencionais, aqui entendidas como televisão, rádio e jornais.

Considerando a relevância das estratégias de marketing político digital, como asseveraLévy (2007), torna-se relevante analisar as eleições de 2018 a partir disso. Assim, será possívelcompreender o que se pensa sobre os candidatos à Presidência através das redes sociais, emespecífico o Twitter. Por fim, irá ser feita um comparativo entre os resultados da eleiçãopresidencial e a popularidade dos candidatos na internet, a fim de compreender a relação entre odesempenho dos presidenciáveis nas urnas e sua aceitação na rede social. A partir disso, poderáaferir-se sobre a viabilidade desta rede social como uma alternativa de predição eleitoral.

1.1 Contextualização e Problema

A opinião pública possui um grande poder na sociedade, a partir dela escolhemosprodutos e serviços, empresas tomam decisões com base no que diz sua clientela, tornandoesse tipo de informação tão importante a ponto de organizações investirem tempo e dinheiropara obtê-las (BECKER; TUMITAN, 2013). Para Cios, Pedrycz e Swiniarski (1998), o clientepode ser influenciado a consumir um produto ou desistir dele, a partir da opinião de outrosconsumidores — isso levando em consideração seus relatos de experiência. Esse contexto seaplica em diversas decisões cotidianas, como ir ou não por uma via congestionada, assistir ou nãodeterminado filme, apoiar ou não candidato ou partido, com base em determinado argumento.

Entender o que se passa nas redes sociais, o posicionamento do público sobre tal tema eseus comportamentos, fazem com que empresas de marketing e propaganda, além de diversospesquisadores na área de tecnologia, dediquem recursos em busca de informações valiosas nomeio dos imensos volumes de dados (NOGUEIRA, 2015).

É notório a presença das redes sociais como uma ferramenta importante no dia a diada população. Sendo utilizadas para diversos fins como comunicar-se, buscar fontes de notíciasou entretenimento, elas fazem cada vez mais parte do nosso cotidiano. Entre os diversos temascomentados e compartilhados nas redes sociais se faz presente a política, que ganha força emperíodos eleitorais.

Para Becker e Tumitan (2013), as opiniões tradicionalmente obtidas através de pesquisas

Page 15: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 1. Introdução 14

de campo, questionários ou telefonemas, possuem retorno demorado e suas informações podemficar obsoletas. Os autores complementam ainda que, com a chegada das mídias sociais, grandesvolumes de informações são gerados diariamente possibilitando um feedback valioso paraempresas e organizações, e que para isso, se faz necessário um conjunto de técnicas e métodosde detecção e processamento automático tanto do conteúdo quanto da opinião ali existente.

A partir da comparação entre a campanha presidencial ocorrida no Brasil em 2010 eas eleições anteriores Marques e Sampaio (2011) detectaram um considerável crescimento douso das redes sociais no Brasil para fins político, seja pelos eleitores ou pelos partidos. Não àtoa, a cada dia que passa a sociedade brasileira vem adotando as mídias sociais como ferramentapara consumir informação e expressar opinião, principalmente sobre o cenário político do país(RUEDIGER; GRASSI; ASENSI, 2017). Isso ganha ainda mais força no período eleitoral, ondeos candidatos discutem sobre diversos assuntos. Assim, os debates e sabatinas em rede nacionalgeram um grande volume de dados sobre a opinião do eleitorado que podem ser processados nointuito de gerar informações oportunas para candidatos e coligações.

Considerando o grande volume de dados produzidos durantes os debates realizados aolongo da última campanha eleitoral para Presidente da República, notou-se a necessidade deutilizar a mineração de dados, já que a mesma possibilita a produção de informações valiosas,de forma rápida e de baixo custo, que podem ser consumidas por partidos, mídias e eleitorado.Destaca-se que para Fayyad, Piatetsky-Shapiro e Smyth (1996), a mineração de dados surgejustamente para solucionar a dificuldade de se transformar dados em informações - que era umprocesso tradicionalmente lento e custoso e que foi agravado pela capacidade das organizaçõesarmazenarem grandes volumes de dados.

Pontua-se que ainda não se sabe o quão verídicas são as informações advindas dasredes sociais. Shao et al. (2017) afirmam que, se consumimos notícias através de redes sociais,estamos expostos a receber matérias falsas ou enganosas incentivada por diversos motivos, comomonetização, manipulação de mercado de ações e principalmente política. Reitera-se também,que a viralização de conteúdo errôneo é considerado como um risco global, e que apesar dadificuldade em comprová-las, é fato que esse tipo de conteúdo pode ameaçar a democracia.

Por fim, considerando-se que em 2018, ocorreu a eleição para Presidente da RepúblicaFederativa do Brasil (fonte de um grande volume de dados advindos das redes sociais, emespecial o Twitter), que é a quarta rede mais utilizada pelos brasileiros segundo Academia doMarketing (2018), minerar tais dados se faz necessário. Trata-se de uma forma de analisar apopularidade e aprovação de cada candidato nessa mídia social e comparar com o resultadoobtido na eleição. Assim, será mensurada a confiança dessa rede social, enquanto uma ferramentade predição, que pode ser utilizada ou não, posteriormente, para auxiliar estratégias políticas.

Com isso, tem-se que o problema analisado por este estudo consiste em verificarse o desempenho dos candidatos na eleição presidencial do Brasil 2018 é reflexo de sua

Page 16: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 1. Introdução 15

popularidade ou aprovação na rede social Twitter? Essa problemática conduzirá através deexperimentos, a análise de viabilidade da rede social Twitter como uma ferramenta de prediçãoeleitoral rápida e de baixo custo, comparando a aprovação de cada candidato na mídia socialcom o seu desempenho na eleição para presidente, além de mensurar o quanto as informaçõesobtidas conseguem predizer o que ocorreu de fato.

1.2 Objetivos

1.2.1 Objetivo Geral

Utilizar técnicas de mineração de dados textuais para analisar comentários advindos darede social Twitter, a fim de verificar os níveis de popularidade dos candidatos à Presidência daRepública em 2018 e compará-los com os resultados finais desta eleição.

1.2.2 Objetivos Específicos

• Armazenar, pré-processar e transformar as publicações obtidas na rede social Twitter sobrecada candidato em formato adequado para os algorítimos de mineração de texto;

• Utilizar técnica de mineração de texto (Text mining) e aprendizagem de máquina (machine

learning) para gerar modelo de classificação;

• Mapear a popularidade de cada candidato a presidência na rede social Twitter durantedebates e sabatinas de Tv aberta;

• Comparar os resultados da eleição presidencial com as informações obtidas na mineraçãode texto;

• Comparar informações obtidas na mineração de texto com pesquisas eleitorais registradaspelo TSE.

• Analisar a viabilidade da rede social Twitter como ferramenta de predição eleitoral.

1.3 Delimitação do Estudo

A política é assunto recorrente nas redes sociais e que ganha intensidade durante operíodo eleitoral. É possível, por meio de técnicas computacionais, extrair informações valiosas,que podem assessorar candidatos e partidos na tomadas de decisão, porém pouco se sabe sobre oquão concretas são as informações extraídas a partir de dados de mídias sociais.

Page 17: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 1. Introdução 16

Esta monografia tem como ponto principal de estudo o processo de descoberta deconhecimento em base de texto, do inglês Knowledge discovery in text databases KDT, comênfase na parte de mineração de texto, demonstrando todo o processo feito desde a coleta dedados até a descoberta do conhecimento, utilizando de técnicas de classificação de texto eaprendizado de máquina implementadas a partir da linguagem Python. Os dados utilizados comobase de estudo são referentes a publicações capturadas da rede social Twitter, realizadas duranteos debates e sabatinas ocorridas em canais de TV abertas, com alcance nacional no primeiroturno da eleição presidencial do Brasil 2018. Devido a falta de debates no segundo turno damesma eleição, não foi possível coletar informações nesta fase eleitoral.

Ao todo foram coletados 1.014.752 tweets (publicações da rede social Twitter), contendoo conteúdo da postagem junto a data e hora em que foi publicada. É importante reforçar quetais tweets estão relacionados apenas ao candidatos que se fizeram presentes nos eventos de Tvaberta, isso porque suas desenvolturas ao decorrer dos episódios monitorados geraram uma ondade reações diferentes por parte dos internautas.

1.4 Motivação e Justificativa

Segundo Tan et al. (1999) 80% dos registros estão em formato de texto por ser a formamais comum de armazenamento de informação, assim a mineração de texto possui um potencialmaior que a mineração de dados. Para Aggarwal e Zhai (2012), com a criação das mídias sociaisnos últimos anos, a mineração de texto vem tendo mais importância a cada dia, visto que essasferramentas proporcionam a criação desse tipo de dados.

É notório a importância de mídias tradicionais na disseminação de ideias políticas eincentivo a democracia, mas com a chegada dos novos meios de comunicação ou "new medias",os limites de tempo em Tvs e rádios, e de espaço - como o caso de folhetos impressos - foramexpandidos, tendenciando a absorção das redes sociais como canal de comunicação políticoque suprem carências dos meios de comunicação tradicionais, são elas o poder do diálogo ediscussão (MARQUES; SAMPAIO; AGGIO, 2013).

Dentre os variados assuntos que podem ser estudados pela mineração de texto, temosas redes sociais e política tanto no âmbito de canais de divulgação quanto discussão em favorda democracia. Muito se fala no poder das redes sociais no compartilhamento de ideias einformações, mas não se sabe de fato se as mesmas servem como termômetro eleitoral, sendoassim uma possível alternativa rápida e de baixo custo em relação as tradicionais pesquisaseleitorais.

As eleições de 2018 definiram o futuro do país para os próximos quatro anos e diante dogrande volume de dados gerado na internet durante esse processo, torna-se relevante um estudosobre a popularidade dos candidatos na rede social Twitter, e uma análise em relação aos dados

Page 18: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 1. Introdução 17

obtidos com os resultados do processo democrático disponíveis pelo TSE (Tribunal SuperiorEleitoral). Diante destes aspetos, o presente trabalho abordará também alguns conceitos sobremineração de texto, técnicas e algoritmos utilizados além da linguagem Python e suas bibliotecasque são a base para implementação do estudo. O objetivo é contribuir para a comunidadeacadêmica estabelecendo uma correlação entre a aprovação dos presidenciáveis na mídia social eo seus respectivos desempenhos na eleição presidencial 2018, julgando viável ou não o manuseioda referida rede social como um nova alternativa as tradicionais pesquisas eleitorais existentes.

1.5 Classificação da Pesquisa

Existem diversos critérios para se classificar uma pesquisa científica, é possível distingui-las a partir da sua natureza, objetivos ou procedimentos técnicos (WAZLAWICK, 2017). Combase no que diz tal autor, esta monografia se classifica quanto a sua natureza em um trabalhooriginal, pois busca responder indagações utilizando as técnicas de mineração de texto embasadasem autores consolidados. Quanto aos objetivos podemos classificar este trabalho em pesquisaexplicativa pois, almeja analisar os dados em relação a um determinado fenômeno e busca porcausas e explicações. Em relação aos procedimentos técnicos, a pesquisa que se enquadra nestetrabalho é a experimental, pois serão feitos experimentos com dados ainda não explorados.

1.6 Apresentação do Trabalho

Esta monografia encontra-se organizada em cinco capítulos, são eles: Introdução,Fundamentação Teórica, Metodologia, Resultados e Conclusão. No primeiro capítulo é feitoum prelúdio sobre a problemática abordada, e quais os objetivos devem ser alcançados parasolucionar a mesma, além da delimitação e motivação do que foi estudado.

No capítulo seguinte, realiza-se um levantamento histórico sobre o tema da pesquisa,além de quais as teorias, ferramentas e técnicas foram empregadas visando a solução do problema.Somado a isso, são levantados alguns trabalhos que se assemelham com este, no intuito desolidificar a proposta.

O terceiro capítulo mostra a metodologia empregada para se obter os resultados ealcançar os objetivos da pesquisa, além do passo a passo produzido além de onde se empregouas tecnologias citadas no capítulo anterior. Na seção seguinte desse trabalho, são explanados aexibição e interpretação dos experimentos realizados. Por fim, no quinto capítulo são expostasas conclusões sobre a problemática da pesquisa, além de dificuldades e possíveis trabalhos quepossam contribuir para sociedade e academia futuramente.

Page 19: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

18

2 Fundamentação Teórica

Este capítulo tem como propósito abordar conceitos sobre a política no Brasil e ouso das redes sociais como ferramenta estratégica de campanha, além da mineração de dadostextuais e técnicas utilizadas para avaliar a consistência da rede social Twitter como ferramentade predição eleitoral. São apontados também, alguns trabalhos relacionados a esse estudo comintuito de corroborar com a metodologia empregada no mesmo.

2.1 Eleições no Brasil

Segundo Nicolau (2002), o Brasil possui em sua história uma rica evolução no quese trata de democracia e eleições. Para ele, desde os primeiros registos no período colonial,passando pelo Estado Novo até os dias de hoje, o processo da escolha de representantes políticos,passou por diversas melhorias, não só nas técnicas utilizadas - substituindo as cédulas por urnaseletrônicas - , como também na lógica do sistema eleitoral e seus representantes. Ressalta-se também que, houveram períodos conturbados, como o golpe de 1964, superado em 1985,causando grande euforia, pela retomada das eleições diretas.

De acordo com Cajado, Dornelles e Pereira (2014), primeira eleição para presidente darepública ocorreu no ano de 1894, com participação de 2,2% da população Brasileira, que apesarde o voto censitário já ter sido extinto nessa época, a baixa participação popular se deu peloimpedimento de mulheres e analfabetos exercerem o voto, direito concebido apenas em 1932,quando a mulher ganhou o direito ao voto no país. Ainda conforme os autores, 53 anos depois,no ano de 1985, os iletrados também ganharam esse direito, eleição essa marcada também porser a primeira após o regime militar que aboliu a democracia por 21 anos entre 1964 e 1985.

Pontua-se que, devido ao avanço tecnológico, o processo eleitoral também passou porimportantes modificações. No ano de 2000, pela primeira vez, todos os votos foram efetuadoseletronicamente, oito anos depois, surgiu a implementação da leitura biométrica que identifica oeleitor evitando assim possíveis fraudes (CAJADO; DORNELLES; PEREIRA, 2014).

Ressalta-se que, no brasil é recorrente e usual a prática de pesquisas no período eleitoral,um costume não muito antigo. Segundo Mendes (1991), as pesquisas eleitorais brasileirasganharam força com a volta da democracia na década de 80, após o golpe militar de 1964. Aindade acordo com o autor, inicialmente polêmicos, os estudos ganham espaço a cada dia que passa.As devidas pesquisas são geridas pelo Tribunal Superior Eleitoral - TSE através da lei número9.504/1997 1, que obriga o registro do estudo na Justiça Eleitoral em até cinco dias antes da1 http://www.tse.jus.br/legislacao/codigo-eleitoral/lei-das-eleicoes/lei-das-eleicoes-lei-nb0-9.504-de-30-de-

setembro-de-1997

Page 20: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 2. Fundamentação Teórica 19

divulgação dos dados, sob pena que oscila entre cinquenta mil a cem mil UFIRs (Unidade Fiscalde Referência).

Dentre os diversos institutos de pesquisa existentes no Brasil, destaca-se o InstitutoBrasileiro de Opinião Pública e Estatística - IBOPE, criado em 1942, sendo o pioneiro no país.Inicialmente realizando pesquisas de mercado, não demorou para que o instituto realizasseestudos sobre as intenções de votos logo ao fim do Estado Novo (BUSETTO, 2003). Até osdias atuais, a instituição se destaca quando o assunto é predição eleitoral, realizando estudosperiódicos durante os pleitos.

2.2 Mineração de Dados

Segundo Fayyad, Piatetsky-Shapiro e Smyth (1996), para se transformar dados emconhecimento independente do ramo e dos tipos de registros, utiliza-se do trabalho de analistase suas interpretações. Ele também destaca a lentidão o alto custo desse processo, que tambémvaria nas análises pessoais e que tem aumentado o seu volume de dados acumulados diariamente,tornando o trabalho mais árduo e dificultando a utilização do conhecimento. Nesse contexto,surgem o processo de descoberta de conhecimento KDD do inglês knowledge discovery in

databases, a fim de sanar a dificuldade de se obter informação a partir de grande volume dedados. Por fim, o referido autor destaca que, durante a sua existência, o KDD já recebeu diversosnomes, entre eles o de mineração de dados, que ganhou força nos processo de descoberta embancos de dados. Porém, a mineração de dados trata-se apenas de um dos passos do KDD.

A mineração de dados é dividia em tarefas e técnicas. Para RABELO (2007), a tarefase relaciona ao problema que se deseja resolver, já a técnica é o método utilizado para secumprir uma determinada tarefa. Segundo Goldschmidt e Passos (2005), o KDD é formadopor etapas onde em cada uma delas são realizadas operações, na etapa de mineração de dadosa operação desenvolvida é chamada de tarefa, quando decidimos qual a teoria empregar paracumprir determinada tarefa, estamos escolhendo o que é chamado de técnica.

A figura 1 lista algumas das tarefas e técnicas que podem ser empregadas na etapa demineração de dados presente no KDD.

Page 21: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 2. Fundamentação Teórica 20

Figura 1 – Algumas das tarefas e técnicas de mineração de dados

Fonte: Goldschmidt e Passos (2005)

2.2.1 Mineração de dados textuais

A mineração de texto, conhecida também por descoberta de conhecimento em basede dados textuais do inglês Knowledge discovery in text databases - KDT, considerada pormuitos uma extensão da descoberta de conhecimento em banco de dados KDD, que consisteem um processo multidisciplinar, que envolve diversas técnicas, entre elas mineração de dados,categorização e aprendizagem de máquina (TAN et al., 1999). Nesse sentido, Aranha e Passos(2006) concordam que, o processo de mineração de texto ou KDT se dá a partir de cinco etapasque são elas: coleta, pré-processamento, indexação, mineração e análise. A figura 2 apresenta asetapas do KDT e suas operações.

Figura 2 – Etapas do KDT

Fonte: Goldschmidt e Passos (2005)

Page 22: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 2. Fundamentação Teórica 21

Através da Figura 2 é possível observar que o processo de mineração de texto é apenasa quarta etapa do KDT, as outras etapas são:

• Coleta: Etapa responsável pela coleta do conjunto de dados que será estudado, podendo-serecorrer a robôs/algoritmos de captura muito utilizados em redes sociais;

• Pré-processamento: Conjunto de atividades que buscam eliminar registros e caracteresirrelevantes. Nessa etapa, se aplica o processamento de linguagem natural - PLN;

• Indexação: Representação de dados textuais em números afim de melhorar o desempenhodos algoritmos de mineração;

• Análise: Etapa de interpretação dos resultados feita por humanos.

2.2.2 Análise de sentimentos

Indurkhya e Damerau (2010) categorizam as informações no formato de texto em fatose opiniões. Para eles, os fatos são objetivos geralmente retrata eventos, já as opiniões entoam osentimento das pessoas em relação a algo ou alguém, além disso os sentimentos podem possuirintensidade tanto positivamente quanto negativamente, assim um texto pode expressar desdeuma aprovação leve a uma extrema euforia.

O principal objetivo da análise de sentimentos é descobrir como os sentimentos sãoapresentados em textos, e qual a sua polaridade em relação ao assunto, seja positiva ou negativa(NASUKAWA; YI, 2003). A análise de sentimentos, tem por objetivo capturar informaçõesexistentes em dados textuais de forma automatizada através do Processamento de LinguagemNatural - PLN (SILVA; STABILE, 2016). A mineração de opinião - também chamada de análisede sentimento, busca através da tarefa de classificação, rotular textos a partir dos sentimentospresentes em seus conteúdos (SANTOS et al., 2010).

2.3 Python

A linguagem de programação Python, foi criada no final da década de 1980 pelomatemático e programador holandês Guido van Rossum, com o objetivo de substituir a linguagemABC, permutação essa motivada pelos descontentamentos que a mesma causava. Nesse contexto,a linguagem Python surgiu com a filosofia de implementar uma gramática simples, divertida deser utilizada, organizada e altamente legível (ROSSUM et al., 2007).

Para Grus (2018), existem diversas linguagem de programação para se trabalhar comdata science como, R, Java, Scala e outras, porém Python é a que mais se destaca, por teruma fácil implementação e compreensão, além de ser gratuita e possuir diversas bibliotecasdirecionadas a ciência dados. Segundo Pedregosa et al. (2011), a linguagem Python cresce a

Page 23: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 2. Fundamentação Teórica 22

cada dia na área da ciência de dados, por possuir implementações de alto nível e uma gama debibliotecas que facilitam a elaboração de códigos, sendo uma delas é a biblioteca Scikit-learn quepossui algoritmos consolidados e de última geração no que se refere a aprendizado de máquina.

2.3.1 Processamento de linguagem natural e NLTK

De acordo com Chowdhury (2003), Natural Language Processing (NLP), ou em portu-guês, Processamento de Linguagem Natural (PNL) é um ramo de pesquisa que busca o entendi-mento e utilização inteligente das linguagens naturais presentes em textos ou falas por parte doscomputadores. Para isso, primeiro deve-se entender como o humano utiliza da linguagem e apartir daí aplicar em ferramentas na computação.

O Natural Language Toolkit - NLTK, ou Kit de Ferramentas para Linguagem Naturalem português, é uma biblioteca da linguagem Python, criada na universidade da Pensilvânia emconjunto com o curso de linguagem computacional em 2001. A mesma, possui mecanismos parase trabalhar no ramo de PLN de uma forma prática de se usar (BIRD; LOPER, 2004).

Segundo sua página 2 na web, o NLTK é a biblioteca líder quando se trata de criaçãode códigos que trabalha com linguagem humana em Python. Isso por possui um uso fácil euma variada gama de recursos léxicos que auxiliam nas tarefas de Processamento de linguagemnatural.

2.3.2 Aprendizado de Máquina e Scikit-learn

De acordo com Monard e Baranauskas (2003), o aprendizado de máquina ou machine

learning em inglês, é um ramo da inteligência artificial que busca com que computadoresobtenham conhecimento e tomem decisões automaticamente, com base em escolhas corretasanteriormente realizadas. Para ele, no aprendizado supervisionado o algoritmo recebe umconjunto de exemplos em que sua classificação é conhecida, chamado de indutor, o objetivo domesmo é criar um modelo capaz de classificar de maneira correta novos exemplos não rotulados.

Garreta e Moncecchi (2013) define Scikit-learn3 como uma biblioteca de código abertodesenvolvida na linguagem de programação Python que implementa os principais algoritmosvoltados ao aprendizado de máquina. A biblioteca Scikit-learn foi desenvolvida para ser utilizadapor pesquisadores de diversas áreas, fazendo com que o aprendizado de máquina torne-seacessível por quem mais pode usufruir de seus recursos, nesse contexto a biblioteca visa qualidadee facilidade de uso (VAROQUAUX et al., 2015).2 https://www.nltk.org/3 scikit-learn.org

Page 24: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 2. Fundamentação Teórica 23

2.4 Tarefa de classificação de dados

Assim como citado na seção 2.2.2, para ser realizada uma analisar sentimentos emmineração de dados, faz-se necessária a aplicação da tarefa de classificação com intuito de rotularos dados processados.

De acordo com Camilo e Silva (2009), a tarefa de classificação tem como funçãoidentificar a classe correspondente de um determinado registro. Nesse contexto, o modeloresponsável por classificar estuda um conjunto de registros já rotulados, com o objetivo deaprender e etiquetar novos atributos não classificados. Para Tan, Steinbach e Kumar (2009), oconjunto de dados de entrada de uma tarefa de classificação é composto por uma dupla (x,y)onde x é a coleção das características e atributos da instância, e y o rotulo classificador para acoleção x.

Wu et al. (2008) realiza em sua obra uma listagem dos 10 melhores algoritmos paramineração de dados, entre eles estão o Naive Bayes e o Máquina de Vetor de Suporte do inglêsSupport Vector Machines - SVM. Brito (2017), após realizar uma revisão sistemática, afirmouque os algoritmos Naive Bayes e o SVM são as técnicas mais utilizadas na classificação desentimentos.

Somado a isso, ambos os algoritmos executam a tarefa classificação de dados (necessáriapara a análise de sentimentos), e estão presentes na biblioteca de aprendizado de máquina Scikit-learn abordada na seção 2.3.2. Com base nesses critérios, os dois algoritmos foram adotadosnesse trabalho, por contribuírem com o objetivo de classificar os tweets, obtidos durante a últimacampanha presidencial, para demonstrar se a aceitação ou repúdio de certos candidatos, nasredes sociais, foi acompanhada pelos resultados das urnas.

2.4.1 Naive Bayes

O Naive Bayes é um dos algoritmos de classificação mais antigos, é bastante utilizadona classificação de texto e surpreende pela simplicidade e eficácia (WU et al., 2008). SegundoCamilo e Silva (2009), o algoritmo Naive Bayes possui um alto poder de predição, por isso éum dos mais utilizados hoje em dia. Ele surgiu a partir da teoria de Thomas Bayes, onde seafirma que é possível dizer a probabilidade de ocorrência de um evento com base em outros quejá ocorreram, portanto trabalha com probabilidade condicional e possui eficiência semelhanteàs árvores de decisão e redes neurais. Ressalta-se também que, esse algoritmo não considera aexistência de dependência entre os termos, sendo considerado assim ingênuo.

2.4.2 Máquina de vetores de suporte - SVM

Para Wu et al. (2008),o algoritmo SVM apresenta uma base teórica ratificada, e sefaz presente nas principais ferramentas de aprendizado de máquina existentes nos dias de hoje.

Page 25: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 2. Fundamentação Teórica 24

Conforme Lorena e Carvalho (2003), o algoritmo Máquina de Vetor e Suporte (em inglês Support

Vector Machines - SVM), tem sua eficiência comparada com técnicas de redes neurais e se mostramelhor em outras atividades. Além disso toma como base cálculos estatísticos e possui destaqueem várias tarefas como o reconhecimento facial em imagens e a classificação de texto. Segundoos autores, o próprio ainda possui algumas características que fazem com que ele seja bastanteutilizado, entre elas destaca-se o poder de generalização fazendo com que o mesmo não se prendamuito a base de treino podendo classificar corretamente novos padrões.

2.5 Trabalhos Relacionados

Trabalhos desenvolvidos demonstram o poder da mineração de texto na detecção desentimentos nas redes sociais, em especifico o Twitter. Além disso, suas aplicações e técnicas decomo realizar o processo de forma satisfatória aceram a viabilidade deste trabalho.

Brito (2017) em sua dissertação de mestrado realizada na Fundação Mineira de Edu-cação e Cultura - FUMEC, implementa um modelo de detecção automática de sentimentospresentes em textos escritos em português do Brasil. Para isso, aplica-se conceitos de aprendi-zado de máquina supervisionado. O autor utiliza o algoritmo Naive Bayes, e o processamentode linguagem natural para pré-processar os dados se deu através da biblioteca Python NLTK.Durante a implementação foram gerados dois modelos: um com duas polarizações de sentimentoe outro com onze. Foi detectado uma baixa precisão no segundo experimento, mas que nãoinviabiliza a proposta, o autor concluiu também que existe forte relação entre a qualidade dabase de treino e a precisão do modelo classificador.

Já Filho (2014) em seu trabalho de conclusão de curso feito na Universidade Federaldo Ceará - UFC, classificou publicações da rede social Twitter durante a copa do mundo2014 ocorrida no Brasil. Utilizando de aprendizado de máquina supervisionado e análise desentimentos, o autor fez relações entre os sentimentos descobertos e fatos ocorridos durante acompetição. Sua base de treino contia duas polarizações sendo elas: positivas e negativas. Emsua implementação ele também utilizou técnicas de PLN e a biblioteca NLTK do Python parapré-processar os dados, o algoritmo de classificação escolhido foi o Naive Bayes.

Quanto a Pereira (2016), em seu trabalho de conclusão de curso apresentado na Univer-sidade Federal do Estado do Rio de Janeiro - UNIRIO, ele utilizou da análise de sentimentose mineração de texto para identificar o sentimento da população em relação ao Black Friday.Para isso o autor utilizou publicações na rede social Twitter, além do aprendizado de máquinasupervisionado e o algoritmo Naive Bayes. Destaca-se que o idioma trabalhado foi o inglês e ossentimentos presentes no treinamento foram positivos e negativos.

França e Oliveira (2014) também fizeram análises de sentimentos. No seu caso, elesanalisaram a rede social Twitter, quanto às manifestações populares ocorridas entre Junho e

Page 26: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 2. Fundamentação Teórica 25

Agosto de 2013. Para isso, eles classificaram os textos em apoio ou repúdio. Nesse sentido, nota-se que o presente trabalho possui certa semelhança quanto à temática a ser avaliada, em relaçãoa pesquisa deles. Contudo, o objetivo aqui, foi analisar a popularidade dos presidenciáveis de2018 no Twitter, comparando com o resultado obtido nas urnas. Analisou-se, para este fim, maisde 1 milhão de tweets, de modo a se ter mais credibilidade e embasar a pesquisa de forma maisconsistente (ver Figura 3).

Figura 3 – Tabela de comparação entre os trabalhos relacionados

Fonte: Elaborado pelo autor

Partindo dos dados citados na figura supracitada, nota-se que o presente estudo obtevecerto êxito em relação a muitos dos trabalhos relacionados, por ter utilizado um quantitativoplausível de tweets para embasar sua discussão. Comparando-se, por exemplo, com o estudo deFrança e Oliveira (2014), vê-se que o quantitativo de tweets foi de cerca de 300 mil, utilizandoum algoritmo de classificação e aprendizado de máquina supervisionado, o Naive Bayes.

Os trabalhos citados anteriormente também demonstram a solidez do processo de mine-ração de dados textuais, além de sua abrangente aplicação na solução de diversas problemáticas.Somado a isso, tem-se o quanto as pesquisas tem direcionado estudo na rede social Twitter reco-nhecendo o seu potencial, no que diz respeito a fonte de dados ricas em informações. Nota-se aimportância usual do aprendizado de máquina e da popularidade na implementação do algoritmoNaive Bayes.

Pontua-se que o presente estudo distingue-se dos demais, por propor uma comparaçãode eficiência entre os algoritmos, Naive Bayes popularmente utilizado, e o máquina de vetor esuporte - SVM, demonstrando assim, através de suas acurácias, qual é o mais adequado paraclassificar os dados contidos neste trabalho. Outro fator de destaque, é o uso da bibliotecaScikit-learn não mencionada nos referidos trabalhos.

Page 27: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

26

3 Metodologia

No presente tópico será demonstrado de forma sequencial, quais os passos que foramrealizados no intuito de obter resposta para a indagação desta monografia, que é saber sehá relação entre o que se comenta sobre os candidatos na rede social Twitter e o resultadodas eleições para presidente do Brasil 2018, afim de avaliar a viabilidade da rede como umaferramenta de predição eleitoral.

A metodologia busca esclarecer os passos desde a coleta através da API Tweepy doTwitter, passando pelo pré-processamento com o auxilio da biblioteca NLTK, a criação dosmodelos de classificação e aprendizado de máquina assessorados pela biblioteca Scikit-learn, e aanálise dos resultados junto as conclusões e considerações finais.

Figura 4 – Metodologia empregada

Fonte: Elaborado pelo autor

Na Figura 4 é exposta a metodologia empregada neste trabalho. As próximas seçõesirão mostrar de forma detalhada o funcionamento de cada passo descrito na referida figura.

Page 28: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 3. Metodologia 27

3.1 Coleta de dados e pré-processamento

No primeiro passo, conforme a figura 4 foi implementado o script de coleta. A APIutilizada para realizar a captura dos dados na rede social Twitter foi a Tweepy 1, que é umabiblioteca que segundo seu site oficial se intitula como “easy-to-use Python library” em português:biblioteca Python de fácil uso. Além disso, possui uma documentação objetiva e de fácilinterpretação. O script implementado, teve uso posteriormente para realizar a coleta dos dadosbase para a mineração e estudo deste trabalho, o código se encontra no anexo A.

Após a implementação, teve início os processos de coleta de dados na rede social comoestá descrito na segunda etapa da figura 4. Foram capturadas pelo script de coleta, as publicaçõesreferentes a cada um dos candidatos que marcaram presença nos debates e sabatinas de televisãoaberta — eventos previstos nas agendas oficiais dos presidenciáveis durante o primeiro turnoda eleição 2018. O processo ocorreu entre Agosto e Outubro do mesmo ano. Cada registrocoletado é composto pelo campo de data e hora, além do conteúdo textual da publicação feita narede social durante os referidos eventos. Os dados captados foram armazenados em planilhas noformato .CSV, do inglês Comma-separated values, em português: valores separados por virgula.

Cada candidato possui sua base individual por evento, isso porque seu nome será ofoco da busca. É importante individualizar as bases de dados por presidenciável, pois é normala existência de citações sobre mais de um deles na mesma publicação, e nem sempre o que éconsiderado como comentário positivo para um, tem o mesmo sentido para os demais.

Figura 5 – Processo de armazenamento dos dados

Fonte: Elaborado pelo autor

1 http://www.tweepy.org/

Page 29: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 3. Metodologia 28

A figura 5 ilustra o processo de armazenamento, onde os dados originados da redesocial Twitter foram coletados e armazenados por candidato e em diferentes eventos presente nacampanha presidencial, como descrito anteriormente.

Após a coleta e armazenamento dos tweets, tem-se o terceiro passo do processo con-forme a figura 4, que consiste na fase de pré-processamento, onde os dados foram submetidos aalgoritmos que fizeram a remoção de elementos presentes nos textos das publicações considera-dos irrelevantes. Para citar alguns exemplos de elementos desnecessários para a mineração detexto, tem-se os links, os emojis e caracteres especiais. Além disso a biblioteca NLTK citadano tópico 2.3.1 tratou da a remoção de stop words. Segundo El-Khair (2006) stop words sãopalavras presentes em um corpo textual que não possuem relevância ao assunto, elas possuemapenas função sintática e não peso para a rotulação de textos. Para o autor, a remoção de stop

words eleva a eficiência e o desempenho do processo de classificação. Alguns exemplos de stop

words são: de, a, o, que, e, do, da, em, um, para, é, entre outras.

Na etapa de pré-processamento, são aplicadas técnicas de processamento de linguagemnatural - PLN anteriormente citadas, com auxilio da bibliotéca NLTK. O script elaborado paraessa tarefa está disponível no anexo B.

3.2 Montagem e treinamento do modelo classificador

Para a montagem do modelo, referente a quarta etapa da figura 4, foram selecionadaspublicações de todas as bases de dados de cada candidato aleatoriamente, afim de montar asbases de treino e teste que represente em forma de amostragem, tudo aquilo que foi publicadosobre os candidatos em todos os eventos ocorridos. A base de cada presidenciável responsávelpelo treinamento, possui 2.000 instâncias previamente rotuladas, que foram submetidos aosalgoritmos de classificação portado dos conceitos de aprendizado de máquina. 80% dela destina-se ao aprendizado e os 20% restante aplica-se no teste com intuito de avaliar sua eficiência. Apartir desses exemplos o modelo torna-se capaz de rotular as demais publicações.

O algoritmo responsável por realizar a seleção de instâncias de forma aleatória encontra-se disponível no anexo C. A figura 6 ilustra o processo de criação das bases de amostras utilizadaspara treino e teste do modelo classificador.

Page 30: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 3. Metodologia 29

Figura 6 – Bases de amostras para treino e teste

Fonte: Elaborado pelo autor

As publicações foram rotuladas com polarizações de -1 a 1, onde -1 representa umapublicação negativa para a popularidade do candidato em questão, 0 retrata um comentárioneutro ou indiferente, e por fim, o rótulo 1 foi dado a publicação de apoio ou algo positivosobre o referido presidenciável. A parte das publicações rotuladas e destinadas ao treino, foisubmetida a dois algoritmos de classificação que utilizam a técnica de aprendizado de máquinasupervisionado. São eles o Naive Bayes descrito no tópico 2.4.1 e Máquina de vetores de suporte- SVM abordado na seção 2.4.2. O modelo que se mostrou mais eficiente (mostrado na seção4.3), foi o escolhido para realizar a classificação das base de dados desta monografia, isso paragarantir que a popularidade dos candidatos sejam gerada com a melhor precisão possível.

3.3 Classificação de publicações e resultados

Após o modelo classificador ter sido gerado para cada candidato a presidente, a partirdo algoritmo de classificação que se mostrou mais eficiente (experimento explanado na seção4.3). Todas as publicações armazenadas durante o período da eleição, foram submetidas aodevido modelo e consequentemente rotuladas, conforme a quinta etapa da figura 4. O algoritmoresponsável pela classificação de dodos está disponível no anexo D.

Utilizando de estatística, foram gerados (em forma de gráficos), as porcentagens decomentários negativos, e positivos por base de dados de cada candidato. As publicações comrotulo 0 não fizeram parte das estatísticas de popularidade, levando em conta sua característicaneutra.

Page 31: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 3. Metodologia 30

Posteriormente os níveis de popularidade foram confrontados com os resultados daeleição presidencial 2018 disponíveis no portal do Tribunal Superior Eleitoral - TSE 2, alémda comparação feita com pesquisas do IBOPE durante o primeiro turno da eleição. Assim,sendo possível descobrir se há relação entre a popularidade dos presidenciáveis na rede socialTwitter e seu desempenho nas urnas. O algoritmo disponível no anexo E, auxiliou na contagemdas publicações referentes a cada polaridade, esse cálculo foi a base para as estatísticas deporcentagem.

A partir da interpretação, análise e comparação dos dados da rede social Twitter classifi-cados e os resultados da eleição para presidente do Brasil 2018, (que é a sexta e última etapa,ilustrada na figura 4), obteve-se a resposta para a pergunta central desta monografia. o desem-penho dos candidatos na eleição presidencial do Brasil 2018 é reflexo de sua popularidadeou aprovação na rede social Twitter? Com isso, foi possível avaliar a viabilidade da redesocial estudada ser ou não uma alternativa de predição eleitoral (resultado exposto no capítulo6).

2 http://www.tse.jus.br/

Page 32: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

31

4 Desenvolvimento da Pesquisa

4.1 Escopo dos experimentos

O presente trabalho tem como finalidade a análise de sentimento da população emrelação a eleição presidencial de 2018 e a avaliação da rede social Twitter, como uma ferramentapotencialmente viável para se fazer predições eleitorais. Neste sentido, salienta-se que nãofoi levado em consideração, a possibilidade de que uma parcela das publicações capturadaspelo script de busca tenham partido de bots presentes na rede social. Além disso, o trabalhoconsiderou todos os internautas dessa rede social como eleitores votantes, desconsiderando aidade, nacionalidade ou situações de pendência com o TSE.

Para tanto, analisou-se todos os debates e sabatinas de TV aberta com abrangêncianacional, realizadas durante o primeiro turno da eleição de 2018, que somados, representam07 eventos. Tais eventos, foram escolhidos pela sua grande repercussão, que geraram enormesvolumes de publicações na rede social Twitter, publicações essas que foram capturadas e armaze-nadas para fins de análise. A figura 7, mostra a lista de emissoras de TV e a data em que ocorreucada evento monitorado.

Figura 7 – Lista de debates e sabatinas ocorridas no primeiro turno da eleição para Presidência do Brasilem 2018

Fonte: Elaborado pelo autor

Os candidatos à Presidência da República Federativa do Brasil, que se fizeram presentesnos eventos avaliados por este trabalho, foram: Álvaro Dias, Cabo Daciolo, Ciro Gomes,Fernando Haddad, Geraldo Alckmin, Guilherme Boulos, Henrique Meirelles, Jair Bolsonaroe Marina Silva. Tais presidenciáveis foram alvos de milhares de tweets, o que permitiu o

Page 33: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 4. Desenvolvimento da Pesquisa 32

comparativo de desempenho (nesta rede social) entre eles e entre as opiniões esboçadas sobrecada candidato e os resultados obtidos nas urnas.

4.2 O fluxo dos experimentos

A figura 8, mostra a metodologia adotada para se implementar o experimento realizadopor este trabalho. O esquema mostra 7 etapas, que vão desde a coleta na rede social, até aobtenção da acurácia dos modelos classificadores. Após a figura, tem-se a listagem de cada umadas fases (ver abaixo).

Figura 8 – Fluxo de implementação dos experimentos

Fonte: Elaborado pelo autor

1. Coleta de dados na rede social Twitter.

2. Limpeza e pré-processamento dos dados armazenados.

3. Criação da base de amostra, para treinar e testar o modelo classificador.

4. Treinamento do algoritmo de classificação, munido dos conceitos de aprendizado demáquina. Para tanto, utilizou-se do conjunto de treino.

5. Teste do modelo gerado a partir do algoritmo treinado. Nessa etapa, surgem as métricas deavaliação, são elas: O coeficiente de Kappa e a acurácia.

6. Avaliação da aceitação do coeficiente de Kappa anteriormente obtido, caso falhe, a basede amostra deve ser refeita, e o processo repetido a partir do terceiro passo.

Page 34: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 4. Desenvolvimento da Pesquisa 33

7. O sétimo passo se dá exclusivamente após a aprovação do coeficiente de Kappa, ondea acurácia obtida na avaliação do modelo (quinta etapa do fluxograma), é armazenada eutilizada posteriormente para a comparação dos algoritmos de classificação.

4.2.1 Coleta dos dados

Como demonstrado na figura 8, que exibe o fluxo para implementação dos experimentos,na primeira etapa deste processo ocorreu a implementação do script responsável pela varredurana rede social Twitter. Com base em strings de busca (demonstradas na figura 9), o script criadoa partir da API Tweepy foi executado ao final de cada um dos sete eventos monitorados por essetrabalho.

Figura 9 – Strings de busca

Fonte: Elaborado pelo autor

Com base nas buscas realizadas durante os sete eventos ocorridos no primeiro turno daeleição presidencial 2018, foram coletados 1.014.752 tweets na rede social Twitter, através dasstrings de busca exibidas na figura acima. A figura 10 mostra a quantidade de tweets capturadospara cada candidato durante o primeiro turno.

Page 35: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 4. Desenvolvimento da Pesquisa 34

Figura 10 – Quantidade de tweets armazenados para candidato

Fonte: Elaborado pelo autor

O trecho de código exibido abaixo, foi retirado do script responsável pela varredura ecoleta de publicações na rede social Twitter. O código escrito em Python, tem por finalidaderealizar a conexão e autenticação com a referida rede social. Para isso, utiliza-se de quatrotokens de acesso, que são disponibilizados para usuários da rede social que desejam desenvolveraplicações1.

####insira suas credenciais aqui

consumer_key = ’consumer_key’

consumer_secret = ’consumer_secret’

access_token = ’access_token’

access_token_secret = ’access_token_secret’

auth = tweepy.OAuthHandler(consumer_key, consumer_secret)

auth.set_access_token(access_token, access_token_secret)

api = tweepy.API(auth,wait_on_rate_limit=True)

Ademais, este fragmento de código exposto abaixo também foi retirado do mesmoscript de coleta, possibilitando a identificação de todas as variáveis de busca. Tal código realizaa varredura na rede social de acordo com a string de busca, além da linguagem e a data dapublicação. Após isso, retorna data e hora, além do conteúdo textual das publicações encontradas.O script responsável pela busca e coleta, encontra-se na integra no anexo A.1 https://developer.twitter.com/

Page 36: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 4. Desenvolvimento da Pesquisa 35

search_terms = "String(s) de busca"

for tweet in tweepy.Cursor(api.search,q=search_terms,count=100,

lang="pt",tweet_mode="extended",

since="Data de busca ex: AAAA-MM-DD").items():

print (tweet.id,tweet.created_at, tweet.full_text)

csvWriter.writerow([tweet.created_at, tweet.full_text])

4.2.2 Limpeza e pré-processamento

Grande parte das publicações advindas da rede social Twitter, possuem em seu con-teúdo textual elementos que não contribuem para a mineração de texto e por tal motivo, foramdescartados. Alguns desses elementos são: links, emojis e caracteres especiais. Ademais, aacentuação e pontuação das palavras também podem ser removidas sem prejudicar o processo declassificação.

Também nesta etapa de pré-processamento aplica-se técnicas de processamento delinguagem natural - PLN, que podem retirar as stopwords (já explanada na seção 3.1). O algoritmode pré-processamento também ajusta todo o conteúdo textual para caixa baixa, padronizandotodos os textos consumidos pelos algoritmos de classificação. Abaixo, na figura 11 mostra-se oantes e o depois de alguns tweets após passarem pelo script de limpeza.

Figura 11 – O antes e o depois dos tweets pré-processados

Fonte: Elaborado pelo autor

O trecho do código exposto a seguir, mostra as funções responsáveis pela remoçãode alguns dos elementos irrelevantes, como citado anteriormente. Ao se visualizar o código,percebe-se a deleção de links http e https, além de arroba e cerquilha, utilizadas no Twitter comoreferência de usuários e hashtags respectivamente. O script responsável pelo pré-processamentodos tweets, encontra-se na integra no anexo B deste trabalho.

Page 37: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 4. Desenvolvimento da Pesquisa 36

’’’Remove #’’’

lista_status=[]

def remover_hashttag(texto):

palavras = texto.split()

for i in palavras:

if i.startswith(’#’):

palavras.remove(i)

texto = ’ ’.join(palavras)

return texto

’’’Remove @’’’

def remove_nick_RT(texto):

palavras = texto.split()

for i in palavras:

if i.startswith(’@’):

palavras.remove(i)

texto = ’ ’.join(palavras)

return texto

’’’Remove links https’’’

def remove_https(texto):

palavras = texto.split()

for i in palavras:

if i.startswith(’https’):

palavras.remove(i)

texto = ’ ’.join(palavras)

return texto

’’’Remove links http’’’

def remove_http(texto):

palavras = texto.split()

for i in palavras:

if i.startswith(’http’):

palavras.remove(i)

texto = ’ ’.join(palavras)

return texto

4.2.3 Bases de amostra

No aprendizado de máquina supervisionado (conceito utilizado pelos algoritmos NaiveBayes e SVM, ambos implementados neste trabalho), parte dos dados são destinados ao treino eteste do modelo de classificação. Nesse contexto, para cada candidato a presidente, foi criadauma base de amostras, onde foram armazenados 2.000 tweets, selecionados aleatoriamente desuas respectivas bases de dados captadas durante os eventos monitorados. Salienta-se que cada

Page 38: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 4. Desenvolvimento da Pesquisa 37

base de amostra foi rotulada manualmente com três polaridades: -1 quando os tweets contêmalgo negativo para o candidato em questão, 0 para publicações neutras e 1 para textos de apoio.

Pontua-se também, que considerando que o presente estudo aborda a análise para novecandidatos, foram rotulados de forma manual 18.000 tweets, dos quais 2000 foram selecionadospara cada um deles. A ilustração desse processo está exposta na figura 6 no capítulo que versasobre a metodologia.

É mister destacar que a quantidade de 2.000 tweets para cada candidato, foi definidapor representar uma amostra satisfatória, ao comparar-se com o quantitativo selecionado emtrabalhos relacionados a este. A figura 12 (ver abaixo), mostra a relação entre a quantidadetotal de tweets esboçada em cada um dos trabalhos relacionados e a quantidade selecionadapara treinar e testar seus respectivos modelos de classificação, além da porcentagem que essaquantidade selecionada representa em relação ao total.

Figura 12 – Porcentagem de dados selecionados pelos autores para treino e teste dos sus modelos declassificação

Fonte: Elaborado pelo autor

Vale destacar que o objetivo de Brito (2017) foi apenas validar um modelo de clas-sificação automática de sentimentos, por isso sua quantidade total é baixa, e todos os tweets

foram utilizados para treino e testes o modelo de classificação. Quanto ao estudo de Pereira(2016), a base de treino e testes foi externa e já estava previamente pronta, portanto não houve anecessidade de rotulação manual por parte do autor.

Quanto ao presente estudo, a figura 13, mostra a porcentagem que os 2.000 tweets

(selecionados para cada candidato) representam para a base total de cada presidenciável. Combase na referida figura, nota-se que os 2000 tweets selecionados das bases de dados de cadacandidato, representam um percentual superior, quando comparado aos trabalhos elaborados porFilho (2014) e França e Oliveira (2014), que utilizaram um quantitativo inferior para treinar etestar seus respectivos modelos de classificação.

Page 39: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 4. Desenvolvimento da Pesquisa 38

Figura 13 – Porcentagem de dados selecionados por este trabalho para treino e teste dos modelos declassificação

Fonte: Elaborado pelo autor

O código exposto abaixo, foi utilizado para se realizar a seleção aleatória dos tweets quecompõem as bases amostra, responsáveis por treino e teste dos algoritmos. O referido script, faza leitura de uma base .csv e seleciona, através da biblioteca random, uma quantidade aleatória detweets, quantia essa definida atrevés da variável qtd_instancias.

import csv

import random

base =[]

’’’Cria uma base para salvar as instancias selecionadas de forma aleatoria

’’’

csvFile = open(’CandidatoX_treino_teste.csv’, ’a’)

NewAqr = csv.writer(csvFile)

’’’Realiza a leitura de uma base completa e salva em vetor’’’

with open("CandidatoX_eventoX.csv") as arquivocsv:

ler = csv.reader(arquivocsv, delimiter=",")

for linha in ler:

base.append(linha[0])

’’’Sorteia N instancias no vetor aleatoriamente e salva na base criada’’’

qtd_instancias = 200

random_choice = random.sample(base, qtd_instancias)

Page 40: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 4. Desenvolvimento da Pesquisa 39

for x in random_choice:

print(x)

NewAqr.writerow([x])

4.2.4 Treinamento e teste do modelos de classificação

Pontua-se que cada candidato teve dois modelos gerados, dos quais, o primeiro foiimplementado através do algoritmo Naive Bayes e o segundo modelo utilizou o SVM. Comodescrito na metodologia deste trabalho, 80% da base de amostra se destinou ao treino dosmodelos de classificação - esse quantitativo é chamado de conjunto de treino - e os 2% restantes,são chamados de conjunto de testes.

Após o algoritmo ser treinado com o conjunto de treino, um modelo de classificação égerado, assim como mostra o quarto passo esboçado na figura 8. Posteriormente, o modelo étestado utilizando o conjunto de teste, a fim de avaliar o seu desempenho, ao realizar a tarefa declassificação.

Salienta-se que para se treinar o segundo algoritmo de classificação (SVM), a base deamostra se manteve a mesma e o fluxo presente na figura 8 se repetiu a partir do quarto passo.Assim, cada candidato possui dois modelos de classificação: um gerado pelo Naive Bayes eoutro produto do SVM. Na quinta etapa, a avaliação do modelo gerou duas métricas: a acurácia -que julga a exatidão do modelo classificador -, e o coeficiente de Kappa, que julga a confiançade determinado modelo de classificação.

A primeira triagem foi realizada a partir do coeficiente de Kappa, que é utilizado paramedir a confiabilidade e precisão em um processo de classificação (PERROCA; GAIDZINSKI,2003). O coeficiente Kappa tem como base o nível de concordância entre dois ou mais juízes,quanto à classificação de um determinado caso. Assim sua variância parte de 0 (nenhum acordo),até 1 (total acordo), contudo valores negativos podem surgir, porém são considerados desacordossistemáticos (VIERA; GARRETT et al., 2005). Nesse sentido, quanto mais próximo de 1 for oresultado, maior é o acordo entre os ‘juízes’. Logo, quanto maior o acordo, mais confiável é omodelo classificador.

Neste sentido, Landis e Koch (1977) elaboraram uma tabela de interpretação do coefici-ente de Kappa, onde cada faixa de valor recebe um julgamento sobre a confiabilidade do modelode classificação. A seguir, a figura 14, mostra os valores de interpretação do coeficiente Kappa.

Page 41: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 4. Desenvolvimento da Pesquisa 40

Figura 14 – Interpretação do coeficiente de Kappa

Fonte: Landis e Koch (1977)

Esclarece-se que a biblioteca Scikit-learn, responsável por implementar os algoritmosNaive Bayes e SVM, retorna o valor do coeficiente de Kappa com base no teste do modelo declassificação. Para isso, ela comparou a concordância entre as rotulações manualmente efetuadaspor este trabalho (presentes no conjunto de teste) e o resultado da classificação do mesmoconjunto, feita pelo modelo de aprendizado de máquina treinado com o conjunto de treino.

Para o presente estudo, foram aceitos os modelos, cujo a interpretação foi moderada(moderate) ou superior, segundo a tabela proposta por Landis e Koch (1977). Nesse contexto,para todas as vezes em que o modelo avaliado retornou um coeficiente de Kappa abaixo de 0,41,sua base de amostra foi refeita e o processo reiniciado, assim como descrito no sexto passo dafigura 8.

Assim, a seguir, a figura 15, mostra os coeficientes obtidos após a triagem e aprovaçãode todos os modelos, com base na tabela de Landis e Koch (1977), que julga os valores docoeficiente de Kappa. Teve-se uma variação de coeficientes entre 0,433 (para o modelo declassificação do candidato Álvaro Dias implementado através do algoritmo Naive Bayes) e 0,760(para o modelo do candidato Henrique meirelles, implementado através do algoritmo SVM). Apartir dessa avaliação, pode-se afirmar que todos os modelos gerados neste trabalho estão nomínimo moderadamente viáveis de acordo com a métrica de Kappa.

Page 42: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 4. Desenvolvimento da Pesquisa 41

Figura 15 – Valores do coeficiente de Kappa para o modelo classificador de cada candidato

Fonte: Elaborado pelo autor

No código a seguir, tem-se a implementação da função Treinamento_teste responsávelpor treino e teste dos algoritmos. Como parâmetro, a função recebe o algoritmo classificador(Naive Bayes ou SVM), além da base de amostra dividida pela lista de tweets inserida em X, e alista de rótulos das mesmas publicações, posta em Y.

No corpo da função, realiza-se a divisão da base de amostra em treino e tese, essa se dáatravés da função train_test_split nativa da biblioteca Scikit-learn. Nessa mesma etapa, defini-se20% para testes, como é visto na variável test_size. Após isso, o modelo é treinado e em seguidaé exibido o coeficiente de Kappa e a acurácia do modelo em questão. O script de treino, teste eclassificação, encontra na integra no anexo D.

Page 43: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 4. Desenvolvimento da Pesquisa 42

def Treinamento_teste(classificador, x, y):

X_treino, X_teste, Y_treino, Y_teste = train_test_split(x, y, test_size

=0.20, random_state=42)

#Treinando modelo ..

modelo = classificador.fit(X_treino, Y_treino)

#Testando modelo

resp_pred = modelo.predict(X_teste)

#Coeficiente de Kappa e Acuracia do modelo

print("Kappa: %s" % cohen_kappa_score(Y_teste, resp_pred))

print("Acuracia: %s" % classificador.score(X_teste, Y_teste))

4.3 Técnica de classificação escolhida

Para ser efetuada a escolha de qual algoritmo iria posteriormente classificar os dadosem texto, foi realizado o treinamento e o teste dos modelos classificadores tanto utilizando oalgoritmo Naive Bayes representado na figura 16 pela sigla (NB), quanto o Máquina de vetoresde suporte do inglês: Support Vector Machine representado na referida figura pela sigla (SVM).A base de dados de cada candidato responsável por treinar e testar foi submetida a ambos osalgoritmos, no intuito de saber qual deles era o mais eficiente para realizar essa tarefa. Ao todoforam realizados 18 (dezoito) experimentos, dois por base de dados de cada presidenciável.

Figura 16 – Acurácia do modelo classificador de cada candidato por algoritmo

Fonte: Elaborado pelo autor

Analisando os resultado da acurácia de cada modelo classificador, ou seja o quantoele é capaz de classificar uma instância de maneira correta, vemos que o algoritmo SVM sesobressai sendo mais preciso ao rotular instâncias de sete dos nove candidatos analisados, alémde existência de apenas um caso onde a precisão de acertos foi a mesma do outro algoritmo,e outro caso onde o SVM foi menos preciso em relação ao Naive Bayes. Vê-se que mesmoque a diferença entre os índices não seja tão alta, o algoritmo adotado para realizar a tarefa declassificação das publicações de todos os candidatos foi o SVM.

Page 44: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

43

5 Resultados

A eleição para presidente da República Federativa do Brasil, contou com quinze inscri-ções para a disputa do cargo de presidente. Contudo, um dos participantes teve sua candidaturaindeferida restando quatorze elegíveis na disputa. A figura 17 lista o nome dos inscritos, além denúmero, partido e situação de candidatura. Todos os dados foram retirados do portal do TSE 1.

Figura 17 – Lista de inscrições para a disputa da Presidência da República

Fonte: Adaptado do portal do TSE (2019)

Segundo a Lei 13.488/2017, é garantida a participação do candidato nos debates eleito-rais, se o partido onde o mesmo é vinculado possuir ao menos cinco representantes (somadosentre câmara dos deputados e senado federal), os demais candidatos podem ou não serem convi-1 http://inter04.tse.jus.br/ords/dwtse/f?p=176:10:477836891451

Page 45: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 44

dados pelas emissoras. Os convites geralmente levam em conta a posição atual do presidenciávelnas pesquisas eleitorais.

Com base nisso, o presente trabalho realizou a análise de sentimentos de nove dosquatorze candidatos inscritos e deferidos na disputa presidencial do Brasil em 2018, tendo emvista suas participações nos debates em emissoras de rede aberta a nível nacional. São eles:Alvaro Dias, Cabo Daciolo, Ciro Gomes, Fernando Haddad, Geraldo Alckmin, GuilhermeBoulos, Henrique Meirelles, Jair Bolsonaro e Marina Silva.

Devido a falta de debates em rede aberta com alcance nacional, no segundo turno damesma eleição, ficou restrita a aplicação de análise de sentimentos realizada por este trabalho, àapenas o primeiro turno da eleição presidencial do Brasil 2018. Foram monitorados seis debatese uma sabatina, todos eles com transmissão em rede nacional aberta no período de 10 de Agostohá 5 de Outubro de 2018, equivalentes ao primeiro turno da eleição.

Os debates estudados ocorreram na seguinte ordem pelas referidas emissoras de te-levisão: Band, RedeTV, TV Aparecida, SBT, RecordTV e Rede Globo além da sabatina notelejornal intitulado Jornal Nacional da Rede Globo ocorrido entre 27 a 30 de Agosto e 15 deSetembro com a participação dos cinco candidatos (um a cada dia), mais bem posicionados naspesquisas eleitorais da época. Pela ordem de participação, apresentaram-se: Ciro Gomes, JairBolsonaro, Geraldo Alckmin, Marina Silva e Fernando Haddad. A figura 18 abaixo exibida,ilustra os eventos monitorados em ordem cronológica e a presença ou ausência dos participantes.

Figura 18 – Lista de presença ou ausência dos candidatos nos eventos

Fonte: Elaborado pelo autor

Page 46: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 45

A partir da análise da figura 18, notou-se diversas ausências, sobretudo as faltas docandidato Jair Bolsonaro, que sofreu um atentado no dia 6 de Setembro, além da supressão dopresidenciável Fernando Haddad nos dois primeiros eventos monitorados, levando em conta aoficialização de sua candidatura realizada apenas no dia 11 de Setembro de 2018.

5.1 Dados analisados

O gráfico da figura 19 demonstra a quantidade de publicações (tweets) capturados eutilizados no processo de mineração de texto e análise de sentimentos. Através da interpretaçãográfica, podemos destacar três dos nove candidatos por possuírem uma quantidade numéricade tweets significativamente maior que os demais, são eles: Fernando Haddad, Ciro Gomes eJair Bolsonaro nessa ordem de relevância, já que todos eles possuem mais de 150.000 tweets

capturados incluindo postagens e compartilhamentos conhecidos como retweet. Cabe destacar acandidata Marina Silva, que atingiu a marca de 145.749 tweets armazenados. A soma de todosesses tweets totalizam 1.014.752 de publicações que foram polarizadas e contribuíram para osresultados desta monografia.

Figura 19 – Quantidade de tweets analisados por candidato

Fonte: Elaborado pelo autor

A figura 20, exibe a quantidade de tweets analisados por candidato. Esses tweets, estãoseparados entre negativos (-1), neutros (0) e positivos (1). Cada polaridade, foi atribuída deacordo com a classificação feita através do algoritmo suporte vector machine - SVM, escolhidoatravés do experimento comparativo descrito no tópico 4.3.

Page 47: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 46

Figura 20 – Quantidade de tweets analisados por candidato

Fonte: Elaborado pelo autor

5.2 Análise de popularidade individual

Todas as publicações classificadas com 1 para tweets positivos, 0 para imparciais ouambíguos e -1 para publicações negativas foram separadas, afim de gerar as estatísticas presentesa seguir. Os dados exibidos abaixo descartam todas as publicações rotuladas com 0 (zero)levando em consideração que as mesmas não possuem relevância na distinção do que é apoio ourepúdio aos candidatos estudados.

5.2.1 Alvaro Dias

O candidato Alvaro Dias, teve participação em seis dos sete eventos monitorados poresta monografia, mas ele não esteve presente na sabatina do telejornal Jornal Nacional da RedeGlobo, por não estar entre os cinco melhores colocados nas pesquisas eleitorais da época, critériode seleção escolhido pela emissora.

Como mostra o gráfico da figura 21, o presidenciável teve durante todo o primeiro turnoda eleição, um elevado índice de rejeição na rede social Twitter. Sua maior porcentagem deaprovação foi registrada durante o debate da RedeTV onde apenas 28% do que foi comentadosobre ele era positivo, contra 71% de repulsa. O presidenciável ainda teve a maior parcela derejeição registrada neste trabalho com 97% de aversão durante o debate da TV Aparecida.

Page 48: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 47

Figura 21 – Popularidade de Álvaro Dias, durante o primeiro turno eleitoral de 2018

Fonte: Elaborado pelo autor

5.2.2 Cabo Daciolo

O candidato a presidente da república Cabo Daciolo participou apenas de quatro dossete eventos analisados neste trabalho. Ele não esteve presente do telejornal Jornal Nacionalda Rede Globo por não se encaixar no critério da emissora (os cinco mais bem colocados naspesquisas da época), além da ausência nos debates da TV Aparecida e Rede Globo.

Analisando seu gráfico de popularidade presente na figura 22, é notório uma elásticavariação dos sentimento dos internautas em relação ao presidenciável. Em três dos quatro eventosque participou, foram registradas porcentagens de aprovação maiores que de recusa, entretanto,em um dos eventos, atingiu a marca de 60% de aversão. Ressalta-se que durante o debate naSBT, 87% das publicações direcionadas a ele eram positivas, um índice bastante expressivo.

Figura 22 – Popularidade de Cabo Daciolo, durante o primeiro turno eleitoral de 2018

Fonte: Elaborado pelo autor

Page 49: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 48

5.2.3 Ciro Gomes

O candidato Ciro Gomes se fez presente em todos os eventos monitorados por esteestudo, contabilizando sete análises de sentimentos, realizadas no intuito de mapear sua popu-laridade na rede social Twitter durante o primeiro turno da eleição para presidente do Brasil2018.

O presidenciável apresentou um desempenho bastante positivo na rede social durantetodo o primeiro turno da eleição presidencial, tendo sua porcentagens de publicações favoráveissempre superior a parcela negativa. Ciro conseguiu no fim do primeiro turno elevar sua populari-dade em 12% (com relação ao primeiro debate monitorado), chegando a 88% de aprovação nodebate da Rede Globo. A maior rejeição atribuída a ele foi registrada durante o debate do SBTcom 34% de recusa, uma parcela não tão eloquente, o que mostra que sua campanha durante aprimeira etapa eleitoral foi relativamente estável e positiva.

Figura 23 – Popularidade de Ciro Gomes, durante o primeiro turno eleitoral de 2018

Fonte: Elaborado pelo autor

5.2.4 Fernando Haddad

O postulante a presidente Fernando Haddad esteve presente em cinco dos sete eventosmonitorados por esta monografia durante o primeiro turno da eleição presidencial 2018. Devidoa oficialização de sua candidatura ter sido efetuada de maneira tardia, apenas no dia 11 deSetembro de 2018, o mesmo esteve ausente dos debates ocorridos nas emissoras TV BAND eRedeTV realizados em datas anteriores a sua candidatura.

A partir da análise do gráfico presente na figura 24, é possível inferir que FernandoHaddad teve aprovação significativa na rede social Twitter durante quase todo o primeiro turnoda eleição para presidente do Brasil. Em quatro dos cinco eventos onde esteve presente, foram

Page 50: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 49

registrados parcelas de aprovação bastante superiores às de repúdio. Em contrapartida durante oúltimo debate do mesmo turno, foram registrados sentimentos opostos aos que vinham sendomapeados anteriormente. Sua rejeição subiu para 53%, ultrapassando pela primeira vez a parcelade aprovação que ficou na marca de 46%.

Figura 24 – Popularidade de Fernando Haddad, durante o primeiro turno eleitoral de 2018

Fonte: Elaborado pelo autor

5.2.5 Geraldo Alckmin

O candidato a presidente Geraldo Alckmin marcou presença em todos os sete eventosmonitorados por este trabalho durante o primeiro turno da eleição presidencial 2018.

Analisando o seu gráfico de popularidade na rede social Twitter exposto na figura 25,que foi gerado a partir da análise de sentimentos dos internautas em relação ao presidenciável, éperceptível a rejeição do público online durante toda a primeira etapa do processo democrático.O elegível atingiu a marca de 95% de reprovação, registrada durante sua sabatina no telejornalJornal Nacional da Rede Globo. Em contrapartida, o seu melhor desempenho foi durante o debateda SBT, onde 46% dos tweets que dirigiam-se a ele, eram de apoio (positivos), porém 53% era dedesaprovação. Ressalta-se que em nenhum dos momentos analisados, o candidato registrou umataxa de aprovação superior a de reprovação, o que deixa a entender que o postulante a presidentenão convenceu o eleitorado.

Page 51: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 50

Figura 25 – Popularidade de Geraldo Alckmin, durante o primeiro turno eleitoral de 2018

Fonte: Elaborado pelo autor

5.2.6 Guilherme Boulos

O candidato à presidência da república Guilherme Boulos se fez presente em seis dossete eventos mapeados neste trabalho, ausentando-se da sabatina no telejornal de nome JornalNacional da Rede Globo por não atender o critério de inclusão definido pela emissora, ondeforam entrevistados os cinco candidatos mais bem posicionados nas pesquisas eleitorais daépoca.

Analisando o gráfico de popularidade a partir dos sentimentos expressos na rede socialTwitter exibido na figura 26, podemos perceber uma expressiva evolução do candidato, queconseguiu reverter seus níveis de popularidade durante o primeiro turno. Nos três primeirosdebates, Boulos registrou índices de recusa maiores que os de aprovação, porém a partir do quartodebate ocorrido no SBT, o presidenciável reverteu a situação e continuou em uma crescente emrelação a popularidade, terminando a campanha com 88% de aprovação no debate da Rede Globo.Assim, o período estudado se mostrou extremamente positivo, onde o postulante a presidenteconseguiu reverter um cenário virtual inadequado para sua campanha.

Page 52: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 51

Figura 26 – Popularidade de Guilherme Boulos, durante o primeiro turno eleitoral de 2018

Fonte: Elaborado pelo autor

5.2.7 Henrique Meirelles

Henrique Meirelles, um dos concorrentes ao cargo de presidente da república participoude seis dos sete eventos estudados por esta monografia. Ele só não se fez presente na sabatina dotelejornal Jornal Nacional da Rede Globo por não estar listado entre os cinco candidatos maisbem colocados nas pesquisas eleitorais da época.

Com base no gráfico de popularidade do candidato percebe-se domínio considerávelde rejeição durante todo o primeiro turno da eleição presidencial. A sua melhor sua maiormarca positiva ocorreu durante o debate da RecordTV, onde 46% das publicações da redesocial dirigidas a ele davam apoio ao mesmo, contra 53% de aversão. É importante destacara diminuição das largas vantagens nos índices de reprovação registradas nos três primeirosdebates em relação aos três últimos, ao diminuir essa eloquente parcela de publicações contraele, conclui-se que seu primeiro turno foi de certa forma positivo onde aos poucos candidatovinha ganhando força na rede social Twitter.

Page 53: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 52

Figura 27 – Popularidade de Henrique Meirelles, durante o primeiro turno eleitoral de 2018

Fonte: Elaborado pelo autor

5.2.8 Jair Bolsonaro

O candidato Jair Bolsonaro, participou de três dos sete eventos monitorados por estetrabalho, devido ao atentado sofrido no dia 6 de Setembro, que o deixou hospitalizado durante orestante do primeiro turno da eleição presidencial. Mesmo com sua ausência nos debates, seunome sempre esteve em alta nos trending topics (ou tópico de tendências) da rede social Twitter,além de estar sempre disputando a dianteira nas pesquisas eleitorais da época. Por esses motivos,foram capturadas publicações ao seu respeito durante todos os sete eventos base, no intuito deanalisar o impacto de seu absentismo nas discussões democráticas do primeiro turno da eleição.

A partir do gráfico presente na figura 28, referente ao candidato Jair Bolsonaro, podemosperceber que as reações sentimentais da população foram bastante variáveis. O presidenciáveliniciou sua jornada com boas parcelas de aprovação dos usuários da rede social Twitter. Emsua primeira aparição, por exemplo, ele registrou 95% de publicações favoráveis nessa redesocial, sendo esse o maior índice de apoio registrado por essa pesquisa. Entretanto, houve umaqueda drástica de popularidade a partir da sabatina no telejornal denominado Jornal Nacional,pertencente a Rede Globo, o que leva à conclusão de que seu desempenho na entrevista foi muitoabaixo do esperado pelos os internautas. Foi após esta sabatina, que o candidato sofreu umatentado e ausentou-se dos compromissos democráticos.

Após o ocorrido, sua popularidade oscilou de forma moderada, porém em nenhum dosmomentos analisados por este estudo, sua aprovação superou a rejeição, terminando com 64%de negativa para os internautas da rede social. Assim é inegável que no ambiente virtual a nãoaparição de Bolsonaro foi prejudicial para sua popularidade, tendo em vista os elevados níveisde aprovação nos dois primeiros debates e a queda drástica nos debates onde ele se ausentou.

Page 54: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 53

Figura 28 – Popularidade de Jair Bolsonaro, durante o primeiro turno eleitoral de 2018

Fonte: Elaborado pelo autor

5.2.9 Marina Silva

A candidata Marina Silva, participou de todos os eventos mapeados por este trabalhocontabilizando sete análises de sentimentos, efetuadas para monitorar sua popularidade na redesocial Twitter durante o primeiro turno da eleição presidencial 2018.

A proponente a presidente do Brasil, iniciou o primeiro turno com uma taxa de recusade 54%, sendo esse o único índice negativo registrado que superou o indicador de comentáriospositivos. Após isso, ela teve progresso quanto a sua popularidade na rede social, estando semprecom a porcentagem de aprovação acima da parcela de rejeição. Notou-se também que seu maiornível de aprovação foi de 69% e o menor atingiu 45%. Assim sendo, apesar de em nenhummomento a candidata chegar próximo da unanimidade de aprovação, a mesma conseguiu agradara maioria dos internautas durante quase todo o primeiro turno.

Page 55: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 54

Figura 29 – Popularidade de Marina Silva, durante o primeiro turno eleitoral de 2018

Fonte: Elaborado pelo autor

5.3 Média de popularidade durante o primeiro turno

Com base nos dados exibidos através de gráficos referentes ao desempenho de populari-dade individual de cada candidato no primeiro turno, foram geradas as porcentagens médias deaprovação e reprovação de todos eles, durante suas participações no primeiro turno das eleições.Para este cálculo foi utilizada a formulá da média aritmética simples.

Ms =X1 +X2 + ...+Xn

n

O cálculo exibido mostra a média aritmética simples representado por Ms e a soma detodos os elementos envolvidos dividido por n que é a quantidade de itens somados.

O gráfico de média de popularidades representa a aprovação e rejeição de cada candidatocitado nesta monografia, resultados estes obtidos por meio do cálculo da média simples, esboçadana forma de percentagem. Os dados foram extraídos através da mineração de texto e análisede sentimentos dos internautas da rede social Twitter no primeiro turno da eleição presidencial2018.

Com base no gráfico da figura 30, é notório o destaque positivo aos candidatos CiroGomes, Cabo Daciolo, Fernando Haddad e Marina Silva, nessa ordem de relevância, por atingi-rem a média de 60% ou mais de aprovação durante a primeira etapa eleitoral. Em contrapartida,Álvaro Dias, Geraldo Alckmin e Henrique Meirelles tiveram respectivamente, as piores médiasnegativas, por atingirem o índice de 70% ou mais de rejeição em suas citações durante o primeiroturno eleitoral de 2018.

Page 56: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 55

Figura 30 – Popularidade média, por candidato, durante o primeiro turno da eleição presidencial de 2018

Fonte: Elaborado pelo autor

Se o primeiro turno da eleição presidencial 2018 fosse definido de acordo com apopularidade (aprovação) média dos candidatos na rede social Twitter, teríamos um segundotuno entre Ciro Gomes que atingiu 76% de aprovação e o candidato Cabo Daciolo que somouuma aceitação média de 66%.

Figura 31 – Percentual de votos por candidato no primeiro turno de 2018

Fonte: Elaborado pelo autor com base nos dados do TSE

Com base na figura 31, que mostra o resultado oficial de votos no primeiro turno daeleição para presidente do Brasil segundo o TSE2, é possível visualizar a formação de um2 http://divulga.tse.jus.br/oficial/

Page 57: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 56

segundo turno entre Jair Bolsonaro e Fernando Haddad, na eleição de 2018. Este cenário édiferente do apontado pelo gráfico das médias de popularidade no primeiro turno (presente nafigura 30), que foi gerado a partir da mineração de texto e análise de sentimentos.

Com base nesse experimento, não houve semelhanças significativas entre os dadosmédios da mineração de texto e análise de sentimentos comparados ao resultado oficialdas eleições, exceto o fato de Ciro Gomes e Fernando Haddad aparecerem nas três primeirascolocações em ambos os resultados, além da aparição do postulante a presidente Alvaro Diasentre os três últimos colocados tanto nas eleições quanto nos dados da rede social estudada.

Figura 32 – Pesquisa sobre a intenção de votos, realizada no primeiro turno da eleição pelo IBOPE

Fonte: Elaborado pelo autor com base nos dados do IBOPE

As três pesquisas do Instituto Brasileiro de Opinião Pública e Estatística - IBOPE3

presentes na figura 32 acima exibida, foram realizadas no início meio e final do primeiro turnoeleitoral 2018. A pesquisa realizada no dia 20 de Agosto de 2018 considerou dois cenários,um com o Luiz Inácio Lula da Silva como representante do seu partido, e um segundo cenário,onde ele seria substituído por Fernando Haddad para a disputa da Presidência (o que acabouocorrendo). Assim, esse estudo utilizou o segundo cenário da pesquisa do dia 20 do IBOPE.Ressalta-se que as demais pesquisas do IBOPE para Presidente do Brasil 2018, aqui presentesconsideraram apenas Fernando Haddad como candidato representante de seu partido.

As pesquisas do IBOPE durante o primeiro turno da última eleição presidencial, mostrauma significativa crescente nas intenções de votos direcionadas a Jair Bolsonaro, o mesmocomportamento pode ser observado para Fernando Haddad que ocupou e manteve a segundacolocação nas pesquisas. Desempenho similar teve o candidato Ciro Gomes, que obteve umaleve crescente de dois pontos percentuais, se mantendo durante todo o primeiro turno na terceiracolocação nas pesquisas.3 http://www.ibopeinteligencia.com/noticias-e-pesquisas/nos-votos-validos-bolsonaro-tem-41-e-haddad-25/

Page 58: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 57

A presidenciável Marina Silva teve o maior declínio nas intenções de voto, como mostraa pesquisa realizadas pelo IBOPE, perdendo nove pontos percentuais durante o primeiro turno dareferida eleição, comportamento similar ao de Álvaro Dias que perdeu dois pontos percentuaisnos mesmo período. Geraldo Alckmin se manteve na quarta posição durante todo o primeiroturno, já os demais candidatos oscilaram entre um e dois pontos percentuais.

Figura 33 – Popularidade entre os dois primeiros debates

Fonte: Elaborado pelo autor

Os dois primeiros debates ocorreram nos dias 10 e 16 de Agosto de 2018, com apresença de todos os candidatos garantidos por direito e os demais convidados. Esses foram osúnicos debates em que esteve presente Jair Bolsonaro, que posteriormente participou apenas dasabatina promovida pelo Jornal Nacional da Rede Globo no dia 28 do mesmo mês. Após isso,esse candidato sofreu um atentado que prejudicou seu desempenho na rede social Twitter comodiscutido no tópico 5.2.8.

A primeira pesquisa publicada pelo IBOPE foi realizada em data próxima aos doisprimeiros debates do primeiro turno. Em uma breve análise é possível aferir que houve seme-lhanças significativas entre a popularidade dos presidenciáveis na rede social Twitter e apesquisa realizada.

Page 59: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 5. Resultados 58

A referida pesquisa do IBOPE apontou Jair Bolsonaro como líder das pesquisa seguidopor Marina Silva e Ciro Gomes, já a popularidade dos candidatos no Twitter mapeada duranteos dois primeiros debates também apontou Jair Bolsonaro como o candidato mais popular,já nasegunda e terceira posição, houve a inversão entre Marina Silva e Ciro Gomes (que apareceucomo segundo candidato mais popular). Vale destacar que conforme a pesquisa realizada peloIBOPE, a diferença entre esses dois é de apenas três pontos percentuais.

Page 60: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

59

6 Conclusão

6.1 Discussão

Assim como descrito na literatura, esta monografia se propôs a apresentar resultadosque possam servir como métricas na avaliação de viabilidade da rede social Twitter enquantouma ferramenta de predição eleitoral. Para tanto, fez-se uso de técnicas de mineração dedados textuais e análise de sentimentos, diminuindo assim custo e tempo. Neste sentido, aocomparar a popularidade dos presidenciáveis com o resultado final do primeiro turno eleitoral,os resultados obtidos tiveram certo distanciamento entre si, o que não permite que se valide aanálise sentimental na rede social Twitter como uma alternativa para as pesquisas tradicionais.Por outro lado, o estudo conseguiu chegar a algumas tendências, que se confirmaram nas urnas,no tocante a Ciro Gomes e Fernando Haddad entre os três primeiros colocados, além de ÁlvaroDias entre os três últimos.

Em um outro experimento, a partir da comparação dos dois primeiros debates eleitoraiscom a primeira pesquisa registrada pelo Instituto de pesquisa IBOPE, (ambos em datas bempróximas), foi possível identificar semelhanças mais concretas que na comparação anteriormentecitada. Viu-se que os três candidatos que mais pontuaram na pesquisa, também registraram osmelhores índices de aprovação segundo a análise de sentimentos.

Com base nisso, é possível dizer que a mineração feita na rede social foi mais precisaao retornar resultados sobre um intervalo de tempo menor, dando assim a possibilidade deutilização da proposta não como ferramenta de predição eleitoral, mas sim como um instrumentode monitoramento do comportamento popular em um curto período de tempo. Isso ganha força eviabilidade, já que esses resultados são gerados a qualquer momento, ao contrário das pesquisaseleitorais tradicionais, que levam mais tempo para serem publicadas.

6.2 Contribuições

O trabalho realizado, teve eloquente importância em relação ao aprendizado obtido,uma vez que a mineração de dados foi aplicada a um problema real. Nesse contexto, foi possívellevantar um quantitativo de dados que possibilitasse sanar a indagação em torno da problemáticado estudo. Além disso, os algoritmos implementados também possuem sua notória relevânciae contribuição para a pesquisa e ciência de dados, tendo em vista que os mesmos podem serutilizados na implementação de trabalhos futuros o com foco em análise de sentimento na redesocial Twitter.

Outro fator de destaque, foi a comparação realizada entre os algoritmos Naive Bayes

Page 61: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 6. Conclusão 60

e SVM. Ao se realizar a analise, foi visto que o SVM se mostrou superior para sete dosnove candidatos classificados, quando comparadas as acurácias de cada algoritmo obtidas naclassificação feita para cada candidato. A superioridade do SVM em relação ao Naive Bayes noato de classificar textos, pode ser explorada de forma mais minuciosa em estudos futuros.

6.3 Limitações

O presente estudo, se deu em uma das edições da eleição para presidência da repúblicado Brasil mais conturbadas da história. Diversos ocorridos como, impugnação, atentando,envio em massa de notícias falsas, judicialização e outros fatores, fizeram com que o pleitoocorrido em 2018 destoasse do fluxo normal. Entretanto, diante as limitações existentes, como aquantidade de pesquisadores trabalhando no estudo, o vigente trabalho restringiu-se em analisaro comportamento dos internautas em relação aos presidenciáveis, apenas durante os debates esabatinas nas emissoras de televisão aberta. Dessa forma, mapeando o sentimento dos eleitoresonline na rede social Twitter, em relação às propostas e discussões democráticas ocorridas nesseseventos.

Somado a isso, é sabido que, as redes sociais estão expostas a diversos fatores quepodem alterar a precisão dos fatos, um desse é a utilização de bots. Segundo Ruediger, Grassi eAsensi (2017), nas eleições de 2014, 10% do que foi citado sobre os presidenciáveis no Twitterpartiu de robôs, e no segundo turno da mesma eleição 20% dos comentários a favor do candidatoAécio Neves partia de bots. Outro fator que pode destoar a precisão dos resultados, é o fato depessoas menores de 16 anos poderem expressar sua opinião na rede social e não poder exercer ovoto. Portanto, ambos fatores diminuem a autenticidade das publicações feitas no Twitter, comoum mecanismo que pode esboçar a opinião dos eleitores sobre os candidatos.

Não obstante, considerando o objetivo do estudo, que é analisar a viabilidade da redesocial Twitter como uma ferramenta de predição eleitoral através da análise de sentimentos,não foi realizada uma triagem de perfis falsos ou robotizados. Nesse contexto, ao considerarpossíveis publicações advindas desse tipo de usuários, o presente trabalho considera que essaproblemática é fato presente no escopo do Twitter, sendo assim um dos possíveis fatores quepodem dificultar a utilização da referida rede social como ferramenta de predição política.

6.4 Considerações finais e trabalhos futuros

Considerando os resultados obtidos e as limitações do estudo anteriormente abordadas,é possível concluir que, em suma, as tradicionais pesquisas eleitorais realizadas por institutosde pesquisas qualificados ainda são fundamentais para as estratégias de campanha política.No entanto considerando o fato das mesmas serem realizadas periodicamente, deixando assimdeterminados intervalos de tempo sem feedback, a análise de sentimentos torna-se uma forte

Page 62: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Capítulo 6. Conclusão 61

aliada como fonte de informações de baixo custo e tempo. Elas podem auxiliar nas tomadasde decisão, e na compreensão de como o público está respondendo às promessas e ações dospolíticos, já que, apesar de tal levantamento ter destoado um pouco dos resultados das urnas, emmuitos casos, ele se mostrou condizente com os resultados dos candidatos que mais obtiveramvotos, por exemplo.

Assim, a utilização de tweets para verificar a popularidade de candidatos políticos,é uma alternativa razoável às pesquisas eleitorais, podendo intercalar-se entre si, de modo aconstruir um perfil do desempenho dos presidenciáveis de forma mais contínua.

Por fim, com relação a trabalhos futuros, recomenda-se a aplicação da análise desentimentos em outros períodos eleitorais, no intuito de tornar-se possível uma avaliação históricadas técnicas como ferramenta usual nas campanhas eleitorais. Além disso, estudos com o focoem detecção de bots e fake news são de extremo valor para a sociedade e academia, trazendomaior credibilidade para esses estudos.

Page 63: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

62

Referências

ACADEMIA DO MARKETING. Academia do Marketing - Redes sociais maisusadas no Brasil. 2018. Disponível em: <https://www.academiadomarketing.com.br/redes-sociais-mais-usadas-no-brasil/>. Acesso em: 29 out. 2018. Citado na página 14.

AGGARWAL, C. C.; ZHAI, C. Mining text data. [S.l.]: Springer Science & Business Media,2012. Citado na página 16.

ARANHA, C.; PASSOS, E. A tecnologia de mineração de textos. Revista Eletrônica de Sistemasde Informação, v. 5, n. 2, 2006. Citado na página 20.

BECKER, K.; TUMITAN, D. Introdução à mineração de opiniões: Conceitos, aplicações edesafios. Simpósio brasileiro de banco de dados, v. 75, 2013. Citado na página 13.

BERNARDO, D. S.; GOULART, E. E. Evolução na comunicação: estudos nas redes sociais.Sub-projeto de pesquisa em Iniciação Científica. Programa de Mestrado em Comunicação.Universidade Municipal de São Caetano do Sul, USCS. São Caetano do Sul, 2011. Citado napágina 12.

BIRD, S.; LOPER, E. Nltk: the natural language toolkit. In: ASSOCIATION FOR COMPUTA-TIONAL LINGUISTICS. Proceedings of the ACL 2004 on Interactive poster and demonstrationsessions. [S.l.], 2004. p. 31. Citado na página 22.

BRITO, E. D. M. N. Mineração de textos: detecção automática de sentimentos em co-mentáriosnas mídias sociais. Projetos e Dissertações em Sistemas de Informação e Gestão do Conheci-mento, v. 6, n. 1, 2017. Citado 3 vezes nas páginas 23, 24 e 37.

BUSETTO, Á. Pela legitimidade de prever: Ibope, imprensa e lideranças políticas nas eleiçõespaulistas de 1953 e 1954. Revista Estudos Históricos, v. 1, n. 31, p. 127–146, 2003. Citado napágina 19.

CAJADO, A. F. R.; DORNELLES, T.; PEREIRA, A. C. Eleições no brasil: uma história de 500anos. Tribunal Superior Eleitoral, 2014. Citado na página 18.

CAMILO, C. O.; SILVA, J. C. d. Mineração de dados: Conceitos, tarefas, métodos e ferramentas.Universidade Federal de Goiás (UFC), p. 1–29, 2009. Citado na página 23.

CHOWDHURY, G. G. Natural language processing. Annual review of information science andtechnology, Wiley Online Library, v. 37, n. 1, p. 51–89, 2003. Citado na página 22.

CIOS, K. J.; PEDRYCZ, W.; SWINIARSKI, R. W. Data mining and knowledge discovery. In:Data mining methods for knowledge discovery. [S.l.]: Springer, 1998. p. 1–26. Citado na página13.

EL-KHAIR, I. A. Effects of stop words elimination for arabic information retrieval: a comparativestudy. International Journal of Computing & Information Sciences, v. 4, n. 3, p. 119–133, 2006.Citado na página 28.

Page 64: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Referências 63

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge dis-covery in databases. AI magazine, v. 17, n. 3, p. 37, 1996. Citado 2 vezes nas páginas 14e 19.

FILHO, J. A. C. Mineração de textos: Análise de sentimento utilizando tweets referentes à copado mundo 2014. 2014. Citado 2 vezes nas páginas 24 e 37.

FRANÇA, T. d. C.; OLIVEIRA, J. Análise de sentimento de tweets relacionados aos protestosque ocorreram no brasil entre junho e agosto de 2013. In: Proceedings of the III BrazilianWorkshop on Social Network Analysis and Mining (BRASNAN). [S.l.: s.n.], 2014. p. 128–139.Citado 3 vezes nas páginas 24, 25 e 37.

GABRIEL, M. Marketing na era digital: conceitos, plataformas e estratégias. [S.l.]: NovatecEditora, 2010. Citado na página 12.

GARRETA, R.; MONCECCHI, G. Learning scikit-learn: machine learning in python. [S.l.]:Packt Publishing Ltd, 2013. Citado na página 22.

GOLDSCHMIDT, R.; PASSOS, E. Data mining: um guia prático. [S.l.]: Gulf ProfessionalPublishing, 2005. Citado 3 vezes nas páginas 19 e 20.

GRUS, J. Data Science do zero: Primeiras regras com o Python. [S.l.]: Alta Books Editora,2018. Citado na página 21.

INDURKHYA, N.; DAMERAU, F. J. Handbook of natural language processing. [S.l.]: CRCPress, 2010. v. 2. Citado na página 21.

KAPLAN, A. M.; HAENLEIN, M. Users of the world, unite! the challenges and opportunitiesof social media. Business horizons, Elsevier, v. 53, n. 1, p. 59–68, 2010. Citado na página 12.

LANDIS, J. R.; KOCH, G. G. The measurement of observer agreement for categorical data.biometrics, JSTOR, p. 159–174, 1977. Citado 4 vezes nas páginas 39 e 40.

LÉVY, P. Inteligência coletiva (A). [S.l.]: Edições Loyola, 2007. Citado 3 vezes nas páginas 12e 13.

LORENA, A. C.; CARVALHO, A. Introduçaoas máquinas de vetores suporte. Relatório Técnicodo Instituto de Ciências Matemáticas e de Computaçao (USP/Sao Carlos), v. 192, 2003. Citadona página 24.

MAAREK, P. J. Politics 2.0: New forms of digital political marketing and political communica-tion. Trípodos, v. 1, n. 34, p. 13–22, 2014. Citado na página 12.

MARQUES, F. P. J. A.; SAMPAIO, R. C. Internet e eleições 2010 no brasil: rupturas e continui-dades nos padrões mediáticos das campanhas políticas online. Galáxia. Revista do Programa dePós-Graduação em Comunicação e Semiótica. ISSN 1982-2553, n. 22, 2011. Citado na página14.

MARQUES, F. P. J. A.; SAMPAIO, R. C.; AGGIO, C. d. O. Do clique à urna: internet, redessociais e eleições no brasil. Edufba, 2013. Citado na página 16.

MENDES, A. M. T. O papel das pesquisas eleitorais. Centro Brasileiro de Análise e Planejamento,1991. Citado na página 18.

Page 65: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Referências 64

MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. Sistemasinteligentes-Fundamentos e aplicações, v. 1, n. 1, p. 32, 2003. Citado na página 22.

MURTHY, D. Twitter. [S.l.]: Polity Press, 2018. Citado na página 12.

NASUKAWA, T.; YI, J. Sentiment analysis: Capturing favorability using natural languageprocessing. In: ACM. Proceedings of the 2nd international conference on Knowledge capture.[S.l.], 2003. p. 70–77. Citado na página 21.

NICOLAU, J. História do voto no Brasil. [S.l.]: Zahar, 2002. Citado na página 18.

NOGUEIRA, E. D. A. Análise de brand equity sob a perspectiva do consumidor nas mídiassociais por meio da mineração de opinião e análise de redes sociais. 2015. Citado na página 13.

PEDREGOSA, F.; VAROQUAUX, G.; GRAMFORT, A.; MICHEL, V.; THIRION, B.; GRISEL,O.; BLONDEL, M.; PRETTENHOFER, P.; WEISS, R.; DUBOURG, V. et al. Scikit-learn:Machine learning in python. Journal of machine learning research, v. 12, n. Oct, p. 2825–2830,2011. Citado na página 21.

PEREIRA, W. d. S. S. Análise dos tweets sobre a black friday através da mineração de texto eanálise de sentimentos. 2016. Citado 2 vezes nas páginas 24 e 37.

PERROCA, M. G.; GAIDZINSKI, R. R. Avaliando a confiabilidade interavaliadores de uminstrumento para classificação de pacientes: coeficiente kappa. Revista da Escola de Enfermagemda USP, v. 37, n. 1, p. 72–80, 2003. Citado na página 39.

RABELO, E. Avaliação de técnicas de visualização para mineração de dados. UniversidadeEstadual Mar., 2007. Citado na página 19.

ROSSUM, G. V. et al. Python programming language. In: USENIX annual technical conference.[S.l.: s.n.], 2007. v. 41, p. 36. Citado na página 21.

RUEDIGER, M. A.; GRASSI, A.; ASENSI, A. Robôs, redes sociais e política no brasil: Estudosobre interferências ilegítimas no debate público na web, riscos à democracia e processo eleitoralde 2018. FGV DAPP, 2017. Citado 3 vezes nas páginas 13, 14 e 60.

SANTOS, L. M.; ESMIN, A. A. A.; ZAMBALDE, A. L.; NOBRE, F. M. Twitter, análise desentimento e desenvolvimento de produtos: Quanto os usuários estão expressando suas opiniões?Prisma. com, n. 13, p. 159–170, 2010. Citado na página 21.

SHAO, C.; CIAMPAGLIA, G. L.; VAROL, O.; FLAMMINI, A.; MENCZER, F. The spread offake news by social bots. arXiv preprint arXiv:1707.07592, arXiv, 2017. Citado na página 14.

SILVA, L. T. da; JUNIOR, A. B. F. Marketing político e sua importância através das mídiassociais. Temática, v. 9, n. 8, 2014. Citado na página 12.

SILVA, T.; STABILE, M. Monitoramento e pesquisa em mídias sociais: metodologias, aplicaçõese inovações. Análise de redes em Mídias Sociais. São Paulo: Uva Limão, p. 237–260, 2016.Citado na página 21.

TAN, A.-H. et al. Text mining: The state of the art and the challenges. In: SN. Proceedings ofthe PAKDD 1999 Workshop on Knowledge Disocovery from Advanced Databases. [S.l.], 1999.v. 8, p. 65–70. Citado 2 vezes nas páginas 16 e 20.

Page 66: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

Referências 65

TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introdução ao datamining: mineração de dados.[S.l.]: Ciência Moderna, 2009. Citado na página 23.

VAROQUAUX, G.; BUITINCK, L.; LOUPPE, G.; GRISEL, O.; PEDREGOSA, F.; MUELLER,A. Scikit-learn: Machine learning without learning the machinery. GetMobile: Mobile Computingand Communications, v. 19, p. 29–33, 06 2015. Citado na página 22.

VIERA, A. J.; GARRETT, J. M. et al. Understanding interobserver agreement: the kappa statistic.Fam med, v. 37, n. 5, p. 360–363, 2005. Citado na página 39.

WAZLAWICK, R. Metodologia de pesquisa para ciência da computação. [S.l.]: Elsevier Brasil,2017. v. 2. Citado na página 17.

WU, X.; KUMAR, V.; QUINLAN, J. R.; GHOSH, J.; YANG, Q.; MOTODA, H.; MCLACHLAN,G. J.; NG, A.; LIU, B.; PHILIP, S. Y. et al. Top 10 algorithms in data mining. Knowledge andinformation systems, Springer, v. 14, n. 1, p. 1–37, 2008. Citado na página 23.

Page 67: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

66

ANEXO A – Script da API Tweepy

1 import tweepy

2 import csv

3 import pandas as pd

45 ####insira suas credenciais aqui

6 consumer_key = ’consumer_key’

7 consumer_secret = ’consumer_secret’

8 access_token = ’access_token’

9 access_token_secret = ’access_token_secret’

1011 auth = tweepy.OAuthHandler(consumer_key, consumer_secret)

12 auth.set_access_token(access_token, access_token_secret)

13 api = tweepy.API(auth,wait_on_rate_limit=True)

1415 # Abre ou cria uma planilha para acrescentar dados

16 csvFile = open(’Planilha de destino.csv’, ’a’)

1718 #Usa csv Writer (escrita em CSV)

19 csvWriter = csv.writer(csvFile)

20 search_terms = "String(s) de busca"

2122 for tweet in tweepy.Cursor(api.search,q=search_terms,count=100,

23 lang="pt",tweet_mode="extended",

24 since="Data de busca ex: AAAA-MM-DD").items():

25 print (tweet.id,tweet.created_at, tweet.full_text)

26 csvWriter.writerow([tweet.created_at, tweet.full_text])

Page 68: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

67

ANEXO B – Script depré-processamento

1 import csv

2 import re

3 import nltk

4 import string

5 import unicodedata

67 ’’’Remove #’’’

8 lista_status=[]

9 def remover_hashttag(texto):

10 palavras = texto.split()

11 for i in palavras:

12 if i.startswith(’#’):

13 palavras.remove(i)

14 texto = ’ ’.join(palavras)

15 return texto

1617 ’’’Remove @’’’

18 def remove_nick_RT(texto):

19 palavras = texto.split()

20 for i in palavras:

21 if i.startswith(’@’):

22 palavras.remove(i)

23 texto = ’ ’.join(palavras)

24 return texto

2526 ’’’Remove links https’’’

27 def remove_https(texto):

28 palavras = texto.split()

29 for i in palavras:

30 if i.startswith(’https’):

31 palavras.remove(i)

32 texto = ’ ’.join(palavras)

33 return texto

3435 ’’’Remove links http’’’

36 def remove_http(texto):

37 palavras = texto.split()

38 for i in palavras:

39 if i.startswith(’http’):

40 palavras.remove(i)

Page 69: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

ANEXO B. Script de pré-processamento 68

41 texto = ’ ’.join(palavras)

42 return texto

4344 ’’’Remover stopWords do portugues-BR, acentuacao, converte para caixa baixa

’’’

45 def remover_stopWords(texto):

46 regulares = re.compile(’[%s]’ % re.escape(string.punctuation))

47 vetor=[]

48 palavras = texto.split()

49 for p in palavras:

50 tokens = regulares.sub(u’’,p) #Remove pontuacoes

51 if not tokens == u’’:

52 vetor.append(tokens)

5354 stopwords = nltk.corpus.stopwords.words(’portuguese’)

55 ’’’Deixa tudo em caixa baixa e remove espacos em branco colados as

palavras

56 ex,: ’Janailton ’, depois so adiciona as que nao estiverem na lista

de stopwords’’’

57 conteudo = [w for w in vetor if w.lower().strip() not in stopwords]

58 texto_limpo =[]

59 ’’’Remove acentuacoes e deixa apenas letras e numeros’’’

60 for palavras in conteudo:

61 normalizado = unicodedata.normalize(’NFKD’,palavras)

62 palavraSemAcento = u’’.join([c for c in normalizado if not

unicodedata.combining(c)])

63 letrasNumeros = re.sub(’[^a-zA-Z0-9\\\]’,’ ’,palavraSemAcento)

64 texto_limpo.append(letrasNumeros.lower().strip())

65 ’’’Remove textos com menos de 2 palavras e digitos’’’

66 limpo = [t for t in texto_limpo if len(t)>2 and not t.isdigit()]

67 pronto = ’ ’.join(limpo)

68 return pronto

6970 ’’’Faz a leitura da base ’suja’, realiza a limpeza e salva em uma nova base

’’’

71 novo_arquivo = csv.reader(open(’CandidatoX_TREINO.csv’,’r’))

72 csvFile = open(’CandidatoX_TREINO_Limpo.csv’, ’a’)

73 NewAqr = csv.writer(csvFile)

7475 for linha in novo_arquivo:

76 arquivo = remover_hashttag(linha[0])

77 arquivo = remove_nick_RT(arquivo)

78 arquivo = remove_http(arquivo)

79 arquivo = remove_https(arquivo)

80 arquivo = remover_stopWords(arquivo)

81 print(arquivo)

82 NewAqr.writerow([arquivo,linha[1]])

Page 70: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

69

ANEXO C – Script de seleção aleatóriade dados

1 import csv

2 import random

3 base =[]

45 ’’’Cria uma base para salvar as instancias selecionadas de forma aleatoria

’’’

6 csvFile = open(’CandidatoX_treino_teste.csv’, ’a’)

7 NewAqr = csv.writer(csvFile)

89 ’’’Realiza a leitura de uma base completa e salva em vetor’’’

10 with open("CandidatoX_eventoX.csv") as arquivocsv:

11 ler = csv.reader(arquivocsv, delimiter=",")

12 for linha in ler:

13 base.append(linha[0])

1415 ’’’Sorteia N instancias no vetor aleatoriamente e salva na base criada’’’

16 qtd_instancias = 200

17 random_choice = random.sample(base, qtd_instancias)

18 for x in random_choice:

19 print(x)

20 NewAqr.writerow([x])

Page 71: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

70

ANEXO D – Script de mineração emdados textuais

1 from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer

2 from sklearn.naive_bayes import MultinomialNB

3 from sklearn import svm

4 from sklearn.model_selection import cross_val_predict

5 from sklearn.model_selection import train_test_split

6 from sklearn.metrics import confusion_matrix, precision_score,

cohen_kappa_score

78 ’’’Funcao que treina o algoritmo classificador e testa

9 o coeficiente de Kappa e a acuracia do modelo criado’’’

10 def Treinamento_teste(classificador, x, y):

11 X_treino, X_teste, Y_treino, Y_teste = train_test_split(x, y, test_size

=0.20, random_state=42)

12 #Treinando modelo ..

13 modelo = classificador.fit(X_treino, Y_treino)

14 #Testando modelo

15 resp_pred = modelo.predict(X_teste)

16 #Coeficiente de Kappa e Acuracia do modelo

17 print("Kappa: %s" % cohen_kappa_score(Y_teste, resp_pred))

18 print("Acuracia: %s" % classificador.score(X_teste, Y_teste))

1920 ’’’ Funcao que treina o algoritmo classificador

21 escolhido e realiza a classificacao de novas instancias ’’’

22 def Classificacao_texto(classificador, x, y, XNovo):

23 modelo = classificador.fit(x, y)

24 #Testando modelo

25 resp_pred = modelo.predict(XNovo)

26 return resp_pred

2728 twetts =[]

29 rotulos =[]

30 ’’’Leitura da base de teste e separacao da instancia e sua rotulacao’’’

31 with open(’CandidatoX_TREINO_LIMPO_CLASSIFICADO.csv’,’r’) as arquivocsv:

32 arq = csv.reader(arquivocsv, delimiter=’,’)

33 for linha in arq:

34 twetts.append(linha[0])

35 rotulos.append(linha[1])

3637 ’’’ Transformacao dos textuais da base de testes em

38 representacoes numericas utilizando Tfidf ’’’

Page 72: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

ANEXO D. Script de mineração em dados textuais 71

39 vetorizado = TfidfVectorizer(use_idf=True)

40 X = vetorizado.fit_transform(twetts)

41 Y = rotulos

4243 ’’’Realiza a leitura dos dados nao classificados, apos isso

44 transforma-os em dados numerios com Tfidf ’’’

45 novo =[]

46 with open(’CandidatoX_DebateX_LIMPO_NAO_CLASSIFICADO.csv’,’r’) as

arquivocsv:

47 arq = csv.reader(arquivocsv, delimiter=’,’)

48 for linha in arq:

49 novo.append(linha[0])

50 XNovo = vetorizado.transform(novo)

5152 ’’’Opcao de classificar com o algoritmo Naive Bayes’’’

53 #YNovo = Classificacao_texto(MultinomialNB(alpha=0.5), X, Y, [-1,0,1])

5455 ’’’Opcao de classificar com o algoritmo SVM’’’

56 YNovo = Classificacao_texto(svm.SVC(kernel=’linear’, C=1.0), X, Y, XNovo)

5758 ’’’Salva a nova base de dados que foi classificada a partir do

59 algoritmo escolhido treinado pela base de treino’’’

60 csvFile = open(’CandidatoX_DebateX_LIMPO_CLASSIFICADO.csv’, ’a’)

61 NewAqr = csv.writer(csvFile)

62 for (novo, rot) in zip(novo, YNovo):

63 NewAqr.writerow([novo,rot])

Page 73: ANÁLISE DE SENTIMENTOS DA POPULAÇÃO BRASILEIRA EM … · novas formas e meios de se comunicar. A partir disso, surgiram novas escritas e formas de comunicação, tais como: correio,

72

ANEXO E – Script de resultados

1 import csv

2 import numpy as np

3 import matplotlib.pyplot as plt; plt.rcdefaults()

45 cont_neutro = 0

6 cont_positivo = 0

7 cont_negativo = 0

89 lista_neutra =[]

10 lista_positiva=[]

11 lista_negativa=[]

1213 twetts=[]

14 rotulos=[]

15 titulo_evento = ’Nome do evento ex: DebateX’

1617 ’’’ Leitura e contagem das polaridades ’’’

18 with open(’CandidatoX_DebateX_LIMPO_CLASSIFICADO.csv’,’r’) as arquivocsv:

19 arq = csv.reader(arquivocsv, delimiter=’,’)

20 for linha in arq:

21 if int(linha[1])==0:

22 cont_neutro +=1

23 lista_neutra.append(linha[0])

24 if int(linha[1])==1:

25 cont_positivo +=1

26 lista_positiva.append(linha[0])

27 if int(linha[1])==-1:

28 cont_negativo +=1

29 lista_negativa.append(linha[0])

30 twetts.append(linha[0])

31 rotulos.append(linha[1])

3233 ’’’Plotagem grafica (grafico de barras) das polaridades’’’

34 objts =(’-1 = ’+str(len(lista_negativa)),’0 = ’+str(len(lista_neutra)),’1 =

’+str(len(lista_positiva)))

35 y_pos = np.arange(len(objts))

36 resultados = [cont_negativo, cont_neutro, cont_positivo]

37 plt.bar(y_pos, resultados, align=’center’,alpha=0.5)

38 plt.xticks(y_pos, objts)

39 plt.ylabel(’Quantidade’)

40 plt.title(titulo_evento)

41 plt.show()