PARA DESCREVER, ANALISAR E ENTENDER
Estatística descritiva Distribuição Dispersão, Média, Mediana, Desvio-Padrão
Reporting Geração de relatórios Agrupamentos, Drill-down
Dashboards Alertas visuais
Data Visualization Análise gráfica
PARA PROJETAR O FUTURO
Análise de Séries Temporais ARIMA
Regressão Simples Multivariada
Decomposição Tendência Sazonalidade Erro
PARA ESTIMAR RESULTADOS E RELAÇÕES
Regressão linear Simples Multivariada
Regressão Logística
Conjoint Analysis Precificação baseada em valor
PARA CLASSIFICAR MENSAGENS
Classificação de conteúdo em redessociais Categorias e Sentimentos SVM – Support Vector Machines
Identificar SPAM Naive Bayes
Árvores de decisão, Random Forests, etc
PARA AGRUPAR CONSUMIDORES
Identificar automaticamente elementos em comum Agrupamento hierárquico
Identificar grupos diferentes naturalmente k-Means
PARA SUGERIR PRODUTOS
Identificar compras comuns Basket Analysis Regras de associação
Identificar preferências comuns Filtragem colaborativa
MEDIA MIX MODELLING: OTIMIZANDO O ORÇAMENTO DE MÍDIA MATEMATICAMENTE
1/6/
145/
6/14
9/6/
146/
13/2
014
6/17
/201
46/
21/2
014
6/25
/201
46/
29/2
014
3/7/
147/
7/14
11/7
/14
7/15
/201
47/
19/2
014
7/23
/201
47/
27/2
014
7/31
/201
44/
8/14
8/8/
1412
/8/1
48/
16/2
014
8/20
/201
48/
24/2
014
8/28
/201
41/
9/14
5/9/
149/
9/14
9/13
/201
49/
17/2
014
9/21
/201
49/
25/2
014
9/29
/201
43/
10/1
47/
10/1
411
/10/
1410
/15/
2014
10/1
9/20
1410
/23/
2014
10/2
7/20
1410
/31/
2014
4/11
/14
8/11
/14
12/1
1/14
11/1
6/20
1411
/20/
2014
11/2
4/20
1411
/28/
2014
2/12
/14
6/12
/14
10/1
2/14
12/1
4/20
1412
/18/
2014
12/2
2/20
1412
/26/
2014
12/3
0/20
14
TV Investment Online Media Investment Always On InvestmentTotal Visits Normalized Total Leads Normalized
O RESULTADO SÃO PARÂMETROS QUE PERMITEMPREVER O RESULTADO DE ACORDO COM O INVESTIMENTO
Vendas = 5.000 (base) + 0.0067 * Investimento TV + 0.0375 * Investimento Online + 0.0082 * Investimento Social
QUE DADOS INCLUIR NO M.M.M?
Media Mix
Model
Dados de Investimento
(quebrado por dia, hora, canal, região,
etc)
Dados relacionados(sazonalides,
programações, eventos
importantes, etc)
Dados de resultados
(conversões, compras, receita)
Ferramenta para análise estatística
(Excel, Google Sheets, R, etc)
ENTRANDO A FUNDO NO CICLO DIGITAL, VEMOS QUE O ÚLTIMO PASSO NÃO É O ÚNICO RESPONSÁVEL PELA DECISÃO Last Click
Banner no Portal
X
Acessou FanPage
Clicou em link no twitter
Procurou no Google
Link Patrocinado
Comprou o
produto
CADA MODELO DEVE SER ESCOLHIDO DE ACORDOCOM A IMPORTÂNCIA DA ETAPA NA JORNADA
Primeiro clickÚltimo click Linear
Posicional Desvalorização Temporal Personalizado
ADOMETRY: ANALIZA O IMPACTO DAS VEICULAÇÕESDE TV NAS BUSCAS E NAS CONVERSÕES PARA APRIMORAR A ATRIBUIÇÃO
O PROBLEMA: TRANSFORMAR OS TEXTOS EM NÚMEROS
Texto 3 Texto N
Texto 2Texto 1Categorias
Sentimentos
Tópicos
Temas
Padrões de classificação
Classificaçãomanual
Categoria 1 Categoria 2 Categoria 3 Categoria N
Transformando palavras em números
Centenas, Milhares de menções, posts
MAS PODEMOS FAZER MELHOR!
Texto 3 Texto N
Texto 2Texto 1
Centenas, Milhares de menções, posts
Categoria 1 Categoria 2 Categoria 3 Categoria N
Transformando palavras em números
Classificaçãoautomática
Método Supervisionado
Processamento de linguagem natural
(NLP)
Filtro por palavras-chave Análise semântica Base ontológica
Utiliza algoritmos e estatística para avaliar o significado de palavras e suas relações em uma sentença
Necessita de atualização da base de dados utilizada
TÉCNICAS COMUNS
MACHINE LEARNING: COMPUTADORES TRABALHANDO COMO NÓS E PARA NÓS…
k-Means
Naive Bayes
Árvores de decisão
Singular Value Decomposition (SVD)
Support Vector Machines (SVM)
TF-IDF
Semântica latente
= Algoritmos e técnicasde Data Mining / Text Mining para
processar conteúdo
QUE FERRAMENTAS ESTÃO DISPONÍVEIS?
FerramentasOpen-Source
FerramentasComerciais
FrameworksDeep Learning
DESAFIOS DA CLASSIFICAÇÃO DE TEXTOS E DOCUMENTOS
*Mais desafios em: A Review of Machine Learning Algorithms for Text-DocumentsClassification – A. Kahn, B. Baharudin, L. Hong Lee, K. Khan
Tokenização, ou a corretadivisão das frases em palavrassimples ou compostas que façam
sentido.“pau de selfie”
Características do discurso, clareza da informação.
Regionalismos, uai!Ironias, Sarcasmos e #sqn
Contexto do conteúdo: político, econômico, social, midiático
#meuamigosecreto
Gramática e Sintaxe, normalização para agruparsinônimos e erros de grafia.Manga, Manga e Mangá.
Você, Voce e Vc
Entidades do conteúdo: Hashtags, Geotags, Nomes,
Links, etchttp, checkins,
#oqueeuquisdizernumahashtag
CLASSIFICAMOS 1MIL MENÇÕES E COMPARAMOS:• Baseada em NLPFerramenta de
Monitoramento
• NLP avançadoSemantria
• Algoritmo de classificação em multi-categorias
Google Prediction
Bases Históricas
• Base1: 15 mil• Base2: 100mil
Classificação
• Sentimento em 4 classes• Positivo, Negativo, Neutro, Inválido
OS RESULTADOS
Ferramenta de monitoramento
Base: 2,6MM
14%Semantria (NLP)
Análise semântica e ontológica –tamanho da base desconhecida
41%Google Prediction
Base: 15mil
56%Google Prediction
Base: 100mil
64%
Tempo para classificação automática (1 mil menções): real-time
Acurácia comparada à classificação manual
Tempo para classificação manual (1 mil menções): 3 horas
COMO FAZER O PROCESSO COMPLETO?
Coleta de dados de redes sociais
Amostragem aleatória
Classificação humana da
amostraCriação de
Modelo Preditivo
Treinamento do modelo com os
dados classificados
Validação da performance do
Modelo
Análise preditiva baseada no
modelo
CLOUD VISION API: DEEP LEARNING PARA IMAGENSPermite processar imagens em tempo real
Identifica: Elementos Textos Faces Pontos Turísticos Logomarcas Características da imagem
OBRIGADO [email protected]