search masters brasil 2015 - siga o robÔ: utilizando logs na performance do seu seo
TRANSCRIPT
SEARCH MASTERSSIGA O ROBÔ: Utilizando Logs na performance do seu SEO
Victor Magalhães/SEO Novembro/2015 | @vrmagalhaes
AGENDA
• OBJETIVOS DO ROBÔ
• RASTREAMENTO E INDEXAÇÃO
• GOOGLE SEARCH CONSOLE
• LOGS
• FOQUE NO QUE O GOOGLEBOT CONSOME
• TEMPO DE CARREGAMENTO & INDEXAÇÃO
Em primeiro lugar…
Qual o nosso objetivo enquanto SEOs?
RANKINGS?
$$$
A última fronteira?
O que fazemos quando chegamos lá?
O que fazemos quando chegamos lá?
Deixamos um rastro…
WTF?
O MESMO OCORRENA NAVEGAÇÃO PELA WEB
Bots &Usuários
Site Logs
O que são os Logs de Acesso?
Registro de um evento em um sistema computacional…
Cada registro representaum “HIT”.
H I T S
H I T S O D R I W I A T O C E T K S S
https://moz.com/blog/server-log-essentials-for-seo Image credit: Media College
H I T S
COMO O BUSCADOR FUNCIONA?
1) RASTREAR 2) INDEXAR 3) POSICIONAR https://www.youtube.com/watch?v=BNHR6IQJGZs
https://www.google.com/insidesearch/howsearchworks/thestory/
RASTREAMENTO ≠ POPULARIDADE
RASTREAMENTO ≠ VISITAS
GOOGLE SEARCH CONSOLE
MISSÃO DO GOOGLE
A missão do Google é organizar as informações do mundo e torná-las mundialmente acessíveis e úteis.
https://www.google.com/intl/pt-BR/about/company/
MISSÃO DO GOOGLE
• BRANDING• POSICIONAMENTO DA MARCA
• BRAND EQUITY
E PARA AJUDAR OS WEBMASTERS, DISPONIBILIZOU O SEARCH CONSOLE
• BRANDING• POSICIONAMENTO DA MARCA
• BRAND EQUITY
• BRANDING• POSICIONAMENTO DA MARCA
• BRAND EQUITY
out/14 nov/14 dez/14 jan/15 fev/15 mar/15 abr/15 mai/15 jun/15 jul/15 ago/15 set/15 out/15
Requisições GWT Registro LOG
MAS ELE NÃO É ASSIM, 100% CONFIÁVEL!
MAS ELE NÃO É ASSIM, 100% CONFIÁVEL!
• BRANDING• POSICIONAMENTO DA MARCA
• BRAND EQUITY
out/14 nov/14 dez/14 jan/15 fev/15 mar/15 abr/15 mai/15 jun/15 jul/15 ago/15 set/15 out/15
Requisições GWT Registro LOG
-45,9%
O PROCESSO
ENCONTRANDO OS ARQUIVOS DE LOG
No Apache: Pasta /var/log/apache2
Referências: • Acessando Arquivos de log no Apache (linux) • Acessando Arquivos de log no NGINX (linux) • Acessando Arquivos de log no IIS (Windows)
COMO SEGMENTARAS INFORMAÇÕES
1) Crie um arquivo
touch mylog
2) Combine os arquivos de Log
cat * > mylog
3) Filtre os dados do Googlebot
grep “Googlebot" mylog > googlebot_interactions.txt
O ARQUIVO
O ARQUIVO
IP - - [Data] “GET/POST URL VERSÃO-DO-HTTP” STATUS TAMANHO “-“ “NAVEGADOR BOT”
O ARQUIVO
IP - - [Data] “GET/POST URL VERSÃO-DO-HTTP” STATUS TAMANHO “-“ “NAVEGADOR BOT”
200.203.124.9[18/Oct/2015:06:49:39 -0200]
O ARQUIVO
IP - - [Data] “GET/POST URL VERSÃO-DO-HTTP” STATUS TAMANHO “-“ “NAVEGADOR BOT”
"GET /blog/nome-do-post HTTP/1.1"
"POST /wp-admin/admin-ajax.php HTTP/1.1" 200 533 “http://SITE/blog/nome-do-post“ "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
O ARQUIVO
IP - - [Data] “GET/POST URL VERSÃO-DO-HTTP” STATUS TAMANHO “-“ “NAVEGADOR BOT”
200, 301, 302, 404, 500, 503http://en.wikipedia.org/wiki/List_of_HTTP_status_codes
http://moz.com/learn/seo/http-status-codes
Tamanho do arq. em bytes
O ARQUIVO
IP - - [Data] “GET/POST URL VERSÃO-DO-HTTP” STATUS TAMANHO “-“ “NAVEGADOR BOT”
Mozilla/5.0DoCoMo/2.0 N905i(c100;TB;W24H16)
(compatible; Googlebot/2.1; +http://www.google.com/bot.html)(compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
FERRAMENTAS
+
+
FERRAMENTAS
+
+
PREMISSAS1. Crawl Budget: É o tempo ou requisições de páginas que o
Google aloca para rastrear o seu site; 2. Silos: "Estrutura de Linkagem interna”; 3. Indexação: Não vamos analisar se um determinado bloco
de conteúdo é indexado; 4. Calorias Vazias: Se o robô estiver rastreando conteúdo
duplicado, ele estará consumindo "calorias vazias”!
Referência: @ajkohn | Crawl Optimization | http://goo.gl/qdoBlE
PREMISSAS - SILOS
http://webmarketingtoday.com/articles/112514-Do-it-yourself-SEO-Organizing-a-Website-with-Silos/
PREMISSAS - INDEXAÇÃO
AS ANÁLISES
• Site em Wordpress; • Migrou de Domínio e Servidor em Outubro/14; • Apenas 30% do antigo conteúdo foi importado para o novo site.
CENÁRIO
O QUE PODEMOS ANALISAR?•Quais urls foram rastreadas pelo Googlebot ou outros bots;
•Páginas com erros 40x & 50x;
•Páginas com Redirecionamento 302 rastreadas pelo bot;
•Descobrir o número de páginas rastreadas por dia;
O QUE PODEMOS ANALISAR?•Descobrir como está o fluxo de rastreamento do GoogleBot Mobile;
•Quais as páginas rastreadas com maior frequência;
•Quais páginas não devem ser rastreadas;
•Conteúdo duplicado;
•Impacto na utilização da metatag rel=“canonical".
SPLUNK
SPLUNK
host="LOGS" googlebot | chart count by uri
SPLUNK
PÁGINAS RASTREADAS POR MÊS
out/14 nov/14 dez/14 jan/15 fev/15 mar/15 abr/15 mai/15 jun/15 jul/15 ago/15 set/15 out/15
200 301 302 304 404 408 500
PÁGINAS RASTREADAS POR MÊS
out/14 nov/14 dez/14 jan/15 fev/15 mar/15 abr/15 mai/15 jun/15 jul/15 ago/15 set/15 out/15
200 301 302 304 404 408 500
PÁGINAS RASTREADAS POR MÊS
3462
out/14 nov/14 dez/14 jan/15 fev/15 mar/15 abr/15 mai/15 jun/15 jul/15 ago/15 set/15 out/15
301 302 304 404 408 500
PÁGINAS RASTREADAS POR MÊS
404
out/14 nov/14 dez/14 jan/15 fev/15 mar/15 abr/15 mai/15 jun/15 jul/15 ago/15 set/15 out/15
301 302 304 408 500
PÁGINAS RASTREADAS POR MÊS X VISITAS
out/14 nov/14 dez/14 jan/15 fev/15 mar/15 abr/15 mai/15 jun/15 jul/15 ago/15 set/15 out/15
Registro LOG Visitas
PÁGINAS MAIS RASTREADAS POR MÊS
out/14 nov/14 dez/14 jan/15 fev/15 mar/15 abr/15 mai/15 jun/15 jul/15 ago/15 set/15 out/15
home página 1 página 2 página 3 página 4 página 5 página 6
PÁGINAS MAIS RASTREADAS POR MÊS
out/14 nov/14 dez/14 jan/15 fev/15 mar/15 abr/15 mai/15 jun/15 jul/15 ago/15 set/15 out/15
home página 1 página 2 página 3 página 4 página 5 página 6
PÁGINAS MAIS RASTREADAS POR MÊS
jun/15 jul/15 ago/15 set/15 out/15
home página 1 página 2 página 3 página 4 página 5 página 6
CORRELAÇÃO &MÉTRICAS DE POPULARIDADE
194
2 3 7 4 4 3 / página 1 página 2 página 3 página 4 página 5 página 6
links
CORRELAÇÃO &MÉTRICAS DE POPULARIDADE
33
12 13 13 13 15 12 14 12 10 10 10 11 10 16
9 5
23
9
23
8 3 4 1 1 1 2 2 3
12
0 3 0
58
1
/ página 1 página 2 página 3 página 4 página 5 página 6
Page Authority Url Rating G+ Twitter Facebook
CORRELAÇÃO &MÉTRICAS DE POPULARIDADE
2
7
0 3
0
25
1 0 0 0 0
25
0 1
5
0 0 0
8
1
/ página 1 página 2 página 3 página 4 página 5 página 6
Facebook Likes Facebook Comments Facebook shares
URLS MAISRASTREADAS NO MÊS
URLS MAISRASTREADAS NO MÊS
URLS MAISRASTREADAS NO MÊS
jun/15 jul/15 ago/15 set/15 out/15
home página 1 página 2 página 3 página 4 página 5 página 6
URLS MAISRASTREADAS NO MÊS
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Home página 1 página 3 página 5
URLS MAISRASTREADAS NO MÊS
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Home página 1 página 3 página 5
Post Página 3 Compartilhado
Post Página 5 Comentado Post Página 1 Curtido
RASTREAMENTOPOR BOT
1 13 13168 11457
10
121247
3 acapbot Googlebot Googlebot-Image/1.0 Googlebot-Mobile/2.1 Googlebot-News Googlebot/2.1 Googlebot/2.x
GET
RASTREAMENTOPOR BOT
13168, 9%
11457, 8%
121247, 83%
!GET!!
Googlebot-Image/1.0 Googlebot-Mobile/2.1 Googlebot-News Googlebot/2.1
RASTREAMENTOPOR BOT
13168, 9%
11457, 8%
121247, 83%
!GET!!
Googlebot-Image/1.0 Googlebot-Mobile/2.1 Googlebot-News Googlebot/2.1
host="LOGS" googlebot URL | timechart count by day
PÁGINA COMREL="CANONICAL"
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Página 1 Página canonical
PÁGINA COMREL="CANONICAL"
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Página 1 Página canonical
Implementação rel="canonical"
PÁGINA COMREL="CANONICAL"
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Página 1 Página canonical
host="LOGS" googlebot URL | timechart count by day
PÁGINAS QUE NÃO DEVEM SER RASTREADAS
PÁGINAS QUE NÃO DEVEM SER RASTREADAS
host="LOGS" googlebot | chart count by uri
PÁGINAS COM CONTEÚDO DUPLICADO
PÁGINAS COM CONTEÚDO DUPLICADO
host="LOGS" ? | chart count by uri
PÁGINAS COM CONTEÚDO DUPLICADO
1%
83%
16%
sem barra principal Parâmetros
TIPOS DE PÁGINASMAIS RASTREADAS
46%
39%
5%
4% 3%
1% 1% 1%
wp-admin posts imagens categorias tags js home outros
Precisamos nos preocupar como O GOOGLE ESTÁ CONSUMINDOO NOSSO SITE
TEMPO DE CARREGAMENTOIMPORTA MUITO
E AJUDA A VENDER
REFERÊNCIAS
http://www.blindfiveyearold.com/crawl-optimization
https://www.portent.com/blog/seo/get-geeky-grep-seo-tool.htm
https://www.portent.com/blog/analytics/attribution-part-two.htm
http://www.rimmkaufman.com/blog/seo-diagnostics-tool/15072008/
https://www.distilled.net/blog/seo/the-beginners-guide-to-using-the-command-line-for-seo/
http://searchengineland.com/7-ways-use-splunk-technical-seo-209987
Seja Megalomaníaco!NÃO ACREDITE SOMENTE NO GOOGLE.
Obrigado :)