analyse combinée crawl + logs - search foresight & botify
DESCRIPTION
Un aperçu de l'utilisation des données de logs et des données de crawl à fins d'audit et d'analyse pour le SEO. Et les avantages de l'analyse croisée logs+crawl. Conférence présentée au SEO Camp'us 2014 par Adrien Ménard, PDG de Botifiy, et Philippe Yonnet, DG de Search ForesightTRANSCRIPT
L’analyse combinée CRAWL + LOGS
Philippe YONNETDG Search Foresight – My Media
Adrien MENARDPDG BOTIFY
Search ForesightForesight : définition • “an act or the power of foreseeing” : prescience• “provident care” : prudence et prévoyance• “an act of looking forward” : prospective
Botify : Editeurs d’applications SEOTestez le service avec 100k pages
L’ANALYSE DESDONNEES DE CRAWL
D’où proviennent les données de crawl ?
• D’un crawler (ou spider)
A quoi ça sert ?
• Découvrir le nombre de pages réellement “crawlables” par un moteur de recherche (ne suit pas robots.txt, no follow, javascript, ajax)
• Repérer les liens cassés (et donc les pages sources)
• Découvrir la profondeur de ses pages• Analyser ses temps de réponses (crawler)• Repérer les duplicates• Identifier les canonicals mal renseignées• Analyser les liens entrants / sortants de vos
pages
La détection des liens brisés
• Détection des pages 404
Détecter les pages en redirection
• Détection des erreurs 30x
• Objectif : diminuer le volume de 301
• Eliminer les 302(idem pour les 4XX ou 5XX)
Détecter les URLs source
Tester les performances du site
• Le temps de téléchargement du code a une influence sur l’exploration de Google
Votre site est-il rapide ?
• Google webmaster tools ne fournit que des temps « moyens »
• Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement
Détection des duplicate title, H1 ou descr
Accéder aux détails de vos métadata
Analyse de la profondeur
Pourquoi mesurer la profondeur ?
Plus une url est profonde, moins elle reçoit de linkjuicePlus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
Le rythme de crawl sur Google est fonction du PR (et d’autres facteurs)
Analyse des link rel=canonical
Analyse des liens sortants
• Ex : botify
L’analyse du maillage interne
• Objectif : mesurer les ratios– Nb de liens entrants vs liens sortants– Nb de liens sortants internes vs externes
• Indegree = nombre de liens entrants
• La hiérarchie des indegrees doit être conforme à l’importance des pages
Diagnostic complet
• Ex avec Botify (tableau de bord)
Créez vos propres filtres
L’ANALYSE DES LOGS
Les logs serveurs c’est quoi ?
-------------------------------------------------------
Enregistrement dela requête = ajout d’une ligne dans le fichier de logs
Log
Les logs serveurs c’est quoi ?
• Les « logs » sont des fichiers texte
créés par les serveurs web.
• Chaque requête envoyée à un serveur
web est enregistrée dans le fichier log
représente une requête http
A quoi cela ressemble ?
194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 1644087.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 3682187.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 214687.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644
Format Apache par défaut
Remarque : on ajoute en général d’autres champs comme :- Le referrer (et le query string : la chaine de paramètres)- Le User Agent- L’hôte
Quelles informations y trouve-t’on ?
• L’adresse IP de la source
• L’identité du client
• Le nom de l’utilisateur distant (si http auth)
• Date, heure, fuseau de la requête
• La requête http://
• Le code réponse renvoyé par le serveur
• La taille du bloc de données retourné par le serveur en octets
• Les “-” symbolisent une information manquante
Quelles lignes des logs nous intéressent ?
• Pour compter les visites SEO : celles qui contiennent « Google » ou « Bing » (ou tout autre moteur de recherche) dans le champ « referrer »
• Pour compter les crawls des bots : celles qui contiennent « Googlebot » ou « Bingbot » (ou un autre bot) dans le champ « User Agent »
Usage n°1bis : caractériser le comportement de crawl
23-Ju
n-10
25-Ju
n-10
27-Ju
n-10
29-Ju
n-10
01-Ju
l-10
03-Ju
l-10
05-Ju
l-10
07-Ju
l-10
09-Ju
l-10
11-Ju
l-10
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
Crawl des fiches produits : pages uniquesCrawl des fiches produits : avec recrawl
L’analyse des logs permet d’analyser les logs templates par template et de savoir si les pages sont crawlées plus souvent ou si plus de pages
sont crawlées
Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées
Comprendre et analyser son volume de crawl quotidien
Surveiller « le crawl » par type de pages
Pages produit Pages Erreurs
Usage n°2 : déterminer les pages qui reçoivent du trafic organique
Usage n°2 : déterminer les pages qui reçoivent du trafic organique
Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées
Une augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs classements
Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée
Ratios intéressant :
Longueur des requêtes / type de pagesNombre d’expressions différentes / page
Usage n°4 : identifier les pb techniques ou serveurs sur une période
Pic de 302 depuis début janvier qui doit être corrigé rapidement
Usage n°5 : monitorer les perfs côté serveur
• Apache 2 : •temps pour délivrer la page mesuré en microsecondes•LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T/%D" combined
•Résultat•[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491•Soit 0,095491 secondes•Avec Apache 1,3 seul le temps en sec est disponible•Ne pas confondre avec le temps de génération de la page
Depuis quand une page active n’a pas été crawlée ?
Est-ce que mes pages actives sont des vieilles pages ?
L’ANALYSE COMBINÉE
Comparer les deux visions du site
• Ce que vous montrez (crawl)vs• Ce que le moteur de recherche voit et fait (logs)
Votre site Votre site
+ du duplicate
L’analyse combinée crawl+logs
• Urls crawlables => données par votre crawler
• Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot)
Home
Cat 1
P1
P2
P3
Cat 2
P1
P2
P3
P4
Cat 3
P1
P2
Votre version
Home
Cat 1
P1
P2
P3
Cat 2
P1
P1bis
P2
P2bis
P3
P4
Cat2bis Cat 3
Version vue par Googlebot
Des urls en moinsDes urls en +
Principe de l’analyse des deux versions
Urls crawlées par Google,
non présentes sur le site :
URLS parasites, à
bloquer dans le robots.txt
Urls présentes sur le site, non explorées par
Google : identifier la
cause
Urls OKprésentes
et crawlées
Taux de crawl et taux de pages actives : deux indicateurs à maîtriser
Usage n°1 : connaître les pages crawlées
Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …
Usage n°2 : déterminer les pages qui reçoivent du trafic organique
• Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées
• Une augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs
classements
Les limites de l’exercice
• Fournit un diagnostic sur la santé d’un site• Fournit des données précises sur le crawl
des moteurs et l’état du référencement d’un site
Þ Mais cela ne vous donne qu’une liste priorisée de points à corriger
Þ Pour développer le trafic SEO, il faut aussi identifier des chantiers permettant une réelle croissance du trafic
DES QUESTIONS ?
Merci !
• Nous contacter :
Philippe YONNET
Directeur Général de l’agence Search ForesightGroupe My Media
55 rue Anatole France – 92300 LEVALLOIS [email protected]
Tél : 01 74 18 29 40
Adrien [email protected] / 01 83 62 90 78
Twitter.com/botifywww.botify.com