analyse combinée crawl + logs - search foresight & botify

47
L’analyse combinée CRAWL + LOGS Philippe YONNET DG Search Foresight – My Media Adrien MENARD PDG BOTIFY

Upload: philippe-yonnet

Post on 21-Jun-2015

2.252 views

Category:

Marketing


1 download

DESCRIPTION

Un aperçu de l'utilisation des données de logs et des données de crawl à fins d'audit et d'analyse pour le SEO. Et les avantages de l'analyse croisée logs+crawl. Conférence présentée au SEO Camp'us 2014 par Adrien Ménard, PDG de Botifiy, et Philippe Yonnet, DG de Search Foresight

TRANSCRIPT

Page 1: Analyse combinée crawl + logs - Search Foresight & Botify

L’analyse combinée CRAWL + LOGS

Philippe YONNETDG Search Foresight – My Media

Adrien MENARDPDG BOTIFY

Page 2: Analyse combinée crawl + logs - Search Foresight & Botify

Search ForesightForesight : définition • “an act or the power of foreseeing” : prescience• “provident care” : prudence et prévoyance• “an act of looking forward” : prospective

Page 3: Analyse combinée crawl + logs - Search Foresight & Botify

Botify : Editeurs d’applications SEOTestez le service avec 100k pages

Page 4: Analyse combinée crawl + logs - Search Foresight & Botify

L’ANALYSE DESDONNEES DE CRAWL

Page 5: Analyse combinée crawl + logs - Search Foresight & Botify

D’où proviennent les données de crawl ?

• D’un crawler (ou spider)

Page 6: Analyse combinée crawl + logs - Search Foresight & Botify

A quoi ça sert ?

• Découvrir le nombre de pages réellement “crawlables” par un moteur de recherche (ne suit pas robots.txt, no follow, javascript, ajax)

• Repérer les liens cassés (et donc les pages sources)

• Découvrir la profondeur de ses pages• Analyser ses temps de réponses (crawler)• Repérer les duplicates• Identifier les canonicals mal renseignées• Analyser les liens entrants / sortants de vos

pages

Page 7: Analyse combinée crawl + logs - Search Foresight & Botify

La détection des liens brisés

• Détection des pages 404

Page 8: Analyse combinée crawl + logs - Search Foresight & Botify

Détecter les pages en redirection

• Détection des erreurs 30x

• Objectif : diminuer le volume de 301

• Eliminer les 302(idem pour les 4XX ou 5XX)

Page 9: Analyse combinée crawl + logs - Search Foresight & Botify

Détecter les URLs source

Page 10: Analyse combinée crawl + logs - Search Foresight & Botify

Tester les performances du site

• Le temps de téléchargement du code a une influence sur l’exploration de Google

Page 11: Analyse combinée crawl + logs - Search Foresight & Botify

Votre site est-il rapide ?

• Google webmaster tools ne fournit que des temps « moyens »

• Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement

Page 12: Analyse combinée crawl + logs - Search Foresight & Botify

Détection des duplicate title, H1 ou descr

Page 13: Analyse combinée crawl + logs - Search Foresight & Botify

Accéder aux détails de vos métadata

Page 14: Analyse combinée crawl + logs - Search Foresight & Botify

Analyse de la profondeur

Page 15: Analyse combinée crawl + logs - Search Foresight & Botify

Pourquoi mesurer la profondeur ?

Plus une url est profonde, moins elle reçoit de linkjuicePlus une url est profonde, moins elle a de Pagerank, moins elle est crawlée

Page 16: Analyse combinée crawl + logs - Search Foresight & Botify

Le rythme de crawl sur Google est fonction du PR (et d’autres facteurs)

Page 17: Analyse combinée crawl + logs - Search Foresight & Botify

Analyse des link rel=canonical

Page 18: Analyse combinée crawl + logs - Search Foresight & Botify

Analyse des liens sortants

• Ex : botify

Page 19: Analyse combinée crawl + logs - Search Foresight & Botify

L’analyse du maillage interne

• Objectif : mesurer les ratios– Nb de liens entrants vs liens sortants– Nb de liens sortants internes vs externes

• Indegree = nombre de liens entrants

• La hiérarchie des indegrees doit être conforme à l’importance des pages

Page 20: Analyse combinée crawl + logs - Search Foresight & Botify

Diagnostic complet

• Ex avec Botify (tableau de bord)

Page 21: Analyse combinée crawl + logs - Search Foresight & Botify

Créez vos propres filtres

Page 22: Analyse combinée crawl + logs - Search Foresight & Botify

L’ANALYSE DES LOGS

Page 23: Analyse combinée crawl + logs - Search Foresight & Botify

Les logs serveurs c’est quoi ?

-------------------------------------------------------

Enregistrement dela requête = ajout d’une ligne dans le fichier de logs

Log

Page 24: Analyse combinée crawl + logs - Search Foresight & Botify

Les logs serveurs c’est quoi ?

• Les « logs » sont des fichiers texte

créés par les serveurs web.

• Chaque requête envoyée à un serveur

web est enregistrée dans le fichier log

représente une requête http

Page 25: Analyse combinée crawl + logs - Search Foresight & Botify

A quoi cela ressemble ?

194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 1644087.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 3682187.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 214687.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644

Format Apache par défaut

Remarque : on ajoute en général d’autres champs comme :- Le referrer (et le query string : la chaine de paramètres)- Le User Agent- L’hôte

Page 26: Analyse combinée crawl + logs - Search Foresight & Botify

Quelles informations y trouve-t’on ?

• L’adresse IP de la source

• L’identité du client

• Le nom de l’utilisateur distant (si http auth)

• Date, heure, fuseau de la requête

• La requête http://

• Le code réponse renvoyé par le serveur

• La taille du bloc de données retourné par le serveur en octets

• Les “-” symbolisent une information manquante

Page 27: Analyse combinée crawl + logs - Search Foresight & Botify

Quelles lignes des logs nous intéressent ?

• Pour compter les visites SEO : celles qui contiennent « Google » ou « Bing » (ou tout autre moteur de recherche) dans le champ « referrer »

• Pour compter les crawls des bots : celles qui contiennent « Googlebot » ou « Bingbot » (ou un autre bot) dans le champ « User Agent »

Page 28: Analyse combinée crawl + logs - Search Foresight & Botify

Usage n°1bis : caractériser le comportement de crawl

23-Ju

n-10

25-Ju

n-10

27-Ju

n-10

29-Ju

n-10

01-Ju

l-10

03-Ju

l-10

05-Ju

l-10

07-Ju

l-10

09-Ju

l-10

11-Ju

l-10

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000

Crawl des fiches produits : pages uniquesCrawl des fiches produits : avec recrawl

L’analyse des logs permet d’analyser les logs templates par template et de savoir si les pages sont crawlées plus souvent ou si plus de pages

sont crawlées

Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées

Page 29: Analyse combinée crawl + logs - Search Foresight & Botify

Comprendre et analyser son volume de crawl quotidien

Page 30: Analyse combinée crawl + logs - Search Foresight & Botify

Surveiller « le crawl » par type de pages

Pages produit Pages Erreurs

Page 31: Analyse combinée crawl + logs - Search Foresight & Botify

Usage n°2 : déterminer les pages qui reçoivent du trafic organique

Page 32: Analyse combinée crawl + logs - Search Foresight & Botify

Usage n°2 : déterminer les pages qui reçoivent du trafic organique

Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées

Une augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs classements

Page 33: Analyse combinée crawl + logs - Search Foresight & Botify

Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée

Ratios intéressant :

Longueur des requêtes / type de pagesNombre d’expressions différentes / page

Page 34: Analyse combinée crawl + logs - Search Foresight & Botify

Usage n°4 : identifier les pb techniques ou serveurs sur une période

Pic de 302 depuis début janvier qui doit être corrigé rapidement

Page 35: Analyse combinée crawl + logs - Search Foresight & Botify

Usage n°5 : monitorer les perfs côté serveur

• Apache 2 : •temps pour délivrer la page mesuré en microsecondes•LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T/%D" combined

•Résultat•[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491•Soit 0,095491 secondes•Avec Apache 1,3 seul le temps en sec est disponible•Ne pas confondre avec le temps de génération de la page

Page 36: Analyse combinée crawl + logs - Search Foresight & Botify

Depuis quand une page active n’a pas été crawlée ?

Page 37: Analyse combinée crawl + logs - Search Foresight & Botify

Est-ce que mes pages actives sont des vieilles pages ?

Page 38: Analyse combinée crawl + logs - Search Foresight & Botify

L’ANALYSE COMBINÉE

Page 39: Analyse combinée crawl + logs - Search Foresight & Botify

Comparer les deux visions du site

• Ce que vous montrez (crawl)vs• Ce que le moteur de recherche voit et fait (logs)

Votre site Votre site

+ du duplicate

Page 40: Analyse combinée crawl + logs - Search Foresight & Botify

L’analyse combinée crawl+logs

• Urls crawlables => données par votre crawler

• Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot)

Home

Cat 1

P1

P2

P3

Cat 2

P1

P2

P3

P4

Cat 3

P1

P2

Votre version

Home

Cat 1

P1

P2

P3

Cat 2

P1

P1bis

P2

P2bis

P3

P4

Cat2bis Cat 3

Version vue par Googlebot

Des urls en moinsDes urls en +

Page 41: Analyse combinée crawl + logs - Search Foresight & Botify

Principe de l’analyse des deux versions

Urls crawlées par Google,

non présentes sur le site :

URLS parasites, à

bloquer dans le robots.txt

Urls présentes sur le site, non explorées par

Google : identifier la

cause

Urls OKprésentes

et crawlées

Page 42: Analyse combinée crawl + logs - Search Foresight & Botify

Taux de crawl et taux de pages actives : deux indicateurs à maîtriser

Page 43: Analyse combinée crawl + logs - Search Foresight & Botify

Usage n°1 : connaître les pages crawlées

Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …

Page 44: Analyse combinée crawl + logs - Search Foresight & Botify

Usage n°2 : déterminer les pages qui reçoivent du trafic organique

• Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées

• Une augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs

classements

Page 45: Analyse combinée crawl + logs - Search Foresight & Botify

Les limites de l’exercice

• Fournit un diagnostic sur la santé d’un site• Fournit des données précises sur le crawl

des moteurs et l’état du référencement d’un site

Þ Mais cela ne vous donne qu’une liste priorisée de points à corriger

Þ Pour développer le trafic SEO, il faut aussi identifier des chantiers permettant une réelle croissance du trafic

Page 46: Analyse combinée crawl + logs - Search Foresight & Botify

DES QUESTIONS ?

Page 47: Analyse combinée crawl + logs - Search Foresight & Botify

Merci !

• Nous contacter :

Philippe YONNET

Directeur Général de l’agence Search ForesightGroupe My Media

55 rue Anatole France – 92300 LEVALLOIS [email protected]

Tél : 01 74 18 29 40

Adrien [email protected] / 01 83 62 90 78

Twitter.com/botifywww.botify.com