analyse combinée crawl + logs - search foresight & botify

L’analyse combinée CRAWL + LOGS

Philippe YONNETDG Search Foresight – My Media

Adrien MENARDPDG BOTIFY

Search ForesightForesight : définition • “an act or the power of foreseeing” : prescience• “provident care” : prudence et prévoyance• “an act of looking forward” : prospective

Botify : Editeurs d’applications SEOTestez le service avec 100k pages

L’ANALYSE DESDONNEES DE CRAWL

D’où proviennent les données de crawl ?

• D’un crawler (ou spider)

A quoi ça sert ?

• Découvrir le nombre de pages réellement “crawlables” par un moteur de recherche (ne suit pas robots.txt, no follow, javascript, ajax)

• Repérer les liens cassés (et donc les pages sources)

• Découvrir la profondeur de ses pages• Analyser ses temps de réponses (crawler)• Repérer les duplicates• Identifier les canonicals mal renseignées• Analyser les liens entrants / sortants de vos

pages

La détection des liens brisés

• Détection des pages 404

Détecter les pages en redirection

• Détection des erreurs 30x

• Objectif : diminuer le volume de 301

• Eliminer les 302(idem pour les 4XX ou 5XX)

Détecter les URLs source

Tester les performances du site

• Le temps de téléchargement du code a une influence sur l’exploration de Google

Votre site est-il rapide ?

• Google webmaster tools ne fournit que des temps « moyens »

• Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement

Détection des duplicate title, H1 ou descr

Accéder aux détails de vos métadata

Analyse de la profondeur

Pourquoi mesurer la profondeur ?

Plus une url est profonde, moins elle reçoit de linkjuicePlus une url est profonde, moins elle a de Pagerank, moins elle est crawlée

Le rythme de crawl sur Google est fonction du PR (et d’autres facteurs)

Analyse des link rel=canonical

Analyse des liens sortants

• Ex : botify

L’analyse du maillage interne

• Objectif : mesurer les ratios– Nb de liens entrants vs liens sortants– Nb de liens sortants internes vs externes

• Indegree = nombre de liens entrants

• La hiérarchie des indegrees doit être conforme à l’importance des pages

Diagnostic complet

• Ex avec Botify (tableau de bord)

Créez vos propres filtres

L’ANALYSE DES LOGS

Les logs serveurs c’est quoi ?

-------------------------------------------------------

Enregistrement dela requête = ajout d’une ligne dans le fichier de logs

Log

Les logs serveurs c’est quoi ?

• Les « logs » sont des fichiers texte

créés par les serveurs web.

• Chaque requête envoyée à un serveur

web est enregistrée dans le fichier log

représente une requête http

A quoi cela ressemble ?

194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 1644087.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 3682187.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 214687.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644

Format Apache par défaut

Remarque : on ajoute en général d’autres champs comme :- Le referrer (et le query string : la chaine de paramètres)- Le User Agent- L’hôte

Quelles informations y trouve-t’on ?

• L’adresse IP de la source

• L’identité du client

• Le nom de l’utilisateur distant (si http auth)

• Date, heure, fuseau de la requête

• La requête http://

• Le code réponse renvoyé par le serveur

• La taille du bloc de données retourné par le serveur en octets

• Les “-” symbolisent une information manquante

Quelles lignes des logs nous intéressent ?

• Pour compter les visites SEO : celles qui contiennent « Google » ou « Bing » (ou tout autre moteur de recherche) dans le champ « referrer »

• Pour compter les crawls des bots : celles qui contiennent « Googlebot » ou « Bingbot » (ou un autre bot) dans le champ « User Agent »

Usage n°1bis : caractériser le comportement de crawl

23-Ju

n-10

25-Ju

n-10

27-Ju

n-10

29-Ju

n-10

01-Ju

l-10

03-Ju

l-10

05-Ju

l-10

07-Ju

l-10

09-Ju

l-10

11-Ju

l-10

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000

Crawl des fiches produits : pages uniquesCrawl des fiches produits : avec recrawl

L’analyse des logs permet d’analyser les logs templates par template et de savoir si les pages sont crawlées plus souvent ou si plus de pages

sont crawlées

Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées

Comprendre et analyser son volume de crawl quotidien

Surveiller « le crawl » par type de pages

Pages produit Pages Erreurs

Usage n°2 : déterminer les pages qui reçoivent du trafic organique


Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées

Une augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs classements

Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée

Ratios intéressant :

Longueur des requêtes / type de pagesNombre d’expressions différentes / page

Usage n°4 : identifier les pb techniques ou serveurs sur une période

Pic de 302 depuis début janvier qui doit être corrigé rapidement

Usage n°5 : monitorer les perfs côté serveur

• Apache 2 : •temps pour délivrer la page mesuré en microsecondes•LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T/%D" combined

•Résultat•[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491•Soit 0,095491 secondes•Avec Apache 1,3 seul le temps en sec est disponible•Ne pas confondre avec le temps de génération de la page

Depuis quand une page active n’a pas été crawlée ?

Est-ce que mes pages actives sont des vieilles pages ?

L’ANALYSE COMBINÉE

Comparer les deux visions du site

• Ce que vous montrez (crawl)vs• Ce que le moteur de recherche voit et fait (logs)

Votre site Votre site

+ du duplicate

L’analyse combinée crawl+logs

• Urls crawlables => données par votre crawler

• Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot)

Home

Cat 1

P1

P2

P3

Cat 2

P1

P2

P3

P4

Cat 3

P1

P2

Votre version

Home

Cat 1

P1

P2

P3

Cat 2

P1

P1bis

P2

P2bis

P3

P4

Cat2bis Cat 3

Version vue par Googlebot

Des urls en moinsDes urls en +

Principe de l’analyse des deux versions

Urls crawlées par Google,

non présentes sur le site :

URLS parasites, à

bloquer dans le robots.txt

Urls présentes sur le site, non explorées par

Google : identifier la

cause

Urls OKprésentes

et crawlées

Taux de crawl et taux de pages actives : deux indicateurs à maîtriser

Usage n°1 : connaître les pages crawlées

Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …


• Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées

• Une augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs

classements

Les limites de l’exercice

• Fournit un diagnostic sur la santé d’un site• Fournit des données précises sur le crawl

des moteurs et l’état du référencement d’un site

Þ Mais cela ne vous donne qu’une liste priorisée de points à corriger

Þ Pour développer le trafic SEO, il faut aussi identifier des chantiers permettant une réelle croissance du trafic

DES QUESTIONS ?

Merci !

• Nous contacter :

Philippe YONNET

Directeur Général de l’agence Search ForesightGroupe My Media

55 rue Anatole France – 92300 LEVALLOIS [email protected]

Tél : 01 74 18 29 40

Adrien [email protected] / 01 83 62 90 78

Twitter.com/botifywww.botify.com

mailto:[email protected]

mailto:[email protected]

analyse combinée crawl + logs - search foresight & botify

Marketing

vos pages

lanalyse des logs

ratio pages visites

pages sont crawles

pages uniques crawles

pages sources dcouvrir

crawl par

lanalyse des donnees