Optimiser son crawl

 

7981669456_04b8213de1_z

On le sait, le crawl de notre site par Google est un élément essentiel pour le SEO. Mais il ne s’agit pas uniquement du volume de crawl. Nous allons voir ici comment tirer parti.

Ces techniques nécessitent de bien connaître son site, de posséder un crawler et une solution d’analyse de logs. Ils permettront de cibler les problèmes, déterminer les impacts, et de mesurer les résultats.

C’est quoi le crawl utile ?

Toutes les pages de votre site ne sont pas égales au niveau SEO, certaines ont du potentiel et d’autres pas. La première étape va donc consister à déterminer quels sont les pages utiles pour le SEO et celles qui ne le sont pas.

Notre première catégorie de pages utiles correspond aux pages qui ont un potentiel de visite moteur : fiche produit, articles, pages catégorie,… Pour ces pages, on ne se pose aucune question, elles peuvent générer des visites donc on les garde. Nous allons appeler ça des pages objectifs.

Ensuite, nous allons considérer les pages qui font des liens vers ces pages objectifs. Ces pages sont utiles car elles permettent d’apporter du jus à nos pages objectifs.

Il peut exister quelques exceptions pour :

  • des pages qui génèrent du duplicate content,
  • des pages avec un contenu trop pauvre,…
  • des url qui génèrent des 301, 404,…
  • des pages avec une pagination trop importante
  •  des pages avec une balise canonical

Le crawl utile correspond donc au temps passer par Google à crawler des pages utiles.

Comment optimiser le crawl utile

Désormais nous avons nos petites listes. D’un côté nous avons les pages utiles et de l’autre les pages inutiles (pour le SEO).

Il faut donc faire comprendre à Google qu’on aimerait qu’il se concentre sur nos pages utiles.

La première étape consiste à faire un état des lieux du crawl Google. C’est ici que votre solution d’analyse de logs préférée (ou maison) va vous aider.

Sur une fenêtre de 15 jours, vous allez lister toutes les pages qui ont été crawlées par le Googlebot et calculer le pourcentage de crawl de pages utiles par rapport au crawl total.

Si vous êtes sous les 80% il y a probablement quelque chose à faire.

Optimiser le maillage interne

Google se base sur les liens entrants pour déterminer quelles pages il va crawler. Il  faut  donc faire en sorte que les liens internes pointent vers les pages utiles. Et supprimer (quand c’est possible) les liens vers les pages inutiles.

A défaut de supprimer les liens on peut aussi les masquer :

On pourra utiliser Ajax  (qui n’est pas lu par les robots Google), pour masquer les liens. Cette solution est idéale pour palier aux paginations trop importantes.

Bien sur ceci n’est pas recommandé par Google 😉

Comment mesurer les résultats

Après avoir réalisé nos petites modifications, nous mesurons de nouveau le crawl par Google.

Voici quelques statistiques sur un site sur lequel j’ai réalisé ce type de modification :

Exemple :

Voici le cas d’un site qui possède plus de 100K pages crawlées par jour.

Nous avons interdit le crawl d’anciennes pages et de résultats paginés à partir du robots.txt

Note : Les optimisations ont été réalisées progressivement.

evolution du crawl

On voit sur ce graphique que le taux de crawl utile est passé de 80 % à plus de 90%. Il est également devenu beaucoup plus régulier.

Bien évidement, ça s’est également ressenti sur les visites.

Crédits photo : https://www.flickr.com/photos/keithallison/

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *