L’analyse des logs est une technique très pratique afin d’optimiser son SEO, elle fournit beaucoup de données mais il est très important de bien déterminer ce qu’on veut analyser sous peine de se laisser « distraire » par les données.
Préparer l’analyse
Quelque soit l’outil que vous avez retenu pour réaliser votre analyse de logs, il y a une phase de préparation à réaliser en amont. Parfois fastidieuse, cette étape est essentielle afin de pouvoir mener une analyse précises des optimisations à mener.
Récupérer ses logs
Ca parait simple mais c’est une étape qui réserve parfois des surprises.
La première chose dont il faut s’assurer, c’est que vos logs soient sauvegardés. Ce qui n’est pas toujours le cas. Rapprochez vous de votre hébergeur si besoin et surtout vérifiez que tous vos fichiers de logs soient sauvegardés. Il arrive fréquemment que les fichiers soient purgés pour des questions d’espace disque.
Pour pouvoir mener une analyse exhaustive, il est recommandé de bénéficier d’un mois d’historique. Idéalement plus vous pourrez remonter loin, plus vous serez en mesure d’identifier les changement de comportement du robot Google.
Si votre site est hébergé sur plusieurs serveurs, vérifiez que vous avez bien les logs de tous les serveurs, y compris ceux du serveur d’image (si vous souhaitez analyser vos images).
Si vous utilisez des proxy ou système de cache, vérifiez que vous récupérez bien les logs de ce qui est appelé en externe.
Classer ses Urls
Pour pouvoir mener une analyse efficace, il faut classer ses urls. Ici l’idée c’est de regrouper toutes les urls propres à un template. Ce qui vous permettra de déterminer que tel ou tel template performe bien ou moins bien.
Pas la peine de classifier tous les templates (il peut y en avoir beaucoup sur votre site), traitez les principaux, vous affinerez votre classement ensuite en fonction du volume de crawl ou de visites sur les pages non catégorisées.
Pas non plus la peine d’effectuer une classification thématique, l’objectif de l’analyse de log de d’optimiser la structure de votre site. Vous utiliserez d’autres outils afin de réaliser une analyse sémantique.
Pour chaque template, je vous invite à séparer la première page des versions paginées.
Sur un site ecommerce, vous devriez avoir un regroupement de ce type :
- HP
- Catégorie
- Page 1
- Pagination
- Fiche produit
- Compte (login, panier,…)
- JS
- CSS
- Images
- ….
Vous pouvez regrouper les fichiers JS entre eux, idem pour les CSS. Il est important que Google puisse les crawler (cela lui permet de tester le rendu de la page), mais dans la plupart des cas nous ne mènerons pas d’optimisations sur ce type de fichiers (sauf s’ils représentent une très grosse part du crawl)
Identifier les pages « warning »
Chaque site possède des pages qui n’ont aucun intérêt pour le SEO, il est donc important de les marquer comme tel.
Voici quelques exemples de pages inutiles :
- Mentions légales
- Formulaires divers
- Ancien format d’url (si vous avez fermé des pages, ou réalisé une migration)
- …
Etudier les résultats
Ca y est vous en avez fini avec le paramétrage, nous allons donc pouvoir analyser les logs et identifier les points qui pourraient être optimisés.
Etudier les rescode
Le rescode, c’est le code de retour éffectué par le serveur lorsqu’un internaute appelle une page. Le plus connus est le 200 (qui signifie que la page a bien été servie à l’utilisateur).
Le premier test à effectuer, c’est de vérifier comment répondent les pages de votre site.
Si vous avez moins de 90% des pages qui répondent avec un code 200. Vous avez probablement des optimisations à mener.
- Si vous avez beaucoup d’erreurs 500 : Remontez les à votre hébergeur et à vos développeurs, ils pourront trouver des solutions.
- Si vous avez des redirections 302 : vous pouvez certainement les passer en 301
- Si vous avez beaucoup de redirection 301, ça mérite une analyse afin de déterminer pourquoi Google crawle toujours d’anciens format d’url (une des piste serait peut être de fermer définitivement ces pages au crawl)
- Si vous avez beaucoup de 404 : Vous pouvez lancer un crawle pour déterminer s’il reste des liens pointant vers ces urls et rectifier le tir.
Dans cette partie notre objectif est de faciliter le travail du robot Google, plus le ratio du crawl en 200 est elevé, plus Google considérera que l’architecture de votre site est « propre ».
Mesurez cet indicateur régulièrement, il peut évoluer en fonction des actions que vous aurez mené sur le site.
A noter : certains sites remontent beaucoup de 304. Ce n’est pas un problème. Le code de retour 304 permet de préciser à l’utilisateur que le contenu n’a pas été modifié depuis sa dernière visite.
Etudiez le ratio entre le crawl et les visites
Nous allons partir du principe qu’un site optimisé est un site pour lequel les pages les plus crawlées sont celles qui génèrent le plus de visites.
Identifiez les templates très crawlées et qui génèrent peu de visites, Google perd du temps en les analysant.
Si vous n’êtes pas satisfait, vous pouvez imaginer de fermer / Masquer certains templates afin que Google passe moins de temps dessus.
Quelques pistes :
- Réduire le nombre de liens pointant vers ces pages
- Augmenter leu profondeur
- Fermer ces pages (redirection 301 ou 410)
Ca y est vous êtes prêts pour analyser vos logs. Bien sur il existe d’autres analyses possibles mais si vous êtes déjà bon sur ces parties, ce sera un vrai plus pour votre SEO.
Bonus
Voici quelques outils d’analyse de log parmi lesquels vous trouverez certainement votre bonheur :
Crédits photo :Ian Sane
9 commentaires
spiderlog · 02/11/2015 à 15:35
Une autre information intéressante à extraire : croiser les URLs du sitemap (qui doit normalement contenir la liste intégrale des URLs de ton site que tu souhaites voir crawlé) avec les URLs crawlées par Google (plus intéressant que le ratio crawl/visite selon moi).
On peut également enregister le temps d’exécution des requêtes dans les logs ($request_time nginx / %D apache) afin d’avoir une idée du pagespeed réel de GoogleBot.
Je t’invite à essayer mon soft d’analyse de logs pour tester ce type de fonctionnalités 🙂
greg · 02/11/2015 à 15:45
Bonne idée. Merci pour ces pistes intéressantes.
J’ai bossé sur des sites qui contenaient des templates qui étaient de vrais pièges à bots. Du coup j’aime bien creuser le ratio crawl / visite.
Quentin de Kelogs · 04/11/2015 à 09:49
@Gregory :
Merci pour ton article qui constitue une bonne base pour appréhender l’analyse de logs.
« Pas non plus la peine d’effectuer une classification thématique, l’objectif de l’analyse de log de d’optimiser la structure de votre site. »
L’analyse de logs permet d’optimiser la structure d’un site, de surveiller l’évolution des response code, de mesurer l’impact d’une campagne de linking interne et externe, identifier des « fuites de crawl », de vérifier qu’une migration s’est bien passée, etc.
Les problématiques sont par ailleurs fonction de la typologie de sites :
Ecommerce
Faible volume de pages
Gros volume de pages
Startup avec site tout frais
Mastodonte du voyage en ligne, avec 15 ans d’historique sur le web
Kelogs travaille avec beaucoup de typologies de sites, et on peut te confirmer qu’il y a des 100e de problématiques différentes 🙂
Par exemple, pour un site ecommerce, obtenir une classification par thématique est très utile, voire indispensable.
@Spiderlog : On pourrait discuter pendant longtemps de l’utilité du sitemap (.xml ou non), mais non, pas de fight entre Amienois ni entre éditeurs de solutions d’analyse de logs 😉
greg · 04/11/2015 à 12:09
Salut,
Merci pour ces précisions. Du coup je rebondis sur ce que tu dis. As-tu des exemples de petits sites qui ont mené une analyse de logs et à qui ça a profité ?
Je te rejoins complètement sur le fait que chaque site est différent et que chaque analyse l’est aussi. C’est d’ailleurs ce qui rend amusant ce type d’analyse, il faut creuser pour identifier les optimisations qui amélioreront le ranking 😉
Quentin de Kelogs · 06/11/2015 à 09:59
@Greg : Oui 🙂
Sur des petits sites, tu peux par exemple faire ce type d’action :
– Chasse aux erreurs 500, qui dépendent du code et du serveur, dont les conséquences peuvent être très négatives sur le business.
– Identification des fuites de crawl, où quand ton site de 100 pages s’est transformé en site de 1 000 000 de pages, sans que tu t’en rendes compte, juste à cause d’un « / » manquant dans l’URL 😉
– Identification des vielles 404 linkées depuis l’extérieur (tu peux aussi faire ça avec es outils comme Ahrefs et Majestic SEO)
Tu utilises quelle solution d’analyse de log actuellement ?
@Kristof : Tu peux atteindre le nirvana, mais un site évolue. Son environnement technique aussi (code, serveur). Son trafic aussi : un site qui n’a pas de frontal et qui se prend du 1 000 000 de visites par jour en quelques jours va certainement découvrir le potentiel de nuisance des erreurs 500 !!!
Chez KELOGS, notre pari est qu’il est préférable de monitorer CONSTAMMENT ses logs. Inutile d’attendre que la foudre soit tombée pour se mettre à l’abri : une bonne écoute des signaux faibles permet de prévenir l’émergence de problèmes plus importants. De plus, cela permet d’être réactif (la phase de setup d’une analyse de log est généralement un process assez chronophage, demandant l’intervention de multiples interlocuteurs, pas toujours disponibles au moment où on a besoin d’eux)
greg · 09/11/2015 à 12:23
Merci pour ton retour Effectivement il y a de quoi faire quelque soit la taille du site.
Actuellement j’utilise Botify. Auparavant, j’avais développé mon propre système ce qui m’a permis de triturer les fichiers de logs et d’en sortir éxactement les rapports que je souhaitais. Par contre ça n’est pas évident à maintenir (perf, plantages divers,…)
Marc · 04/11/2015 à 18:29
L’analyse de logs n’est en effet rien sans la matière grise pour interpréter les résultats. Avoir 30% de pages en quasi-duplicate content pour un e-commerce de plus de 5 000 pages, est-ce normal/envisageable/pénalisant ? Avoir un site institutionnel de 100 pages dont une dizaine ne sont jamais recrawlées par Gbot mais l’ont été un jour ? De plus comme tu le dit certains sites sont de vrais honeypots… Méfiance donc 🙂
Kristof · 05/11/2015 à 01:11
Je suis fasciné par l analyse des logs, parce que c’est un monde qui reste encore lointain. Vous n’êtes pas le premier article que j aborde mais c’est vous que pose la question: Est-ce qu’on en a fini un jour de cette analyse et des corrections?
est-ce qu’on arrive au point parfait où plus aucune erreur n’est mentionnée et où les crawler ne passent plus leur temps que sur ce qui a de la valeur?
Je suis tenté de penser oui…
Mais ?
greg · 05/11/2015 à 06:10
Ce type d’analyse est à mener régulièrement. Car un site web évolue et le comportement des robots google également.
La première analyse va donc permettre de remonter des points d’optimisation, les suivantes permettront de vérifier que tout est ok et d’ajuster le tir si nécessaire.