Tout le monde connaît le robots.txt. Pourtant ce fichier possède quelques subtilités qui peuvent vous éviter bien des soucis. Voici mon top 6 :


robots.txt felt robot

Une page bloquée dans le robots.txt peut être indexée par Google.

Si des liens pointent vers cette page, Google connaitra son existence et elle possèdera du Page Rank. Ce cas est fréquent lors du lancement d’un site. Il arrive qu’on bloque tout le crawl via le robots.txt mais que la home soit tout de même référencée.

Attention à la fuite de PR : si des pages sont reçoivent des liens et sont bloquées dans le robots.txt

Ici aussi il s’agit d’une erreur fréquente. Les règles du robots.txt peuvent interdire le crawl d’une page mais si elle reçoit des liens, elle aura du PR mais ne transmettra rien puisque Google ne saura pas vers quelle pages diffuser ce PR.

Comment faire pour définir une règle propre à la home page.

Il suffit d’utiliser la commande /$. C’est très pratique lorsqu’on ne veut indexer que la home page.

Spécifier des règles pour un user agent en particulier

Il est possible d’autoriser certains robots et pas d’autres. Pour cela il suffit de préciser le user Agent toléré :

User-agent: Mediapartners-Google
Allow: /

C’est pratique notamment pour le robot Adsense ou pour des crawlers,…

Tester son robots.txt dans GWT

Dans certains cas, nous sommes amenés à créer des règles complexes dans le robots .txt (interdire certains répertoires, ou filtrer certains patterns). L’impact de ce type de mesures peut être radical pour votre SEO. Je vous conseille donc de systématiquement tester vos règles via Google Webmaster tools. Ca vous évitera des déconvenues.

Le robots peut contenir un sitemap

Il est possible de référencer son ou ses sitemaps à partir du robots.txt. D’un côté c’est pratique car tous les robots peuvent lire ce fichier. Mais vos concurrents peuvent aussi identifier l’ensemble de vos pages très facilement.

 Conclusion

Le robots.txt est un outil puissant pour maitriser ce que les moteurs sont autorisés à visiter. Une mauvaise utilisation peut être dramatique. Ca peut désindexer totalement votre site.

Dans la plupart des cas, votre robot ne devrait pas contenir trop de règles. En règle générale, il suffit de bloquer les URL de l’outil d’administration ainsi que des parties privées. Pour le reste, si la page est publique, Google aura tendance à savoir qu’elle existe. Il est donc préférable de la mettre en no index si on ne souhaite pas la voir remonter dans les moteurs.

 

Crédits photo : Anne Helmond

Catégories : Uncategorized

0 commentaire

Laisser un commentaire

Emplacement de l’avatar

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *