[WordPress] Limiter l’accès avec robots.txt


Les robots des moteurs de recherche sont très curieux. Ils s’immiscent dans toutes les pages de vos sites, même celles que vous ne souhaitez pas référencer.
Pour éviter cet écueil, il faut dire explicitement aux robots où ils peuvent aller travailler. Ceci est en général réalisé avec le fichier robots.txt, à la racine de votre site.

Pour WordPress, il y a des tas de pages qui n’ont pas besoin d’être référencées : administrations, plugins, cache, thèmes, …

Le Codex propose une version de base du robots.txt que j’ai un poil modifié pour mes besoins propres (très peu en fait).

User-agent: *
Disallow: /*?*
Disallow: /*?
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed

Allow: /wp-content/uploads

Je ne siais pas si tout cela est optimal, mais cela m’a permis de réduire grandement les erreurs d’explorations constatées dans Google Webmaster Tools.