Trouver les sources des liens cassés (404) vers votre site avec GWT
Lorsque l’on surfe sur le Web, une des choses les plus frustrantes est sans doute lorsque l’on tombe sur un lien cassĂ©, c’est Ă dire un lien qui ne mène Ă rien si ce n’est un jolie message du style « Page Not Found ».

Ceci est d’autant plus dommageable pour la rĂ©putation d’un site et pour le trafic perdu que cela peut reprĂ©senter.
Or bien souvent nous sommes impuissants face Ă ces liens cassĂ©s, d’autant plus quand nous n’avons pas la main dessus et que nous n’avons aucun moyen de savoir oĂą ils se trouvent (sur quels sites). Impossible donc d’agir et de corriger ou tenter de faire corriger le problème.
En effet, depuis des annĂ©es il nous est possible de savoir quels sont les pages de nos sites qui sont liĂ©s sur le Web et oĂą su la toile (les backlinks, les referers …). Mais lorsqu’il s’agit de pas non trouvĂ©e, nous avons moins d’information, si ce n’est une entrĂ©e dans les logs et la pseudo page demandĂ©e.
Heureusement, Google (encore eux) vient Ă la rescousse avec l’un des outils de Google Webmaster Tools. Il s’agit du WebCrawler. Pour y accĂ©der, connectez vous Ă votre compte Google Webmaster Tools et allez Ă la rubrique « Dashboard > Diagnostics > Web crawl ».
Malheureusement, comme ce blog utilise Wordpress, il n’y a aucune erreur 404 en tant que tel, car ce moteur de blog intègre une fonctionnalitĂ© qui redirige vers une page dĂ©diĂ© (404.php) en cas d’erreur. Pire, j’ai configurĂ© toutes requĂŞtes pour aller vers une page standard de mon blog. Mais voyez tout de mĂŞme ce que cela peut donner en image :
Mieux depuis quelques temps, il est possible de connaitre la source causant une erreur 404. Plus d’excuse pour laisser ce type d’erreur dĂ©sormais. Il suffit de cliquer sur le nombre de pages causant une erreur donnĂ©e.
Libre Ă vous ensuite de contacter le webmestre du dĂ®t site pour qu’il corrige ce lien. Il y sera lui aussi content, les deux sites gagnant en fiabilitĂ©. Autre technique, crĂ©er la (fausse) page en question pour qu’elle redirige vers une vraie page ou encore crĂ©er une règle du serveur Web (Apache HTTPD par exemple) pour qu’il interprète les url manquantes.
N’oubliez pas non plus qu’il est possible d’agrĂ©menter ses pages 404 d’un outil GWT. Celui-ci permet de faire des suggestions de pages se rapprochant de la page demandĂ©e et le cas Ă©chĂ©ant de proposer une recherche Google directement dans la page 404.
Crédits: Blog officiel GWT












Citer #1 par Laurent le 21 mai 2009 - 14:09
Bonjour,
Votre démarche est pertinente, merci !
Je suis un peu dans ce cas lĂ : « comme ce blog utilise Wordpress, il n’y a aucune erreur 404 en tant que tel, ».
Et dans ce cas, comment GWT peut-il trouver des erreurs 404 ? Il y a plusieurs cas :
*la page n’existe plus (dĂ©placĂ©e donc url diffĂ©rente) : pourtant wordpress est fort parce que en tapant l’ancienne adresse je tombe sur la nouvelle ! donc il ne devrait pas y avoir de 404…
*la page existe toujours : peut-ĂŞtre le serveur Ă©tait-il mal disposĂ© au moment oĂą google a inspectĂ© le site ? mais dans ce cas, pourquoi l’erreur ne disparait-elle pas « naturellement » au bout de quelques jours…
Je prĂ©cise que toutes les pages d’origines (source d’erreur) sont celles de mon site… et que j’ai aussi un Sitemap Ă jour…
Merci de votre avis si vous avez déjà eu ce problème.
Laurent
Citer #2 par Lionel Roux le 21 mai 2009 - 21:18
Pour indiquer au navigateur qu’il s’agit d’une 404, WP ajouter ce code dans l’entĂŞte, via un tag PHP.
Lorsque la page est dĂ©placĂ©, il faut faire une redirection permanente 301. Perso je le fais dans .htaccess de Apache. Si les urls reste basĂ©es sur le titre du billet, Wordpress est capable de la retrouver, par « ressemblance ». Il y a un algo particulier mais lĂ encore je n’en maitrise pas les dĂ©tails.
Pour ce qui est des 404 alors que la page existe c’est Ă coup sĂ»r un pb de disponibilitĂ© du serveur. Le crawler ne repasse sur une mĂŞme page qu’au bout d’un temps assez long, dĂ©pendant du PageRank du site en question. Il passe tous les jours sur votre site, mais ne crawle que quelques pages, du coup les autres restent dans leurs Ă©tats prĂ©cĂ©dents.
Dans mon cas ces faux 404 restent en gĂ©nĂ©ral 3 semaines. Il suffit de cliquer sur le lien ds GWT pour s’assurer qu’il y a pas de vrai pb.
A bientĂ´t.
Sur The Spirit of Wordpress #4 ! | le blogueur masqué le 20 décembre 2008 - 23:12
[...] [tous] Trouver les sources des liens cassés (404) vers votre site avec GWT [...]