Pole Positioning

Comment empêcher son site d »apparaître dans les moteurs de recherche?

Il arrive dans certains cas que l »on ne veuille pas voir tout ou partie de son site dans les résultats des moteurs de recherche, temporairement ou non. Cela semble aller à l »encontre des principes de référencement mais peut cependant se révéler fort utile pour justement ne pas faire indexer par les moteurs n’importe quel site n »importe comment.Première chose avant d »aller plus loin, il est nécessaire de bien différencier l »indexation d »un site de son positionnement. Je m »explique, l »indexation correspond au processus de téléchargement d »une page ou d »un site sur le serveur d »un moteur de recherche pour l »indexer. Ce processus est autrement appeler le « crawl« . Le positionnement correspond à l »affichage du site dans la page de résultats d »un moteur de recherche.

Généralement un site doit d »abord être crawlé pour être listé dans les résultats mais il arrive que ce ne soit pas le cas. En effet, si un lien pointe vers le site, alors celui-ci peut apparaître dans les résultats d »un moteur de recherche sans que le robot du moteur ne l »ai jamais crawlé, surtout si l »ancre du lien correspond au nom de domaine du site.

Pour les anglophones, M. Matt Cutts de Google explique très bien ce phénomène dans la vidéo ci-dessous:

En résumé, lorsqu »un robot trouve un lien vers un site, il va enregistrer l »url de ce site sur le serveur. Le site pourrait donc apparaître dans les résultats d »une recherche à la seule nuance près qu »il sera affiché sans le snippet (le snippet étant les quelques lignes de résumé accompagnant l »URL du site dans les résultats de recherche).

La présence d »un robots.txt empêchant l »indexation complète du site, n »empêchera en rien l »apparition du site dans la page de résultat d »un moteur si un ou plusieurs liens pointent vers celui-ci. Le robots.txt empêchera seulement le site d »être crawlé. Paradoxalement, si vous voulez prévenir tout affichage du site dans les pages de résultats, il faut justement laisser les robots accéder à votre site. C »est le seul moyen de pouvoir leur donner la consigne de ne pas l »indexer dans les serveurs du moteur de recherche.

Deux procédés existent pour cela: la balise méta robots et l »en-tête http x-robots-tag.

La balise méta robots se présente sous la forme ci-dessous et doit être placée dans le header de chacune des pages de votre site que vous ne désirez pas voir indexée.

Ce procédé pouvant être un peu long si votre site est de taille conséquente, l »entête http x-robots-tag peut être une solution plus efficace et plus simple à gérer. Pour un site hébergé sur serveur Apache, avec le mod_headers activé, il suffit de rajouter la ligne ci-dessous dans le fichier .htaccess:

Header set X-Robots-Tag « noindex, nofollow »

sources:

Preventing your site from being indexed, the right way

Playing with the X-Robots-Tag HTTP header

Robots Exclusion Protocol 101