Fin du NOINDEX sur Google : 5 alternatives à étudier d'urgence

Voilà, le verdict est tombé ! Google annonce la fin des NOINDEX au premier septembre 2019. Tolérée jusqu’à maintenant, cette instruction utilisée dans le fichier robots.txt a rendu bien des services aux référenceurs. Vous employez peut-être cette méthode pour désindexer certaines pages de votre site et vous vous posez la question sur un plan B ?

Google suggère 5 alternatives au NOINDEX. En quoi consistent-elles ? Sont-elles efficaces dans tous les cas ? Je vous propose de les passer en revue. 👓

1) Choisir entre la balise Meta et l’instruction X-Robots-Tag

La balise meta

Elle permet de personnaliser l’affichage ou l’indexation d’une page. Placez-la dans la section <head> du code HTML comme ci-dessous et votre page ne sera plus indexée par les moteurs de recherche.

<!DOCTYPE html>

<html><head>

<meta name= »robots » content= »noindex » />

(…)

</head>

<body>(…)</body>

</html>

Ce procédé est simple à mettre en place : la balise Meta peut être gérée par votre CMS ou par un de ses plugins. Elle constitue la solution idéale lorsque vous avez quelques pages à désindexer.

Son seul point faible est qu’elle ne permet pas de traiter un ensemble de pages. Les sites importants où de nombreux documents sont impactés par la fin du NOINDEX ont tout intérêt à choisir – ou à compléter avec – une autre méthode.

X-Robots-Tag

L’instruction X-Robots-Tag du protocole HTML est moins connue que la balise Meta noindex. Et pourtant, placée dans l’en-tête de la page, elle produit les mêmes résultats. Pour réaliser cette solution, connectez-vous au serveur Apache et intégrez la directive X-Robots-Tag aux fichiers .htaccess et httpd.conf.

L’avantage de cette alternative réside dans sa capacité de traiter toute une typologie de documents. Vous pouvez, par exemple, désindexer tous les fichiers PDF d’un site avec le code en exemple ci-dessous.

<Files ~ « \.pdf$ »>

Header set X-Robots-Tag « noindex, nofollow »

</Files>

N’oubliez pas d’autoriser le crawl. Il permet aux robots des moteurs de recherche d’accéder aux pages et de lire ces instructions. Pour accélérer le processus de désindexation, Herman Kiwa, responsable SEO chez Via Mobilis, conseille d’augmenter temporairement la fréquence de crawl en mettant les URLs concernées dans un sitemap.

2) Utiliser les codes HTTP 404 et 410

Une autre solution préconisée par Google consiste à ajouter les codes d’état HTTP 404 pour « Introuvable » et 410 pour «Déplacé » sur les pages à désindexer. La page qui a subi ce traitement serait normalement considérée comme morte aux yeux des moteurs de recherche et des internautes.

Or, peut-on tromper Google aussi facilement ? Rien n’est moins sûr. Selon Madeline Pinthon, consultante SEO Senior chez iProspect, les robots pourraient reconnaître « un 404 qui renvoie du contenu » et ne désindexeraient peut-être pas la page.

3) Protéger une page par un login et un mot de passe

La troisième alternative proposée par Google consiste à imposer un login et un mot de passe pour accéder à une page. Faute de clef, les moteurs de recherche resteront bloqués à l’entrée et ne pourront donc pas l’indexer.

Mais attention, cette solution permet surtout d’empêcher l’indexation d’une nouvelle page. Elle ne peut, en aucun cas, régler le problème de celles actuellement désindexées par l’utilisation du NOINDEX dans le fichier robots.txt.

4) Mettre une page ou un répertoire en disallow via le fichier robots.txt

La directive disallow indique aux moteurs de recherche qu’une page ou un ensemble de pages n’est pas destiné à être crawlé. C’est une méthode simple à mettre en place pour empêcher l’indexation de certaines pages : il suffit d’inscrire une ligne de code dans le fichier robots.txt pour en bloquer l’accès.

En revanche, elle n’efface pas les URLs déjà présents dans l’index de Google. Comme la précédente solution, celle-ci ne peut être utilisée pour désindexer une page.

5) Supprimer une URL sur Google via Search Console

Envoyez une demande de suppression d’URL via la Search Console. Elle est soumise à une validation qui prend une journée en général et peut parfois être refusée. ⛔

Cette solution est utile en cas d’urgence. Elle permet de suspendre l’affichage d’une page dans les résultats de recherche de Google pendant 90 jours maximum et vous laisse le temps de résoudre les problèmes de façon sereine. Après ce délai, votre contenu réapparaîtra de nouveau.

Il est urgent de se poser

Comme vous venez de voir, les 5 alternatives proposées par Google pour remplacer l’utilisation du NOINDEX dans le fichier robots.txt possèdent chacune des avantages et des inconvénients.

Avant d’en choisir une, posez d’abord les bonnes questions : ai-je des pages à désindexer ? Sont-elles nombreuses ? Appartiennent-elles à la même typologie ? Les réponses obtenues vous orienteront naturellement vers les solutions les plus adaptées.