Début juillet 2019, Google publiait sur son blog une petite note explicitant ses nouvelles règles de lecture du fichier robots.txt. Pour mémoire, ce merveilleux petit fichier robots.txt sert  d’interface entre le webmaster, le site et les moteurs de recherche : le webmaster indique dans ce fichier, les répertoires ou pages particulières qu’il veut que les moteurs de recherche en général (ou un en particulier) indexent ou non.

Dans sa note, Google a clairement indiqué ne plus supporter, au sein de ce fichier, la commande NOINDEX. Celle-ci, utilisable également directement dans une page html, indique au moteur de recherche que cette page ne doit pas être indexée et donc accessible par les résultats des moteurs de recherche. Très utile par exemple pour les sites en test, les répertoires d’administration, ou une page de connexion à un site intranet.

Il est donc important pour les webmasters concernés, c’est à dire ceux qui ont dans leur fichier robots.txt cette commande (ou balise) NOINDEX, de mettre à jour, avant le 1er septembre 2019, leur fichier et leur site.

Pour ce faire, le prévoyant Google a indiqué quelques alternatives à la fin de sa petite note, privilégiant notamment :

  • Le remplacement de noindex par la commande Disallow
  • L’utilisation de noindex dans les méta tags des pages concernés
  • La protection des répertoires concernés par mots de passe

En ce qui me concerne, j’utilise déjà habituellement :

    • la balise NoIndex au sein des pages,
    • la commande Disallow pour les répertoires dans le fichier robots.txt, générés à l’installation des sites par les cms tels que WordPress, Joomla, Drupal ou PrestaShop.

En effet, pour une page, il est plus pertinent de baliser la page elle-même via le système de gestion de contenu utilisé. L’information de la page est ainsi complète et n’est pas disséminée dans deux sources d’informations (la page et le fichier robots.txt). Cela permet également un traitement plus rapide de cette page par les moteurs de recherche.

Pour interdire l’indexation d’un répertoire, ou d’un ensemble de pages obéissant à une règle de nommage coummune (ex : la troncature), la balise disallow dans le fichier robots.txt est elle, totalement adaptée.

Afin d’être prêt début septembre 2019, il serait donc judicieux de résister à la tentation du « search and replace » afin de traiter au cas ou par cas, si cela est possible, la mise en conformité de la balise « noindex » et du fichier robots.txt.