WordPress : Optimiser le fichier robots.txt
A quoi sert le fichier robots.txt
Lorsque vous installez WordPress le fichier robots.txt va être créer à la racine de votre site, il va indiquer aux robots qui visite votre site si l’on souhaite indexer ou non les pages, les fichiers et les documents/médias de votre site.
Commande par défaut Disallow
Dès que l’on installe WordPress on reçoit un message qui nous demande si l’on souhaite permettre aux moteurs de recherches de faire apparaître notre site dans les résultats de recherche de Google par exemple.
Si la case Demander aux moteurs de recherche de ne pas indexer ce site est coché dans notre panneau d’administration WordPress, notre site ne sera pas indexé.
Cette action agit en faite sur notre fichier robots.txt, si nous ouvrons notre fichier nous allons apercevoir ces lignes :
User-agent:* Disallow: /
User-agent:* Nous demandons à tous les robots !
Disallow: / Ne rien indexer !
Les robots peuvent donc parcourir votre site mais il ne sera pas indexé et donc introuvable sur les moteurs de recherche.
Commande par défaut Allow
Maintenant si l’on autorise l’indexation en décochant cette case, le code de notre fichier robots.txt va changer, jetons y un oeil :
User-Agent: * Allow: /
User-agent:* Nous demandons à tous les robots !
Allow: / De tout indexer !
Voilà votre site va être indexé, mais il est important d’ajouter d’autres informations dans ce fichier, nous allons voir lesquels et pourquoi.
Optimisation du fichier robots.txt
Avant d’ajouter nos premières lignes de code à notre fichier il est important de comprendre l’architecture aussi appelé structure des fichiers WordPress.
Structure des fichiers WordPress
A la racine du site vous trouverez :
-
- wp-admin
Ce dossier contient tous les fichiers du panneau d’administration WordPress, c’est grâce à ce dossier que vous pouvez gérer votre site via le panneau d’administration, il n’y a aucune raison de laisser les robots indexer ce dossier et ces fichiers.
-
- wp-includes
Ce dossier contient tous les fichiers necessaire au fonctionnement de votre site WordPress, il est en quelques sorte le noyau de votre site, il travail avec votre thème et vos plugins en toute transparence pour faire fonctionner votre site, là aussi, il n’y a aucune raison de laisser les robots indexer ce dossier et ces fichiers.
-
- wp-content
Ce dossier contient plusieurs dossiers et fichiers, ils regroupent vos plugins, vos thèmes, vos médias …
Le dossier wp-content ne doit pas être indexé mais certains dossiers et fichiers auront une exception à cette règle. En effet pour ne prendre qu’un exemple, il serait judicieux d’indexer vos images dans Google puisqu’il existe désormais un moteur de recherche d’images.
Le fichier robots.txt est donc un fichier personnel, il vous appartient d’indexer ou non certaines choses, il faut donc faire très attention a ne pas y mettre n’importe quelle ligne dedans.
Il se peut très bien qu’une personne souhaite ne pas indexer les pages catégories, les images, les vidéos… pour x raison, recopier un fichier robots.txt peu donc mettre en péril votre indexation si vous ne savez pas ce que vous faites.
Les lignes de commande de base d’un fichier robots.txt
Je vous propose ces lignes, c’est une bonne base :
User-agent: * Disallow: /wp-login.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Allow: /wp-content/uploads/
User-agent: * Nous demandons à tous les robots !
Disallow: /wp-login.php Ne pas indexer la page de Connexion/Inscription !
Disallow: /wp-admin Ne pas indexer le dossier wp-admin
Disallow: /wp-includes Ne pas indexer le dossier wp-includes
Disallow: /wp-content Ne pas indexer le dossier wp-content
Allow: /wp-content/uploads/ Voici notre exception, on ne souhaite pas indexer le dossier wp-content mais par contre on veut indexer le sous dossier uploads contenu dans wp-content qui contient nos images, vidéos…
Je vous invite à ajouter à la suite de ces lignes la commande pour indiquer le fichier sitemap aux robots.
Sitemap: https://creer-un-site.com/sitemap_index.xml
remplacer mon url par la votre
Le fichier robots.txt peu s’éditer avec le bloc note puisque que c’est un fichier au format txt et vous êtes libre de faire des sauts de ligne entre chaque ligne dans ce fichier.
Allez un peu plus loin dans l’optimisation
# Ne pas indexer ce répertoire qui est sensible Disallow: /cgi-bin # Ne pas indexer les fichiers sensibles Disallow: /*.php$ Disallow: /*.inc$ Disallow: /*.gz$ Disallow: /*.cgi$ # Ne pas indexer les URL de trackback et de ping Disallow: */trackback # Ne pas indexer les flux RSS sauf le principal Disallow: /*/feed # Ne pas indexer les URL de commentaire Disallow: /*/comments
Le code complet d’un bon fichier robots.txt avec WordPress
User-agent: * Disallow: /wp-login.php Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-content/uploads/ Disallow: /wp-content Disallow: /cgi-bin Disallow: /*/feed Disallow: */trackback Disallow: /*/comments Disallow: /*.php$ Disallow: /*.cgi$ Disallow: /*.inc$ Disallow: /*.gz$ Sitemap: https://creer-un-site.com/sitemap_index.xml
Voilà vous connaissez maintenant à quoi sert ce fichier robots.txt et comment l’optimiser pour WordPress.
Jean
Posté le 03 septembre à 18:58h,Bonsoir,
Mon robots.txt est plus « riche », est-ce mal ?
User-agent: *
# On empêche l'indexation des dossiers sensibles
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*.pdf$
# On désindexe tous les URL ayant des paramètres (duplication de contenu)
Disallow: /*?*
Disallow: /*?
# On désindexe la page de connexion (contenu inutile)
Disallow: /wp-login.php
# On autorise l'indexation des images
Allow: /wp-content/uploads
User-agent: Googlebot
# On empêche l'indexation des fichiers sensibles
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.pdf$
# Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# On indique au spider le lien vers notre sitemap
Sitemap:
Philippe
Posté le 06 septembre à 14:05h,Bonjour,
En effet ce fichier robots.txt est plutôt sophistiqué, et semble tout à fait pertinent. Je dirais tout de même : attention avec l’interdiction des paramètres d’URL, vérifiez que vous avez choisi pour votre blog une forme d’URL sans paramètres !
Sur quel site avez-vous trouvé cet exemple de robots.txt ? Une recherche sur Google m’a fait constater que c’est ce fichier robots.txt qu’utilise le site WPMarmite, ce qui donne à croire qu’il est très bien !