[flexy_breadcrumb]

WordPress : Optimiser le fichier robots.txt

A quoi sert le fichier robots.txt

Lorsque vous installez WordPress le fichier robots.txt va être créer à la racine de votre site, il va indiquer aux robots qui visite votre site si l’on souhaite indexer ou non les pages, les fichiers et les documents/médias de votre site.


optimiser fichier robots txt ftp filezilla


Commande par défaut Disallow

Dès que l’on installe WordPress on reçoit un message qui nous demande si l’on souhaite permettre aux moteurs de recherches de faire apparaître notre site dans les résultats de recherche de Google par exemple.

Si la case Demander aux moteurs de recherche de ne pas indexer ce site est coché dans notre panneau d’administration WordPress, notre site ne sera pas indexé.


demander aux moteurs de recherche de ne pas indexer ce site


Cette action agit en faite sur notre fichier robots.txt, si nous ouvrons notre fichier nous allons apercevoir ces lignes :

User-agent:*
Disallow: /

User-agent:* Nous demandons à tous les robots !
Disallow: / Ne rien indexer !

Les robots peuvent donc parcourir votre site mais il ne sera pas indexé et donc introuvable sur les moteurs de recherche.

Commande par défaut Allow

Maintenant si l’on autorise l’indexation en décochant cette case, le code de notre fichier robots.txt va changer, jetons y un oeil :

User-Agent: *
Allow: /

User-agent:* Nous demandons à tous les robots !
Allow: / De tout indexer !

Voilà votre site va être indexé, mais il est important d’ajouter d’autres informations dans ce fichier, nous allons voir lesquels et pourquoi.

Optimisation du fichier robots.txt

Avant d’ajouter nos premières lignes de code à notre fichier il est important de comprendre l’architecture aussi appelé structure des fichiers WordPress.

Structure des fichiers WordPress

A la racine du site vous trouverez :

    • wp-admin

Ce dossier contient tous les fichiers du panneau d’administration WordPress, c’est grâce à ce dossier que vous pouvez gérer votre site via le panneau d’administration, il n’y a aucune raison de laisser les robots indexer ce dossier et ces fichiers.

    • wp-includes

Ce dossier contient tous les fichiers necessaire au fonctionnement de votre site WordPress, il est en quelques sorte le noyau de votre site, il travail avec votre thème et vos plugins en toute transparence pour faire fonctionner votre site, là aussi, il n’y a aucune raison de laisser les robots indexer ce dossier et ces fichiers.

    • wp-content

Ce dossier contient plusieurs dossiers et fichiers, ils regroupent vos plugins, vos thèmes, vos médias …
Le dossier wp-content ne doit pas être indexé mais certains dossiers et fichiers auront une exception à cette règle. En effet pour ne prendre qu’un exemple, il serait judicieux d’indexer vos images dans Google puisqu’il existe désormais un moteur de recherche d’images.

Le fichier robots.txt est donc un fichier personnel, il vous appartient d’indexer ou non certaines choses, il faut donc faire très attention a ne pas y mettre n’importe quelle ligne dedans.

Il se peut très bien qu’une personne souhaite ne pas indexer les pages catégories, les images, les vidéos… pour x raison, recopier un fichier robots.txt peu donc mettre en péril votre indexation si vous ne savez pas ce que vous faites.

Les lignes de commande de base d’un fichier robots.txt

Je vous propose ces lignes, c’est une bonne base :

User-agent: * 
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Allow: /wp-content/uploads/

User-agent: * Nous demandons à tous les robots !
Disallow: /wp-login.php Ne pas indexer la page de Connexion/Inscription !
Disallow: /wp-admin Ne pas indexer le dossier wp-admin
Disallow: /wp-includes Ne pas indexer le dossier wp-includes
Disallow: /wp-content Ne pas indexer le dossier wp-content
Allow: /wp-content/uploads/ Voici notre exception, on ne souhaite pas indexer le dossier wp-content mais par contre on veut indexer le sous dossier uploads contenu dans wp-content qui contient nos images, vidéos…

Je vous invite à ajouter à la suite de ces lignes la commande pour indiquer le fichier sitemap aux robots.

Sitemap: https://creer-un-site.com/sitemap_index.xml

remplacer mon url par la votre

Le fichier robots.txt peu s’éditer avec le bloc note puisque que c’est un fichier au format txt et vous êtes libre de faire des sauts de ligne entre chaque ligne dans ce fichier.

Allez un peu plus loin dans l’optimisation

# Ne pas indexer ce répertoire qui est sensible 
Disallow: /cgi-bin

# Ne pas indexer les fichiers sensibles
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.cgi$

# Ne pas indexer les URL de trackback et de ping
Disallow: */trackback

# Ne pas indexer les flux RSS sauf le principal
Disallow: /*/feed

# Ne pas indexer les URL de commentaire
Disallow: /*/comments

Le code complet d’un bon fichier robots.txt avec WordPress

User-agent: * 
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Allow: /wp-content/uploads/
Disallow: /wp-content
Disallow: /cgi-bin
Disallow: /*/feed
Disallow: */trackback
Disallow: /*/comments
Disallow: /*.php$
Disallow: /*.cgi$
Disallow: /*.inc$
Disallow: /*.gz$

Sitemap: https://creer-un-site.com/sitemap_index.xml

Voilà vous connaissez maintenant à quoi sert ce fichier robots.txt et comment l’optimiser pour WordPress.

2 Commentaires

  • Jean

    Posté le 03 septembre à 18:58h,

    Bonsoir,
    Mon robots.txt est plus « riche », est-ce mal ?
    User-agent: *

    # On empêche l'indexation des dossiers sensibles

    Disallow: /wp-admin

    Disallow: /wp-includes

    Disallow: /wp-content/plugins

    Disallow: /wp-content/cache

    Disallow: /trackback

    Disallow: /feed

    Disallow: /comments

    Disallow: /category/*/*

    Disallow: */trackback

    Disallow: */feed

    Disallow: */comments

    Disallow: /*.pdf$

    # On désindexe tous les URL ayant des paramètres (duplication de contenu)

    Disallow: /*?*

    Disallow: /*?

    # On désindexe la page de connexion (contenu inutile)

    Disallow: /wp-login.php

    # On autorise l'indexation des images

    Allow: /wp-content/uploads

    User-agent: Googlebot

    # On empêche l'indexation des fichiers sensibles

    Disallow: /*.inc$

    Disallow: /*.gz$

    Disallow: /*.pdf$

    # Autoriser Google Image

    User-agent: Googlebot-Image

    Disallow:

    Allow: /*

    # Autoriser Google AdSense

    User-agent: Mediapartners-Google*

    Disallow:

    Allow: /*

    # On indique au spider le lien vers notre sitemap

    Sitemap:

  • Philippe

    Posté le 06 septembre à 14:05h,

    Bonjour,
    En effet ce fichier robots.txt est plutôt sophistiqué, et semble tout à fait pertinent. Je dirais tout de même : attention avec l’interdiction des paramètres d’URL, vérifiez que vous avez choisi pour votre blog une forme d’URL sans paramètres !
    Sur quel site avez-vous trouvé cet exemple de robots.txt ? Une recherche sur Google m’a fait constater que c’est ce fichier robots.txt qu’utilise le site WPMarmite, ce qui donne à croire qu’il est très bien !

Poster un commentaire