Qu'est-ce que Robots.txt et comment ça marche ?

[RESOLU] WordPress 6.1 et WPML – Une erreur critique s'est produite sur ce site Web. Vous lisez Qu'est-ce que Robots.txt et comment ça marche ? 7 minutes Suivant Comment améliorer l'exploration et l'indexabilité de votre site

Par Bofu Agence Marketing11 nov. 20220 commentaire

Qu'est-ce que le fichier Robots.txt ?

Un fichier robots.txt est un fichier texte utilisé pour indiquer aux robots Web (également appelés robots d'exploration ou robots d'exploration) comment explorer et indexer un site Web.

Le fichier robots.txt fait partie de la norme d'exclusion des robots (REP), qui est un protocole avec un petit ensemble de commandes pouvant être utilisées pour communiquer avec les robots Web.

L'utilisation la plus courante du fichier robots.txt est d'empêcher les robots Web d'indexer tout ou partie d'un site Web. Cela se fait en spécifiant une ou plusieurs règles d'interdiction dans le fichier robots.txt. Par exemple, une règle pourrait être ajoutée au fichier robots.txt pour interdire aux robots Web d'indexer le répertoire /images/ sur un site Web.

Robots.txt et Sitemap.xml

En général, un fichier robots.txt indique aux robots Web, ou « araignées », quelles pages de votre site Web explorer et indexer. Un fichier sitemap.xml fournit des informations supplémentaires sur la structure de votre site Web, ce qui peut être très utile pour les moteurs de recherche.

Les deux fichiers sont complémentaires mais ne doivent pas nécessairement être utilisés ensemble. Si vous n'avez qu'un fichier robots.txt, c'est parfaitement bien. De même, si vous n’avez qu’un fichier sitemap.xml, c’est également très bien. Cependant, utiliser les deux peut être avantageux, surtout si vous disposez d’un grand site Web avec une structure complexe.

Un fichier robots.txt est généralement placé dans le répertoire racine d'un site Web. Par exemple, si votre site Web est www.example.com, votre fichier robots.txt sera www.example.com/robots.txt.

Un fichier sitemap.xml peut être placé n’importe où sur votre site Web, mais il est généralement également placé dans le répertoire racine. Par exemple, si votre site Web est www.example.com, votre fichier sitemap.xml sera www.example.com/sitemap.xml.

L'avantage d'utiliser un fichier robots.txt est que vous pouvez spécifier les pages de votre site Web que vous ne souhaitez pas explorer et indexer. Cela peut être utile si vous disposez de pages contenant des informations sensibles que vous ne souhaitez pas voir apparaître dans les résultats de recherche.

L’avantage d’utiliser un fichier sitemap.xml est que vous pouvez fournir des informations supplémentaires aux moteurs de recherche sur la structure de votre site Web. Cela peut être très utile, en particulier pour les grands sites Web, car cela peut aider les moteurs de recherche à mieux comprendre le contenu de votre site Web.

En général, c'est une bonne idée d'utiliser à la fois un fichier robots.txt et un fichier sitemap.xml si vous avez un grand site Web avec une structure complexe. Cela donnera aux moteurs de recherche le plus d’informations sur votre site Web et les aidera à explorer et indexer votre site Web plus efficacement.

Le fichier robots.txt est également utilisé pour spécifier l'emplacement du plan du site d'un site Web. Le plan du site est un fichier qui contient une liste de toutes les pages d'un site Web . En spécifiant le plan du site dans le fichier robots.txt, les robots Web peuvent facilement trouver et indexer toutes les pages d'un site Web.

Les robots Web ne sont pas tenus d'obéir aux règles spécifiées dans le fichier robots.txt. Cependant, la plupart des robots Web prennent en charge la norme d'exclusion des robots et obéissent aux règles spécifiées dans le fichier robots.txt.

Règles du fichier Robots.txt

Les règles spécifiées dans le fichier robots.txt sont appliquées à tous les robots Web qui explorent un site Web. Il n'est pas possible de spécifier des règles pour un robot Web spécifique.

Le fichier robots.txt doit être placé dans le répertoire racine d'un site Web. Par exemple, si l'URL d'un site Web est http://www.example.com/, le fichier robots.txt doit se trouver à l'adresse http://www.example.com/robots.txt.

Le fichier robots.txt peut contenir plusieurs règles. Chaque règle doit être sur une ligne distincte.

Une règle se compose de deux champs, un nom de champ et une valeur de champ. Le nom du champ est suivi de deux points (:) et de la valeur du champ. Par exemple:

 Agent utilisateur: *

 Interdire : /

La règle ci-dessus empêcherait tous les robots Web d’indexer les pages du site Web.

Plusieurs valeurs de champ peuvent être spécifiées pour un nom de champ en séparant les valeurs par une virgule (,). Par exemple:

 Agent utilisateur: *

 Interdire : /images/, /cgi-bin/

La règle ci-dessus empêcherait tous les robots Web d'indexer les répertoires /images/ et /cgi-bin/ sur le site Web.

Une règle peut être spécifiée sans valeur de champ. Par exemple:

 Agent utilisateur: *

 Refuser:

La règle ci-dessus permettrait à tous les robots Web d'indexer toutes les pages du site Web.

Des commentaires peuvent être ajoutés au fichier robots.txt en commençant une ligne par un caractère dièse (#). Les commentaires sont ignorés par les robots Web. Par exemple:

 # Ceci est un commentaire

 Agent utilisateur: *

 Interdire : /

Le fichier robots.txt ci-dessus empêcherait tous les robots Web d'indexer les pages du site Web.

L'ordre des règles dans le fichier robots.txt est important. La première règle de correspondance est appliquée. Par exemple, considérons le fichier robots.txt suivant :

 Agent utilisateur: *

 Interdire : /

 Agent utilisateur : Google

 Refuser:

Le fichier robots.txt ci-dessus empêcherait tous les robots Web d'indexer les pages du site Web, à l'exception du robot Web de Google.

Conclusion

Si vous possédez un site Web WordPress , vous devez absolument utiliser un fichier robots.txt. Ce fichier est utilisé pour indiquer aux robots des moteurs de recherche, également appelés robots d'exploration, quelles pages de votre site Web ils sont autorisés à indexer et à explorer.

Vous vous demandez peut-être pourquoi vous auriez besoin d'utiliser un fichier robots.txt si votre site Web WordPress est déjà configuré pour être indexé par les moteurs de recherche . La réponse est qu’un fichier robots.txt vous donne plus de contrôle sur la façon dont les moteurs de recherche indexent votre site Web.

Par exemple, disons que vous avez un site Web WordPress avec un blog et une boutique WooCommerce . Vous souhaiterez peut-être que les moteurs de recherche indexent vos articles de blog afin que les internautes puissent les trouver lorsqu'ils recherchent des mots-clés liés à votre contenu. Cependant, vous ne souhaitez peut-être pas que les moteurs de recherche indexent vos pages WooCommerce, car vous ne voulez pas que les gens trouvent vos pages de produits avant d'atteindre votre site Web.

Dans ce cas, vous utiliserez un fichier robots.txt pour indiquer aux moteurs de recherche d'indexer uniquement les pages de votre blog. Cela vous donnerait plus de contrôle sur la façon dont les gens trouvent votre site Web et garantirait qu’ils atteignent la destination prévue.

Il existe d'autres raisons pour lesquelles vous souhaiterez peut-être utiliser un fichier robots.txt sur votre site Web WordPress. Par exemple, si vos pages sont protégées par mot de passe , vous pouvez utiliser le fichier robots.txt pour indiquer aux moteurs de recherche de ne pas indexer ces pages. Cela garantit que seules les personnes disposant du mot de passe peuvent accéder au contenu de ces pages.

Dans l’ensemble, utiliser un fichier robots.txt sur votre site WordPress est une bonne idée si vous souhaitez avoir plus de contrôle sur la façon dont les moteurs de recherche indexent votre site Web. C'est également une bonne idée si vous souhaitez protéger certaines pages de votre site Web contre l'indexation.