How To Boost Your Site's Crawlability And Indexability

Comment améliorer l'exploration et l'indexabilité de votre site

Qu'est-ce que Robots.txt et comment ça marche ? Vous lisez Comment améliorer l'exploration et l'indexabilité de votre site 20 minutes Suivant Qu'est-ce qu'un plan du site ?

Par Bofu Agence Marketing15 nov. 20220 commentaire

Les 6 aspects techniques du référencement sont :

Robots.txt
Métarobots
Balise canonique -> (balise canonique combinant avec noindex)
Balise Rel=”next”/”prev” -> (la balise Rel=”next”/”prev” se combine avec la balise canonique)
Balise Hreflang -> (balise Hreflang combinée avec la balise canonique) / (balise Hreflang combinée avec la balise rel=”next”/”prev”)
Paramètres de la console de recherche Google

Les 5 premiers aspects sont également regroupés dans un organigramme que vous trouverez au bas de cet article. Vous pouvez suivre cet organigramme page par page pour obtenir le bon référencement de la page.

Avant, je tiens à donner un petit avertissement. Ajuster ces aspects techniques du référencement peut avoir des conséquences majeures. Il est recommandé de gérer cela avec prudence.

Robots.txt

Robots.txt est un petit fichier texte contenant des instructions destinées aux robots. Grâce à ce fichier, il est possible d'ordonner aux robots au niveau du domaine de ne pas explorer certains domaines, répertoires, pages, fichiers ou URL spécifiques. Souvent, la fonction de recherche d'un site Web est exclue de l'exploration via robots.txt. Cela est dû au fait que ces URL ne sont pas recherchées dans les résultats de recherche d'un moteur de recherche. En effet, vous ne pouvez (souvent) pas optimiser la page de résultats de recherche pour chaque requête de recherche.

Notez que les instructions contenues dans le fichier robots.txt sont des lignes directrices. Ce ne sont pas des obligations pour les robots. Le fichier robots.txt se trouve toujours directement après l'extension de domaine dans l'URL. Par exemple, https://www.domein.nl/robots.txt. Dans le cas d’un site WordPress, le robots.txt peut ressembler à ceci :

 Agent utilisateur: *
 Interdire : /wp-admin/ 
Autoriser : /wp-admin/admin-ajax.phpSitemap : https://www.domein.nl/sitemap_index.xml

Robots.txt permet à l'utilisateur de donner des instructions pour tous les robots ou juste pour un robot en particulier : par exemple, uniquement Googlebot ou Bingbot . Ceci est indiqué par le « user-agent » et cela ressemble à ceci :

Agent utilisateur : Googlebot → Bonjour Googlebot, bienvenue sur mon site Web. Les instructions suivantes sont pour vous.
Agent utilisateur : Bing → Bonjour Bingbot, bienvenue sur mon site Web. Les instructions suivantes sont pour vous.
Agent utilisateur : * → Bonjour à tous les robots, bienvenue sur mon site Web. Les instructions suivantes sont pour vous.

Le dernier user-agent avec un « * » fournit des instructions pour tous les robots.

Exclure une seule page

Si vous ne souhaitez pas qu'une page soit indexée, vous pouvez l'exclure en utilisant l'instruction 'disallow'. Cela se fait comme suit:

 Agent utilisateur : Googlebot
 Interdire : /Don-tCrawlThisPageExample

 Bonjour Googlebot, bienvenue sur mon site Web. Vous n'êtes pas autorisé à visiter la page /Don-tCrawlThisPageExample.

Exclure un dossier

Si vous souhaitez exclure un dossier entier, utilisez :

 Agent utilisateur : Googlebot
 Interdire : /Don-tCrawlThisFolderExample

 Bonjour Googlebot, bienvenue sur mon site Web. Le dossier /Don-tCrawlThisFolderExample/ ne peut pas être visité.

Le texte ci-dessus signifie que les pages sous-jacentes ne peuvent pas non plus être visitées. Ainsi:
Au revoir Googlebot, bienvenue sur mon site Web. Dossier /Don-tCrawlThisFolderExample/Don-tCrawlThisPageInsideTheFolderExample

Permettre l'accès

Il existe également l'instruction « autoriser ». Avec cela, vous indiquez quand vous souhaitez qu'une page soit indexée. Par défaut, un robot analyse tout, il n'est donc pas nécessaire d'ajouter simplement des pages avec l'instruction d'autorisation. Alors pourquoi l'instruction d'autorisation existe-t-elle ? Il se peut que vous ne souhaitiez pas qu'un certain dossier soit exploré par un robot, mais que quelque chose dans ce dossier puisse être à nouveau analysé. Vous obtenez alors :

 Agent utilisateur : Googlebot
 Interdire : /Don-tCrawlThisFolderExample/
 Autoriser : /Don-tCrawlThisFolderExample/ButCrawlThisPageInsideOfIt

 Bonjour Googlebot, bienvenue sur mon site Web. Le dossier /Don-tCrawlThisFolderExample/ n'est pas autorisé à visiter
 mais la page "/ButCrawlThisPageInsideOfIt" dans ce dossier l'est.

Bloquer les URL en fonction des caractères

En plus de bloquer des dossiers ou des pages entières, il est également possible de bloquer les URL contenant certains caractères. Cela se fait avec le caractère '*'. Si j'ajoute ce qui suit dans le fichier robots.txt, toutes les URL contenant un point d'interrogation seront bloquées :

 Agent utilisateur : Googlebot
 Interdire : /*?
 
Bonjour Googlebot, bienvenue sur mon site Web. Vous ne pouvez pas visiter toutes les URL contenant un point d'interrogation.

Bloquer les fichiers

Enfin, vous pouvez utiliser le signe dollar ($) pour exclure les URL ayant la même terminaison. Si vous disposez d'un dossier contenant différents types de fichiers, dont vous souhaitez bloquer uniquement les fichiers pdf, ajoutez ceci :

 Agent utilisateur : Googlebot
 Interdire : /*.pdf$

 Bonjour Googlebot, bienvenue sur mon site Web. Vous n'êtes pas autorisé à visiter toutes les URL se terminant par .pdf.

Plan du site dans Robots.txt

L'emplacement du plan du site peut également être ajouté dans le fichier Robots.txt. Cela peut aider à mieux indexer certaines pages du site Web. Le plan du site est un aperçu de toutes les pages d'un site Web.

En fait, vous souhaitez toujours ajouter le fichier robots.txt. Surtout parce que vous pouvez y faire référence au plan du site, ce qui peut contribuer à une meilleure indexation des pages. Il vous permet également de bloquer des pages ou des dossiers des moteurs de recherche. Si vous n'avez pas ajouté le fichier robots.txt, les robots peuvent visiter n'importe quoi sur votre site Web.

La configuration du fichier robots.txt dépend entièrement du site Web. Certains sites Web donnent aux robots tout l’espace dont ils ont besoin, tandis que d’autres restreignent les visites. Il est toujours bon de se demander si vous souhaitez que toutes les pages de votre site Web soient visitées par des robots. Ce faisant, il est sage de se rappeler que bloquer une page à l’aide de robots.txt ne signifie pas toujours que la page ne sera pas indexée. S'il existe de nombreux liens externes vers cette page, alors la page pourra être indexée mais un moteur de recherche ne saura pas ce qu'il y a sur cette page.

Métarobots

Les métarobots sont des instructions trouvées dans le code source de votre page Web. Avec ces codes il est possible de donner des instructions aux robots par page de votre site internet. Vous placez les codes dans le

de votre page.

Instructions pour la plupart des robots :

 .

 Bonjour bot, bienvenue sur cette page. Vous n'êtes pas autorisé à indexer cette page.

Et pour un bot spécifique :



 Bonjour Googlebot, bienvenue sur cette page. Vous ne pouvez pas indexer cette page et ainsi ne pas l'afficher dans les résultats de recherche.

Comme indiqué dans le code ci-dessus, le premier méta-robot (noindex) indique aux robots de ne pas indexer la page. Le deuxième code instruit spécifiquement Googlebot. Le méta-robot noindex peut également être utilisé pour éviter le contenu en double. Vous pouvez choisir de ne pas indexer une page SI elle ressemble trop à une autre page.

Il existe d'autres métarobots que vous pouvez utiliser sur une page Web. Je liste ci-dessous les métarobots couramment utilisés :

Pas de suivi

 Code:

 Bonjour Googlebot, bienvenue sur cette page. Vous ne pouvez pas suivre les liens répertoriés sur cette page.

Nosnippet

 Code:

 Bonjour Googlebot, bienvenue sur cette page. Vous ne pouvez pas utiliser les informations de cette page dans l'extrait dans les résultats de recherche.

Aucune archive

 Code:

 Bonjour Googlebot, bienvenue sur cette page. Dans les résultats de recherche, vous ne pouvez pas afficher d'option « en cache » avec ce lien.

Indisponible_après

 Code: 

 Bonjour Googlebot, bienvenue sur cette page. Après cette date, cette page ne pourra plus être indexée.

Pas d'index d'image

Cela empêche un robot d'indexer des images sur une page.

 Code:

 Bonjour Googlebot, bienvenue sur cette page. Les images de cette page ne doivent pas être indexées.

Aucun

Il s'agit d'une version abrégée de noindex et nofollow ensemble.

 Code:

 Bonjour Googlebot, bienvenue sur cette page. Cette page ne doit pas être indexée et les liens sur cette page ne doivent pas être suivis.

Ces instructions peuvent être utilisées dans le code source d'une page. L'instruction nofollow peut également être utilisée pour des liens vers d'autres pages de votre site Web ou d'autres sites Web. Vous transmettez ensuite l’instruction nofollow à un seul lien.

Si vous voulez vous assurer qu'une page ne sera pas indexée par un moteur de recherche, alors il est sage à la fois d'exclure cette page dans le fichier robots.txt et de placer un méta-robot sans index sur la page.

Balise canonique

La balise canonique est un moyen d’éviter le contenu dupliqué et d’indiquer quelle page est la plus importante. Ceci est mieux expliqué à travers un exemple. Supposons que vous ayez un magasin de chaussures WooCommerce et que vous recherchiez toutes les chaussures pour hommes : https://www.woocommercemen.com/menshoes. Vous arrivez sur la page web avec toutes les chaussures pour hommes. Souvent, sur une telle page, vous pouvez filtrer par couleur, taille, marque et autres attributs. Il est également possible de classer les produits par prix et par nom. Par exemple : https://www.woocommercemen.com/menshoes?ord=price. La page par défaut comporte une balise H1 « chaussures pour hommes », éventuellement plusieurs balises H2 et un texte d'accompagnement (contenu).

Si un visiteur souhaite une commande de produit différente, l'URL change et vous disposez en fait d'une deuxième page. Cette deuxième page a les mêmes balises et contenu H1 et H2. Vous avez en quelque sorte la page par défaut avec toutes les chaussures pour hommes et la même page, avec des produits dans un ordre différent, avec le même contenu : du contenu en double. En utilisant une balise canonique, vous pouvez indiquer au bot quelle est la page d'origine.

Insérez le code suivant :

Bonjour Googlebot, la page https://www.woocommercemen.com/menshoes/ord=price contient le même contenu que https://www.woocommercemen.com/menshoes mais https://www.woocommercemen.com/menshoes est la page indexer.

Il en va de même lorsqu'un produit appartient à plusieurs catégories. Par exemple, cela est vrai dans le cas suivant :

https://www.woocommercemen.com/menshoesG (original)
https://www.woocommercemen.com/sport/menshoesG
https://www.woocommercemen.com/brand/menshoesG

Dans l'exemple ci-dessus, trois pages existent pour le produit chaussure pour hommesG. Dans ce cas, il est logique d'étiqueter l'une de ces pages comme originale ( la page ayant le plus de valeur, c'est-à-dire la page la plus importante ) et d'attribuer une balise canonique à cette page originale aux deux autres pages :

 https://www.woocommercemen.com/menshoesG (original)

 https://www.woocommercemen.com/sport/menshoesG


 https://www.woocommercemen.com/brand/menshoesG

Si vous ne le faites pas, le moteur de recherche ne saura pas quelle est la meilleure page de votre site Web pour ce contenu et choisira lui-même quelle page indexer. Pour éviter cela, désignez vous-même une page comme originale à indexer. De cette façon, vous gardez plus de contrôle sur l’indexation. Vous placez la balise canonique en tête de page.

Combiner la balise canonique avec noindex

Le canonique s’avère ainsi être un moyen puissant pour exclure de l’indexation les pages au contenu dupliqué. Les moyens évoqués précédemment sont les balises noindex et nofollow. Il n'est pas judicieux d'utiliser à la fois une balise canonique et aucun méta-robot d'index. En théorie, ce faisant, vous envoyez deux signaux. La balise canonique indique que les pages sont (presque) identiques. Tandis que la balise noindex indique que vos pages sont loin d’être identiques. Utilisez donc soit la balise no index, soit la balise canonique.

Balise Rel=”suivant”/”précédent”

Si une catégorie comporte de nombreux produits, cette catégorie peut être divisée en plusieurs pages.

Vous pouvez préciser la relation entre ce contenu paginé dans le code source d'une page web, à savoir dans le

. La première page est (presque) toujours la page de catégorie. Par exemple : https://www.woocommercemen.com/menshoes.

Si j'ai 50 paires de chaussures dans une catégorie, avec 12 chaussures par page, alors j'ai les pages 1 à 5, qui peuvent ressembler à ceci :

https://www.woocommercemen.com/menshoes
https://www.woocommercemen.com/menshoes/?page=2
https://www.woocommercemen.com/menshoes/?page=3
https://www.woocommercemen.com/menshoes/?page=4
https://www.woocommercemen.com/menshoes/?page=5

Comme ci-dessus, si j'ai plusieurs pages qui se succèdent, je peux référencer la page suivante dans le code source de /men shoes :
https://www.woocommercemen.com/menshoes?page=2

Je fais cela en utilisant le code suivant sur la page https://www.woocommercemen.com/menshoesG/ :

Lorsque je suis à la page 2, je souhaite créer un lien vers la page précédente et suivante. Dans ce cas, j'ajoute deux morceaux de code :

Notez ici qu'à partir de la page deux, je fais référence à la page de catégorie (/menshoes/) et non à /menshoes/?page=1. Si je devais faire cette dernière solution, sans utiliser de canonique, j'aurais du contenu en double pour la première page : à savoir /menshoes et /menshoes/?page=1.

Pour la page 3, je fais référence à /?page=2 et /?page=4 et ainsi de suite.

La dernière page ( dans cet exemple, la page 5 ) n'a qu'une référence à la page précédente :

.

Il est important d’être complet dans la mise en œuvre de cette balise. Si vous oubliez (un morceau de) le code sur l'une des pages, le bot ne verra pas la relation entre les pages ou ne la verra pas aussi bien et commencera à rechercher lui-même la relation. Cela peut entraîner des problèmes d'indexation.

Combinez rel="next"/"prev" avec canonique

Pour les pages de catégorie avec pagination, vous ne voulez pas de canonique d'une page à une autre page. Le code rel=”prev”/”next” reflète la relation entre les pages, ce qui évite les problèmes de contenu en double. Certains CMS placent automatiquement une balise canonique sur chaque page. Ce qui ne va souvent pas, c'est que les pages 2 et au-delà ont une balise canonique pointant vers la première page.

Si vous souhaitez utiliser la balise canonique en conjonction avec la balise rel=”next”/”prev”, la balise canonique de la page doit pointer vers elle-même. Ainsi, la page https://www.woocommercemen.com/menshoes/?page=2 a un canonique en elle-même : rel=”canonical” href=”https://www.woocommercemen.com/menshoes/?page=2″ .

Si le canonique de la page 2 fait référence à la page 1, les produits et le contenu de la page 2 ne peuvent pas être indexés. Une canonique auto-référencée est également appelée canonique auto-référencée.

Balise hreflang

La balise hreflang est utilisée lorsqu'un site Web dispose de plusieurs paramètres de langue. Il est possible avec cette balise de renvoyer les robots vers des versions du site dans une autre langue. Par exemple, si j'ai un https://www.woocommercemen.ro en plus de la version anglaise, je peux faire référence à cette version dans le code source. Un moteur de recherche reconnaît la balise hreflang et propose ensuite au visiteur la version correcte du site Web en fonction de l'emplacement et des paramètres linguistiques du visiteur.

Pour ce faire, utilisez la balise hreflang et cela ressemble à ceci : rel="alternate" hreflang="x". Vous placez le code dans le

de la page.

Lorsque vous utilisez la balise hreflang, veuillez noter ce qui suit. Le site anglais doit faire référence au site roumain et vice versa. Il ne suffit donc pas de se référer uniquement du site anglais à la version roumaine. De plus, lorsque vous utilisez cette balise, vous devez également ajouter une partie auto-référencée. Un petit exemple :

Code source version anglaise
https://www.woocommercemen.com

Code source version roumaine
https://www.woocommercemen.ro

La balise hreflang vous permet également de configurer votre site Web pour les régions linguistiques. Par exemple, la Belgique a une partie francophone et une partie néerlandophone.

Je peux donc créer mon site internet pour la Belgique francophone avec :

et la Belgique néerlandophone avec :

Gardez à l’esprit que cela doit être défini pour chaque page du site Web. Il ne suffit donc pas de définir une balise hreflang uniquement sur la page d'accueil. Ainsi, une page de catégorie néerlandaise fait référence à la page de catégorie néerlandaise et anglaise, et vice versa. La page produit néerlandaise fait référence à la page produit néerlandaise et anglaise, et vice versa.

Combiner hreflang avec une balise canonique

Si vous souhaitez combiner la balise hreflang avec une balise canonique, vous devez référencer dans la même langue avec la balise canonique. Si je fais référence à la version anglaise de mon site Web néerlandais avec la balise hreflang, je veux que le canonique soit celui de la version néerlandaise. Cela est dû aux signaux différents envoyés par les deux solutions. Comme indiqué, la balise canonique indique une préférence pour que la page la plus importante soit indexée et que les pages les moins importantes ne le soient pas. La balise hreflang indique quelles autres versions du site Web vous souhaitez également figurer dans les résultats de recherche. Ce sont donc des signaux contradictoires.

Pour que ce soit complet, voici les exemples de balise hreflang avec balise canonique.

Code source version néerlandaise

https://www.woocommercemen.nl

Code source version anglaise

https://www.woocommercemen.com

Combiner hreflang avec rel=”next”/”prev”

Si vous combinez la balise hreflang avec la balise rel=”next”/”prev”, alors logiquement vous devez prendre en compte les éléments suivants. Assurez-vous de conserver la même balise rel="next"/"prev" dans une version linguistique du site Web. Vous ne devez donc pas utiliser la balise rel=”next”/”prev” avec une adresse Web .com dans la version néerlandaise du site Web. De plus, une page 2 néerlandaise doit faire référence à la page 2 néerlandaise et à la page 2 anglaise via la balise hreflang.

Parce que les exemples fonctionnent souvent plus facilement, j'ai placé des morceaux de code source ci-dessous.

Code source version néerlandaise

https://www.woocommercemen.nl/menshoes

Code source version néerlandaise

https://www.domein.nl/mannenschoenen/?page=2

Code source version anglaise

https://www.woocommercemen.com/menshoes

Code source version anglaise

https://www.woocommercemen.com/menshoes/?page=2

Paramètres d'URL de la console de recherche Google

Avec les paramètres de Google Search Console, il est possible d’indiquer les points ci-dessus à Google. Un ou plusieurs de ces aspects techniques peuvent ne pas être personnalisables dans votre CMS WordPress. Dans ce cas, les paramètres URL de Google Search Console offrent une solution. Si vous vous connectez à Google Search Console, vous pouvez trouver l'option des paramètres d'URL sous l'onglet d'exploration.

Dans les paramètres d'URL de la console de recherche de Google, vous pouvez ajouter vos propres paramètres que les visiteurs peuvent utiliser pour organiser ou filtrer le contenu.

Après avoir ajouté un paramètre, vous pouvez choisir parmi deux options :

Le paramètre n'affecte pas le contenu de la page
Le contenu de la page est modifié, réorganisé ou restreint

Par exemple, un paramètre qui n'affecte pas le contenu est l'ID de session. Si vous disposez d'un paramètre qui affecte le contenu, tel qu'une option de tri ou un filtre, vous pouvez indiquer dans Google Search Console comment ce paramètre affecte le contenu. L'image ci-dessous montre que le contenu peut être affecté par le tri, la restriction, la spécification, la traduction et la pagination.

Vous pouvez ensuite spécifier ce que Google doit faire avec les URL qui contiennent ce paramètre :

Laissez Googlebot décider : si vous n'êtes pas sûr de la fonction du paramètre ou si le comportement est différent selon les différentes parties du site Web.
Chaque URL : de cette façon, chaque modification d'un paramètre est considérée comme une URL distincte. Utilisez cette option lorsque vous êtes sûr que le contenu change lors de la modification du paramètre.
Uniquement les URL avec une valeur spécifiée : cette option vous permet de spécifier la valeur d'un paramètre à explorer. S'il existe un paramètre sur le site Web qui trie les produits par prix, vous pouvez spécifier que seules les URL qui trient les produits par prix du plus élevé au plus bas doivent être explorées. Les URL contenant une option de tri des prix de bas en haut ne seront alors pas explorées.
Pas d'URL : cette option vous permet d'exclure entièrement les URL avec un paramètre. Cela peut s'avérer utile si vous avez plusieurs paramètres consécutifs dans une URL.

Les paramètres URL de la console de recherche Google contiennent des options qui peuvent également être corrigées par les moyens mentionnés précédemment. Par exemple, les paramètres qui traduisent ou paginent sont respectivement la balise hreflang et la balise rel=”next”/”prev” mentionnées précédemment.

Si la mise en œuvre d'une balise particulière échoue, vous pouvez obtenir la même chose grâce à cet outil. Le fait est cependant que ces règles ne s’appliquent qu’au moteur de recherche Google, tandis que les implémentations de balises s’appliquent à (presque) tous les moteurs de recherche.