Référencement naturel & Robots.txt

Le web crawler est un robot, un logiciel qui explore et collecte les informations disponibles sur Internet. On parle aussi de SEO crawler car c’est la démarche utilisée par les moteurs de recherche pour indexer les pages web

VISER LES TOP POSITIONS

Votre robot.txt est un outil très puissant pour améliorer le positionnement de votre site. Mais il doit être manipulé avec précaution car il limite l’accès des moteurs de recherches à certaines pages, dossiers et fichiers. Auparavant, le robot Googlebot récupérait uniquement le code html de vos pages. Mais cette époque est bien lointaine. Et désormais, le moteur de recherche n’apprécie pas que vous lui bloquiez l’accès aux fichiers CSS ou Javascript. Aussi, s’il est mal constitué, il pénalise votre référencement. Découvrez comment configurer votre fichier robot txt pour renforcer toutes les autres techniques SEO friendly.

Le fichier robot txt

Le fichier robots.txt est un fichier texte à la racine de votre site. Il indique aux robots des moteurs de recherche de ne pas indexer certaines parties de votre site. C’est un protocole d’exclusion de crawler des contenus que vous considérez comme inutiles, sensibles ou privés. En effet, lorsqu’un robot arrive sur votre site, il cherche en premier lieu le fichier robot txt à la recherche des consignes sur vous aurez renseignées.

Comment fonctionne un fichier robot txt ?

    • Il renseigne des directives et non des règles. Ce qui implique que si les robots « sérieux » vont respecter vos indications, ce n’est pas le cas des robots malveillants.
    • C’est un fichier public, accessible à tous. Il ne peut pas servir à cacher du contenu.
    • Google indique que si vous voulez que certaines pages n’apparaissent pas dans les résultats, le fichier robot txt ne permet pas de dissimuler ces contenus. Surtout si plusieurs liens pointent vers cette page. Le meilleur moyen de ne pas indexer une page reste la case NoIndex, disponible dans l’extension Yoast de WordPress pour ceux qui utilisent ce CMS.

Un document robot txt n’est pas obligatoire. Mais il peut se révéler essentiel à une bonne stratégie SEO.

Pourquoi ? Parce qu’il vous permet d’économiser du budget de crawl. Ce budget détermine en fait la rapidité avec laquelle Google prend en compte les modifications de votre site. Soit la vitesse d’indexation de vos pages. Si vous évoluez dans un secteur concurrentiel, avec beaucoup de sites compétiteurs, ce fichier robots.txt est déterminant pour votre positionnement. Si vous lancez un blog, dans un créneau de niche, la création de backlinks et d’une stratégie de contenu éditoriale restent vos priorités.

Créer un robot txt

Par défaut, le CMS WordPress compose un fichier robots.txt virtuel. Il est réduit à sa plus simple expression :
User-agent: *
Disallow: /wp-admin/

Il fonctionne mais il ne renseigne rien. À vous donc de créer un fichier robot txt pour le remplacer. Vous pouvez le réaliser manuellement ou utiliser le plugin Yoast SEO, l’extension la plus utilisée sur WordPress.

Rendez-vous sur le tableau de commande, catégorie Yoast SEO > Outils puis Éditeurs de fichiers. Vous ouvrez un fichier texte classique, que vous pouvez compléter. Pensez à bien enregistrer les modifications après chaque changement effectué dans votre fichier. Si vous souhaitez rédiger votre fichier manuellement, utilisez un bloc note. Nommez votre document robots.txt et importez le sur votre serveur, à la racine de votre site.

Comment compléter votre fichier ?

Les règles d’édition de ce fichier sont spécifiées dans les pages Aide de Google Search Console. Le format d’un fichier robots.txt est très simple.
Cette syntaxe particulière tient particulièrement en 2 points :

      • User agent : le nom du robot auquel la règle s’applique. Vous pouvez utiliser un astérisque * pour instruire tous les robots.
      • Disallow : le répertoire ou la page qui ne doit pas être exploré ni indexé, soit les instructions de rejet pour les moteurs de recherche

Dans l’exemple ci-dessus
User-agent: *
Disallow: /wp-admin/

Il est signalé à tous les robots de ne pas explorer l’ensemble du répertoire wp-admin. On comprend que vous n’avez pas besoin d’indiquer l’URL absolue au fichier. Seule l’URL relative suffit. Il est possible de créer des règles différentes pour différents robots.

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /wp-login.php

Ici, tous les robots sont exclus de l’ensemble de vos fichiers. Seul le robot Googlebot peut y accéder, à l’exception de la page de connexion. Enfin, il est possible d’autoriser l’accès à un fichier dans un répertoire bloqué.

User-agent: *
Disallow: /wp-admin
Allow: wp-admin/widgets.php

S’il n’existe pas de fichier robot txt qui fonctionne de manière universelle, nous avons noté un ensemble de pages qu’il convient d’exclure de votre budget de crawl :

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /wp-login.php

D’une manière générale, on recommande de bloquer l’accès à deux répertoires-clés de WordPress : le dossier wp-admin et le dossier wp-includes. Il est intéressant aussi de désindexer la page de connexion wp-login.php ainsi que le fichier readme.html, car ce fichier peut être utilisé par quelqu’un essayant de déterminer quelle version de WordPress vous utilisez. De même, vous pouvez interdire l’accès aux plugins de WordPress dans votre fichier robots.txt afin de renforcer la sécurité de votre site, contre quiconque recherchant un plugin vulnérable spécifique à exploiter.

Comment savoir si votre fichier fonctionne ?

Le tableau de commande de Google Search Console vous permet de valider le bon paramétrage de votre fichier WordPress robot txt. Rendez-vous dans Exploration > Outil de test du fichier robots.txt. Entrez les instructions et complétez l’éditeur afin de tester votre fichier. Le système recense les erreurs et avertissements.

Depuis le tableau de bord, vous pouvez aussi > Explorer comme Google, afin de savoir si le robot d’indexation est capable d’interpréter votre site dans sa globalité.

Conclusion

Il n’est pas facile de savoir ce qu’il faut inclure dans un fichier robots.txt. Plusieurs recommandations contradictoires cohabitent. Si vous ne vous y connaissez pas, n’excluez qu’un minimum de contenus et de dossiers, pour ne pas réduire vos efforts SEO. Dans tous les cas, pensez toujours à contrôler votre fichier avant de le soumettre à la racine de votre serveur.