WebCrawler & référencement naturel

Le web crawler est un robot, un logiciel qui explore et collecte les informations disponibles sur Internet. On parle aussi de SEO crawler car c’est la démarche utilisée par les moteurs de recherche pour indexer les pages web

VISER LES TOP POSITIONS

Crawler est une technique des moteurs de recherche pour découvrir de nouvelles pages et les indexer. C’est la collecte des ressources, images, vidéos et documents disponibles en ligne, soit par soumission de requête, soit à partir d’une liste ou suivant un lien organique. En effet, pour crawler un site, il faut un point d’entrée. Un robot ne tombera pas par hasard sur votre site. Il a besoin d’être informé que le site existe et qu’il faut l’analyser. Comment ? En installant des liens stratégiques. En lisant votre site, le robot passe d’une page à l’autre grâce aux liens internes jusqu’à ce qu’il arrive sur une page sans lien ou qu’il rencontre une erreur.

Le web crawler permet aussi d’analyser un contenu spécifique, comme les robots à la base des comparateurs de prix ou de performances. Mais il existe aussi des outils de web crawlers pour l’optimisation des contenus. Découvrez toutes les techniques du crawl SEO.

Les outils de SEO crawler

En faisant appel aux robots de SEO crawler, vous accédez à l’architecture d’un site et à ses éventuelles erreurs et caractéristiques essentielles : erreurs 404, liens brisés, balises, statuts des pages, profondeurs, niveaux, nombre de liens entrants et sortants. De quoi faire le check-up SEO de votre site web.

Plusieurs outils, gratuits ou payants sont proposés en ligne :

  • Xenu : sans doute le robot crawler le plus connu et le plus utilisé
  • LinkExaminer : une alternative légère, rapide et autonome
  • Free SEO Toolkit de Microsoft : très robuste, il permet d’analyser plus de 100 000 pages

Un crawl SEO contrôle l’indexabilité de votre site, offrant un état des lieux des pages indexées et de la performance de votre sitemap. Avec pour but ultime d’identifier les leviers d’amélioration de votre trafic organique et de votre référencement naturel. En analysant la richesse de vos contenus, en détectant les méta informations dupliquées et autres contenus similaires, vous identifiez les pages qui nécessitent un nouvel effort de rédaction de votre part.

Mais un site crawler, c’est aussi l’analyse du poids de vos pages et du temps de chargement. De quoi améliorer in fine, l’expérience utilisateur. En contrôlant l’architecture d’un site, le web crawler vous permet d’intervenir sur ses aspects techniques : autorité d’une page en fonction du nombre de backlinks et d’inlinks, de leur profondeur, etc.

Website crawler : quels sont les documents analysés ?

Tous les contenus ne peuvent pas être crawlés. C’est notamment le cas du Flash, et parfois du Javascript. Les images ne peuvent pas être analysées non plus, il est donc inutile d’y insérer du texte. Même si le robot Google est de plus en plus intelligent et comprend de plus en plus le contexte de l’illustration. Si on ne donne aucune instruction au robot crawler, il va analyser tout le contenu de votre site, sans distinction. Or, comme nous le verrons ci-dessous, il ne sert à rien de gaspiller votre « crawl budget » sur certaines pages. Mieux vaut concentrer l’attention du robot sur les nouveautés et les actualités, par exemple.

C’est l’intérêt du fichier robots.txt, qui spécifie les consignes de crawl, soit seules qui ont une vraie valeur ajoutée. Vous pouvez aussi indiquer que vous ne souhaitez pas que le robot suive les liens vers certaines pages, avec l’option NoFollow.

La notion de budget crawler

Une fois que votre site a été repéré par un moteur de recherche, les robots vont régulièrement venir analyser ses contenus, et vérifier les mises à jour. Ce temps passé à indexer votre site est ce qu’on appelle le budget crawler. Il dépend du nombre de pages et de la bonne tenue du site (moins il y a d’erreurs, moins le robot passe de temps). Pour connaître votre crawl budget, vous pouvez vous connecter sur Google Search Console. Vous remarquerez alors que certaines pages, plus souvent retravaillées, sont plus souvent crawlées. C’est généralement le cas des pages d’accueil, de catégorie et de navigation. À l’inverse, un article de blog sera souvent crawlé au moment de sa publication mais s’il n’est pas mis à jour, il ne sera de moins en moins.

Plus une page est analysée, plus elle est considérée comme importante par rapport aux autres. Et plus elle a de chances d’être bien référencée. D’où l’intérêt d’optimiser son budget crawl pour diriger les robots vers les pages importantes.
Pour vous assurer que celles-ci reçoivent l’attention qu’elles méritent, il convient de vous intéresser à l’analyse des logs afin d’accéder aux informations suivantes :

  • Fréquence de crawl
  • Présence d’erreurs
  • Spider trap, soit une boucle d’erreur qui renvoie toujours le robot sur une page indésirable

En fonction des résultats, à vous de revoir votre maillage interne, afin de créer beaucoup de liens vers les pages que vous considérez comme importantes.

Ce que nous apprend le website crawler

On le comprend, en réalisant soi-même un SEO crawl de pages de son site, on peut identifier des erreurs à corriger, selon les bonnes pratiques du web pour votre référencement naturel :

  • On évite le contenu dupliqué : dans les articles, les titres, les méta, et tous les textes apparents ou non de vos pages.
  • On concentre ses efforts sur le maillage interne et on crée des liens intelligents, éventuellement via la mise en place d’un cocon sémantique.
  • On évite les pages orphelines et on optimise la structure globale du site.
  • On crée un sitemap XML – vie Google Search Console – qui aide le moteur de recherche à comprendre la structure de votre site.
  • On crée aussi un fichier robots.txt qui permettent d’éviter de gaspiller votre budget crawler.
  • On répond aux commentaires et toute autre activité qui permet de « faire vivre » une page, de la mettre à jour.