Googlebot, le Robot d’indexation de Google est un robot numérique parcourant en permanence les pages des sites internet. Lorsqu’il découvre une nouvelle page, il en analyse le contenu, et détecte les liens (internes et externes) qu’il y rencontre.
Il va suivre ses liens de page en page et stoppera son analyse lorsqu’il rencontrera une page d’erreur, ou ne contenant aucun lien. Googlebot visite, collecte et indexe les pages, et contrôle aussi le degré de vulnérabilité des pages en question.
Le robot de Google est enfin en mesure de vous donner des informations à propos des textes et sur le référencement naturel de votre site web. Son travail se décompose en 2 étapes.
Vous cherchez à faire rédiger des fiches produit articles de blog contenus web
Trouvez facilement un rédacteur professionnel sur Redacteur.comCommander des textes
Des milliers de rédacteurs freelance sont disponibles pour vous répondre
Le crawl
Googlebot va commencer par visiter un site web, explorant son contenu, puis en suivant les différents liens qu’il y rencontrera. Il collecte cet ensemble de données et en retire le plus d’informations possible.

Évidemment, le robot de Google a une nette préférence pour les contenus originaux, et les sites web régulièrement alimentés en contenu récent sont la garantie de voir le crawler plus fréquemment.
En clair, plus votre site est alimenté en contenu, plus vos articles seront indexés rapidement : c’est un système basé sur le renouvellement continu des données.
L’indexation
L’ensemble des éléments ainsi collectés seront ajoutés à l’index de Google, qui depuis 2010 et le lancement de « caféine » arrive à enregistrer les nouvelles informations en très peu de temps.
Si Google stoppe son nombre de résultats à 25 270 000 000 (pour une recherche de type « e », ou « the » par exemple), le nombre de pages indexées dépasse de loin ce chiffre dont on estime qu’il serait de centaines de milliers de milliards.
Vous le savez, être indexé dans le moteur de recherche est très important. Faciliter le travail de GoogleBot est donc une bonne idée. Voici quelques erreurs fréquemment commises sur l’indexation de vos contenus.
Forcer l’indexation
Si vous avez une nouvelle page stratégique et importante à indexer le plus rapidement possible, vous pouvez indiquer son URL à Google. Il vous suffit d’aller dans votre espace Google Search Console et d’inspecter l’URL en question.
Soumettre son sitemap
Votre site dispose d’un sitemap, n’est-ce pas ? C’est un fichier très utile qui guide les robots crawler à travers votre site. Au lieu d’attendre sagement que le Googlebot passe par là, vous pouvez adopter une démarche active, en soumettant votre sitemap, toujours grâce à la Google Search Console.
Le fichier robots.txt
Avant toute autre chose, le robot d’un moteur de recherche va vérifier votre fichier robots.txt. Ce fichier indique aux robots des directives sur quels chemins d’URLs ils ont l’autorisation d’emprunter.
Ces directives ne sont pas toujours respectées : bien sûr, les crawlers de la plupart des moteurs de recherche vont obéir à ces instructions. Les crawlers hostiles, spambots, robots qui scannent les vulnérabilités ou encore des scrapers d’email n’en ont cure.
Vous pouvez valider votre fichier robots.txt dans le testeur robots.txt de de la Google Search Console. Sans ces directives, Googlebot agira « par défaut » : il va donc crawler et indexer tout ce qu’il trouvera, et vous gaspillerez votre précieux budget de crawl.
Optimiser le budget de crawl
Le robot de Google dispose d’un quota d’un certain nombre de pages à crawler sur votre site. Cela s’appelle le « budget de crawl ». Vous pouvez le faire dans le fichier robots.txt qui insérera les balises « Meta » correspondantes sur ces pages.
Vous devez donc montrer à GoogleBot les pages à parcourir, mais aussi celles qu’il ne doit pas parcourir, comme :
- les landing pages,
- les résultats de recherche,
- les pages de remerciement
Veillez à bien Ajouter un attribut de lien rel=canonical aux pages contenant des paramètres et assurez-vous que ceux-ci sont bien configurés dans votre Google Search Console.
Toute instruction utilisable dans une balise « Meta robots » grâce à votre robots.txt peut également être injectée côté serveur, comme élément de réponse dans l’en-tête HTTP avec la balise « X-Robots-Tag ».
Vous voilà prêts à vérifier et optimiser la gestion de vos robots, en vous assurant qu’ils indexent votre contenu le plus efficacement possible !
Bonjour,
Assurez-vous de suivre un programme détaillé pour ce qui est de la mise à jour de votre site – pas seulement avec un nouveau contenu, mais aussi en modifiant les anciens articles de temps en temps. Cette technique oblige Google à revenir régulièrement sur votre site et de garder ses publications pertinentes pour vos visiteurs.