Contrôle de l'exploration et de l'indexation, le guide ultime

Prenez le contrôle du processus d’exploration et d’indexation de votre site Web en communiquant vos préférences aux moteurs de recherche. Cela les aide à comprendre sur quelles parties de votre site Web se concentrer et sur quelles parties ignorer. Il existe de nombreuses méthodes pour ce faire, alors quand utiliser quelle méthode?

Dans cet article, nous verrons quand utiliser chaque méthode, et nous mettrons en évidence les avantages et les inconvénients.

Les moteurs de recherche explorent des milliards de pages chaque jour. Mais ils indexent moins de pages que cela, et ils affichent encore moins de pages dans leurs résultats. Vous voulez que vos pages en fassent partie. Alors, comment prendre le contrôle de tout ce processus et améliorer votre classement?

Pour répondre à cette question, nous devons d’abord examiner le fonctionnement du processus d’exploration et d’indexation. Ensuite, nous discuterons de toutes les méthodes que vous pouvez mettre en œuvre pour contrôler ce processus.

Fonctionnement de l’exploration et indexation

Comment fonctionne l’exploration?

Les robots d’exploration des moteurs de recherche sont chargés de trouver et d’explorer autant d’URL que possible. Ils font cela pour voir s’il y a du nouveau contenu là-bas. Ces URL peuvent être à la fois de nouvelles URL et des URL dont ils ont déjà connaissance. Les nouvelles URL sont trouvées en explorant les pages qu’elles connaissaient déjà. Après l’exploration, ils transmettent leurs résultats à l’indexeur. Les pages que les moteurs de recherche sont autorisés à explorer sont souvent appelées explorables.

Comment fonctionne l’indexation?

Les indexeurs reçoivent le contenu des URL des robots d’exploration. Les indexeurs essaient ensuite de donner un sens à ce contenu en l’analysant (y compris les liens, le cas échéant). L’indexeur traite les URL canonisées et détermine l’autorité de chaque URL. L’indexeur détermine également s’il doit indexer une page. Les pages que les moteurs de recherche sont autorisés à indexer sont souvent appelées indexables.

Les indexeurs rendent également des pages Web et exécutent JavaScript. Si cela entraîne la recherche de liens, ceux-ci sont renvoyés au robot d’exploration.

Comment prendre le contrôle de l’exploration et de l’indexation

crawling

Prenez le contrôle du processus d’exploration et d’indexation en indiquant clairement vos préférences aux moteurs de recherche. Ce faisant, vous les aidez à comprendre quelles sections de votre site Web sont les plus importantes pour vous.

Expliquons d’abord quelques concepts:

Explorable: les moteurs de recherche sont-ils capables d’explorer l’URL?
Indexable: les moteurs de recherche sont-ils encouragés à indexer l’URL?
Empêche le contenu dupliqué: cette méthode évite-t-elle les problèmes de contenu dupliqué?
Consolide les signaux: les moteurs de recherche sont-ils encouragés à consolider la pertinence de l’actualité et les signaux d’autorité des URL, tels que définis par le contenu et les liens de l’URL?

En outre, il est important de comprendre ce qu’est le budget d’exploration. Le budget d’exploration correspond au temps passé par les robots des moteurs de recherche sur votre site Web. Vous voulez qu’ils le dépensent à bon escient et vous pouvez leur donner des instructions pour cela.

Méthodes de contrôle de l’exploration et de l’indexation

Robots.txt

exploration et indexation robots txt

Le fichier robots.txt est un emplacement central qui fournit des règles de base pour les robots d’exploration. Nous appelons ces directives de règles de base. Si vous souhaitez empêcher les robots d’exploration d’explorer certaines URL, votre fichier robots.txt est le meilleur moyen de le faire.

Si les robots d’exploration ne sont pas autorisés à explorer une URL et à demander son contenu, l’indexeur ne pourra jamais analyser son contenu et ses liens. Cela peut éviter le contenu dupliqué et cela signifie également que l’URL en question ne pourra jamais être classée. De plus, les moteurs de recherche ne seront pas en mesure de consolider la pertinence des sujets d’actualité et les signaux d’autorité lorsqu’ils ne savent pas ce qu’il y a sur la page. Ces signaux seront donc perdus.

Un exemple d’utilisation du fichier robots.txt

La section d’administration d’un site est un bon exemple de l’endroit où vous souhaitez appliquer le fichier robots.txt pour empêcher les robots d’y accéder. Supposons que la section d’administration se trouve sur: https://www.example.com/admin/.

Empêchez les robots d’accéder à cette section à l’aide de la directive suivante dans votre fichier robots.txt:

Disallow: / admin

Vous ne pouvez pas modifier votre fichier robots.txt? Appliquez ensuite la directive robots noindex à la section / admin.

Notes IMPORTANTES

Veuillez noter que les URL qui ne sont pas autorisées à être explorées par les moteurs de recherche peuvent toujours apparaître dans les résultats de recherche. Cela se produit lorsque les URL sont liées à d’autres pages ou étaient déjà connues des moteurs de recherche avant d’être rendues inaccessibles via le fichier robots.txt.

Robots.txt ne peut pas résoudre les problèmes de contenu dupliqué existants. Les moteurs de recherche n’oublieront pas une URL simplement parce qu’ils ne peuvent pas y accéder.

L’ajout d’une URL canonique ou d’un attribut noindex de méta-robots à une URL qui a été bloquée via le fichier robots.txt ne la désindexera pas. Les moteurs de recherche ne connaîtront jamais votre demande de désindexation, car votre fichier robots.txt les empêche de le découvrir.

Le fichier robots.txt est un outil essentiel pour optimiser le budget d’exploration de votre site Web. En utilisant le fichier robots.txt, vous pouvez dire aux moteurs de recherche de ne pas explorer les parties de votre site Web qui ne sont pas pertinentes pour eux.

Ce que le fichier robots.txt ne fera pas:

Consolidez les signaux de pertinence et d’autorité.
Supprimez le contenu déjà indexé *

* Bien que Google accepte la directive noindex et supprime les URL de son index, il n’est pas recommandé d’utiliser cette méthode car il s’agit d’une norme non officielle. Il est uniquement pris en charge par Google et non à 100% infaillible. Utilisez-le uniquement lorsque vous ne pouvez pas utiliser les directives robots et les URL canoniques.

Directives sur les robots

Les directives robots indiquent aux moteurs de recherche comment indexer les pages, tout en gardant la page accessible aux visiteurs. Il est souvent utilisé pour indiquer aux moteurs de recherche de ne pas indexer certaines pages. En ce qui concerne l’indexation, c’est un signal plus fort que l’URL canonique. L’implémentation des directives robots se fait généralement en l’incluant dans la source à l’aide de la balise meta robots. Pour d’autres documents tels que des PDF ou des images, cela se fait via l’en-tête HTTP X-Robots-Tag.

Un exemple d’utilisation des directives robots

Supposons que vous disposiez de dix pages de destination pour le trafic Google AdWords. Vous avez copié le contenu d’autres pages et l’avez légèrement ajusté. Vous ne souhaitez pas que ces pages de destination soient indexées, car cela entraînerait des problèmes de contenu en double. Alors vous devez inclure la directive robots avec l’attribut noindex.

Notes IMPORTANTES

Les directives robots vous aident à éviter le contenu dupliqué, mais elles n’attribuent pas de pertinence et d’autorité d’actualité à une autre URL. C’est juste perdu.

En plus de demander aux moteurs de recherche de ne pas indexer une page, les directives des robots découragent également les moteurs de recherche d’explorer la page. Une partie du budget d’exploration est préservée pour cette raison.

Contrairement à son nom, l’attribut nofollow des directives robots n’influencera pas l’exploration d’une page qui a l’attribut nofollow. Cependant, lorsque l’attribut nofollow des directives robots est défini, les robots des moteurs de recherche n’utilisent pas les liens de cette page pour explorer d’autres pages et ne transmettent pas l’autorité à ces autres pages.

Ce que feront les directives robots:

Empêchez les moteurs de recherche d’indexer certaines parties de votre site Web.
Évitez les problèmes de contenu en double.

Ce que les directives robots ne feront pas:

Empêchez les moteurs de recherche d’explorer certaines parties de votre site Web, tout en préservant le budget d’exploration.
Consolidez la plupart des signaux de pertinence et d’autorité.

URL canoniques

Une URL canonique communique la version canonique d’une page aux moteurs de recherche, encourageant les moteurs de recherche à indexer la version canonique. L’URL canonique peut se référencer elle-même ou d’autres pages. S’il est utile pour les visiteurs de pouvoir accéder à plusieurs versions d’une page et que vous souhaitez que les moteurs de recherche les traitent comme une seule version, l’URL canonique est la solution. Lorsqu’une page fait référence à une autre page à l’aide de l’URL canonique, la majeure partie de sa pertinence et de son autorité d’actualité est attribuée à l’URL cible.

Un exemple d’utilisation d’une URL canonique

Supposons que vous ayez un site Web de commerce électronique avec un produit dans trois catégories. Le produit est accessible via trois URL différentes. C’est bien pour les visiteurs, mais les moteurs de recherche ne doivent se concentrer que sur l’exploration et l’indexation d’une URL. Choisissez l’une des catégories comme catégorie principale et canonisez-y les deux autres catégories.

Notes IMPORTANTES

Assurez-vous de rediriger 301 URL qui ne servent plus aucun objectif aux visiteurs vers la version canonique. Cela vous permet d’attribuer toute leur pertinence d’actualité et leur autorité à la version canonique. Cela permet également de faire en sorte que d’autres sites Web établissent un lien vers la version canonique.

Une URL canonique est une directive plutôt qu’une directive. Les moteurs de recherche peuvent choisir de l’ignorer. L’application d’une URL canonique ne conservera aucun budget d’exploration, car elle n’empêche pas les moteurs de recherche d’explorer les pages. Cela les empêche d’être renvoyés pour les requêtes de recherche car ils sont consolidés dans la version canonique de l’URL.

Ce qu’une URL canonique fera:

Empêchez les moteurs de recherche d’indexer certaines parties de votre site Web.
Évitez les problèmes de contenu en double.
Consolidez la plupart des signaux de pertinence et d’autorité.

Ce qu’une URL canonique ne fera pas:

Empêchez les moteurs de recherche d’explorer certaines parties de votre site Web, préservant ainsi le budget d’exploration.

Attribut Hreflang

Notes IMPORTANTES

Une URL canonique est une directive plutôt qu’une directive. Les moteurs de recherche peuvent choisir de l’ignorer.

L’application d’une URL canonique ne conservera aucun budget d’exploration, car elle n’empêche pas les moteurs de recherche d’explorer les pages. Cela les empêche d’être renvoyés pour les requêtes de recherche car ils sont consolidés dans la version canonique de l’URL.

Ce qu’une URL canonique fera:

Empêchez les moteurs de recherche d’indexer certaines parties de votre site Web.
Évitez les problèmes de contenu en double.
Consolidez la plupart des signaux de pertinence et d’autorité.

Ce qu’une URL canonique ne fera pas:

Empêchez les moteurs de recherche d’explorer certaines parties de votre site Web, préservant ainsi le budget d’exploration.

Attribut Hreflang

L’attribut de lien rel = « Alternate » hreflang = « x », ou attribut hreflang en abrégé, est utilisé pour communiquer aux moteurs de recherche la langue de votre contenu et la région géographique pour laquelle votre contenu est destiné. Si vous utilisez le même contenu ou un contenu similaire pour cibler plusieurs régions, hreflang est la solution. Il vous permet de classer vos pages dans vos marchés cibles.

Cela permet d’éviter les doublons de contenu, donc avoir deux pages avec exactement le même contenu pour le Royaume-Uni et les États-Unis est très bien lorsque vous avez implémenté hreflang. Mis à part le contenu en double, le plus important est de vous assurer que votre contenu rime avec le public. Assurez-vous que votre public se sent chez lui, il est donc recommandé d’avoir des textes et des visuels (quelque peu) différents pour le Royaume-Uni et les États-Unis.

Dans chaque marché, vous souhaitez vous classer avec la bonne page. Voici où hreflang entre en jeu.

Ce que fera l’attribut hreflang:

Aidez les moteurs de recherche à classer le bon contenu sur le bon marché.
Évitez les problèmes de contenu en double.

Ce que l’attribut hreflang ne fera pas:

Empêchez les moteurs de recherche d’explorer certaines parties de votre site Web, préservant ainsi le budget d’exploration.
Empêchez les moteurs de recherche d’indexer certaines parties de votre site Web.
Consolidez les signaux de pertinence et d’autorité.

Attributs de pagination

Les attributs de lien rel = « prev » et rel = « next », en abrégé les attributs de pagination, sont utilisés pour communiquer les relations entre une série de pages aux moteurs de recherche. Pour les séries de pages similaires, telles que les pages d’archives de blog paginées ou les pages de catégories de produits paginées, il est vivement conseillé d’utiliser les attributs de pagination. Les moteurs de recherche comprendront que les pages sont très similaires, ce qui éliminera les problèmes de contenu en double.

Dans la plupart des cas, les moteurs de recherche ne classeront pas d’autres pages que la première de la série paginée.

Ce que feront les attributs de pagination:

Évitez les problèmes de contenu en double.
Consolidez les signaux de pertinence et d’autorité.

Ce que les attributs de pagination ne feront pas:

Empêchez les moteurs de recherche d’explorer certaines parties de votre site Web, préservant ainsi le budget d’exploration.
Empêchez les moteurs de recherche d’indexer certaines parties de votre site Web.

Attribut mobile

L’attribut mobile rel = « alternative », ou attribut mobile en abrégé, communique la relation entre les versions pour ordinateur et mobile d’un site Web aux moteurs de recherche. Il aide les moteurs de recherche à afficher le bon site Web pour le bon appareil et empêche les problèmes de contenu en double dans le processus.

Ce que fera l’attribut mobile:

Évitez les problèmes de contenu en double.
Consolidez les signaux de pertinence et d’autorité.

Ce que l’attribut mobile ne fera pas:

Empêchez les moteurs de recherche d’explorer certaines parties de votre site Web, préservant ainsi le budget d’exploration.
Empêchez les moteurs de recherche d’indexer certaines parties de votre site Web.

Gestion des paramètres dans les outils pour les webmasters

Si vous ne parvenez pas à modifier (rapidement) votre site Web, vous pouvez configurer la gestion des paramètres dans la Google Search Console et dans Bing Webmaster Tools. La gestion des paramètres définit la manière dont les moteurs de recherche doivent traiter les URL contenant un paramètre. En utilisant cela, vous pouvez dire à Google et Bing de ne pas explorer et / ou indexer certaines URL.

Pour configurer la gestion des paramètres, vous avez besoin d’URL identifiables par un modèle. La gestion des paramètres ne doit être utilisée que dans certaines situations, par exemple le tri, le filtrage, la traduction et l’enregistrement des données de session.

Note importante

Gardez à l’esprit que la configuration de cela pour Google et Bing n’affectera pas la façon dont les autres moteurs de recherche explorent votre site Web.

Que fera la gestion des paramètres:

Empêchez les moteurs de recherche d’explorer certaines parties de votre site Web, préservant ainsi le budget d’exploration.
Empêchez les moteurs de recherche d’indexer certaines parties de votre site Web.
Évitez les problèmes de contenu en double.
Consolidez les signaux de pertinence et d’autorité.

Ce que la gestion des paramètres ne fera pas:

Vous permet de configurer l’exploration et l’indexation pour des URL individuelles.

Authentification HTTP

L’authentification HTTP nécessite que les utilisateurs ou les machines se connectent pour accéder à un (section d’un) site Web.

Sans nom d’utilisateur et mot de passe, vous (ou un robot) ne passerez pas l’écran de connexion et vous ne pourrez accéder à rien. L’authentification HTTP est un excellent moyen de garder les visiteurs indésirables – à la fois les humains et les robots des moteurs de recherche – hors d’un environnement de test, par exemple. Google recommande d’utiliser l’authentification HTTP pour empêcher les robots des moteurs de recherche d’accéder aux environnements de test:

Si vous avez du contenu confidentiel ou privé que vous ne souhaitez pas voir apparaître dans les résultats de recherche Google, le moyen le plus simple et le plus efficace d’empêcher les URL privées d’apparaître est de les stocker dans un répertoire protégé par mot de passe sur le serveur de votre site. Googlebot et tous les autres robots d’exploration Web ne peuvent pas accéder au contenu des répertoires protégés par mot de passe.

Que fera l’authentification HTTP:

Empêchez les moteurs de recherche d’explorer certaines parties de votre site Web, préservant ainsi le budget d’exploration.
Empêchez les moteurs de recherche d’indexer certaines parties de votre site Web.
Évitez les problèmes de contenu en double.

Ce que l’authentification HTTP ne fera pas:

Consolidez les signaux de pertinence et d’autorité.
Fetch comme moteurs de recherche: se mettre à leur place

Alors, comment les robots des moteurs de recherche voient-ils vos pages et comment vos pages s’affichent-elles? Mettez-vous à leur place en utilisant leurs outils «Extraire et rendre».

La fonctionnalité « Explorer comme Googlebot » de Google est la plus connue. Il est situé dans Google Search Console et vous permet de remplir une URL sur votre site, puis Google vous montrera ce que leurs robots d’exploration voient sur cette URL et comment ils affichent l’URL. Vous pouvez le faire pour les ordinateurs de bureau et les mobiles.

Rendu d’une URL

C’est idéal pour vérifier si les URL répondent comme prévu, mais aussi pour forcer l’indexation push de l’URL (« Request indexing »). En quelques secondes, vous pouvez obtenir une URL explorée et indexée. Cela ne signifie pas que son contenu est immédiatement traité et que les classements sont ajustés, mais cela vous permet d’accélérer le processus d’exploration et d’indexation.

Autres situations dans lesquelles Fetch as Googlebot est utile

Fetch as Googlebot n’est pas seulement utile pour accélérer le processus d’exploration et d’indexation d’une URL individuelle, il vous permet également de:

Accélérez la découverte de nouvelles sections entières sur votre site Web

Récupérez l’URL à partir de laquelle les nouvelles sections sont liées et choisissez « Demander l’index » avec l’option « Explorer cette URL et ses liens directs »

Auditez l’expérience mobile des utilisateurs sur votre site:

Récupérez une URL en tant que « Mobile: smartphone ».
Vérifiez si les redirections 301 fonctionnent correctement.
Remplissez une URL et vérifiez la réponse de l’en-tête.

Questions fréquemment posées sur l’exploration et l’indexation

Que signifie l'indexation d'un site Web?

Cela signifie que des actions sont effectuées par un moteur de recherche pour essayer de donner un sens à un site Web, afin de le rendre trouvable via son moteur de recherche.

À quelle fréquence Google indexe-t-il mon site Web?

Aussi souvent que Google explore votre site Web. Ses robots d'exploration transmettront tout ce qu'ils ont trouvé à l'indexeur, qui se charge de l'indexation des sites Web.

Puis-je ralentir les robots d'exploration lorsqu'ils explorent mon site Web?

Oui, vous pouvez le faire en utilisant la directive robots.txt crawl-delay. Cependant, Google ne l’écoutera pas. Si vous souhaitez que Googlebot explore plus lentement que vous devez le configurer dans Google Search Console. Quelle que soit la méthode utilisée, il n'est pas recommandé de limiter les robots d'exploration de Google et de Bing. Leurs robots d'exploration sont suffisamment intelligents pour savoir quand votre site Web éprouve des difficultés, et ils reviendront plus tard dans ce cas.