Indéxation google ? Chaque site Web repose dans une certaine mesure sur Google. C’est simple : vos pages sont indexées par Google, ce qui permet aux gens de vous trouver. C’est ainsi que les choses devraient se passer.
Cependant, ce n’est pas toujours le cas. De nombreuses pages ne sont jamais indexées par Google .
Si vous travaillez avec un site Web, en particulier un grand, vous avez probablement remarqué que toutes les pages de votre site Web ne sont pas indexées et que de nombreuses pages attendent des semaines avant que Google ne les récupère.
Divers facteurs contribuent à ce problème, et nombre d’entre eux sont les mêmes que ceux mentionnés en ce qui concerne le classement – la qualité du contenu et les liens en sont deux exemples. Parfois, ces facteurs sont aussi très complexes et techniques. Les sites Web modernes qui reposent fortement sur les nouvelles technologies Web ont notoirement souffert de problèmes d’indexation dans le passé , et certains en souffrent encore.
De nombreux référenceurs pensent encore que ce sont les choses très techniques qui empêchent Google d’indexer le contenu, mais c’est un mythe. S’il est vrai que Google peut ne pas indexer vos pages si vous n’envoyez pas de signaux techniques cohérents sur les pages que vous souhaitez indexer ou si votre budget d’exploration est insuffisant, il est tout aussi important que vous soyez cohérent avec la qualité de votre contenu.
La plupart des sites Web, grands ou petits, ont beaucoup de contenu qui devrait être indexé, mais ce n’est pas le cas. Et bien que des choses comme JavaScript rendent l’indexation plus compliquée, votre site Web peut souffrir de graves problèmes d’indexation, même s’il est écrit en HTML pur. Dans cet article, abordons certains des problèmes les plus courants et comment les atténuer.
Raisons pour lesquelles Google n’indexe pas vos pages
À l’aide d’un outil de vérification d’indexation personnalisé , j’ai vérifié un large échantillon des magasins de commerce électronique les plus populaires aux États-Unis pour les problèmes d’indexation. J’ai découvert qu’en moyenne, 15 % de leurs pages de produits indexables sont introuvables sur Google.
Ce résultat était extrêmement surprenant. Ce que j’avais besoin de savoir ensuite, c’était « pourquoi » : quelles sont les raisons les plus courantes pour lesquelles Google décide de ne pas indexer quelque chose qui devrait techniquement être indexé ?
La console de recherche Google signale plusieurs statuts pour les pages non indexées, comme « Explorée – actuellement non indexée » ou « Découvert – actuellement non indexé ». Bien que ces informations n’aident pas explicitement à résoudre le problème, c’est un bon endroit pour commencer les diagnostics.
Principaux problèmes d’indexation Google
Sur la base d’un large échantillon de sites Web collectés par Search engine journal , les problèmes d’indexation les plus courants signalés par la console de recherche Google sont :
1. « Exploré – actuellement non indexé »
Dans ce cas, Google a visité une page mais ne l’a pas indexée.
D’après mon expérience, il s’agit généralement d’un problème de qualité du contenu. Compte tenu du boom du commerce électronique en cours , nous pouvons nous attendre à ce que Google devienne plus exigeant en matière de qualité. Donc, si vous remarquez que vos pages sont « explorées – actuellement non indexées », assurez-vous que le contenu de ces pages est d’une valeur unique :
- Utilisez des titres, des descriptions et des copies uniques sur toutes les pages indexables.
- Évitez de copier les descriptions de produits à partir de sources externes.
- Utilisez des balises canoniques pour consolider le contenu en double.
- Empêchez Google d’explorer ou d’indexer les sections de mauvaise qualité de votre site Web en utilisant le fichier robots.txt ou la balise noindex.
Vous pouvez également lire Comment mesurer la qualité de votre trafic SEO à l’aide de Google Analytics
2. « Découvert – actuellement non indexé »
C’est mon problème préféré avec lequel travailler, car il peut englober tout, des problèmes d’exploration à la qualité insuffisante du contenu. C’est un problème énorme, en particulier dans le cas des grands magasins de commerce électronique, et j’ai vu cela s’appliquer à des dizaines de millions d’URL sur un seul site Web.

Google peut signaler que les pages de produits de commerce électronique sont « Découvertes – actuellement non indexées » pour les raisons suivantes :
- Un problème de budget de crawl : il peut y avoir trop d’URL dans la file de crawl et celles-ci peuvent être crawlées et indexées plus tard.
- Un problème de qualité : Google peut penser que certaines pages de ce domaine ne valent pas la peine d’être explorées et décider de ne pas les visiter en recherchant un motif dans leur URL.
Faire face à ce problème demande une certaine expertise. Si vous découvrez que vos pages sont « Découvertes – actuellement non indexées », procédez comme suit :
- Identifiez s’il existe des modèles de pages entrant dans cette catégorie. Peut-être que le problème est lié à une catégorie spécifique de produits et que toute la catégorie n’est pas liée en interne ? Ou peut-être qu’une grande partie des pages de produits attendent dans la file d’attente pour être indexées ?
- Optimisez votre budget de crawl. Concentrez-vous sur le repérage des pages de mauvaise qualité que Google passe beaucoup de temps à explorer. Les suspects habituels incluent les pages de catégories filtrées et les pages de recherche internes – ces pages peuvent facilement atteindre des dizaines de millions sur un site de commerce électronique typique. Si Googlebot peut les explorer librement, il n’a peut-être pas les ressources nécessaires pour accéder aux éléments précieux de votre site Web indexés dans Google.
Lors du webinaire « Rendering SEO » , Martin Splitt de Google nous a donné quelques conseils pour résoudre le problème Discovered not indexed. Consultez-le si vous voulez en savoir plus.
3. « Contenu en double »
Ce problème est largement couvert par le Moz SEO Learning Center. Je veux juste souligner ici que le contenu en double peut être causé par diverses raisons, telles que :
- Variations linguistiques (par exemple, la langue anglaise au Royaume-Uni, aux États-Unis ou au Canada). Si vous avez plusieurs versions de la même page qui ciblent différents pays, certaines de ces pages peuvent se retrouver non indexées.
- Contenu en double utilisé par vos concurrents. Cela se produit souvent dans l’industrie du commerce électronique lorsque plusieurs sites Web utilisent la même description de produit fournie par le fabricant.
En plus d’utiliser rel=canonical, les redirections 301 ou la création de contenu unique, je me concentrerais sur la fourniture d’une valeur unique aux utilisateurs. Arbres à croissance rapide.com serait un exemple. Au lieu de descriptions ennuyeuses et de conseils sur la plantation et l’arrosage, le site Web vous permet de consulter une FAQ détaillée pour de nombreux produits.
De plus, vous pouvez facilement comparer des produits similaires.

Pour de nombreux produits, il fournit une FAQ. De plus, chaque client peut poser une question détaillée sur une plante et obtenir la réponse de la communauté.

Comment vérifier la couverture de l’index de votre site Web
Vous pouvez facilement vérifier le nombre de pages de votre site Web qui ne sont pas indexées en ouvrant le rapport Couverture de l’ index dans la console de recherche Google.

La première chose que vous devriez regarder ici est le nombre de pages exclues. Essayez ensuite de trouver un modèle : quels types de pages ne sont pas indexés ?
Si vous possédez une boutique de commerce électronique, vous verrez très probablement des pages de produits non indexées. Bien que cela devrait toujours être un signe d’avertissement, vous ne pouvez pas vous attendre à ce que toutes vos pages de produits soient indexées, en particulier avec un grand site Web. Par exemple, un grand magasin de commerce électronique aura forcément des pages en double et des produits expirés ou en rupture de stock. Ces pages peuvent ne pas avoir la qualité qui les placerait en tête de la file d’attente d’indexation de Google (et c’est si Google décide d’explorer ces pages en premier lieu).
De plus, les grands sites Web de commerce électronique ont tendance à avoir des problèmes de budget de crawl . J’ai vu des cas de magasins de commerce électronique ayant plus d’un million de produits alors que 90 % d’entre eux étaient classés comme « découverts – actuellement non indexés ». Mais si vous voyez que des pages importantes sont exclues de l’index de Google, vous devriez être profondément inquiet.
Comment augmenter la probabilité que Google indexe vos pages
Chaque site Web est différent et peut souffrir de problèmes d’indexation différents. Cependant, voici quelques-unes des meilleures pratiques qui devraient aider vos pages à être indexées :
1. Évitez les signaux « Soft 404 »
Assurez-vous que vos pages ne contiennent rien qui puisse faussement indiquer un statut 404 logiciel. Cela inclut tout, de l’utilisation de « Non trouvé » ou « Non disponible » dans la copie au nombre « 404 » dans l’URL.
2. Utilisez les liens internes
internes sont l’un des signaux clés pour Google qu’une page donnée est une partie importante du site Web et mérite d’être indexée. Ne laissez aucune page orpheline dans la structure de votre site Web et n’oubliez pas d’inclure toutes les pages indexables dans vos plans de site.
3. Mettez en œuvre une stratégie d’exploration solide
Ne laissez pas Google explorer votre site Web. Si trop de ressources sont consacrées à l’exploration des parties les moins précieuses de votre domaine, Google pourrait mettre trop de temps à accéder aux bonnes choses. L’analyse des journaux du serveur peut vous donner une image complète de ce que Googlebot explore et comment l’optimiser.
4. Éliminez le contenu de mauvaise qualité et en double
Chaque grand site Web finit par se retrouver avec des pages qui ne devraient pas être indexées. Assurez-vous que ces pages ne se retrouvent pas dans vos plans de site et utilisez la balise noindex et le fichier robots.txt le cas échéant. Si vous laissez Google passer trop de temps dans les pires parties de votre site, cela pourrait sous-estimer la qualité globale de votre domaine.
5. Envoyez des signaux SEO cohérents.
Un exemple courant d’envoi de signaux de référencement incohérents à Google est la modification des balises canoniques avec JavaScript. Comme Martin Splitt de Google l’a mentionné lors des heures de bureau JavaScript SEO, vous ne pouvez jamais être sûr de ce que Google fera si vous avez une balise canonique dans le code HTML source et une autre après le rendu de JavaScript.
Le web devient trop gros
Au cours des deux dernières années, Google a fait des pas de géant dans le traitement de JavaScript, facilitant ainsi le travail des référenceurs. De nos jours, il est moins courant de voir des sites Web basés sur JavaScript qui ne sont pas indexés en raison de la pile technologique spécifique qu’ils utilisent.
Mais peut-on s’attendre à ce qu’il en soit de même avec les problèmes d’indexation qui ne sont pas liés à JavaScript ? Je ne pense pas.
Internet est en constante croissance. Chaque jour, de nouveaux sites Web apparaissent et les sites Web existants se développent.
Google peut-il relever ce défi ?
Cette question apparaît de temps en temps. J’aime citer Google ici :
« Google dispose d’un nombre limité de ressources. Par conséquent, face à la quantité presque infinie de contenu disponible en ligne, Googlebot n’est capable de trouver et d’explorer qu’un pourcentage de ce contenu. Ensuite, du contenu que nous avons exploré, nous ne pouvons indexer qu’une partie.
Pour le dire différemment, Google est capable de visiter seulement une partie de toutes les pages du Web et d’en indexer une partie encore plus petite. Et même si votre site Web est incroyable, gardez cela à l’esprit.
Google ne visitera probablement pas toutes les pages de votre site Web, même s’il est relativement petit. Votre travail consiste à vous assurer que Google peut découvrir et indexer les pages essentielles pour votre entreprise.