Comment créer un rapport de crawl et comment le comprendre?


La première étape consiste à renseigner correctement les informations nécessaires à la création d’un rapport de crawl. 


Commencer par saisir l’URL du domaine que l’on souhaite analyser. Il n’est pas nécessaire de spécifier le protocole (HTTP/HTTPS) puisque notre robot inspectera toutes les pages détectées sur le site.

Définir ensuite le nombre de pages. Pour rappel un crawl est un contrôle technique de l’ensemble d’un site, il est donc recommandé de crawler l’entièreté des pages. Choisir un nombre adapté afin d’analyser le site au complet.

Dans les options avancées on peut choisir si l’on souhaite que le crawler inspecte le ou les sitemap(s) du site.

Il est également possible dans ces options avancées de choisir d’ignorer les URLs avec paramètres. Pour rappel les URLs avec paramètres sont celles qui contiennent des éléments comme « # » ou « ? » et permettent de compléter la demande d’accès à une ressource en filtrant les informations de la page ou en chargeant la page pour l’afficher au niveau d’une ancre précise. 

La seconde partie de l’utilisation de l’outil de Crawl, comme le montre l’image ci-dessus, est l’accès au rapport d’analyse.

Dans le tableau présent sous le formulaire de création, retrouvez tous les rapports de crawl existants.

Il est possible « d’accéder à » ou de « supprimer » un rapport de crawl.

Chaque rapport de crawl est désigné par 4 éléments:

  • La date de création
  • L’URL de départ de l’analyse
  • Le nombre d’erreurs relevées
  • Le nombre de pages analysées


Ouverture du rapport 

A l’ouverture du rapport, comme le montre l’image ci-dessus, on trouve un rappel de la configuration du crawl avec: l’URL de départ, les paramètres avancés, ainsi que la date de création du rapport.

On y voit également le bouton permettant l’export du rapport, disponible en PDF ou en csv.


Il existe plusieurs façons d’explorer ce rapport: la première consiste à naviguer via les onglets présentés ci-dessus. On y retrouve les erreurs regroupées par catégories :

  • Exploration
  • URLs brisées
  • Redirections
  • Indexation
  • URLs dupliquées
  • Contenu
  • Performance


Ces catégories représentent des étapes, que l’on détaillera plus tard, et qui transcrivent les traitements effectués par les robots de Google pour évaluer une page. Chaque catégorie répond à une question comme le montre l’image suivante du funnel: 

Comme évoqué précédemment, il existe plusieurs façons de lire ce rapport. La seconde est liée à ce funnel qui répond à des questions. Lorsqu’une page est analysée par nos robots on s’interroge d’abord de savoir si la page est explorable. Si elle la page est explorable et valide l’étape, on analyse ensuite le code HTTP retourné pour savoir si l’URL est brisée. A nouveau si l’URL franchit l’étape elle passe à l’étape suivante jusqu’a la validation de toutes les étapes. Si l’URL valide toutes les étapes on dit qu’elle est « Conforme » c’est à dire qu’elle répond aux standards définis par Google pour dire qu’une page est correctement optimisée. Toute URL qui ne franchit pas une étape du funnel est ex-filtrée et sort de l’analyse. On peut les retrouver en cliquant directement sur l’étape du funnel concernée.


A gauche de ce funnel on retrouve 3 indicateurs:

  • Le nombre total d’erreurs détectées
  • Le nombre de pages « Conformes »
  • Le score de Santé du site

Ainsi qu’un bouton permettant une nouvelle analyse en un clic sans repasser par le formulaire de création. Une nouvelle analyse met à jour les informations du rapport. 

Dernier élément de ce premier onglet du rapport de crawl, comme le montre l’image ci-dessus: une liste de priorités à résoudre.

Sous le funnel on trouve une liste ordonnée d’erreurs à corriger qui prend en compte l’importance SEO de chaque élément analysé ainsi que le nombre d’occurrences rencontrées pour chaque type d’erreur.

Un clic sur l’une de ces erreurs donne accès à une explication de l’erreur et propose un lien pour accéder directement à toutes les URLs concernées par cette erreur.


Le contenu des onglets. 


Dans cette partie, on explorera le rapport via les onglets précédemment listés et on expliquera les informations qu’ils contiennent.


  L’onglet exploration 


ici, on se pose la question de savoir si les pages analysées sont explorables et si elles ne le sont pas, quelle en est la raison.

Une page peut ne pas être explorable parce qu’elle est:

  • Ignorée suite au paramétrage du Crawl
  • Bloquée via le Robots.txt
  • Bloquée via un lien Nofollow
  • Ignorée car l’URL est trop longue (> 4096 caractères)


La graphique facilite une lecture instantanée de la répartition page explorable vs. non-explorable.


Dans le tableau, on retrouve la liste des URLs analysées accompagnées de différentes informations:

  • L’URL concernée.
  • L’état, explorable ou non.
  • La source, c’est à dire l’endroit où à été trouvée l’URL analysée.



L’onglet Broken URLs

  

Dans cette partie on s’interroge pour savoir si les pages analysées sont brisées d’une manière ou d’une autre ou si elles sont valides et renvoie un code 200.

Une page peut être brisée à cause :


  • D’une erreur 404, code erreur d’une ressource brisée.
  • D’une erreur 4XX, code erreur général des problèmes côté client. 
  • D’une erreur 5XX, code erreur général des problèmes côté serveur.
  • D’une erreur de Timeout, chargement complet des ressources supérieur à 30s.
  • D’une erreur inconnue, concerne tous les codes d’erreurs HTTP peu fréquents.


La graphique facilite une lecture instantanée de la répartition page valides vs brisées.


Dans le tableau on retrouve la liste des URLs analysées accompagnées des informations suivantes:


  • L’URL concernée
  • L’état, valide ou brisée
  • La source, c’est à dire l’endroit où à été trouvée l’URL analysée



L’onglet Redirects  

Dans cette section, on cherche à savoir si l’accès à une URL est précédé d’une redirection ou non.

Une page peut être redirigée plusieurs fois et de différentes manières, en voici une liste:


  • Une boucle de redirection, c’est un enchainement de redirection d’une page à une autre jusqu’à former une boucle.
  • Une redirection permanente, comme les redirections 301, 303 ou 308, indiquent que la ressource souhaitée a changé d’URL de manière permanente.
  • Une redirection temporaire, comme les redirections 302 ou 307, qui indiquent que la ressource souhaitée est momentanément indisponible, attention de bien respecter le caractère temporaire de ces redirections.
  • Une meta Refresh, balise HTML qui permet de rediriger vers une URL différente après un timing défini.
  • Un header Refresh, header HTTP qui permet de rediriger vers une URL différente après un timing défini.


La graphique facilite une lecture instantanée de la répartition page avec redirection vs. sans redirection.


Dans le tableau on retrouve la liste des URLs analysées accompagnées des informations suivantes:


  • L’URL concernée
  • L’état, URL avec redirection ou non
  • La source, c’est-à-dire l’endroit où à été trouvée l’URL analysée
  • La cible, c’est-à-dire la destination atteinte après la redirection



L’onglet Indexation  

On s’attarde maintenant sur l’onglet indexation, pour lequel la question posée est plutôt évidente: ma page peut-elle être indexée dans les moteurs de recherche?

Un page peut ne pas être indexée pour différentes raisons, volontaires ou involontaires.
Comme le montre l’image ci-dessus, on retrouve dans cette section:


Les pages HTML indexables. 


Les pages non-HTML: qui sont des ressources autres que des pages web, comme par exemple les PDFs, les images, les documents textes, etc. ces fichiers peuvent être indexés mais le contenu n’est pas interprété par Google.


Les pages HTML non-indexables, qui peuvent l’être pour deux raisons:


  • Une balise HTML noindex, qui peut être trouvée sur la page et donne l’instruction aux robots de ne pas indexer la page.
  • Un header HTTP noindex, qui peut être trouvé dans l’en-tête et donne l’instruction aux robots de ne pas indexer la page.


La graphique facilite une lecture instantanée de la répartition pages indexables vs. non-indexables.


Dans le tableau, on retrouve la liste des URLs analysées accompagnées des informations suivantes:


  • L’URL concernée.
  • L’état, URL indexable ou non, ou fichier non-HTML.
  • La source, c’est à dire l’endroit où à été trouvée l’URL analysée.





L’onglet URLs Dupliquées  

Dans cette partie on va parler de contenu dupliqué. Deux pages ayant un contenu similaire n’apportent pas d’informations supplémentaires à un utilisateur, les moteurs de recherche et Google principalement ont tendance à pénaliser le contenu dupliqué.
Principalement en n’indexant qu’une page sur les deux, mais également en dépréciant les sites a fort contenu dupliqué. Une façon de parer ces problèmes de contenu dupliqué, consiste à renseigner la balise «meta canonique » d’une page avec l’URL la plus représentative des pages au contenu similaire. La meta canonique est une façon de déclarer une version préférée de page dans le cas où les robots d’indexation trouvent que le contenu de deux pages est trop semblable.


Comme le montre l’image ci-dessus, dans cette partie on retrouve:

  • Les URLs ayant une meta canonique interne, c’est-à-dire qu’elles font référence à une page interne au site.
  • Les URLs ayant une meta canonique sortante, c’est-à-dire qu’elle font référence à une page d’un autre site.
  • Les URLs ayant une meta canonique invalide, c’est-à-dire que la balise est mal renseignée, en généralement autrement qu’avec une URL.
  • Les URLs pour lesquelles le contenu est détecté comme dupliqué.


La graphique facilite une lecture instantanée de la répartition page dupliquée vs. unique.


Dans le tableau on retrouve la liste des URLs analysées accompagnée des informations suivantes:


  • L’URL concernée.
  • L’état, contenu dupliqué ou unique.
  • L’URL canonique, si elle existe.


L’onglet Contenu

 


Dans cette partie de l’analyse on parle du contenu, et on se pose la question de savoir si la richesse du contenu est suffisante.

Pour cela on s’intéresse à la quantité de mots présents dans le contenu de la page et dans le titre.


Comme le montre l’image ci-dessus on trouve:


  • Des erreurs de contenu, lorsque le nombre de mots-clés uniques est inférieur à 100.
  • Des erreurs de titre, lorsque le titre de page est manquant.
  • Des erreurs « combinées », lorsque le titre est manquant et que le nombre de mots-clés uniques est inférieur à 100.


La graphique facilite une lecture instantanée de la répartition page avec erreurs vs. sans erreur de contenu.


Dans le tableau on retrouve la liste des URLs analysées accompagnées des informations suivantes:


  • L’URL concernée.
  • L’état, avec ou sans erreur(s) de contenu.
  • L e nombre de mots-clés.
  • Le nombre de mots-clés uniques.
  • Le titre de la page (+ nombre de caractères).



L’onglet Page Speed


Dans cette dernière section on s’interroge sur la rapidité des pages à charger, pour proposer le contenu aux utilisateurs avec le moins de temps d’attente possible.

Pour cela, on va s’intéresser à plusieurs indicateurs comme le montre l’image ci-dessus, on retrouve les pages valides au niveau des performances mais aussi les pages en erreur, n’ayant pas validé l’étape.

Voici les types d’erreurs de performances bloquantes pour cette étape:


  • Les pages ayant un TTFB lent (> 800ms), TTFB signifie « Time to first byte » et représente le temps de connexion au serveur délivrant le contenu demandé.
  • Les pages ayant un FLT lent (> 6s), FLT signifie « Full load time » et représente le temps de chargement complet de la page et de toutes ses ressources.
  • Les pages ayant un TTFB et un FLT lent.


Le graphique facilite une lecture instantanée de la répartition des pages avec problèmes de performance vs. sans problèmes de performance.


Dans le tableau on retrouve la liste des URLs analysées accompagnées des informations suivantes:


  • L’URL concernée.
  • L’état, avec ou sans problème de performance.
  • Le TTFB, temps de connexion serveur en millisecondes.
  • Le FLT, temps de chargement complet en millisecondes.



La présentation de la navigation dans ce rapport de crawl étant maintenant complète, il reste à détailler les informations proposées dans les rapports de pages, disponibles pour toutes les URLs trouvées lors de l’exploration du site analysé.


Pour accéder à l’article concernant les informations proposées dans les rapports de page, veuillez vous rendre sur Le Rapport de page dans l’outil de Crawl, un état des lieux complet concernant une URL.



Si vous avez des questions supplémentaires, n’hésitez pas à contacter notre équipe via le chat ou par mail, nous nous ferons un plaisir de vous répondre!