Jump to content

Fichier robots.txt & Google Merchant Center : URL bloquées par le fichier robots.txt


Recommended Posts

Bonjour à tous,

Après avoir épluché plusieurs posts sur le sujet (certains remontant à 2013 comme celui-ci), je vous sollicite sur le sujet de l'autorisation de crawl pour les flux shopping.

Voici le cas dans lequel je me trouve :

L'un de mes clients vient de mettre en prod un site neuf sous Prestashop, début janvier 2019.

Particularité de ce site, la BDD (produits/marques/appareils etc...) est bourrée d'incohérences et de données foireuses :(.

Par conséquent, je ne souhaite autoriser au crawl (et à l'indexation mais c'est un autre sujet) que certaines URLs à savoir

- La homepage

- Quelques "catégories" au cas par cas

Ceci, afin d'avoir une maîtrise maximale du crawl par Googlebot.

 

Quelques données complémentaires pour bien saisir le problème : 

- Mes fiches produits contiennent toutes un répertoire /p/

- Les user-agent a autoriser pour les flux sont : Googlebot, Googlebot-image, AdsBot-Google-Mobile, AdsBot-Google (d'après la documentation Google officielle) 

- La volumétrie du site est relativement importante : 20K URL a l'heure actuelle. 2M après injection de l'ensemble du catalogue produit, dans quelques semaines/mois.

 

Mon soucis est donc le suivant : en l'état avec un fichier robots.txt tel que celui-ci, mon client ne peut valider son flux shopping puisque les fiches produits ne sont pas autorisées au crawl.

Le fichier robots.txt était jusqu'ici le suivant :

User-agent: *
#Blocage par defaut de l’ensemble des pages
Disallow: /

#Pages autorisees Janvier 2019
Allow: /$

Allow: url-cat-1

Allow: url-cat-2

Allow: url-cat-1

Allow: Etc...

Dans la mesure ou le "*" concerne tous les user-agent et donc y compris ceux mentionnés plus haut pour les flux, en principe le nouveau fichier robots.txt correct devrait être :

User-agent: *
#Blocage par defaut de l’ensemble des pages
Disallow: /

#Pages autorisees Janvier 2019
Allow: /$

Allow: url-cat-1

Allow: url-cat-2

Allow: url-cat-1

Allow: Etc...

Allow: /p/

L'ajout de la directive "Allow: /p/" devrait régler le problème. Mon client m'indique cependant que celui-ci ne fonctionne pas.. Pourtant, l'outil de test du fichier robots.txt m'indique bien que mes URLs produits sont autorisées.

Question 1 : cette nouvelle version est-elle correcte selon vous ?

Question 2 : Je parlais du crawl et de l'indexation plus haut. Dans la mesure ou Shopping est décorélé de la partie Search, pouvez-vous me confirmer que la directive ajoutée "Allow: /p/" est compatible avec l'ajout d'une balise noindex sur l'ensemble des fiches produits contenant le répertoire /p/ ? Je souhaite par ce biais, autoriser le crawl des fiches produits mais interdire leur indexation pour ne pas spammer l'index

Merci d'avance de votre retour,

Link to comment
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...