Cirice Posted May 26 Share Posted May 26 (edited) Bonjour, Si Mediacom passe par là ... Ayant une tripotée de pages indexées avec des ?q etc, j'ai trouvé la page https://www.mediacom87.fr/googlebot-deviendrait-il-fou/ Merci pour ce tuto (impossible de me connecter à Discus pour le dire en direct sur la page, désolée). J'ai donc suivi les indications et modifié le fichier robots.txt. Je l'ai fait il y a 3-4 jours, cela aurait-il déjà un impact ? Non pas sur les pages en ?q machinchose qui sont toujours à se multiplier dans les pages indexées, mais dans les pages non indexées "à cause du robots.txt" où je retrouve des pages de produits. Gênant ... Alors, d'une part, je ne comprends pas ce qui bloquerait dans le fichier, pas de nofollow dans le head, et la case produits est décochée dans le sitemap. J'ai été voir ce que dit Google à ce sujet et utilisé son testeur de fichiers robots.txt. Déjà, je suis très peinée de voir qu'en fait il se fout pas mal des lignes ajoutées selon le tuto. Pour chaque ligne ajoutée pour le Noindex, il dit "Règle ignorée par GoogleBot". Mais rien au sujet de ce qui pourrait être bloquant. Je vous mets à tout hasard le contenu du fichier User-agent: * # Noindex Directives Noindex: /*?order= Noindex: /*?q= Noindex: /*&order= Noindex: /*&q= # Allow Directives Allow: */modules/*.css Allow: */modules/*.js Allow: */modules/*.png Allow: */modules/*.jpg Allow: */modules/*.gif Allow: */modules/*.svg Allow: */modules/*.webp Allow: /js/jquery/* # Private pages # Disallow: /*?order= Disallow: /*?tag= Disallow: /*?id_currency= Disallow: /*?search_query= Disallow: /*?back= Disallow: /*?n= # Disallow: /*&order= Disallow: /*&tag= Disallow: /*&id_currency= Disallow: /*&search_query= Disallow: /*&back= Disallow: /*&n= Disallow: /*controller=addresses Disallow: /*controller=address Disallow: /*controller=authentication Disallow: /*controller=cart Disallow: /*controller=discount Disallow: /*controller=footer Disallow: /*controller=get-file Disallow: /*controller=header Disallow: /*controller=history Disallow: /*controller=identity Disallow: /*controller=images.inc Disallow: /*controller=init Disallow: /*controller=my-account Disallow: /*controller=order Disallow: /*controller=order-slip Disallow: /*controller=order-detail Disallow: /*controller=order-follow Disallow: /*controller=order-return Disallow: /*controller=order-confirmation Disallow: /*controller=pagination Disallow: /*controller=password Disallow: /*controller=pdf-invoice Disallow: /*controller=pdf-order-return Disallow: /*controller=pdf-order-slip Disallow: /*controller=product-sort Disallow: /*controller=registration Disallow: /*controller=search Disallow: /*controller=statistics Disallow: /*controller=attachment Disallow: /*controller=guest-tracking # Directories for www.free-bouddha.fr Disallow: /app/ Disallow: /cache/ Disallow: /classes/ Disallow: /config/ Disallow: /controllers/ Disallow: /download/ Disallow: /js/ Disallow: /localization/ Disallow: /log/ Disallow: /mails/ Disallow: /modules/ Disallow: /override/ Disallow: /pdf/ Disallow: /src/ Disallow: /tools/ Disallow: /translations/ Disallow: /upload/ Disallow: /var/ Disallow: /vendor/ Disallow: /webservice/ # Files Disallow: /password-recovery Disallow: /address Disallow: /addresses Disallow: /login Disallow: /registration Disallow: /cart Disallow: /discount Disallow: /order-history Disallow: /identity Disallow: /my-account Disallow: /order-follow Disallow: /credit-slip Disallow: /order Disallow: /search Disallow: /guest-tracking Disallow: /order-confirmation J'ai installé un module permettant de retirer les id de produits etc pour simplifier les urls. Il fait bien les redirections sur les nouvelles adresses. Voici un exemple de lien bloqué : https://www.free-bouddha.fr/carte-postale-bouddhiste-mantra-de-manjushri.html (ou ancienne adresse https://www.free-bouddha.fr/objets-rituels-bouddhistes/14244-carte-postale-bouddhiste-mantra-de-manjushri.html). C'est un peu la cata car je me rends compte qu'il y a plein de produits désindexés ... Cela aurait été pour du duplicate content, j'aurais pu comprendre car il y a pas mal de produits similaires. Mais à cause du robots.txt, là je ne comprends absolument pas pourquoi ! Si quelqu'un pouvait m'apporter quelques lumières avant que la boutique ne sombre dans les tréfonds de la Toile, ce serait hyper sympa ! Merci d'avance Edited May 30 by Cirice (see edit history) Link to comment Share on other sites More sharing options...
Cirice Posted May 26 Author Share Posted May 26 En me relisant et ayant ainsi le robots.txt et le lien sous les yeux, je subodore une raison : l'url commence par cart(e) ... Me trompe-je ? Et, réflexion faite, je me suis demandée pourquoi les urls étaient en anglais alors que le site est en français. J'ai donc tout traduit (en me demandant quand même comment faire si j'ai un produit qui s'appelle panier ??). J'ai retesté, le blocage tait toujours là mais peut-être faut-il attendre que le robot repasse ? Par ailleurs, vu que le noindex dans le robots.text est le cadet des soucis de Google, je me demandais s'il ne serait pas plus simple d'ajouter dans le head : {if $page.page_name != 'category' || $page.page_name != 'index' || .page.page_name != 'product' || $page.page_name != 'cms'} <meta name="robots" content="noindex nofollow"> {else} <meta name="robots" content="index follow"> {/if} Peut-être en rajoutant ce que Mediacom préconisait pour le head ? J'aimerais que Google comprenne qu'il doit retirer toutes ces pages issues du module à facettes (avec des q etc) pour pouvoir me centrer sur les pages valables qui ont des soucis. Car là, difficile de s'y retrouver dans les 3M de pages non indexées et les 136K (pour 3000 produits) indexés. Merci ! Link to comment Share on other sites More sharing options...
Johann Posted May 26 Share Posted May 26 (edited) Le robots.txt ne permettra jamais de desindexer de manière curative des pages indexées indésirables. En effet, il faut pour cela mettre des balises noindex...et que le crawl de ces pages soit possible ! Edited May 26 by Johann (see edit history) Link to comment Share on other sites More sharing options...
Cirice Posted May 26 Author Share Posted May 26 Merci Johann. Pour que le crawl soit possible, il faut quoi ? Link to comment Share on other sites More sharing options...
Cirice Posted May 26 Author Share Posted May 26 @Johann j'ai été voir votre site. L'idée d'un module mettant en noindex les produits n'ayant pas suffisamment de texte est séduisante, mais ces modules sont-ils compatibles avec PS 8 ? Quelle serait la différence avec de l'url canonical ? Vu que je ne suis pas très pro en référencement et que je ne comprends pas tout, je m'interroge sur les chances d'une page d'être trouvée par un internaute si elle n'est pas en url canonique. Par ex si j'ai 10 robes assez similaires, que je mets la A en url canonique pour toutes les autres, l'internaute arrivera sur la A avec sa recherche, mais pas sur la B ?D'où l'intérêt d'avoir un bloc "Produits dans la même catégorie" sur la page du A pour qu'il se rende compte qu'il y aurait peut-être quelque chose qui lui conviendrait ? Très bête question, mais pas toujours facile de comprendre tous ces termes. Link to comment Share on other sites More sharing options...
Johann Posted May 26 Share Posted May 26 Il y a 4 heures, Cirice a dit : Merci Johann. Pour que le crawl soit possible, il faut quoi ? Il faut ne pas bloquer les urls dans le robots.txt 😊 Link to comment Share on other sites More sharing options...
Johann Posted May 26 Share Posted May 26 Il y a 3 heures, Cirice a dit : @Johann j'ai été voir votre site. L'idée d'un module mettant en noindex les produits n'ayant pas suffisamment de texte est séduisante, mais ces modules sont-ils compatibles avec PS 8 ? Quelle serait la différence avec de l'url canonical ? Vu que je ne suis pas très pro en référencement et que je ne comprends pas tout, je m'interroge sur les chances d'une page d'être trouvée par un internaute si elle n'est pas en url canonique. Par ex si j'ai 10 robes assez similaires, que je mets la A en url canonique pour toutes les autres, l'internaute arrivera sur la A avec sa recherche, mais pas sur la B ?D'où l'intérêt d'avoir un bloc "Produits dans la même catégorie" sur la page du A pour qu'il se rende compte qu'il y aurait peut-être quelque chose qui lui conviendrait ? Très bête question, mais pas toujours facile de comprendre tous ces termes. Pour l'instant, peu de mes modules sont compatibles PS 8, mais je vais m'y coller bientôt ! Link to comment Share on other sites More sharing options...
Prestashop Addict Posted May 27 Share Posted May 27 Il y a 15 heures, Cirice a dit : J'ai installé un module permettant de retirer les id de produits etc pour simplifier les urls. Il fait bien les redirections sur les nouvelles adresses. Voici un exemple de lien bloqué : https://www.free-bouddha.fr/carte-postale-bouddhiste-mantra-de-manjushri.html (ou ancienne adresse https://www.free-bouddha.fr/objets-rituels-bouddhistes/14244-carte-postale-bouddhiste-mantra-de-manjushri.html). Bonjour, pourtant cette page est bien indexée dans Google : test index de la page Link to comment Share on other sites More sharing options...
Olivier CLEMENCE Posted May 27 Share Posted May 27 Hello, pour désindexer des pages qui ne doivent pas être indéxée, il faut suivre la bonne méthode et dans le bon ordre : Retirer le blocage du crawl dans le robots.txt Mettre les pages en noIndex Attendre que Google visite ces pages et les desindexe Remettre le blocage du crawl dans le robots.txt Si vous le souhaitez, vous pouvez facilement ajouter un noindex sur toutes les pages générées par ce module en utilisant notre module Op'art No Index: https://addons.prestashop.com/fr/seo-referencement-naturel/30924-op-art-noindex-booster-votre-seo-eviter-les-penalites.html Link to comment Share on other sites More sharing options...
Mediacom87 Posted May 28 Share Posted May 28 Il y a 19 heures, Olivier CLEMENCE a dit : Hello, pour désindexer des pages qui ne doivent pas être indéxée, il faut suivre la bonne méthode et dans le bon ordre : Retirer le blocage du crawl dans le robots.txt Mettre les pages en noIndex Attendre que Google visite ces pages et les desindexe Remettre le blocage du crawl dans le robots.txt Si vous le souhaitez, vous pouvez facilement ajouter un noindex sur toutes les pages générées par ce module en utilisant notre module Op'art No Index: https://addons.prestashop.com/fr/seo-referencement-naturel/30924-op-art-noindex-booster-votre-seo-eviter-les-penalites.html Exactement ce que j'explique dans mon article, mais peut-être devrais-je rajouter cette simple liste pour ceux qui ne lisent pas complètement les articles. Link to comment Share on other sites More sharing options...
Olivier CLEMENCE Posted May 28 Share Posted May 28 1 hour ago, Mediacom87 said: Exactement ce que j'explique dans mon article, mais peut-être devrais-je rajouter cette simple liste pour ceux qui ne lisent pas complètement les articles. Tu devrais oui 😄 Link to comment Share on other sites More sharing options...
Mediacom87 Posted May 28 Share Posted May 28 il y a 11 minutes, Olivier CLEMENCE a dit : Tu devrais oui 😄 Et voilà, c'est fait. Link to comment Share on other sites More sharing options...
Cirice Posted May 30 Author Share Posted May 30 Le 28/05/2025 à 12:37 PM, Mediacom87 a dit : Exactement ce que j'explique dans mon article, mais peut-être devrais-je rajouter cette simple liste pour ceux qui ne lisent pas complètement les articles. Je vous assure que j'ai lu la page à plusieurs reprises et jusqu'au bout à chaque fois et c'était ce que j'avais fait : noindex dans robots.txt et "commentage" des disallow correspondants, ainsi qu'indiqué dans la copie que j'avais postée. Sauf que noindex dans le robots.txt n'est plus suivi par Google depuis 2019 (je ne sais plus à quel moment Google me l'a indiqué) ... du coup, il y a eu un boom d'urls indexées 🙂 (toutes celles dont je ne voulais pas ... l'exact inverse de ce qui était recherché). Alors oui, il faut retirer les disallow mais mettre les noindex dans l'entête de la page. J'ai commencé par du code dans head.tpl avec des conditions, mais, au final, cela a été plus simple avec le module d'Olivier Clémence car j'ai pu lui dire (au module, pas à Olivier) de mettre noindex sur toutes les pages avec un ? Quant à la page citée en exemple en début de post, oui, Google la disait présente sur le Net, mais quand j'en demandais l'indexation, il me la bloquait. Mais, à première vue, depuis, il est revenu sur sa position. Link to comment Share on other sites More sharing options...
Olivier CLEMENCE Posted May 30 Share Posted May 30 Hell oui en effet le noindex dans le robots.txt n'est plus suivi depuis longtemps, seul en header ! Link to comment Share on other sites More sharing options...
Recommended Posts
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now