[RESOLU]robots.txt Mediacom

Cirice · May 26

Bonjour,

Si Mediacom passe par là ...

Ayant une tripotée de pages indexées avec des ?q etc, j'ai trouvé la page https://www.mediacom87.fr/googlebot-deviendrait-il-fou/

Merci pour ce tuto (impossible de me connecter à Discus pour le dire en direct sur la page, désolée).
J'ai donc suivi les indications et modifié le fichier robots.txt.

Je l'ai fait il y a 3-4 jours, cela aurait-il déjà un impact ? Non pas sur les pages en ?q machinchose qui sont toujours à se multiplier dans les pages indexées, mais dans les pages non indexées "à cause du robots.txt" où je retrouve des pages de produits. Gênant ...

Alors, d'une part, je ne comprends pas ce qui bloquerait dans le fichier, pas de nofollow dans le head, et la case produits est décochée dans le sitemap.

J'ai été voir ce que dit Google à ce sujet et utilisé son testeur de fichiers robots.txt.

Déjà, je suis très peinée de voir qu'en fait il se fout pas mal des lignes ajoutées selon le tuto. Pour chaque ligne ajoutée pour le Noindex, il dit "Règle ignorée par GoogleBot".

Mais rien au sujet de ce qui pourrait être bloquant.

Je vous mets à tout hasard le contenu du fichier

User-agent: *
# Noindex Directives
Noindex: /*?order=
Noindex: /*?q=
Noindex: /*&order=
Noindex: /*&q=
# Allow Directives
Allow: */modules/*.css
Allow: */modules/*.js
Allow: */modules/*.png
Allow: */modules/*.jpg
Allow: */modules/*.gif
Allow: */modules/*.svg
Allow: */modules/*.webp
Allow: /js/jquery/*
# Private pages
# Disallow: /*?order=
Disallow: /*?tag=
Disallow: /*?id_currency=
Disallow: /*?search_query=
Disallow: /*?back=
Disallow: /*?n=
# Disallow: /*&order=
Disallow: /*&tag=
Disallow: /*&id_currency=
Disallow: /*&search_query=
Disallow: /*&back=
Disallow: /*&n=
Disallow: /*controller=addresses
Disallow: /*controller=address
Disallow: /*controller=authentication
Disallow: /*controller=cart
Disallow: /*controller=discount
Disallow: /*controller=footer
Disallow: /*controller=get-file
Disallow: /*controller=header
Disallow: /*controller=history
Disallow: /*controller=identity
Disallow: /*controller=images.inc
Disallow: /*controller=init
Disallow: /*controller=my-account
Disallow: /*controller=order
Disallow: /*controller=order-slip
Disallow: /*controller=order-detail
Disallow: /*controller=order-follow
Disallow: /*controller=order-return
Disallow: /*controller=order-confirmation
Disallow: /*controller=pagination
Disallow: /*controller=password
Disallow: /*controller=pdf-invoice
Disallow: /*controller=pdf-order-return
Disallow: /*controller=pdf-order-slip
Disallow: /*controller=product-sort
Disallow: /*controller=registration
Disallow: /*controller=search
Disallow: /*controller=statistics
Disallow: /*controller=attachment
Disallow: /*controller=guest-tracking
# Directories for www.free-bouddha.fr
Disallow: /app/
Disallow: /cache/
Disallow: /classes/
Disallow: /config/
Disallow: /controllers/
Disallow: /download/
Disallow: /js/
Disallow: /localization/
Disallow: /log/
Disallow: /mails/
Disallow: /modules/
Disallow: /override/
Disallow: /pdf/
Disallow: /src/
Disallow: /tools/
Disallow: /translations/
Disallow: /upload/
Disallow: /var/
Disallow: /vendor/
Disallow: /webservice/
# Files
Disallow: /password-recovery
Disallow: /address
Disallow: /addresses
Disallow: /login
Disallow: /registration
Disallow: /cart
Disallow: /discount
Disallow: /order-history
Disallow: /identity
Disallow: /my-account
Disallow: /order-follow
Disallow: /credit-slip
Disallow: /order
Disallow: /search
Disallow: /guest-tracking
Disallow: /order-confirmation

J'ai installé un module permettant de retirer les id de produits etc pour simplifier les urls. Il fait bien les redirections sur les nouvelles adresses. Voici un exemple de lien bloqué : https://www.free-bouddha.fr/carte-postale-bouddhiste-mantra-de-manjushri.html (ou ancienne adresse https://www.free-bouddha.fr/objets-rituels-bouddhistes/14244-carte-postale-bouddhiste-mantra-de-manjushri.html).

C'est un peu la cata car je me rends compte qu'il y a plein de produits désindexés ...

Cela aurait été pour du duplicate content, j'aurais pu comprendre car il y a pas mal de produits similaires. Mais à cause du robots.txt, là je ne comprends absolument pas pourquoi !

Si quelqu'un pouvait m'apporter quelques lumières avant que la boutique ne sombre dans les tréfonds de la Toile, ce serait hyper sympa !

Merci d'avance

Edited May 30 by Cirice (see edit history)

Cirice · May 26

En me relisant et ayant ainsi le robots.txt et le lien sous les yeux, je subodore une raison : l'url commence par cart(e) ... Me trompe-je ?

Et, réflexion faite, je me suis demandée pourquoi les urls étaient en anglais alors que le site est en français. J'ai donc tout traduit (en me demandant quand même comment faire si j'ai un produit qui s'appelle panier ??). J'ai retesté, le blocage tait toujours là mais peut-être faut-il attendre que le robot repasse ?

Par ailleurs, vu que le noindex dans le robots.text est le cadet des soucis de Google, je me demandais s'il ne serait pas plus simple d'ajouter dans le head :

{if $page.page_name != 'category' || $page.page_name != 'index' || .page.page_name != 'product' || $page.page_name != 'cms'}
<meta name="robots" content="noindex nofollow">
{else}
<meta name="robots" content="index follow">
{/if}

Peut-être en rajoutant ce que Mediacom préconisait pour le head ?

J'aimerais que Google comprenne qu'il doit retirer toutes ces pages issues du module à facettes (avec des q etc) pour pouvoir me centrer sur les pages valables qui ont des soucis. Car là, difficile de s'y retrouver dans les 3M de pages non indexées et les 136K (pour 3000 produits) indexés.

Merci !

Johann · May 26

Le robots.txt ne permettra jamais de desindexer de manière curative des pages indexées indésirables.

En effet, il faut pour cela mettre des balises noindex...et que le crawl de ces pages soit possible !

Edited May 26 by Johann (see edit history)

Cirice · May 26

Merci Johann. Pour que le crawl soit possible, il faut quoi ?

Cirice · May 26

@Johann j'ai été voir votre site. L'idée d'un module mettant en noindex les produits n'ayant pas suffisamment de texte est séduisante, mais ces modules sont-ils compatibles avec PS 8 ? Quelle serait la différence avec de l'url canonical ? Vu que je ne suis pas très pro en référencement et que je ne comprends pas tout, je m'interroge sur les chances d'une page d'être trouvée par un internaute si elle n'est pas en url canonique. Par ex si j'ai 10 robes assez similaires, que je mets la A en url canonique pour toutes les autres, l'internaute arrivera sur la A avec sa recherche, mais pas sur la B ?D'où l'intérêt d'avoir un bloc "Produits dans la même catégorie" sur la page du A pour qu'il se rende compte qu'il y aurait peut-être quelque chose qui lui conviendrait ?

Très bête question, mais pas toujours facile de comprendre tous ces termes.

Johann · May 26

Il y a 4 heures, Cirice a dit :

Merci Johann. Pour que le crawl soit possible, il faut quoi ?

Il faut ne pas bloquer les urls dans le robots.txt 😊

Johann · May 26

Il y a 3 heures, Cirice a dit :

@Johann j'ai été voir votre site. L'idée d'un module mettant en noindex les produits n'ayant pas suffisamment de texte est séduisante, mais ces modules sont-ils compatibles avec PS 8 ? Quelle serait la différence avec de l'url canonical ? Vu que je ne suis pas très pro en référencement et que je ne comprends pas tout, je m'interroge sur les chances d'une page d'être trouvée par un internaute si elle n'est pas en url canonique. Par ex si j'ai 10 robes assez similaires, que je mets la A en url canonique pour toutes les autres, l'internaute arrivera sur la A avec sa recherche, mais pas sur la B ?D'où l'intérêt d'avoir un bloc "Produits dans la même catégorie" sur la page du A pour qu'il se rende compte qu'il y aurait peut-être quelque chose qui lui conviendrait ?

Très bête question, mais pas toujours facile de comprendre tous ces termes.

Pour l'instant, peu de mes modules sont compatibles PS 8, mais je vais m'y coller bientôt !

Prestashop Addict · May 27

Il y a 15 heures, Cirice a dit :

J'ai installé un module permettant de retirer les id de produits etc pour simplifier les urls. Il fait bien les redirections sur les nouvelles adresses. Voici un exemple de lien bloqué : https://www.free-bouddha.fr/carte-postale-bouddhiste-mantra-de-manjushri.html (ou ancienne adresse https://www.free-bouddha.fr/objets-rituels-bouddhistes/14244-carte-postale-bouddhiste-mantra-de-manjushri.html).

Bonjour, pourtant cette page est bien indexée dans Google : test index de la page

Olivier CLEMENCE · May 27

Hello,
pour désindexer des pages qui ne doivent pas être indéxée, il faut suivre la bonne méthode et dans le bon ordre :

Retirer le blocage du crawl dans le robots.txt
Mettre les pages en noIndex
Attendre que Google visite ces pages et les desindexe
Remettre le blocage du crawl dans le robots.txt

Si vous le souhaitez, vous pouvez facilement ajouter un noindex sur toutes les pages générées par ce module en utilisant notre module Op'art No Index:

https://addons.prestashop.com/fr/seo-referencement-naturel/30924-op-art-noindex-booster-votre-seo-eviter-les-penalites.html

Mediacom87 · May 28

Il y a 19 heures, Olivier CLEMENCE a dit :

Hello,
pour désindexer des pages qui ne doivent pas être indéxée, il faut suivre la bonne méthode et dans le bon ordre :

Retirer le blocage du crawl dans le robots.txt

Mettre les pages en noIndex

Attendre que Google visite ces pages et les desindexe

Remettre le blocage du crawl dans le robots.txt

Si vous le souhaitez, vous pouvez facilement ajouter un noindex sur toutes les pages générées par ce module en utilisant notre module Op'art No Index:

https://addons.prestashop.com/fr/seo-referencement-naturel/30924-op-art-noindex-booster-votre-seo-eviter-les-penalites.html

Exactement ce que j'explique dans mon article, mais peut-être devrais-je rajouter cette simple liste pour ceux qui ne lisent pas complètement les articles.

Olivier CLEMENCE · May 28

1 hour ago, Mediacom87 said:

Exactement ce que j'explique dans mon article, mais peut-être devrais-je rajouter cette simple liste pour ceux qui ne lisent pas complètement les articles.

Tu devrais oui 😄

Mediacom87 · May 28

il y a 11 minutes, Olivier CLEMENCE a dit :

Tu devrais oui 😄

Et voilà, c'est fait.

Cirice · May 30

Le 28/05/2025 à 12:37 PM, Mediacom87 a dit :

Exactement ce que j'explique dans mon article, mais peut-être devrais-je rajouter cette simple liste pour ceux qui ne lisent pas complètement les articles.

Je vous assure que j'ai lu la page à plusieurs reprises et jusqu'au bout à chaque fois et c'était ce que j'avais fait : noindex dans robots.txt et "commentage" des disallow correspondants, ainsi qu'indiqué dans la copie que j'avais postée.
Sauf que noindex dans le robots.txt n'est plus suivi par Google depuis 2019 (je ne sais plus à quel moment Google me l'a indiqué) ... du coup, il y a eu un boom d'urls indexées 🙂 (toutes celles dont je ne voulais pas ... l'exact inverse de ce qui était recherché). Alors oui, il faut retirer les disallow mais mettre les noindex dans l'entête de la page. J'ai commencé par du code dans head.tpl avec des conditions, mais, au final, cela a été plus simple avec le module d'Olivier Clémence car j'ai pu lui dire (au module, pas à Olivier) de mettre noindex sur toutes les pages avec un ?

Quant à la page citée en exemple en début de post, oui, Google la disait présente sur le Net, mais quand j'en demandais l'indexation, il me la bloquait. Mais, à première vue, depuis, il est revenu sur sa position.

Olivier CLEMENCE · May 30

Hell oui en effet le noindex dans le robots.txt n'est plus suivi depuis longtemps, seul en header !

[RESOLU]robots.txt Mediacom

Recommended Posts

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Create an account or sign in to comment

Create an account

Sign in