Jump to content

[RESOLU]robots.txt Mediacom


Recommended Posts

Posted (edited)

Bonjour,

Si Mediacom passe par là ...

Ayant une tripotée de pages indexées avec des ?q etc, j'ai trouvé la page https://www.mediacom87.fr/googlebot-deviendrait-il-fou/

Merci pour ce tuto (impossible de me connecter à Discus pour le dire en direct sur la page, désolée).
J'ai donc suivi les indications et modifié le fichier robots.txt.

Je l'ai fait il y a 3-4 jours, cela aurait-il déjà un impact ? Non pas sur les pages en ?q machinchose qui sont toujours à se multiplier dans les pages indexées, mais dans les pages non indexées "à cause du robots.txt" où je retrouve des pages de produits. Gênant ...

Alors, d'une part, je ne comprends pas ce qui bloquerait dans le fichier, pas de nofollow dans le head, et la case produits est décochée dans le sitemap.

J'ai été voir ce que dit Google à ce sujet et utilisé son testeur de fichiers robots.txt. 

Déjà, je suis très peinée de voir qu'en fait il se fout pas mal des lignes ajoutées selon le tuto. Pour chaque ligne ajoutée pour le Noindex, il dit "Règle ignorée par GoogleBot".

Mais rien au sujet de ce qui pourrait être bloquant.

Je vous mets à tout hasard le contenu du fichier

User-agent: *
# Noindex Directives
Noindex: /*?order=
Noindex: /*?q=
Noindex: /*&order=
Noindex: /*&q=
# Allow Directives
Allow: */modules/*.css
Allow: */modules/*.js
Allow: */modules/*.png
Allow: */modules/*.jpg
Allow: */modules/*.gif
Allow: */modules/*.svg
Allow: */modules/*.webp
Allow: /js/jquery/*
# Private pages
# Disallow: /*?order=
Disallow: /*?tag=
Disallow: /*?id_currency=
Disallow: /*?search_query=
Disallow: /*?back=
Disallow: /*?n=
# Disallow: /*&order=
Disallow: /*&tag=
Disallow: /*&id_currency=
Disallow: /*&search_query=
Disallow: /*&back=
Disallow: /*&n=
Disallow: /*controller=addresses
Disallow: /*controller=address
Disallow: /*controller=authentication
Disallow: /*controller=cart
Disallow: /*controller=discount
Disallow: /*controller=footer
Disallow: /*controller=get-file
Disallow: /*controller=header
Disallow: /*controller=history
Disallow: /*controller=identity
Disallow: /*controller=images.inc
Disallow: /*controller=init
Disallow: /*controller=my-account
Disallow: /*controller=order
Disallow: /*controller=order-slip
Disallow: /*controller=order-detail
Disallow: /*controller=order-follow
Disallow: /*controller=order-return
Disallow: /*controller=order-confirmation
Disallow: /*controller=pagination
Disallow: /*controller=password
Disallow: /*controller=pdf-invoice
Disallow: /*controller=pdf-order-return
Disallow: /*controller=pdf-order-slip
Disallow: /*controller=product-sort
Disallow: /*controller=registration
Disallow: /*controller=search
Disallow: /*controller=statistics
Disallow: /*controller=attachment
Disallow: /*controller=guest-tracking
# Directories for www.free-bouddha.fr
Disallow: /app/
Disallow: /cache/
Disallow: /classes/
Disallow: /config/
Disallow: /controllers/
Disallow: /download/
Disallow: /js/
Disallow: /localization/
Disallow: /log/
Disallow: /mails/
Disallow: /modules/
Disallow: /override/
Disallow: /pdf/
Disallow: /src/
Disallow: /tools/
Disallow: /translations/
Disallow: /upload/
Disallow: /var/
Disallow: /vendor/
Disallow: /webservice/
# Files
Disallow: /password-recovery
Disallow: /address
Disallow: /addresses
Disallow: /login
Disallow: /registration
Disallow: /cart
Disallow: /discount
Disallow: /order-history
Disallow: /identity
Disallow: /my-account
Disallow: /order-follow
Disallow: /credit-slip
Disallow: /order
Disallow: /search
Disallow: /guest-tracking
Disallow: /order-confirmation

 

J'ai installé un module permettant de retirer les id de produits etc pour simplifier les urls. Il fait bien les redirections sur les nouvelles adresses. Voici un exemple de lien bloqué https://www.free-bouddha.fr/carte-postale-bouddhiste-mantra-de-manjushri.html (ou ancienne adresse https://www.free-bouddha.fr/objets-rituels-bouddhistes/14244-carte-postale-bouddhiste-mantra-de-manjushri.html).

C'est un peu la cata car je me rends compte qu'il y a plein de produits désindexés ...

Cela aurait été pour du duplicate content, j'aurais pu comprendre car il y a pas mal de produits similaires. Mais à cause du robots.txt, là je ne comprends absolument pas pourquoi !

Si quelqu'un pouvait m'apporter quelques lumières avant que la boutique ne sombre dans les tréfonds de la Toile, ce serait hyper sympa !

Merci d'avance 

Edited by Cirice (see edit history)
Link to comment
Share on other sites

En me relisant et ayant ainsi le robots.txt et le lien sous les yeux, je subodore une raison : l'url commence par cart(e) ... Me trompe-je ?

Et, réflexion faite, je me suis demandée pourquoi les urls étaient en anglais alors que le site est en français. J'ai donc tout traduit (en me demandant quand même comment faire si j'ai un produit qui s'appelle panier ??). J'ai retesté, le blocage tait toujours là mais peut-être faut-il attendre que le robot repasse ?

Par ailleurs, vu que le noindex dans le robots.text est le cadet des soucis de Google, je me demandais s'il ne serait pas plus simple d'ajouter dans le head

{if $page.page_name != 'category' || $page.page_name != 'index' || .page.page_name != 'product' || $page.page_name != 'cms'}
<meta name="robots" content="noindex nofollow">
{else}
<meta name="robots" content="index follow">
{/if}

Peut-être en rajoutant ce que Mediacom préconisait pour le head ?

J'aimerais que Google comprenne qu'il doit retirer toutes ces pages issues du module à facettes (avec des q etc) pour pouvoir me centrer sur les pages valables qui ont des soucis. Car là, difficile de s'y retrouver dans les 3M de pages non indexées et les 136K (pour 3000 produits) indexés.

Merci !

Link to comment
Share on other sites

Posted (edited)

Le robots.txt ne permettra jamais de desindexer de manière curative des pages indexées indésirables. 

En effet, il faut pour cela mettre des balises noindex...et que le crawl de ces pages soit possible ! 

Edited by Johann (see edit history)
Link to comment
Share on other sites

@Johann j'ai été voir votre site. L'idée d'un module mettant en noindex les produits n'ayant pas suffisamment de texte est séduisante, mais ces modules sont-ils compatibles avec PS 8 ? Quelle serait la différence avec de l'url canonical ? Vu que je ne suis pas très pro en référencement et que je ne comprends pas tout, je m'interroge sur les chances d'une page d'être trouvée par un internaute si elle n'est pas en url canonique. Par ex si j'ai 10 robes assez similaires, que je mets la A en url canonique pour toutes les autres, l'internaute arrivera sur la A avec sa recherche, mais pas sur la B ?D'où l'intérêt d'avoir un bloc "Produits dans la même catégorie" sur la page du A pour qu'il se rende compte qu'il y aurait peut-être quelque chose qui lui conviendrait ?

Très bête question, mais pas toujours facile de comprendre tous ces termes.

Link to comment
Share on other sites

Il y a 3 heures, Cirice a dit :

@Johann j'ai été voir votre site. L'idée d'un module mettant en noindex les produits n'ayant pas suffisamment de texte est séduisante, mais ces modules sont-ils compatibles avec PS 8 ? Quelle serait la différence avec de l'url canonical ? Vu que je ne suis pas très pro en référencement et que je ne comprends pas tout, je m'interroge sur les chances d'une page d'être trouvée par un internaute si elle n'est pas en url canonique. Par ex si j'ai 10 robes assez similaires, que je mets la A en url canonique pour toutes les autres, l'internaute arrivera sur la A avec sa recherche, mais pas sur la B ?D'où l'intérêt d'avoir un bloc "Produits dans la même catégorie" sur la page du A pour qu'il se rende compte qu'il y aurait peut-être quelque chose qui lui conviendrait ?

Très bête question, mais pas toujours facile de comprendre tous ces termes.

 

Pour l'instant, peu de mes modules sont compatibles PS 8, mais je vais m'y coller bientôt ! 

Link to comment
Share on other sites

Il y a 15 heures, Cirice a dit :

J'ai installé un module permettant de retirer les id de produits etc pour simplifier les urls. Il fait bien les redirections sur les nouvelles adresses. Voici un exemple de lien bloqué https://www.free-bouddha.fr/carte-postale-bouddhiste-mantra-de-manjushri.html (ou ancienne adresse https://www.free-bouddha.fr/objets-rituels-bouddhistes/14244-carte-postale-bouddhiste-mantra-de-manjushri.html).

Bonjour, pourtant cette page est bien indexée dans Google : test index de la page

Link to comment
Share on other sites

Hello,
pour désindexer des pages qui ne doivent pas être indéxée, il faut suivre la bonne méthode et dans le bon ordre :

  1. Retirer le blocage du crawl dans le robots.txt
  2. Mettre les pages en noIndex
  3. Attendre que Google visite ces pages et les desindexe
  4. Remettre le blocage du crawl dans le robots.txt

Si vous le souhaitez, vous pouvez facilement ajouter un noindex sur toutes les pages générées par ce module en utilisant notre module Op'art No Index: 

https://addons.prestashop.com/fr/seo-referencement-naturel/30924-op-art-noindex-booster-votre-seo-eviter-les-penalites.html

Link to comment
Share on other sites

Il y a 19 heures, Olivier CLEMENCE a dit :

Hello,
pour désindexer des pages qui ne doivent pas être indéxée, il faut suivre la bonne méthode et dans le bon ordre :

  1. Retirer le blocage du crawl dans le robots.txt
  2. Mettre les pages en noIndex
  3. Attendre que Google visite ces pages et les desindexe
  4. Remettre le blocage du crawl dans le robots.txt

Si vous le souhaitez, vous pouvez facilement ajouter un noindex sur toutes les pages générées par ce module en utilisant notre module Op'art No Index: 

https://addons.prestashop.com/fr/seo-referencement-naturel/30924-op-art-noindex-booster-votre-seo-eviter-les-penalites.html

Exactement ce que j'explique dans mon article, mais peut-être devrais-je rajouter cette simple liste pour ceux qui ne lisent pas complètement les articles.

Link to comment
Share on other sites

Le 28/05/2025 à 12:37 PM, Mediacom87 a dit :

Exactement ce que j'explique dans mon article, mais peut-être devrais-je rajouter cette simple liste pour ceux qui ne lisent pas complètement les articles.

Je vous assure que j'ai lu la page à plusieurs reprises et jusqu'au bout à chaque fois et c'était ce que j'avais fait : noindex dans robots.txt et "commentage" des disallow correspondants, ainsi qu'indiqué dans la copie que j'avais postée.
Sauf que noindex dans le robots.txt n'est plus suivi par Google depuis 2019 (je ne sais plus à quel moment Google me l'a indiqué) ... du coup, il y a eu un boom d'urls indexées 🙂 (toutes celles dont je ne voulais pas ... l'exact inverse de ce qui était recherché). Alors oui, il faut retirer les disallow mais mettre les noindex dans l'entête de la page. J'ai commencé par du code dans head.tpl avec des conditions, mais, au final, cela a été plus simple avec le module d'Olivier Clémence car j'ai pu lui dire (au module, pas à Olivier) de mettre noindex sur toutes les pages avec un ?

Quant à la page citée en exemple en début de post, oui, Google la disait présente sur le Net, mais quand j'en demandais l'indexation, il me la bloquait. Mais, à première vue, depuis, il est revenu sur sa position.

Link to comment
Share on other sites

  • Cirice changed the title to [RESOLU]robots.txt Mediacom

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...