Jump to content

Erreurs d'exploration Google - Robot.txt + problème d'urls indexés trop faibles


Recommended Posts

Bonjour,

Voila mon problème, j'ai de erreur d'exploration google sur certains de mes liens importants, soit disant bloqué par un robot.txt alors que ce n'est normalement pas le cas.

Voici quelques urls bloqués :

http://www.herosecurite.com/en/cart?add&id_product=95&token=11a74699e66755e388c9c76f07fd6b19
URL à accès restreint par un fichier robots.txt 16 juin 2011
http://www.herosecurite.com/fr/106-projecteur?orderby=name&orderway=asc
URL à accès restreint par un fichier robots.txt 16 juin 2011
http://www.herosecurite.com/fr/106-projecteur?orderby=name&orderway=desc
URL à accès restreint par un fichier robots.txt 16 juin 2011
http://www.herosecurite.com/fr/105-lampe-frontale?orderby=quantity&orderway=desc
URL à accès restreint par un fichier robots.txt 16 juin 2011
http://www.herosecurite.com/fr/106-projecteur?orderby=price&orderway=asc
URL à accès restreint par un fichier robots.txt 16 juin 2011
http://www.herosecurite.com/fr/104-brise-vitre-intervention?orderby=price&orderway=asc
URL à accès restreint par un fichier robots.txt 16 juin 2011
http://www.herosecurite.com/fr/10-tonfa?orderby=price&orderway=asc
URL à accès restreint par un fichier robots.txt 16 juin 2011
http://www.herosecurite.com/fr/10-tonfa?orderby=price&orderway=desc
URL à accès restreint par un fichier robots.txt 16 juin 2011
http://www.herosecurite.com/fr/104-brise-vitre-intervention?orderby=name&orderway=asc
URL à accès restreint par un fichier robots.txt 16 juin 2011
http://www.herosecurite.com/fr/103-maglite?orderby=quantity&orderway=desc
URL à accès restreint par un fichier robots.txt 16 juin 2011
http://www.herosecurite.com/fr/10-tonfa?orderby=name&orderway=desc
URL à accès restreint par un fichier robots.txt 16 juin 2011


Et mon fichier robot.txt :

# robots.txt automaticaly generated by PrestaShop e-commerce open-source solution
# http://www.prestashop.com - http://www.prestashop.com/forums

# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these "robots" where not to go on your site,
# you save bandwidth and server resources.

# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html

User-agent: *
# Directories
Disallow: /classes/
Disallow: /config/
Disallow: /download/
Disallow: /mails/
Disallow: /modules/
Disallow: /translations/
Disallow: /tools/
Disallow: /es/
# Files
Disallow: /addresses.php
Disallow: /address.php
Disallow: /authentication.php
Disallow: /cart.php
Disallow: /discount.php
Disallow: /footer.php
Disallow: /get-file.php
Disallow: /header.php
Disallow: /history.php
Disallow: /identity.php
Disallow: /images.inc.php
Disallow: /init.php
Disallow: /my-account.php
Disallow: /order.php
Disallow: /order-opc.php
Disallow: /order-slip.php
Disallow: /order-detail.php
Disallow: /order-follow.php
Disallow: /order-return.php
Disallow: /order-confirmation.php
Disallow: /pagination.php
Disallow: /password.php
Disallow: /pdf-invoice.php
Disallow: /pdf-order-return.php
Disallow: /pdf-order-slip.php
Disallow: /product-sort.php
Disallow: /search.php
Disallow: /statistics.php
Disallow: /attachment.php
Disallow: /guest-tracking
Disallow: /*orderby=
Disallow: /*orderway=
Disallow: /*tag=
Disallow: /*id_currency=
Disallow: /*search_query=
Disallow: /*id_lang=
Disallow: /*back=
Disallow: /*utm_source=
Disallow: /*utm_medium=
Disallow: /*utm_campaign=
Disallow: /*n=
# Sitemap
Sitemap: http://www.herosecurite.com/sitemap.xml



Vous voyez un problème ?

Autre problème, sur 3 086 urls fournies dans le sitemap je n'est que 92 urls indexés dans l'index web, cela me semble vraiment tres faible, surtout que j'ai plus de 200 produits... Cela viendra au fil du temps ?

Merci
Link to comment
Share on other sites

Bonjour,

Les url cités sont bel et bien bloqués par votre fichier robots.txt c'est pratiquement des pages de catégories où il y'a des paramètres supplémentaires (comme le tri par prix etc). et je doute que vos fiches produits soient bloqués de ce fait.

Quant aux 92 urls indexés alors que vous avez 200 produits, depuis quand votre site est en ligne ?

Cdt,

Link to comment
Share on other sites

Bonjour

Effectivement les Google Webmaster Tools affichent en "erreurs" les pages bloquées par le robots.txt ; mais c'est une situation normale ;)

Pour le reste, à ce jour je ne connais AUCUNE boutique ayant atteint 100% d'indexation (surtout avec +200 produits) ; il ne faut pas s'arrêter à ce genre de détail, tant que le taux d'indexation reste raisonnable. Si vous êtes à 5 ou 10%, là effectivement il faut s'inquiéter, mais passé 70%, c'est du travail rédactionnel qu'il faut réaliser (une fois les problématiques de duplicate content écartées au niveau des URL)

Link to comment
Share on other sites

  • 2 months later...

Bonjour,

 

J'ai tout de meme du mal a comprendre pourquoi les pages de categories sont dans le sitemap si au final elles sont bloques par robots.txt genere par defaut. N'aurait-il pas ete plus simple de ne pas les inclure dans le sitemap ?

Link to comment
Share on other sites

  • 8 months later...

Bonjour

 

j’utilise la version 1.4.7.0 de prestashop, j'ai généré un fichier robots.txt, mais celui ci n'est pas accessible.

 

en allant sur http://monsite.com/robots.txt j'ai la page d'erreur 404.

 

J'ai vérifié sur le serveur et le fichier est bien là

 

le fichier n'est pas accessible a cette url

http://monsite.com/robots.txt

 

le fichier est accessible a cette url

http://www.monsite.com/robots.txt

 

J'ai pas d'url rewriting, shop domain name est :

monsite.com (pas www)

mon fichier sitemap est accessible en http://monsite.com/sitemap.xml et dans ce fichier toutes les pages commencent pas http://monsite.com/

 

que dois je faire pour que google puisse avoir access au fichier robots?

Merci de votre aide

 

Bonjour alors moi j'ai le meme probleme mais c'est l'iverse.

 

j’utilise la version 1.4.7.0 de prestashop, j'ai généré un fichier robots.txt, mais celui ci n'est pas accessible.

 

en allant sur http://monsite.com/robots.txt j'ai la page d'erreur 404.

 

J'ai vérifié sur le serveur et le fichier est bien là

 

le fichier n'est pas accessible a cette url

http://monsite.com/robots.txt

 

le fichier est accessible a cette url

http://www.monsite.com/robots.txt

 

J'ai pas d'url rewriting, shop domain name est :

monsite.com (pas www)

mon fichier sitemap est accessible en http://monsite.com/sitemap.xml et dans ce fichier toutes les pages commencent pas http://monsite.com/

 

que dois je faire pour que google puisse avoir access au fichier robots?

Merci de votre aide

Link to comment
Share on other sites

Guest
This topic is now closed to further replies.
×
×
  • Create New...