Jump to content

Robots.txt et confidentialité


samsab

Recommended Posts

Bonjour à tous
je me pose la question métaphysique suivante...........

le robots.txt permet aussi de ne pas référencer des choses pour des raisons de sécurité/confidentialité (par exemple le répertoire admin, sensible par nature)
soit

mais n'importe qui peut faire www.monsite.com/robots.txt et connaitre l'identité de ce que l'on veut cacher....

comment empêcher l'accès direct à l'internaute de www.monsite.com/robots.txt?

merci pour vos conseils.

A+

Link to comment
Share on other sites

bonjour,

C'est pas le fichier robots.txt qu'il faut protéger. Par définition on ne peut pas... puisqu'il doit rester librement accessible aux bots !

En fait, vous devez protéger vos fichiers et répertoires confidentiels avec un mot de passe dans un fichier .htpasswd

Au passage je vous rappel quelques regles pour les robots.txt

* Un seul fichier robots.txt doit exister sur l'ensemble de votre site.
* Le fichier robots.txt devra toujours être situé à la racine de votre site et être écrit en minuscules.
* L'astérisque (*) n'est acceptée que dans le champ User-agent
* Plusieurs sections User-agent peuvent être créées dans votre fichier robots.txt
* Il n'existe pas de champs Allow.
* Vous pouvez inclure avant chaque directives des lignes commençant par # pour vos commentaires.
* Le fichier robots.txt ne doit pas contenir de lignes blanches.

Link to comment
Share on other sites

merci pour ta réponse.
pourrais tu me rappeler la commande (ht..........quelquechose) qui permet d'interdire de lister un répertoire
du genre www.monsite.com/repertoire --> me donne un message d'erreur ou d'interdiction.

c'est quand même très antinomique ce robots.txt qui gère la confidentialité sur les moteurs tout en étant absolument pas confidentiel lui-même.........
n'y a t il pas un réglage du serveur qui pourrai n'autoriser que des appels directs vers des pages php ou html, en interdisant tout appel direct vers notamment les .txt?

A vous lire
A+

Link to comment
Share on other sites

Si tu pouvais ca .. le robots pourrait pas y accéder lui-même
L'erreur vient du fait qu'on pourrait croire qu'un répertoire (et son contenu) serait mieux protéger s'il était plus discret
En théorie c'est vrai mais finalement c'est uniquement en protégeant le répertoire lui même que réside la véritable protection.
Pour prendre une image : pour protéger ton appart, achète un chien plutôt que d'effacer le nom sur ta sonnette

Link to comment
Share on other sites

Bonsoir la communauté.

Voila une petite astuce que vous pouvez utiliser pour interdire un répertoire aux moteur de recherche avec robots.txt, sans citer complètement le nom du répertoire. Il suffit d'en citer que les premières lettres, pour autant qu'aucun autre fichier ou répertoire ne commence par ces lettres.

Exemple: si votre répertoire s'appelle "/admin-dev", dans votre robots.txt, vous mettez: Disallow: /admin
Cela interdit toutes les URL qui commencent par "/admin" et personne ne sait que le répertoire réel s'appelle "/admin-dev".

Et pour aller plus loin on peu faire un dossier /admin sur son serveur avec dedans un doberman dressé pour la guerre de Troie [Pour les petits malins]

Cordialement.
Melki-Tsedeq

Link to comment
Share on other sites

Bonsoir la communauté.

Voila une petite astuce que vous pouvez utiliser pour interdire un répertoire avec robots.txt, sans citer complètement le nom du répertoire. Il suffit d'en citer que les premières lettres, pour autant qu'aucun autre fichier ou répertoire ne commence par ces lettres.

Exemple: si votre répertoire s'appelle "/admin-dev", dans votre robots.txt, vous mettez: Disallow: /admin
Cela interdit toutes les URL qui commencent par "/admin" et personne ne sait que le répertoire réel s'appelle "/admin-dev".

Et pour aller plus loin on peu faire un dossier /admin sur son serveur avec dedans un doberman dressé pour la guerre de Troie [Pour les petits malins]

Cordialement.
Melki-Tsedeq


salut
es tu certain de la syntaxe et de la véracité de ceci

mon robots txt est ainsi
User-agent: *
Disallow: /admin
Disallow: /config/
Disallow: /themes/
Disallow: /tools/


est pourtant mon rep admin_xxxx

a été googlé...
qui peut confirmer/infirmer?
A+
Link to comment
Share on other sites

Bonjour Samsab.

Alors la bizarre le comportement de Google vous faite bien de remonter le sujet.
A vue d’œil je dirais qu’il ne doit pas interpréter le trait d’union (touche 6) et l’underscore (touche 8) de la même façon.

Et pour quoi il est allé vous googlé un répertoire qui apparait nulle part.
Et avez-vous mis en place un fichier .htpasswd cité plus haut dans votre rep admin_xxxx.

Cordialement.
Melki-Tsedeq

Link to comment
Share on other sites

Le robots.txt n'est pas du tout fait pour la sécurité. Il n'interdit pas à un robot d'indexer tel ou tel dossier, mais il lui demande de ne pas le faire.
Si le robot est têtu (comme sûrement tous les spambots et autre cochonneries du genre), rien ne l'empêchera de visiter tous les liens auxquels tout le monde peut accéder, qu'ils soient listés dans le robots.txt ou pas.

Link to comment
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...