
Le fichier robots.txt, qu’est-ce que c’est ?
Le fichier « robots.txt » est un fichier d’instruction pour les moteurs de recherche.
C’est le premier élément recherché par les araignées (crawlers ou bots). Il indique aux moteurs quels fichiers ou répertoires ils ne doivent pas indexer. Il doit être placé à la racine du site (au même niveau que la page d’accueil et le fichier favicon.ico) : son adresse est donc www.votresite.com/robots.txt.
Le fichier robots.txt est-il tenu en compte par tous les moteurs ?
La majorité des bots tiennent compte des instructions du fichier robots.txt parce qu’il permet d’optimiser le travail et l’indexation des moteurs de recherche.
Plusieurs cependant n’en tiennent pas compte, ce qui est évidemment le cas des bots malicieux. Un bot qui ne respecte pas le fichier robots.txt est d’ailleurs un bon indice que cette machine devrait se voir interdire l’accès au serveur.
Le fichier robots.txt, à quoi il sert ?
Au départ, le fichier robots.txt visait à empêcher les bots de se perdre dans des « trous noirs » par exemple, les contenus générés dynamiquement qui peuvent créer d’infinie possibilités d’adresses URL.
Un exemple de ce genre de pages dynamiques : une base de données permet de consulter les accords entre le Québec et d’autres états, par secteurs et par dates. La recherche permet de choisir les critères et les pages de résultats sont générées dynamiquement et conservent ces critères dans l’adresse URL. La page et l’adresse URL seront donc générées, même si aucun résultat, aucun accord, n’existe. Voir l'exemple dans « Ententes internationales » sur le site du ministère des Relations internationales.
Il peut aussi être pertinent de vouloir exclure de l’index des moteurs certaines pages :
- La page de requête du moteur de recherche interne,
- Les pages qui suivent celles qui nécessitent un enregistrement,
- Les pages qui dupliquent le contenu,
- Etc.
Pour certains sites volumineux, l’exclusion de certaines pages dynamiques permet d’économiser l’utilisation de la bande passante.
Le fichier robots.txt n’est pas obligatoire. S’il n’en trouve pas, le bot considère qu’il peut parcourir tout le site. Certains CMS (Drupal par exemple), incluent déjà un fichier robots.txt où, par défaut, on retrouve l’exclusion de certains répertoires d’administration.
Comment rédiger un fichier robots.txt
La rédaction d’un fichier robots.txt est relativement simple. Les illustrations ci-dessous montrent des exemples.

Dans l'exemple ci-dessus, deux répertoires – et les pages qui portent le même nom -- et une page sont interdits à tous les agents.

Dans l’exemple ci-contre, le bot de Google Image, Googlebot, ne doit pas lire et indexer le répertoire « Images ».
Enfin, dans ce dernier exemple, tout le site est interdit à tous les bots :

Le fichier robots.txt permet aussi d'être très sélectif : il peut être rédigé pour ne permettre l'accès qu'à certains moteurs (ou à un seul). Le site Internet d'Alexa par exemple n'autorise l'accès qu'à un nombre resteint de crawlers et interdit l'accès de tout son site à tous les autres. Assez ironique pour un site qui operè lui-même un bot ! À ce titre, Google a lui aussi son fichier robots.txt.
La compagnie d'analyse Omniture présente un fichier robots.txt assez élaboré avec une très longue liste de moteurs.
Même si rédiger un fichier robots.txt est assez simple, vous trouverez quand même sur le Web des outils pour vous aider à le faire. The.Intraformant par exemple propse un générateur qui intègre une liste de crawlers et de bots auquel vous pourrez interdire l'accès à certaines sections de votre site. Mais cette façon de faire est fastidieuse puisqu'elle exige de maintenir à jour une liste des bots et crawlers. Or, il en apparaît de nouveaux tous les jours ! Vous aurez aussi à déterminer si vous permettez ou non l'accès à des engins que vous ne connaissez même pas ! Et il faut toujours se rappeler que tous les bots ne respectent pas le fichiers robots.txt, particulièrement les bots malicieux.
La meilleure façon est de voir, dans vos fichiers de logs, lesquels parcourent effectivement votre site.
Attention : le fichier robots.txt n’assure pas la sécurité !
Il ne suffit pas d’inclure dans le fichier robots.txt les répertoires à accès restreint pour en assurer la confidentialité ! Bien sûr, les moteurs les excluront de leur parcours et ces pages n’apparaîtront pas dans les résultats de recherche, mais le fichier robots.txt est une des premières étapes dans le parcours des hackers. Il permet de voir la structure du site et la liste des répertoires d’administration. Si vous souhaitez vraiment protéger un répertoire et pas seulement en bloquer l’accès aux moteurs, utilisez d’autres méthodes (la protection par nom d’usager et mot de passe, à partir du serveur par exemple).
Questions… et réponses !
Le fichier robots.txt a-t-il une influence sur l’optimisation d’un site ?
La présence d’un fichier « robots.txt » sur un site n’a aucune influence en terme d’optimisation, il ne vous permet pas de gagner des places dans Google par exemple, mais il permet de s’assurer que les moteurs parcourent le site plus efficacement.
Dans le fichier robots.txt de mon site, j’ai indiqué que je voulais exclure toutes les pages d’un répertoire. Je me suis assuré de la validité de mon fichier, mais certaines pages de ce répertoire se retrouvent dans l’index de Google. Pourquoi ?
Il est possible que Google ait suivi un hyperlien fait vers cette page depuis un autre site, ou un autre répertoire de votre site. Dans ce cas, il ne présentera pas de description de la page de votre site ou encore, il présentera une description qui vient d’une autre source, souvent de l’Open Directory.
Pour assurer qu’une page ne sera pas indexée par les moteurs, il peut être utile d’ajouter les balises NoIndex et NoFollow aux pages, en plus du fichier robots.txt du site. Lorsque Google voit la balise NoIndex, il la retire de son index.
Si votre page se trouve déjà dans son index, Google fournit des outils aux webmestres pour les retirer.
Vous avez une question à nous soumettre concernant le fichier robots.txt ?
N'hésitez pas à communiquer avec nous !
Pour en savoir plus
• How to Set Up a robots.txt to Control Search Engine Spiders
• A Standard for Robot Exclusion
• Robots.txt Guide for Popular CMS and Shopping Carts
Cet article est particulièrement intéressant pour connaître les répertoires créés par les CMS et pour savoir lesquels exclure du parcours des crawlers.
How Google handles the robots.txt file








