J'ai récemment découvert la ressource ai.robots.txt, qui fournit une liste de crawlers d'IA ainsi que des configurations pour divers serveurs web. Cette solution m'a semblé intéressante à évaluer, surtout pour ceux d'entre vous qui souhaitent gérer ce type de trafic de manière efficace.

Pourquoi ai.robots.txt est pertinent

La liste inclut différents types de crawlers liés à l'IA, sans se limiter à un usage spécifique. Selon la documentation, plusieurs de ces crawlers ont été initialement identifiés par Dark Visitors, une initiative que je trouve précieuse.

Mon verdict : cette liste est un point de départ utile, mais ne garantit pas une protection totale contre tous les crawlers d'IA.

Fichiers et configurations disponibles

Le dépôt fournit plusieurs fichiers : robots.txt, .htaccess, nginx-block-ai-bots.conf, Caddyfile, et haproxy-block-ai-bots.txt. Voici un aperçu de chacun :

robots.txt: implémente le protocole d'exclusion des robots (RFC 9309).
.htaccess: pour configurer Apache et retourner une erreur aux crawlers répertoriés.
nginx-block-ai-bots.conf: peut être inclus dans un host virtuel Nginx pour bloquer les bots.
Caddyfile: inclut des règles pour Caddy, facile à intégrer.
haproxy-block-ai-bots.txt: utilisé pour configurer HAProxy et bloquer les bots d'IA.

Intégration pratique

Sur le papier, l'intégration des fichiers est simple, et la mise en place sur un serveur bien configuré ne devrait pas poser de problème majeur. Par exemple, pour HAProxy, il suffit d'ajouter ceci dans la section frontend :

acl ai_robot hdr_sub(user-agent) -i -f /etc/haproxy/haproxy-block-ai-bots.txt
http-request deny if ai_robot

Notez que le chemin vers votre fichier peut varier en fonction de l'environnement.

Contributions et mises à jour

Une section que j'ai trouvée particulièrement intéressante concerne la manière dont les contributions sont gérées : les mises à jour doivent passer par robots.json, un GitHub action générant automatiquement les autres fichiers. Les tests peuvent être exécutés à l'aide de Python :

pip install -r requirements.txt
code/tests.py

Un bon exemple de coordination open source.

Licences et protection

En plus du blocage, vous pouvez envisager de licencier votre contenu pour les entreprises d'IA grâce au Really Simple Licensing (RSL). Des plugins WordPress existent pour faciliter ce processus.

Pourquoi est-ce pertinent pour vous ?

Cette solution est particulièrement utile si vous souhaitez gérer les implications du crawling d'IA. Cependant, il est crucial de bien comprendre les limitations de chaque serveur et de l'environnement dans lequel ils s'exécutent.