robots.txt pour les robots d’IA : autoriser ou bloquer GPTBot, ClaudeBot et plus
Mis à jour — 10 min de lecture
Votre fichier robots.txt est le levier le plus puissant dont vous disposez pour contrôler quels robots d'IA peuvent accéder à votre site web. Dans un seul court fichier texte placé à la racine de votre domaine, vous décidez si des robots comme GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot et Google-Extended sont autorisés à lire vos pages. La règle est simple et directe : autoriser ces robots est nécessaire pour que votre contenu soit découvert, résumé et cité par les moteurs de réponses IA, tandis que les bloquer retire votre site de l'entraînement et de la citation par l'IA. Si vous voulez apparaître dans ChatGPT, Claude, Perplexity et les AI Overviews de Google, vous devez autoriser les bons robots. Si vous voulez garder votre contenu à l'écart des systèmes d'IA, vous les bloquez. Ce guide est une référence définitive et pratique sur le robots.txt pour les robots d'IA, avec des exemples à copier-coller pour chaque scénario.
Disallow accidentel est l'un des moyens les plus rapides de devenir invisible pour tous les grands assistants IA. Vérifiez le vôtre avant toute autre chose.Comment fonctionne le robots.txt (un bref rappel)
Le robots.txt est un fichier en texte brut qui se trouve à la racine de votre domaine (par exemple, https://example.com/robots.txt). Il suit le Robots Exclusion Protocol, une norme volontaire que les robots bien élevés — y compris tous les grands robots d'IA — consultent avant de récupérer vos pages. Le fichier est composé d'un ou plusieurs groupes, et chaque groupe cible un robot et lui indique ce à quoi il peut ou ne peut pas accéder.
Il y a trois directives que vous devez comprendre :
- `User-agent` — nomme le robot auquel les règles s'appliquent. La valeur est le token du user-agent du robot (par exemple,
GPTBotouClaudeBot). Un caractère génériqueUser-agent: *s'applique à tous les robots qui n'ont pas leur propre groupe spécifique. - `Disallow` — indique au robot nommé de ne pas accéder à un chemin.
Disallow: /bloque l'ensemble du site ;Disallow: /private/bloque uniquement ce dossier ; unDisallow:vide ne bloque rien. - `Allow` — autorise explicitement un chemin, généralement utilisé pour créer une exception au sein d'un
Disallowplus large. La plupart des robots, y compris les robots d'IA, le prennent en charge.
Deux règles de priorité comptent. Premièrement, un robot obéit au groupe le plus spécifique qui le nomme, et non au groupe générique. Si vous avez à la fois un bloc User-agent: * et un bloc User-agent: GPTBot, GPTBot suit ses propres règles et ignore complètement le générique. Deuxièmement, au sein d'un groupe, la règle de chemin la plus spécifique (la plus longue) l'emporte lorsque Allow et Disallow se chevauchent. Mal appliquer ces deux règles est à l'origine de la plupart des blocages accidentels.
Les robots d'IA que vous devriez connaître
Les entreprises d'IA modernes exploitent plusieurs robots contrôlables séparément — généralement un pour l'entraînement, un pour l'indexation de recherche/citation, et un pour les récupérations en direct lancées par l'utilisateur. Cette séparation est la clé d'un contrôle nuancé : vous pouvez autoriser les robots qui vous font citer tout en bloquant ceux qui ne servent qu'à alimenter l'entraînement des modèles. Le tableau ci-dessous liste les tokens de user-agent actuels et corrects à mettre dans votre robots.txt (utilisez le token court, et non la chaîne complète de user-agent HTTP).
Les grands robots d'IA, leurs opérateurs, et ce que bloquer chacun d'eux entraîne (2026)
| Token de user-agent | Opérateur | À quoi il sert | Ce que le bloquer entraîne |
|---|---|---|---|
GPTBot | OpenAI | Explore le contenu utilisé pour entraîner les modèles de base d'OpenAI. | Retire votre contenu de l'entraînement des modèles d'OpenAI. Ne vous retire pas à lui seul de la recherche ChatGPT. |
OAI-SearchBot | OpenAI | Indexe les pages afin qu'elles puissent être présentées et citées dans la recherche ChatGPT. | Vous retire des résultats et des citations de la recherche ChatGPT. |
ChatGPT-User | OpenAI | Récupère une URL précise en direct lorsqu'un utilisateur demande à ChatGPT de la lire ou de la parcourir. | Empêche ChatGPT de récupérer vos pages à la demande directe d'un utilisateur. |
ClaudeBot | Anthropic | Explore le contenu utilisé pour entraîner les modèles Claude d'Anthropic. | Retire votre contenu de l'entraînement des modèles Claude. |
Claude-SearchBot | Anthropic | Indexe le contenu pour les fonctions de recherche et de citation de Claude. | Vous retire des réponses et citations de Claude basées sur la recherche. |
Claude-User | Anthropic | Récupère les pages en direct lorsque la requête d'un utilisateur de Claude nécessite une navigation. | Empêche Claude de récupérer vos pages à la demande d'un utilisateur. |
anthropic-ai | Anthropic | Agent d'entraînement hérité/obsolète (à inclure tout de même par souci d'exhaustivité). | Bloque l'ancien token d'agent d'Anthropic. Largement remplacé par ClaudeBot. |
PerplexityBot | Perplexity | Indexe les pages afin que Perplexity puisse les présenter et les citer dans ses réponses. | Vous retire des réponses de recherche citées de Perplexity. |
Perplexity-User | Perplexity | Récupère une URL en direct lorsque la requête d'un utilisateur de Perplexity l'exige. | Empêche les récupérations en direct lancées par l'utilisateur de Perplexity. |
Google-Extended | Contrôle l'utilisation de votre contenu pour l'entraînement/l'ancrage de l'IA générative de Gemini et de Google. N'est PAS un robot qui récupère des pages. | Vous retire de l'entraînement génératif de Gemini/Vertex. N'a AUCUN effet sur l'exploration ou le classement de Google Search. | |
Googlebot | Le robot principal de Google Search (alimente aussi les AI Overviews à partir de l'index de recherche). | Vous retire entièrement de Google Search — presque jamais ce que vous voulez. | |
Amazonbot | Amazon | Explore le contenu pour les produits Amazon, y compris les réponses liées à Alexa. | Retire votre contenu de l'utilisation par l'IA d'Amazon. |
Applebot-Extended | Apple | Contrôle l'utilisation du contenu exploré par Applebot pour l'entraînement de l'IA générative d'Apple. | Vous retire de l'entraînement de l'IA d'Apple sans affecter l'indexation de recherche de Siri/Spotlight. |
CCBot | Common Crawl | Explore le web ouvert pour le jeu de données Common Crawl, largement utilisé pour entraîner de nombreux modèles d'IA. | Réduit l'inclusion de votre contenu dans un jeu de données sur lequel beaucoup de laboratoires d'IA s'entraînent. |
Bytespider | ByteDance | Explore le contenu pour les produits d'IA de ByteDance/TikTok. | Retire votre contenu de l'utilisation par l'IA de ByteDance. |
Meta-ExternalAgent | Meta | Explore le contenu utilisé pour l'entraînement et les produits d'IA de Meta. | Retire votre contenu de l'entraînement de l'IA de Meta. |
Comment AUTORISER les robots d'IA (recommandé pour la visibilité)
Si votre objectif est la visibilité IA — être lu, résumé et cité par ChatGPT, Claude, Perplexity, Gemini et d'autres — la configuration la plus sûre est de tout autoriser. Vous n'avez en réalité pas besoin de nommer chaque robot d'IA pour l'autoriser ; le comportement par défaut du robots.txt est de permettre tout robot qui n'est pas interdit. La chose la plus importante est de vous assurer que vous ne les bloquez pas, intentionnellement ou par accident.
Un robots.txt minimal et entièrement permissif qui accueille tous les robots d'IA ressemble à ceci :
# Allow all crawlers, including AI bots, to access everything
User-agent: *
Disallow:
# Point crawlers to your sitemap
Sitemap: https://example.com/sitemap.xmlSi vous préférez être explicite (ce qui rend votre intention claire pour quiconque audite le fichier et vous protège si vous ajoutez plus tard une règle générique restrictive), vous pouvez nommer les grands robots d'IA et leur accorder un accès complet :
# Explicitly allow major AI crawlers full access
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Amazonbot
Allow: /
User-agent: CCBot
Allow: /
# Everyone else: full access too
User-agent: *
Disallow:
Sitemap: https://example.com/sitemap.xmlllms.txt pour que les moteurs d'IA vous citent réellement. Passez votre URL dans un vérificateur gratuit comme checkgeoscore.com pour voir comment un moteur d'IA perçoit votre page.Comment BLOQUER les robots d'IA (si vous ne voulez pas d'entraînement ou de citation par l'IA)
Certains éditeurs — organisations de presse, entreprises de contenu premium, sites par abonnement — veulent délibérément garder leur travail à l'écart des systèmes d'IA. Pour bloquer les robots d'IA, vous donnez à chaque robot son propre groupe avec un Disallow: /. Souvenez-vous de la règle de priorité : comme ces groupes nommés l'emportent sur le générique, vous devez lister chaque robot que vous voulez exclure ; un seul User-agent: * Disallow: / bloquerait aussi Googlebot et toute votre présence dans la recherche, ce qui n'est presque jamais ce que vous voulez.
Voici une liste de blocage complète couvrant les grands robots d'IA tout en laissant intacts les moteurs de recherche normaux :
# Block AI training, search, and user-fetch bots
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-SearchBot
Disallow: /
User-agent: Claude-User
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Perplexity-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
# Note: this does NOT block Googlebot or Bingbot — normal search stays intactComprenez bien le compromis avant de vous engager. Bloquer ces robots vous retire des citations IA. Lorsqu'une personne pose à ChatGPT, Claude ou Perplexity une question à laquelle votre contenu aurait pu répondre, votre site ne figurera pas parmi les sources. À mesure que les assistants IA captent une part croissante de la façon dont les gens trouvent l'information, c'est un véritable coût d'opportunité. Le blocage a du sens lorsque la valeur de votre contenu dépend du fait que les gens visitent votre site directement ou paient pour y accéder ; il a rarement du sens pour les entreprises qui veulent être découvertes.
Autoriser certains, bloquer d'autres (le juste milieu nuancé)
La plupart des sites avertis ne veulent pas du tout-ou-rien. La politique courante et défendable est la suivante : autoriser les robots de recherche et de citation (pour que vous apparaissiez toujours dans les réponses IA avec un lien vers votre site), mais bloquer les robots d'entraînement purs (pour que votre contenu ne soit pas absorbé dans les modèles de base). OpenAI et Anthropic prennent explicitement en charge cette distinction parce que leurs robots sont adressables séparément.
Cette configuration bloque l'entraînement tout en vous gardant éligible aux citations de recherche IA :
# --- BLOCK training-only crawlers ---
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
# --- ALLOW search & citation crawlers (keeps you cited) ---
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: *
Disallow:
Sitemap: https://example.com/sitemap.xmlVous pouvez aussi appliquer une nuance au niveau du chemin par robot. Par exemple, autoriser les robots d'IA à explorer votre blogue public et votre documentation, mais les tenir à l'écart des zones protégées, de compte ou de paiement :
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /account/
Disallow: /checkout/
Disallow: /members/Google-Extended vs Googlebot — une distinction cruciale
C'est la partie la plus mal comprise du robots.txt pour l'IA, et mal s'y prendre peut soit couler votre SEO, soit ne pas du tout vous retirer. `Googlebot` et `Google-Extended` sont des tokens complètement différents aux effets complètement différents.
- `Googlebot` est le robot web standard de Google. Il construit l'index qui alimente Google Search — et ce même index alimente les AI Overviews. Bloquer
Googlebotvous retire de Google Search. Ne le bloquez pas à moins de vouloir réellement disparaître de Google. - `Google-Extended` n'est pas du tout un robot — c'est un token de permission. Il contrôle si le contenu que Google a déjà exploré peut être utilisé pour entraîner et ancrer des produits d'IA générative comme Gemini et Vertex AI. Il ne récupère rien par lui-même.
L'enseignement crucial : bloquer `Google-Extended` ne nuit PAS à votre classement dans Google Search. Google a été explicite sur le fait que Google-Extended est indépendant de l'indexation de recherche. Vous pouvez mettre Disallow: / pour Google-Extended afin de vous retirer de l'entraînement de Gemini tout en gardant Googlebot entièrement autorisé et vos classements organiques parfaitement intacts :
# Opt out of Gemini/generative AI training...
User-agent: Google-Extended
Disallow: /
# ...while keeping Google Search ranking fully intact
User-agent: Googlebot
Allow: /Où se trouve le robots.txt et comment le tester
Votre robots.txt doit se trouver à la racine de chaque hôte, servi en text/plain via HTTP 200. L'emplacement canonique est https://yourdomain.com/robots.txt. Les robots ne le cherchent pas dans des sous-dossiers, et un fichier à https://yourdomain.com/blog/robots.txt est ignoré. Les sous-domaines ont besoin de leur propre fichier : blog.example.com et www.example.com sont des hôtes distincts avec des fichiers robots.txt distincts.
Le moyen le plus rapide de confirmer ce que les robots voient réellement est de récupérer vous-même le fichier en direct :
# Fetch the live robots.txt exactly as a crawler would
curl -A "GPTBot" -i https://example.com/robots.txt
# Confirm it returns HTTP 200 and text/plain
curl -sI https://example.com/robots.txtSoyez attentif à ces pièges lors des tests :
- Remplacements par CDN, pare-feu et WAF. Cloudflare, Akamai, Fastly et d'autres peuvent servir leur propre
robots.txt, injecter des règles de gestion des robots ou bloquer entièrement les user-agents d'IA — même lorsque votre fichier d'origine dit autoriser. De nombreuses plateformes ont maintenant un interrupteur « bloquer les robots d'IA » en un clic qui remplace silencieusement votre fichier. Si votre configuration semble correcte mais que les robots sont toujours bloqués, vérifiez vos paramètres CDN/WAF. - Mise en cache. Les robots mettent en cache le robots.txt (souvent jusqu'à 24 heures). Après une modification, attendez-vous à un délai avant que les changements prennent effet.
- Redirections et réponses 4xx/5xx. Si
/robots.txtredirige de façon étrange ou renvoie une erreur 5xx, certains robots traitent l'ensemble du site comme interdit ; un 404 est généralement traité comme entièrement autorisé. - Mauvaise casse ou fautes de frappe dans les tokens. Les tokens sont comparés sans tenir compte de la casse pour le nom du user-agent, mais un token mal orthographié comme
GPT-BotouClaude-bot-searchne correspond tout simplement à rien et ne fait silencieusement rien.
Erreurs courantes de robots.txt qui vous rendent invisible pour l'IA
- **Un
User-agent: *Disallow: /global** resté en place depuis un site de préproduction. Cela bloque tous les robots conformes, IA et recherche confondus. C'est la cause numéro un de l'invisibilité accidentelle. - Bloquer vos routes CSS, JS ou `/api/` qui affichent le contenu. Si les robots d'IA ne peuvent pas récupérer les ressources nécessaires pour lire votre page, ils ne voient qu'une coquille vide.
- Supposer qu'un groupe nommé hérite du générique. Ce n'est pas le cas. Si vous ajoutez
User-agent: GPTBotavec seulement unAllow: /blog/, GPTBot ignore toutes les règles génériques — y compris toutDisallowglobal que vous pensiez applicable. - Bloquer `Googlebot` alors que vous vouliez `Google-Extended`. Cela vous retire de Google Search au lieu de simplement vous retirer de l'entraînement de Gemini.
- Utiliser la chaîne complète de user-agent HTTP (la longue ligne
Mozilla/5.0 ... GPTBot/1.1) comme valeur deUser-agent. Utilisez uniquement le token court. - Compter sur le robots.txt pour cacher des données privées. Le robots.txt est public et ne fait que demander la conformité. Les pages sensibles ont besoin d'une véritable authentification, pas d'un
Disallow. - Oublier les sous-domaines. Votre site principal autorise les robots d'IA, mais
blog.example.coma un ancien fichier restrictif que vous avez oublié. - Un blocage d'IA au niveau du CDN qui remplace un fichier d'origine parfaitement correct — et personne ne vérifie le tableau de bord du CDN.
robots.txt vs llms.txt
Ces deux fichiers sont complémentaires, et non concurrents. Le `robots.txt` régit la permission — quels robots peuvent accéder à quels chemins. Le `llms.txt` est une convention émergente qui fournit une carte de contenu pour les moteurs d'IA : un index organisé, au format Markdown, à /llms.txt, pointant vers vos pages les plus importantes et adaptées à l'IA afin que les modèles trouvent et comprennent rapidement votre meilleur contenu. Le robots.txt décide si la porte est ouverte ; le llms.txt est le répertoire juste à l'intérieur. Une configuration GEO complète utilise les deux : autorisez les bons robots dans le robots.txt, puis guidez-les avec le llms.txt et un contenu propre et structuré.
Foire aux questions
Devrais-je autoriser ou bloquer GPTBot?+
Autorisez GPTBot si vous voulez que votre contenu soit éligible à une utilisation par OpenAI et que vous accordez de la valeur au fait de faire partie de l'écosystème de l'IA ; c'est le bon choix pour la plupart des entreprises qui recherchent de la visibilité. Bloquez GPTBot via le robots.txt si vous voulez précisément retirer votre contenu de l'entraînement des modèles d'OpenAI. Une voie intermédiaire populaire consiste à bloquer GPTBot (entraînement) tout en autorisant OAI-SearchBot (citation), de sorte que vous restiez à l'écart de l'entraînement tout en demeurant citable dans la recherche ChatGPT.
Comment bloquer les robots d'IA?+
Ajoutez un groupe distinct pour chaque robot d'IA dans votre robots.txt avec Disallow: /. Par exemple : User-agent: GPTBot sur une ligne, Disallow: / sur la suivante, répété pour ClaudeBot, PerplexityBot, Google-Extended, CCBot et les autres. Comme les groupes nommés l'emportent sur le générique, vous devez lister chaque robot individuellement — n'utilisez pas un seul User-agent: * Disallow: /, car cela bloquerait aussi Google Search.
Comment bloquer spécifiquement GPTBot dans le robots.txt?+
Ajoutez exactement deux lignes : User-agent: GPTBot suivi de Disallow: /. Utilisez le token court GPTBot, et non la chaîne complète de user-agent HTTP. Pour bloquer aussi les robots de recherche et de récupération en direct d'OpenAI, ajoutez des groupes distincts pour OAI-SearchBot et ChatGPT-User.
Bloquer Google-Extended nuit-il au SEO?+
Non. Google-Extended ne contrôle que l'utilisation de votre contenu pour des produits d'IA générative comme Gemini. Il n'a aucun effet sur Googlebot, sur votre indexation dans Google Search, ni sur vos classements organiques. Vous pouvez bloquer Google-Extended en toute sécurité et conserver une visibilité complète dans Google Search.
Quels robots d'IA devrais-je autoriser?+
Pour une visibilité maximale, autorisez les robots de recherche et de citation : OAI-SearchBot et ChatGPT-User (OpenAI), Claude-SearchBot et Claude-User (Anthropic), et PerplexityBot. Autoriser les robots d'entraînement (GPTBot, ClaudeBot, CCBot, Google-Extended) est optionnel et dépend de votre confort à l'idée que votre contenu serve à l'entraînement des modèles.
Le robots.txt empêchera-t-il l'IA d'utiliser mon contenu?+
Il empêche les robots conformes et nommés de récupérer vos pages — et toutes les grandes entreprises d'IA (OpenAI, Anthropic, Google, Perplexity) le respectent. Il n'empêche pas techniquement un scraper non conforme de lire des pages publiques, et il ne retire pas non plus le contenu déjà absorbé dans un modèle entraîné. Pour faire respecter les règles contre les acteurs malveillants, utilisez un blocage côté serveur ou WAF/pare-feu.
Comment autoriser ChatGPT à explorer mon site?+
Assurez-vous que votre robots.txt n'interdit pas les robots d'OpenAI. Pour être explicite, autorisez OAI-SearchBot (citations de recherche ChatGPT) et ChatGPT-User (récupérations en direct lorsqu'un utilisateur demande à ChatGPT de lire votre page), et optionnellement GPTBot (entraînement). Confirmez aussi que votre CDN ou WAF ne bloque pas ces user-agents indépendamment de votre robots.txt.
Quelle est la différence entre GPTBot, OAI-SearchBot et ChatGPT-User?+
GPTBot explore le contenu pour l'entraînement des modèles d'OpenAI. OAI-SearchBot indexe les pages afin qu'elles puissent être citées dans la recherche ChatGPT. ChatGPT-User récupère une URL précise en direct lorsqu'un utilisateur demande à ChatGPT de la lire ou de la parcourir. Ils sont contrôlables séparément, de sorte que vous pouvez autoriser la citation tout en bloquant l'entraînement.
Les robots d'IA respectent-ils crawl-delay?+
La prise en charge varie. crawl-delay est une directive non standard que certains robots honorent et que d'autres ignorent. Elle peut ralentir l'agressivité avec laquelle un robot sollicite votre serveur, mais elle ne contrôle pas l'accès. Pour le contrôle d'accès, utilisez Allow/Disallow ; pour des problèmes de charge avec un robot précis, consultez la documentation de cet opérateur pour savoir s'il prend en charge crawl-delay.
Comment vérifier si les robots d'IA peuvent voir mon site?+
Récupérez votre fichier avec curl -A "GPTBot" https://yourdomain.com/robots.txt et lisez les règles, confirmez qu'il renvoie HTTP 200 en text/plain, et vérifiez votre CDN/WAF pour tout interrupteur de blocage d'IA. Passez ensuite votre URL dans un vérificateur GEO gratuit comme checkgeoscore.com pour voir comment un moteur d'IA perçoit votre page et si quelque chose la bloque.
Votre robots.txt est le gardien de toute l'ère de l'IA dans la recherche. Décidez délibérément : autorisez les robots d'IA qui vous font citer, bloquez ceux dont l'utilisation vous déplaît, et ne laissez jamais un Disallow égaré ou un interrupteur de CDN oublié vous rendre invisible pour les assistants que votre audience interroge déjà. Une fois vos permissions bien réglées, le reste du GEO — structure sémantique, données structurées et carte de contenu claire — est ce qui transforme l'accès en citations.