robots.txt pour les IA : quels bots autoriser pour être cité
C'est l'erreur GEO la plus bête, et la plus répandue : un site invisible dans ChatGPT non pas à cause de son contenu, mais parce qu'un fichier de trois lignes interdit aux robots des IA de le lire. Voici la liste exacte des bots à autoriser en 2026, ce que chacun fait, et un robots.txt prêt à copier.
Avant de pouvoir vous citer, une IA doit pouvoir lire votre site. Et la première porte qu'elle pousse, c'est votre robots.txt : un fichier texte, à la racine de votre domaine, qui dit à chaque robot ce qu'il a le droit de parcourir. Si ce fichier — ou votre hébergeur — bloque les crawlers IA, tout le reste de votre travail GEO est neutralisé d'avance.
Un robot IA bloqué ne lit pas vos pages ; une page non lue ne peut pas être citée. Avant d'optimiser votre contenu, vérifiez que GPTBot, ClaudeBot, PerplexityBot et Google-Extended ont l'autorisation de passer.
Deux familles de robots à ne pas confondre
Tous les bots IA ne font pas la même chose, et c'est la confusion qui pousse certains sites à tout bloquer par précaution. Il y en a deux grandes familles :
- Les bots d'entraînement — ils collectent du texte pour entraîner les modèles. Exemple :
GPTBot. Les bloquer n'a aucun impact négatif sur votre visibilité immédiate, c'est un choix légitime si vous ne voulez pas nourrir l'entraînement. - Les bots de recherche et de réponse — ils vont chercher des pages en direct pour construire une réponse citée, avec un lien. Exemples :
OAI-SearchBot,PerplexityBot,Claude-SearchBot. Ce sont eux qui décident si vous apparaissez dans une réponse. Les bloquer, c'est renoncer à être cité.
La nuance compte : vous pouvez très bien refuser l'entraînement tout en autorisant la recherche en direct. Mais la plupart des entreprises veulent surtout être citées — donc l'erreur à éviter absolument, c'est de bloquer la seconde famille.
La liste des bots IA à autoriser en 2026
| Bot | Éditeur | Rôle |
|---|---|---|
GPTBot | OpenAI | Entraînement ChatGPT |
OAI-SearchBot | OpenAI | Recherche / citations ChatGPT |
ChatGPT-User | OpenAI | Navigation déclenchée par un utilisateur |
ClaudeBot | Anthropic | Entraînement Claude |
Claude-SearchBot | Anthropic | Recherche / citations Claude |
PerplexityBot | Perplexity | Index de réponses Perplexity |
Perplexity-User | Perplexity | Visite déclenchée par une requête |
Google-Extended | Gemini / AI Overviews | |
Applebot-Extended | Apple | Apple Intelligence |
Note importante : Google-Extended ne contrôle que l'usage IA (Gemini), pas votre référencement Google classique. L'autoriser n'expose donc rien de plus que ce que Googlebot voit déjà ; le bloquer ne fait que vous retirer des réponses Gemini.
Le robots.txt prêt à copier
Voici une base saine pour une entreprise qui veut être lue et citée par les IA, tout en gardant la main sur ses zones sensibles. Adaptez les Disallow à votre site, puis placez le fichier à la racine (votre-domaine.com/robots.txt) :
# robots.txt — autoriser les IA à lire et citer le site
# Bots de recherche/réponse : à autoriser pour être cité
User-agent: OAI-SearchBot
User-agent: ChatGPT-User
User-agent: Claude-SearchBot
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
User-agent: Applebot-Extended
Allow: /
# Bots d'entraînement : autorisés ici (à passer en Disallow si vous refusez l'entraînement)
User-agent: GPTBot
User-agent: ClaudeBot
Allow: /
# Tout le reste
User-agent: *
Allow: /
Disallow: /panier
Disallow: /compte
Disallow: /admin
Sitemap: https://votre-domaine.com/sitemap.xml
Un robots.txt parfait ne sert à rien si votre pare-feu bloque les bots en amont. Beaucoup d'hébergeurs et de CDN (Cloudflare en tête) proposent une option « bloquer les robots IA » activée par défaut. Elle filtre les crawlers avant qu'ils n'atteignent votre robots.txt — donc vérifiez aussi ce réglage côté hébergeur.
Comment vérifier en 5 minutes
- Ouvrez
votre-domaine.com/robots.txtdans un navigateur et cherchez une ligneDisallow: /visantGPTBot,ClaudeBotouPerplexityBot. - Dans votre tableau de bord d'hébergeur / CDN, cherchez un réglage du type « AI bots », « bot fight mode » ou « block AI scrapers » et regardez s'il est actif.
- Vérifiez que vos pages clés renvoient bien un code
200(et pas un blocage403) lorsqu'elles sont demandées avec le nom d'un de ces bots. - Au prochain passage, surveillez vos journaux serveur : voir
PerplexityBotouOAI-SearchBotdans les logs est le signe que la porte est ouverte.
Faut-il vraiment tout autoriser ?
Non — et c'est une vraie décision, pas un réflexe. Un média qui vit de ses pages vues peut légitimement bloquer l'entraînement tout en restant ouvert à la recherche. Une entreprise de services, un e-commerce, une marque locale, eux, ont presque tout à gagner à être cités : la citation IA est devenue un canal d'acquisition à part entière, et elle renvoie souvent un lien cliquable. Pour ces profils, bloquer revient à fermer une vitrine que vos concurrents, eux, laissent ouverte.
La bonne posture n'est donc pas « tout ouvrir » ni « tout fermer », mais : ouvrir aux bots de recherche, choisir consciemment pour l'entraînement, et vérifier qu'aucun pare-feu ne contredit cette décision.
Audit GEO offert — on vérifie votre accessibilité IA
On teste si GPTBot, ClaudeBot, PerplexityBot et Google-Extended peuvent réellement lire votre site, on repère les blocages cachés côté hébergeur, et on mesure votre taux de citation dans ChatGPT, Perplexity, Claude et Gemini. Vous recevez un plan d'action clair sur 90 jours. Sans engagement, livré en 24 à 48 h.
Je veux mon auditQuestions fréquentes
Quels bots IA faut-il autoriser dans robots.txt ?
Les principaux en 2026 : GPTBot, OAI-SearchBot et ChatGPT-User (OpenAI), ClaudeBot et Claude-SearchBot (Anthropic), PerplexityBot et Perplexity-User (Perplexity), Google-Extended (Gemini) et Applebot-Extended (Apple Intelligence). Sans accès, aucun de ces moteurs ne peut vous lire ni vous citer.
Bloquer les bots IA protège-t-il mon contenu ?
Bloquer empêche surtout votre marque d'apparaître dans les réponses. C'est défendable pour un éditeur qui vit de ses pages, mais pour une entreprise qui veut être recommandée par ChatGPT ou Perplexity, c'est se rendre volontairement invisible — alors que la citation envoie aussi du trafic et de la notoriété.
Comment vérifier que les robots IA peuvent lire mon site ?
Ouvrez votre-domaine.com/robots.txt et cherchez des règles Disallow visant GPTBot, ClaudeBot ou PerplexityBot. Vérifiez ensuite que votre pare-feu (Cloudflare, WAF) ou un réglage « bloquer les bots IA » de votre hébergeur ne les filtre pas en amont — ce blocage n'apparaît pas dans robots.txt.