GPTBot, ClaudeBot y PerplexityBot: ¿permitir o bloquear en robots.txt?

Q: ¿Cuál es la diferencia entre bot de entrenamiento y de búsqueda?

Los bots de entrenamiento (como `GPTBot`, `ClaudeBot`) construyen el modelo; el cambio es lento (semanas a meses). Los bots de búsqueda (como `OAI-SearchBot`, `Claude-SearchBot`) buscan en tiempo real; apareces en las respuestas de forma inmediata si el contenido encaja. Son complementarios, no excluyentes.

La mayoría de sitios necesitan permitir los rastreadores de IA, pero es fundamental distinguir entre dos tipos de bots: los de entrenamiento (que construyen el modelo) y los de búsqueda (que alimentan las respuestas en tiempo real). Bloquear sin entender cuál es cuál puede dejarte fuera de ChatGPT, Claude, Perplexity y Google AI Overviews —o bien puede costarte recursos innecesarios permitiendo rastreos que no benefician tu visibilidad.

Cada asistente de IA importante tiene sus propios bots, y cada uno se comporta de forma distinta. ChatGPT concentra la mayor parte del tráfico desde asistentes de IA en mercados hispanohablantes. Aparecer en sus respuestas requiere que tus rastreadores específicos accedan a tu contenido, por eso la configuración de robots.txt es el primer paso técnico de cualquier estrategia de GEO.

Qué son los rastreadores de IA

Un rastreador de IA (crawler) es un bot automatizado que visita tu web, lee páginas y las procesa de forma distinta según su propósito. No es tan diferente de cómo Google indexa para Search, pero con particularidades importantes.

Las características clave:

Acceden a tu contenido a través de HTTP, como cualquier navegador.
Se identifican con un header User-Agent específico (por ejemplo, GPTBot/1.0).
Respetan las directivas de robots.txt y el protocolo de exclusión de robots.
Algunos pueden hacer miles de peticiones simultáneamente si se lo permites, así que la configuración tiene un impacto en tu servidor.

A diferencia de rastreadores genéricos, los bots de IA tienen dos misiones claramente distintas, y no todos los bots hacen las dos cosas. Entender la diferencia es el eje de cualquier decisión de permitir o bloquear.

Entrenamiento frente a búsqueda: la distinción clave

Este es el punto crítico donde la mayoría de las decisiones se tuercen. Los rastreadores de entrenamiento y los de búsqueda no son rivales; son complementarios.

Rastreadores de entrenamiento

Su propósito es construir o actualizar el modelo de lenguaje del asistente. Viajan por internet aspirando contenido para que el modelo «aprenda». El tráfico es masivo y se concentra en ventanas específicas de actualización del modelo.

Impacto: Entra en el conocimiento general del modelo. Si ChatGPT entrena con tu web, tu marca tiene más probabilidades de aparecer en respuestas incluso sobre temas no directamente relacionados con búsquedas puntuales.

Actualización: Lenta. El modelo se actualiza en ciclos (puede ser mensual, trimestral o anual según el proveedor). Los cambios en tu contenido no se reflejan inmediatamente.

Rastreadores de búsqueda

Estos bots visitan tu web cuando un usuario, ya dentro del asistente, formula una pregunta que requiere información en vivo. El bot busca en ese momento, lee tus páginas y envía el resultado al modelo para que lo cite en su respuesta.

Impacto: Respuestas frescas y precisas. Si publicaste un artículo ayer y alguien pregunta hoy algo relacionado, el bot de búsqueda puede encontrarlo y citarlo.

Actualización: Inmediata o casi inmediata (minutos u horas según la urgencia de la consulta).

La implicación práctica:

Bloquear solo rastreadores de entrenamiento te deja fuera del conocimiento del modelo a largo plazo, pero sigues apareciendo en búsquedas en vivo.
Bloquear solo rastreadores de búsqueda te hace invisible para respuestas frescas, pero tu marca puede aparecer si ya forma parte del modelo entrenado.
Bloquear ambos te deja completamente fuera de ese asistente.

Lista de bots y qué hace cada uno

Estos son los rastreadores principales que debes conocer. Cada uno tiene un User-Agent específico para identificarse en robots.txt.

Bot	Proveedor	User-Agent en robots.txt	Tipo	Propósito
GPTBot	OpenAI	`GPTBot`	Entrenamiento	Construir/actualizar el modelo de ChatGPT
OAI-SearchBot	OpenAI	`OAI-SearchBot`	Búsqueda	Búsqueda en vivo dentro de ChatGPT
ClaudeBot	Anthropic	`ClaudeBot`	Entrenamiento	Construir/actualizar el modelo de Claude
Claude-SearchBot	Anthropic	`Claude-SearchBot`	Búsqueda	Búsqueda en vivo dentro de Claude
PerplexityBot	Perplexity	`PerplexityBot`	Búsqueda	Búsqueda en vivo dentro de Perplexity
Google-Extended	Google	`Google-Extended`	Entrenamiento	Datos para Gemini y Google AI Overviews

Notas importantes:

Perplexity es únicamente de búsqueda en vivo; no tiene un bot de entrenamiento separado (o al menos no se identifica explícitamente como tal).
Google-Extended es el bot de Google para generar contenido de entrenamiento; el rastreador tradicional de Google (Googlebot) sigue siendo para búsqueda clásica.
OpenAI y Anthropic tienen dos bots cada una precisamente porque sus modelos funcionan de dos modos: conocimiento entrenado + búsqueda en vivo.

Cómo configurarlos en robots.txt

Tu archivo robots.txt debe estar en la raíz de tu dominio (https://tudominio.com/robots.txt). La sintaxis básica es sencilla: declara para cada bot (o grupo de bots) qué rutas pueden visitar y a qué velocidad.

Opción 1: Permitir todos los bots de IA (recomendado para la mayoría)

# Rastreadores de IA: permitir
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

# El resto de rastreadores
User-agent: *
Allow: /

Esta configuración es la más directa: todos los bots de IA pueden acceder a todo tu contenido. Recomendado si tu contenido es público, no tiene restricciones de licencia y quieres maximizar visibilidad en asistentes de IA.

Opción 2: Permitir búsqueda en vivo, bloquear entrenamiento

Si prefieres que las IA aparezcan en respuestas frescas pero no quieres que tus contenidos entrenen modelos de terceros:

# Solo búsqueda en vivo
User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Bloquear rastreadores de entrenamiento
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Allow: /

Esta es una posición más conservadora desde el punto de vista de licencias de contenido, pero te mantiene visible en búsquedas en vivo.

Opción 3: Bloquear todo (máxima restricción)

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-SearchBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Allow: /

Solo si tu contenido es confidencial, bajo licencia restrictiva o ya te aparece en las respuestas de IA y no quieres que otros lo consuman. Raramente es recomendable.

Opción 4: Controlar velocidad sin bloquear

Si temes por la carga del servidor, puedes limitar la velocidad de rastreo sin bloquear:

User-agent: GPTBot
Crawl-delay: 5
Allow: /

User-agent: PerplexityBot
Crawl-delay: 5
Allow: /

# Resto del config...

El Crawl-delay (en segundos) pide al bot que espere entre peticiones. No es una garantía —algunos bots no lo respetan—, pero es un mecanismo de cortesía.

El riesgo de bloquear sin querer

Bloquear un bot de IA por error es sorprendentemente común, y tiene consecuencias que no son inmediatas.

Errores frecuentes

Bloquear todo a través del CDN o firewall. Algunos CDN o soluciones de seguridad (Cloudflare, WAF) pueden interpretar a los rastreadores de IA como tráfico malicioso y bloquearlo antes de que ni siquiera llegue a tu robots.txt. Comprueba tu configuración de seguridad, no solo tu configuración de robots.txt.
Olvidar que robots.txt se copia también a subdominios. Si tienes un robots.txt restrictivo en el dominio raíz pero esperas que un subdominio sea rastreado de forma distinta, no funcionará; necesitarás configuraciones separadas.
Confundir User-Agent. La sintaxis es sensible a espacios. User-agent: GPTBot (correcto) no es lo mismo que User-agent: gptbot (incorrecto). Usa mayúsculas exactas.

Impacto de bloquear sin querer

Si bloqueas un bot de búsqueda, desapareces de las respuestas en vivo casi inmediatamente. Las búsquedas futuras ya no consiguen tu contenido.

Si bloqueas un bot de entrenamiento, el efecto es lento: tu marca seguirá apareciendo en respuestas basadas en el modelo antiguo, pero en la próxima actualización del modelo (que puede ser en semanas o meses) desaparecerás del conocimiento general.

Recomendación práctica

Para la mayoría de sitios: permitir todos los bots de IA es la mejor opción. Aquí el razonamiento:

Tráfico que convierte mejor. El tráfico que llega desde asistentes de IA suele convertir mejor que el tráfico orgánico clásico. Bloquearlo es rechazar clientes de calidad.
Sin coste adicional significativo. Los rastreadores de IA respetan robots.txt y no generan tráfico tan masivo como podrías pensar. Si tu servidor soporta a Google sin problemas, soporta a estos.
Estar dentro del modelo a largo plazo vale. Si tu competencia aparece en respuestas de ChatGPT y tú no, pierdes descubrimiento. Eso es muy difícil de recuperar después.
Cumplimiento de intención del modelo. Estos bots respetan el protocolo de exclusión de robots. Si estableces directivas, lo respetan. Además, si realmente no quieres que tu contenido se use para entrenar, existen licencias explícitas (como robots.txt con Disallow: /) o términos de servicio, no solo configuración técnica.

Excepciones dónde podrías bloquear:

Contenido bajo licencia muy restrictiva (privado de clientes, propiedad intelectual delicada).
Servidor muy limitado en recursos (aunque en ese caso, el problema es más grave que los rastreadores de IA).
Motivo ético o comercial explícito (no quieres que tu contenido entrene modelos de terceros).

Antes de bloquear, haz el test: pregunta a ChatGPT, Claude y Perplexity algo que haría tu cliente ideal. ¿Apareces? ¿Aparece tu competencia? Si la respuesta es sí en ambos casos, considera no bloquear; si aparece tu competencia pero no tú, definitivamente no bloquees —eso solo empeora las cosas.

Para aprender más sobre cómo optimizar tu web completa para estas plataformas, consulta nuestra guía de optimizar tu web para la IA y descubre el papel que juega llms.txt en esta estrategia.

Preguntas frecuentes

¿Debo bloquear GPTBot? Solo si tu contenido es confidencial o bajo licencia muy restrictiva. Para la mayoría, bloquearlo te deja fuera del modelo de ChatGPT a largo plazo. La alternativa es permitir GPTBot pero bloquear OAI-SearchBot si quieres búsqueda en vivo pero no entrenamiento.

¿Cuál es la diferencia entre bot de entrenamiento y de búsqueda? Los bots de entrenamiento (como GPTBot, ClaudeBot) construyen el modelo; el cambio es lento (semanas a meses). Los bots de búsqueda (como OAI-SearchBot, Claude-SearchBot) buscan en tiempo real; apareces en las respuestas de forma inmediata si el contenido encaja. Son complementarios, no excluyentes.

¿Bloquear bots me deja fuera de la IA? Sí. Bloquear rastreadores de búsqueda te deja fuera de respuestas en vivo. Bloquear rastreadores de entrenamiento te deja fuera a largo plazo. Bloquear ambos te deja completamente fuera de ese asistente.

¿Qué pongo en mi robots.txt? Depende de tu estrategia. Si quieres máxima visibilidad: permite GPTBot, OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot y Google-Extended. Si quieres solo búsqueda en vivo: permite los bots de búsqueda, bloquea los de entrenamiento. Usa la sintaxis User-agent: [NombreBot] seguida de Allow: / o Disallow: /.

¿Tu web está configurada correctamente para que te encuentren los asistentes de IA? Solicita una auditoría GEO y comprueba en qué preguntas apareces, en cuáles no, y qué hacer para entrar en las respuestas.

Última actualización: junio de 2026. Esta guía forma parte de nuestro contenido sobre posicionamiento en IA y se revisa periódicamente conforme evolucionan los rastreadores de IA.