robots.txt para Agentes
¿Qué son las directivas de robots.txt específicas para agentes?
El robots.txt estándar controla los rastreadores web. Al agregar directivas User-agent para rastreadores específicos de IA, indicas que tu sitio reconoce y acepta agentes de IA.
Ejemplo
Agrega a tu /robots.txt:
User-agent: GPTBot
Allow: /
User-agent: Claude-Web
Allow: /
User-agent: Anthropic-AI
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Rastreadores de IA conocidos
| User-agent | Operador | Propósito |
|---|---|---|
| GPTBot | OpenAI | Entrenamiento y navegación |
| Claude-Web | Anthropic | Navegación web |
| Anthropic-AI | Anthropic | Entrenamiento |
| PerplexityBot | Perplexity | Búsqueda y respuestas |
| Google-Extended | Entrenamiento de IA | |
| Applebot | Apple | Siri y funciones de IA |
Por qué importa
Muchos sitios bloquean los rastreadores de IA por defecto. Permitirlos explícitamente indica que tu contenido y tus APIs están diseñados para el consumo por agentes.
Madurez de la especificación
Convención establecida. robots.txt es un estándar web de larga data (RFC 9309). Las cadenas User-agent específicas de IA están definidas por cada empresa de IA.
Más información
- RFC 9309 — Especificación de robots.txt