robots.txt para Agentes

¿Qué son las directivas de robots.txt específicas para agentes?

El robots.txt estándar controla los rastreadores web. Al agregar directivas User-agent para rastreadores específicos de IA, indicas que tu sitio reconoce y acepta agentes de IA.

Ejemplo

Agrega a tu /robots.txt:

User-agent: GPTBot
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: Anthropic-AI
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Rastreadores de IA conocidos

User-agent	Operador	Propósito
GPTBot	OpenAI	Entrenamiento y navegación
Claude-Web	Anthropic	Navegación web
Anthropic-AI	Anthropic	Entrenamiento
PerplexityBot	Perplexity	Búsqueda y respuestas
Google-Extended	Google	Entrenamiento de IA
Applebot	Apple	Siri y funciones de IA

Por qué importa

Muchos sitios bloquean los rastreadores de IA por defecto. Permitirlos explícitamente indica que tu contenido y tus APIs están diseñados para el consumo por agentes.

Madurez de la especificación

Convención establecida. robots.txt es un estándar web de larga data (RFC 9309). Las cadenas User-agent específicas de IA están definidas por cada empresa de IA.

Más información

RFC 9309 — Especificación de robots.txt

Relacionado

llms.txt