Cómo navegan realmente la web los agentes de IA

El problema con las suposiciones

La mayoría de la optimización de sitios web asume que un visitante obtiene tu página vía HTTP, ve los encabezados, sigue las redirecciones y renderiza HTML. Los agentes de IA rompen cada una de estas suposiciones.

ChatGPT

La herramienta de navegación de ChatGPT obtiene páginas en vivo vía HTTP, pero el modelo nunca ve la respuesta cruda:

Solo extracción de texto — el HTML se reduce a ~4,096 tokens de texto plano antes de que el modelo lo vea
Sin encabezados — el modelo nunca conoce el Content-Type, los códigos de estado ni las redirecciones
SearchGPT intermedio — un modelo secundario verifica si hay inyección de prompts antes de que el contenido llegue al modelo principal
Agent Mode usa un UA falso de Chrome (Chrome/138.0.0.0) y se identifica mediante firmas criptográficas RFC 9421, no mediante User-Agent

Qué significa esto: la negociación de contenido funciona en silencio (la capa de la herramienta la maneja), pero el modelo solo ve el texto extraído. Sirve texto limpio y estructurado y tu contenido será más útil para ChatGPT.

Perplexity

Perplexity usa una pipeline de recuperación en múltiples etapas:

Rastreadores sigilosos — 3-6 millones de solicitudes/día con UAs genéricos de Chrome e IPs rotativas, no PerplexityBot
Ranking híbrido — coincidencia de palabras clave BM25 + similitud vectorial para encontrar pasajes relevantes
Recuperación de spans atómicos — extrae fragmentos de texto específicos en lugar de páginas completas
Índice separado — mantiene su propio índice rastreado junto a los resultados de búsqueda web

Qué significa esto: tus reglas de robots.txt para PerplexityBot pueden no detener a sus rastreadores sigilosos. Contenido estructurado con encabezados claros ayuda a que su extracción de spans encuentre los pasajes correctos.

Gemini

El modo de navegación más común de Gemini nunca llega a tu servidor:

Basado en índice — url_context lee del índice interno de Google, no de HTTP en vivo. En las pruebas, no apareció ninguna solicitud en los logs del servidor
Basado en capturas de pantalla — Project Mariner renderiza la página visualmente para tareas que lo requieren
Markdown rechazado — Gemini CLI rechazó respuestas con Accept: text/markdown en pruebas tempranas

Qué significa esto: tu sitio necesita estar indexado por Googlebot para que Gemini lo vea. Agregar <link rel="alternate" href="/llms.txt"> en tu HTML asegura que Google indexe la relación con llms.txt. Los datos estructurados JSON-LD también sobreviven al pipeline de indexación.

Qué hacer al respecto

Acción	Ayuda con
Servir `llms.txt` con markdown limpio	ChatGPT, Perplexity
Agregar `<link rel="alternate" href="/llms.txt">`	Gemini (vía índice de Google)
Agregar datos estructurados JSON-LD	Gemini (vía índice de Google)
No bloquear `Google-Extended` en robots.txt	Gemini
Usar firmas RFC 9421 para autenticación de bots	Verificación del Agent Mode de ChatGPT
Servir contenido estructurado con encabezados claros	Extracción de spans de Perplexity