Cómo navegan realmente la web los agentes de IA
El problema con las suposiciones
La mayoría de la optimización de sitios web asume que un visitante obtiene tu página vía HTTP, ve los encabezados, sigue las redirecciones y renderiza HTML. Los agentes de IA rompen cada una de estas suposiciones.
ChatGPT
La herramienta de navegación de ChatGPT obtiene páginas en vivo vía HTTP, pero el modelo nunca ve la respuesta cruda:
- Solo extracción de texto — el HTML se reduce a ~4,096 tokens de texto plano antes de que el modelo lo vea
- Sin encabezados — el modelo nunca conoce el Content-Type, los códigos de estado ni las redirecciones
- SearchGPT intermedio — un modelo secundario verifica si hay inyección de prompts antes de que el contenido llegue al modelo principal
- Agent Mode usa un UA falso de Chrome (
Chrome/138.0.0.0) y se identifica mediante firmas criptográficas RFC 9421, no mediante User-Agent
Qué significa esto: la negociación de contenido funciona en silencio (la capa de la herramienta la maneja), pero el modelo solo ve el texto extraído. Sirve texto limpio y estructurado y tu contenido será más útil para ChatGPT.
Perplexity
Perplexity usa una pipeline de recuperación en múltiples etapas:
- Rastreadores sigilosos — 3-6 millones de solicitudes/día con UAs genéricos de Chrome e IPs rotativas, no
PerplexityBot - Ranking híbrido — coincidencia de palabras clave BM25 + similitud vectorial para encontrar pasajes relevantes
- Recuperación de spans atómicos — extrae fragmentos de texto específicos en lugar de páginas completas
- Índice separado — mantiene su propio índice rastreado junto a los resultados de búsqueda web
Qué significa esto: tus reglas de robots.txt para PerplexityBot pueden no detener a sus rastreadores sigilosos. Contenido estructurado con encabezados claros ayuda a que su extracción de spans encuentre los pasajes correctos.
Gemini
El modo de navegación más común de Gemini nunca llega a tu servidor:
- Basado en índice —
url_contextlee del índice interno de Google, no de HTTP en vivo. En las pruebas, no apareció ninguna solicitud en los logs del servidor - Basado en capturas de pantalla — Project Mariner renderiza la página visualmente para tareas que lo requieren
- Markdown rechazado — Gemini CLI rechazó respuestas con
Accept: text/markdownen pruebas tempranas
Qué significa esto: tu sitio necesita estar indexado por Googlebot para que Gemini lo vea. Agregar <link rel="alternate" href="/llms.txt"> en tu HTML asegura que Google indexe la relación con llms.txt. Los datos estructurados JSON-LD también sobreviven al pipeline de indexación.
Qué hacer al respecto
| Acción | Ayuda con |
|---|---|
Servir llms.txt con markdown limpio | ChatGPT, Perplexity |
Agregar <link rel="alternate" href="/llms.txt"> | Gemini (vía índice de Google) |
| Agregar datos estructurados JSON-LD | Gemini (vía índice de Google) |
No bloquear Google-Extended en robots.txt | Gemini |
| Usar firmas RFC 9421 para autenticación de bots | Verificación del Agent Mode de ChatGPT |
| Servir contenido estructurado con encabezados claros | Extracción de spans de Perplexity |
Más información
- Dejan.ai: La herramienta URL Context de Google
- Dejan.ai: AI Mode no es web en vivo
- Cloudflare: Los rastreadores sigilosos de Perplexity
- SeatGeek: Persiguiendo la firma