## El problema con las suposiciones

La mayoría de la optimización de sitios web asume que un visitante obtiene tu página vía HTTP, ve los encabezados, sigue las redirecciones y renderiza HTML. Los agentes de IA rompen cada una de estas suposiciones.

## ChatGPT

La herramienta de navegación de ChatGPT obtiene páginas en vivo vía HTTP, pero el modelo nunca ve la respuesta cruda:

- **Solo extracción de texto** — el HTML se reduce a ~4,096 tokens de texto plano antes de que el modelo lo vea
- **Sin encabezados** — el modelo nunca conoce el Content-Type, los códigos de estado ni las redirecciones
- **SearchGPT intermedio** — un modelo secundario verifica si hay inyección de prompts antes de que el contenido llegue al modelo principal
- **Agent Mode** usa un UA falso de Chrome (`Chrome/138.0.0.0`) y se identifica mediante firmas criptográficas RFC 9421, no mediante User-Agent

**Qué significa esto:** la negociación de contenido funciona en silencio (la capa de la herramienta la maneja), pero el modelo solo ve el texto extraído. Sirve texto limpio y estructurado y tu contenido será más útil para ChatGPT.

## Perplexity

Perplexity usa una pipeline de recuperación en múltiples etapas:

- **Rastreadores sigilosos** — 3-6 millones de solicitudes/día con UAs genéricos de Chrome e IPs rotativas, no `PerplexityBot`
- **Ranking híbrido** — coincidencia de palabras clave BM25 + similitud vectorial para encontrar pasajes relevantes
- **Recuperación de spans atómicos** — extrae fragmentos de texto específicos en lugar de páginas completas
- **Índice separado** — mantiene su propio índice rastreado junto a los resultados de búsqueda web

**Qué significa esto:** tus reglas de `robots.txt` para `PerplexityBot` pueden no detener a sus rastreadores sigilosos. Contenido estructurado con encabezados claros ayuda a que su extracción de spans encuentre los pasajes correctos.

## Gemini

El modo de navegación más común de Gemini nunca llega a tu servidor:

- **Basado en índice** — `url_context` lee del índice interno de Google, no de HTTP en vivo. En las pruebas, no apareció ninguna solicitud en los logs del servidor
- **Basado en capturas de pantalla** — Project Mariner renderiza la página visualmente para tareas que lo requieren
- **Markdown rechazado** — Gemini CLI rechazó respuestas con `Accept: text/markdown` en pruebas tempranas

**Qué significa esto:** tu sitio necesita estar indexado por Googlebot para que Gemini lo vea. Agregar `<link rel="alternate" href="/llms.txt">` en tu HTML asegura que Google indexe la relación con [llms.txt](/kb/es/llms-txt). Los datos estructurados JSON-LD también sobreviven al pipeline de indexación.

## Qué hacer al respecto

| Acción | Ayuda con |
|--------|------------|
| Servir `llms.txt` con markdown limpio | ChatGPT, Perplexity |
| Agregar `<link rel="alternate" href="/llms.txt">` | Gemini (vía índice de Google) |
| Agregar datos estructurados JSON-LD | Gemini (vía índice de Google) |
| No bloquear `Google-Extended` en [robots.txt](/kb/es/robots-txt) | Gemini |
| Usar firmas RFC 9421 para autenticación de bots | Verificación del Agent Mode de ChatGPT |
| Servir contenido estructurado con encabezados claros | Extracción de spans de Perplexity |

## Más información

- [Dejan.ai: La herramienta URL Context de Google](https://dejan.ai/blog/googles-new-url-context-tool/)
- [Dejan.ai: AI Mode no es web en vivo](https://dejan.ai/blog/ai-mode-is-not-live-web/)
- [Cloudflare: Los rastreadores sigilosos de Perplexity](https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/)
- [SeatGeek: Persiguiendo la firma](https://chairnerd.seatgeek.com/chasing-signature/)

## Relacionado

- [SKILL.md](/kb/es/skills)
- [OpenAPI](/kb/es/openapi)
- [A2A](/kb/es/a2a)
- [WebMCP](/kb/es/webmcp)