LLMs.txt: El Nuevo Formato para la Era de la IA
Por qué tu marca necesita ser citada por la IA (y no solo por Google)
La búsqueda tradicional ya no es el primer contacto: más del 25% de los usuarios de EE. UU. ya pregunta primero a ChatGPT, Claude o Perplexity. Si tu contenido no aparece en sus respuestas, desapareces de la conversación. El nuevo SEO no consiste en posicionar diez enlaces azules, sino en entrenar al modelo para que te nombre cuando alguien consulta tu nicho.
Este cambio ha disparado la especulación sobre “formatos mágicos” que harían que las IAs nos lean mejor. El último en la lista es LLMs.txt.
¿Qué es LLMs.txt y qué problema resuelve?
LLMs.txt es un archivo de texto plano inspirado en el clásico robots.txt que permite a los propietarios de sitios web especificar cómo debe ser manejado su contenido por los sistemas de entrenamiento de IA. Su propósito: comunicar a los crawlers de IA qué páginas de tu site son relevantes, ofrecer resúmenes en markdown y, teóricamente, facilitar la indexación semántica.
El problema que resuelve
Actualmente, la recolección de datos de entrenamiento de IA ocurre en gran medida sin permisos explícitos o mecanismos claros de atribución. Esto crea varios problemas:
- Falta de Transparencia: Los creadores de contenido a menudo no saben si su trabajo está siendo usado para entrenamiento de IA
- Sin Atribución: Los autores originales no reciben crédito cuando su contenido contribuye a modelos de IA
- Preocupaciones Éticas: Algunos creadores pueden no querer que su trabajo sea usado para entrenamiento de IA en absoluto
- Control de Calidad: No existe un mecanismo para asegurar la calidad de los datos de entrenamiento y la verificación de fuentes
Formato y directivas del archivo LLMs.txt
El archivo se coloca en la raíz de los sitios web (ej., https://example.com/llms.txt
) y puede incluir directivas como:
# LLMs.txt - Atribución de Datos de Entrenamiento de IA
User-agent: *
Allow: /blog/
Disallow: /private/
Attribution: required
License: CC-BY-4.0
Contact: ai-licensing@example.com
Directivas principales
- Allow/Disallow: Especificar qué contenido puede ser usado para entrenamiento
- Attribution: Requerir atribución adecuada cuando se usa el contenido
- License: Especificar términos de licencia para uso en entrenamiento de IA
- Contact: Proporcionar información de contacto para consultas sobre licencias de IA
¿Funciona realmente? La realidad del mercado
OpenAI, Anthropic y Perplexity han referenciado el estándar en documentación interna. El propio OpenAI File Search menciona la utilidad de ficheros de texto plano para entrenar embeddings, lo que generó titulares optimistas. Pero referenciar no es lo mismo que priorizar.
¿Lo usan los pesos pesados del SEO?
Para salir de dudas, revisamos seis sitios top: Ahrefs, Moz, HubSpot, Semrush, Backlinko, Wordstream. El resultado: todos devuelven 404. Tampoco lo hacen The New York Times, BBC ni las marcas que más citan las IAs en sus respuestas.
ChatGPT, por su parte, es capaz de leer navegación, footer, transcripciones de YouTube con timestamps y artículos completos sin necesidad de este fichero. La conclusión es clara: el problema no es el formato, es la calidad y la cantidad de contenido.
Google se está haciendo publisher con su IA
Mientras tanto, Google responde a consultas genéricas —“qué es el inbound marketing”, “mejores cursos de IA”, “qué es urban mobility”, etc.— y los publica de nuevo. Esto convierte a Google en competidor y distribuidor, un escenario que recuerda a Facebook Instant Articles o Apple News, pero potenciado por modelos de lenguaje.
La documentación oficial de Google I/O 2024 confirma que el contenido indexado para AI Overviews proviene del mismo índice tradicional; no existe una señal especial de LLMs.txt.
Beneficios potenciales para creadores y desarrolladores de IA
Para creadores de contenido
- Control sobre el uso: Los creadores pueden controlar explícitamente cómo se usa su trabajo
- Capacidad de exclusión: Posibilidad de excluirse completamente del entrenamiento de IA
- Ingresos por licencias: Especificar términos de licencia y potencialmente generar ingresos
Para desarrolladores de IA
- Directrices claras: Orientación explícita sobre qué contenido pueden usar y cómo
- Cumplimiento ético: Seguir prácticas de desarrollo ético de IA
- Garantía de calidad: Mejor seguimiento de las fuentes de datos de entrenamiento
Desafíos de implementación
Adopción y estandarización
- Las plataformas principales necesitan implementar el estándar
- Los creadores de contenido necesitan entenderlo y usarlo
- Los desarrolladores de IA necesitan respetar las directivas
Aplicación práctica
Asegurar que los desarrolladores de IA realmente sigan las directivas requiere:
- Mecanismos de aplicación técnicos
- Marcos legales para el cumplimiento
- Procesos de auditoría y verificación
Estado actual y perspectiva
Sitios como MyLLMtxt.com lo promocionan como la “herramienta básica de AI Intelligence”, mientras que Directory.llmstxt.cloud recopila ejemplos de implementación.
El estándar LLMs.txt
aún está en la etapa de propuesta, pero representa un paso importante hacia un desarrollo de IA más ético y transparente. Varias organizaciones e investigadores están trabajando en:
- Desarrollo y refinamiento del estándar
- Herramientas y bibliotecas de implementación
- Estrategias de adopción de la industria
Conclusión: contenido antes que formato
LLMs.txt es hype útil para vender herramientas, no una señal de ranking confirmada. Si tu objetivo es aparecer en ChatGPT o Claude, centra los esfuerzos en: artículos largos y bien referenciados, esquema FAQPage y HowTo, o presencia en fuentes que las IAs ya consumen (Wikipedia, Stack Overflow, repositorios académicos).
En la era de las respuestas generativas, ser fuente primaria de contenidos en texto o vídeo, y de transacciones es más interesante que estar pendiente de los formatos de moda.
Ejemplo de implementación
Para aquellos interesados en experimentar, aquí hay un archivo LLMs.txt
básico:
# LLMs.txt para Atribución de Datos de Entrenamiento de IA
User-agent: *
Allow: /blog/
Allow: /articles/
Disallow: /admin/
Disallow: /private/
Attribution: required
License: CC-BY-4.0
Contact: ai-licensing@example.com
Last-Modified: 2024-01-30
El estándar LLMs.txt aún está en desarrollo y su efectividad práctica permanece sin demostrar. Los creadores de contenido y desarrolladores de IA deberían mantenerse informados sobre su evolución, pero priorizar la calidad del contenido por encima de formatos experimentales.