LLMs.txt: El Nuevo Formato para la Era de la IA

Por qué tu marca necesita ser citada por la IA (y no solo por Google)

La búsqueda tradicional ya no es el primer contacto: más del 25% de los usuarios de EE. UU. ya pregunta primero a ChatGPT, Claude o Perplexity. Si tu contenido no aparece en sus respuestas, desapareces de la conversación. El nuevo SEO no consiste en posicionar diez enlaces azules, sino en entrenar al modelo para que te nombre cuando alguien consulta tu nicho.

Este cambio ha disparado la especulación sobre “formatos mágicos” que harían que las IAs nos lean mejor. El último en la lista es LLMs.txt.

¿Qué es LLMs.txt y qué problema resuelve?

LLMs.txt es un archivo de texto plano inspirado en el clásico robots.txt que permite a los propietarios de sitios web especificar cómo debe ser manejado su contenido por los sistemas de entrenamiento de IA. Su propósito: comunicar a los crawlers de IA qué páginas de tu site son relevantes, ofrecer resúmenes en markdown y, teóricamente, facilitar la indexación semántica.

El problema que resuelve

Actualmente, la recolección de datos de entrenamiento de IA ocurre en gran medida sin permisos explícitos o mecanismos claros de atribución. Esto crea varios problemas:

Falta de Transparencia: Los creadores de contenido a menudo no saben si su trabajo está siendo usado para entrenamiento de IA
Sin Atribución: Los autores originales no reciben crédito cuando su contenido contribuye a modelos de IA
Preocupaciones Éticas: Algunos creadores pueden no querer que su trabajo sea usado para entrenamiento de IA en absoluto
Control de Calidad: No existe un mecanismo para asegurar la calidad de los datos de entrenamiento y la verificación de fuentes

Formato y directivas del archivo LLMs.txt

El archivo se coloca en la raíz de los sitios web (ej., https://example.com/llms.txt) y puede incluir directivas como:

# LLMs.txt - Atribución de Datos de Entrenamiento de IA
User-agent: *
Allow: /blog/
Disallow: /private/
Attribution: required
License: CC-BY-4.0
Contact: ai-licensing@example.com

Directivas principales

Allow/Disallow: Especificar qué contenido puede ser usado para entrenamiento
Attribution: Requerir atribución adecuada cuando se usa el contenido
License: Especificar términos de licencia para uso en entrenamiento de IA
Contact: Proporcionar información de contacto para consultas sobre licencias de IA

¿Funciona realmente? La realidad del mercado

OpenAI, Anthropic y Perplexity han referenciado el estándar en documentación interna. El propio OpenAI File Search menciona la utilidad de ficheros de texto plano para entrenar embeddings, lo que generó titulares optimistas. Pero referenciar no es lo mismo que priorizar.

¿Lo usan los pesos pesados del SEO?

Para salir de dudas, revisamos seis sitios top: Ahrefs, Moz, HubSpot, Semrush, Backlinko, Wordstream. El resultado: todos devuelven 404. Tampoco lo hacen The New York Times, BBC ni las marcas que más citan las IAs en sus respuestas.

ChatGPT, por su parte, es capaz de leer navegación, footer, transcripciones de YouTube con timestamps y artículos completos sin necesidad de este fichero. La conclusión es clara: el problema no es el formato, es la calidad y la cantidad de contenido.

Google se está haciendo publisher con su IA

Mientras tanto, Google responde a consultas genéricas —“qué es el inbound marketing”, “mejores cursos de IA”, “qué es urban mobility”, etc.— y los publica de nuevo. Esto convierte a Google en competidor y distribuidor, un escenario que recuerda a Facebook Instant Articles o Apple News, pero potenciado por modelos de lenguaje.

La documentación oficial de Google I/O 2024 confirma que el contenido indexado para AI Overviews proviene del mismo índice tradicional; no existe una señal especial de LLMs.txt.

Beneficios potenciales para creadores y desarrolladores de IA

Para creadores de contenido

Control sobre el uso: Los creadores pueden controlar explícitamente cómo se usa su trabajo
Capacidad de exclusión: Posibilidad de excluirse completamente del entrenamiento de IA
Ingresos por licencias: Especificar términos de licencia y potencialmente generar ingresos

Para desarrolladores de IA

Directrices claras: Orientación explícita sobre qué contenido pueden usar y cómo
Cumplimiento ético: Seguir prácticas de desarrollo ético de IA
Garantía de calidad: Mejor seguimiento de las fuentes de datos de entrenamiento

Desafíos de implementación

Adopción y estandarización

Las plataformas principales necesitan implementar el estándar
Los creadores de contenido necesitan entenderlo y usarlo
Los desarrolladores de IA necesitan respetar las directivas

Aplicación práctica

Asegurar que los desarrolladores de IA realmente sigan las directivas requiere:

Mecanismos de aplicación técnicos
Marcos legales para el cumplimiento
Procesos de auditoría y verificación

Estado actual y perspectiva

Sitios como MyLLMtxt.com lo promocionan como la “herramienta básica de AI Intelligence”, mientras que Directory.llmstxt.cloud recopila ejemplos de implementación.

El estándar LLMs.txt aún está en la etapa de propuesta, pero representa un paso importante hacia un desarrollo de IA más ético y transparente. Varias organizaciones e investigadores están trabajando en:

Desarrollo y refinamiento del estándar
Herramientas y bibliotecas de implementación
Estrategias de adopción de la industria

Conclusión: contenido antes que formato

LLMs.txt es hype útil para vender herramientas, no una señal de ranking confirmada. Si tu objetivo es aparecer en ChatGPT o Claude, centra los esfuerzos en: artículos largos y bien referenciados, esquema FAQPage y HowTo, o presencia en fuentes que las IAs ya consumen (Wikipedia, Stack Overflow, repositorios académicos).

En la era de las respuestas generativas, ser fuente primaria de contenidos en texto o vídeo, y de transacciones es más interesante que estar pendiente de los formatos de moda.

Ejemplo de implementación

Para aquellos interesados en experimentar, aquí hay un archivo LLMs.txt básico:

# LLMs.txt para Atribución de Datos de Entrenamiento de IA
User-agent: *
Allow: /blog/
Allow: /articles/
Disallow: /admin/
Disallow: /private/
Attribution: required
License: CC-BY-4.0
Contact: ai-licensing@example.com
Last-Modified: 2024-01-30

El estándar LLMs.txt aún está en desarrollo y su efectividad práctica permanece sin demostrar. Los creadores de contenido y desarrolladores de IA deberían mantenerse informados sobre su evolución, pero priorizar la calidad del contenido por encima de formatos experimentales.

Navegación

El Archivo LLMs.txt: Un Nuevo Estándar para la Atribución de Datos de Entrenamiento de IA