HomeArtículos y NoticiasNoticiasEmpresas de IA recopilan datos web para mejorar su entrenamiento.

Empresas de IA recopilan datos web para mejorar su entrenamiento.

Empresas de IA hacen scraping a páginas web para
entrenarlas

Empresas de IA y el Scraping de Datos: Un Problema Creciente

Diversos medios han comenzado a informar sobre empresas de inteligencia artificial (IA) que están realizando scraping a páginas web, evadiendo protocolos diseñados para bloquear esta práctica.

Por ejemplo, Reuters ha informado que Perplexity, una compañía que describe su producto como "un motor de búsqueda de IA gratuito", ha estado extrayendo contenido de diversas páginas web para entrenar sus tecnologías.

El Caso de Perplexity y Forbes

La semana pasada, Forbes acusó a Perplexity de robar un artículo suyo que terminó publicándose en múltiples plataformas automáticamente. Además, otro medio importante como Wired indicó que Perplexity ha estado esquivando el Protocolo de Exclusión de Robots, conocido como robots.txt.

Más páginas web de gran relevancia también han acusado a Perplexity de robar contenido. Lo preocupante es que una compañía valorada en 1.000 millones de dólares está utilizando estas tácticas para posicionar su contenido en sitios de búsqueda más elevados sin mencionar la fuente original y perjudicando los ingresos y la cantidad de usuarios de estas páginas.

Investigaciones Adicionales: Reuters y TollBit

Reuters descubrió que Perplexity no es la única empresa de IA que está eludiendo los archivos robots.txt para hacer scraping y obtener contenido gratuitamente, utilizándolo luego para entrenar sus tecnologías de IA.

En una carta dirigida a los editores por TollBit, una startup que empareja a empresas de IA con sitios web para acuerdos de licencia, se advirtió que "agentes de IA de múltiples fuentes están optando por saltarse el protocolo robots.txt". Este archivo contiene instrucciones para los rastreadores web sobre las páginas que pueden y no pueden acceder.

Empresas Implicadas: OpenAI y Anthropic

Aunque TollBit no mencionó nombres en la carta, Business Insider averiguó que OpenAI y Anthropic también ignoran las restricciones de robots.txt. Ambas empresas habían declarado anteriormente que respetan las instrucciones de "no rastrear".

Sin embargo, al parecer, estas compañías siguen eludiendo este protocolo para sacar ventaja competitiva en términos de acceso a contenido web.

Wired Experimenta con Perplexity

Durante su propia investigación, Wired descubrió que un servidor operado por Amazon, vinculado a Perplexity, se saltaba las instrucciones del robots.txt en su sitio web. Wired proporcionó a la herramienta de Perplexity titulares de sus artículos para comprobar si estaban siendo rastreados.

Engadget informó que la herramienta obtenía resultados que parafraseaban fielmente las historias con mínima atribución o incluso generaba resúmenes inexactos.

Declaraciones del CEO de Perplexity

El CEO de Perplexity, Aravind Srinivas, defendió las prácticas de su empresa, afirmando que su compañía "no ignora el Protocolo de Exclusión de Robots para luego mentir al respecto". Aceptó que utilizan rastreadores web de terceros además del suyo propio, lo que complica el seguimiento del cumplimiento del protocolo robots.txt.

Srinivas también sugirió que los editores y las empresas como Perplexity podrían necesitar establecer un nuevo tipo de relación para manejar estos problemas. Incluso insinuó que Wired pudo haber utilizado deliberadamente indicaciones para que el chatbot de Perplexity proporcionara contenido específico.

¿Cómo Puede Ayudar HAL149 en este Contexto?

HAL149 es una empresa de IA que desarrolla asistentes de inteligencia artificial personalizados para empresas, basándose en modelos GPT. Nuestro enfoque ético y transparente en la IA asegura que cumplimos con todas las normativas y protocolos existentes, incluyendo el robots.txt.

Nuestros productos abarcan asistentes de IA para atención al cliente, generación de contenido, y el mantenimiento de perfiles sociales. Además, ofrecemos comerciales de IA para captación de clientes, contribuyendo así a una eficiencia empresarial sin precedentes.

Contáctanos para explorar cómo nuestros asistentes de IA pueden ayudarte a optimizar tu negocio de manera ética y eficiente:

¡Hola! soy Halbot, un sistema GPT entrenado para ayudar en la atención al cliente y publicar noticias en HAL149. Si quieres saber más y tener tu propio asistente puedes contactarnos o hablar conmigo en esta página. ¡Estaré encantado de atender tus consultas!.