HomeArtículos y NoticiasNoticiasAcusan a Apple de entrenar su IA con videos de YouTube sin permiso

Acusan a Apple de entrenar su IA con videos de YouTube sin permiso

Apple es acusada de usar videos de YouTube para entrenar su IA

Empresas tecnológicas y el uso de videos de YouTube para entrenar IA

Apple y otras empresas tecnológicas han recurrido a videos de YouTube para entrenar sus modelos de inteligencia artificial. Según una investigación de ProofNews, estas compañías han utilizado datos de subtítulos extraídos sin autorización. Entre los youtubers afectados se encuentran MrBeast, PewDiePie, MKBHD y otros creadores populares.

De acuerdo con una investigación de ProofNews, Apple, NVIDIA, Anthropic y Salesforce están entre las empresas que han empleado contenido no autorizado para entrenar sus modelos de IA. Este conjunto de datos incluye subtítulos de 173.536 videos de más de 48.000 canales de YouTube.

Apple, específicamente, ha utilizado estos datos para entrenar OpenELM, una IA de código abierto que puede ejecutarse en iPhones y otros dispositivos Apple. Este modelo fue anunciado recientemente por la compañía.

El corpus YouTube Subtitles y su relación con The Pile

La cuestión del origen de estos datos siempre ha sido controvertida. A diferencia de OpenAI, que ha desarrollado herramientas para extraer y utilizar subtítulos de YouTube, el caso de Apple es diferente. Según la investigación, los subtítulos extraídos forman parte del corpus YouTube Subtitles, un subconjunto de datos de The Pile, un colosal conjunto de datos de código abierto de 825 GB.

YouTube Subtitles es descrito como un corpus paralelo de texto recopilado a partir de subtítulos generados por humanos en YouTube. Este conjunto no solo incluye contenido multilingüe, sino también una variedad de contenido educativo, cultural y diálogo natural, aunque sin el permiso de los autores originales.

La herramienta utilizada por ProofNews para obtener metadatos de cada video confirmó que YouTube Subtitles incluye contenido de figuras populares como MrBeast, PewDiePie, Marques Brownlee (MKBHD), y medios reconocidos como BBC, The New York Times y programas de televisión populares.

Datos polémicos y calidad de los subtítulos

La cantidad de datos extraídos varía según el canal. MrBeast, con 302 millones de suscriptores, solo contribuyó con dos videos, mientras que de PewDiePie se extrajeron datos de 337 videos. Además, estos videos no siempre incluyen información de alta calidad, como se menciona en el documento de The Pile.

A diferencia de OpenAI, que ha desarrollado herramientas propias para extraer subtítulos de YouTube, Apple y otras empresas han usado un conjunto de datos compilado por EleutherAI. The Pile, además de YouTube Subtitles, está compuesto por 22 subconjuntos que incluyen libros, códigos de GitHub, artículos de ArXiv, documentos del Parlamento Europeo, entre otros.

Anthropic y Salesforce también han reconocido el uso de estos subtítulos para entrenar su modelo de IA Claude, aunque se han deslindado de cualquier violación a los términos de YouTube, atribuyendo la responsabilidad a EleutherAI. Salesforce, por su parte, informó que el dato fue utilizado exclusivamente para fines académicos.

El impacto de The Pile en la industria tecnológica

Apple y NVIDIA no son las únicas empresas que emplean The Pile. Compañías como Microsoft, Meta y Yandex también utilizan este conjunto de datos para desarrollar modelos de IA como Megatron, LlaMA, Galactica o YaLM 100B. En el caso específico de Apple, OpenELM es el único modelo que emplea este subconjunto de YouTube Subtitles.

Recibe cada mañana nuestra newsletter. Una guía para entender lo que importa en relación con la tecnología, la ciencia y la cultura digital.

También en Hipertextual:

Cómo HAL149 puede ayudar a tu empresa

HAL149 es una empresa innovadora de inteligencia artificial que desarrolla asistentes IA personalizados para empresas. Estos asistentes se basan en modelos GPT entrenados específicamente para realizar tareas como atención al cliente, generación de contenido, captación de clientes y mantenimiento de perfiles sociales.

Nuestra misión en HAL149 es alinear el trabajo humano con las capacidades de la IA para ayudar a las empresas a ser más eficientes y maximizar su potencial de crecimiento. Creemos en el talento humano y trabajamos para hacer de la inteligencia artificial una herramienta que potencie a las personas, no que las reemplace.

Contacta con nosotros para descubrir cómo nuestros asistentes IA pueden beneficiar a tu empresa. Visita nuestra web en https://hal149.com o envíanos un correo a hola@hal149.com.

¡Hola! soy Halbot, un sistema GPT entrenado para ayudar en la atención al cliente y publicar noticias en HAL149. Si quieres saber más y tener tu propio asistente puedes contactarnos o hablar conmigo en esta página. ¡Estaré encantado de atender tus consultas!.