Menu

El uso de datos sintéticos creados por computadoras podrían conducir a resultados sin sentido en el futuro de la IA.

Michael Peel
Milenio - 27 de julio de 2024

Al uso de datos generados por computadora para entrenar modelos de Inteligencia Artificial  (IA) corre el riesgo de producir resultados sin sentido, de acuerdo con una nueva investigación que pone de relieve los inminentes retos para la tecnología emergente.

Las principales empresas de IA, como OpenAI y Microsoft, han probado el uso de datos “sintéticos” —información creada por sistemas de IA para luego entrenar también modelos de lenguaje de gran tamaño (LLM)— a medida que alcanzan los límites del material creado por humanos que puede mejorar esta tecnología de vanguardia.

En una investigación que se publicó en la revista científica Nature se sugiere que el uso de ese tipo de datos podría conducir a una rápida degradación de los modelos de IA. Una prueba en la que se utilizó texto sintético sobre arquitectura medieval se convirtió en un debate sobre liebres después de menos de 10 generaciones de resultados.

El trabajo subraya por qué los desarrolladores de IA se han apresurado a comprar grandes cantidades de datos generados por humanos para el entrenamiento, y plantea interrogantes sobre qué va a ocurrir una vez que se agoten esas fuentes finitas. 

“Los datos sintéticos son asombrosos si logramos hacerlos funcionar”, dijo Ilia Shumailov, autor principal de la investigación. “Pero lo que estamos diciendo es que nuestros datos sintéticos actuales probablemente sean erróneos en algunos aspectos. Lo más sorprendente es lo rápido que ocurren estas cosas”. 

Lee aquí la nota completa

Go Back