Inteligencia Artificial
Podríamos quedarnos sin información para "alimentar" a la IA en 2026
Esto alteraría la trayectoria de la revolución de la Inteligencia Artificial, que se encuentra en pleno auge
Pablo Javier Piacente
Los investigadores advierten que podríamos quedarnos sin datos para nutrir a la Inteligencia Artificial (IA) en solamente tres años. Los científicos creen que la industria podría estar quedándose sin datos de entrenamiento, el "combustible" que hace funcionar los potentes sistemas de IA. Esto podría frenar el crecimiento de los modelos de Inteligencia Artificial, sobretodo en el caso de los modelos de lenguaje grande o extenso (MLL, según las siglas en inglés).
Un artículo publicado recientemente en The Conversation y un estudio que apareció en 2022 en ArXiv concluyen que existen amplias probabilidades de que la industria ligada a la Inteligencia Artificial (IA) afronte la carencia de datos de alta calidad para alimentar y entrenar a sus modelos sobre 2026. De confirmarse esta situación, se podría producir un freno en el desarrollo de la IA, que actualmente alcanza la cima de su popularidad.
¿La IA se queda sin datos para entrenarse?
La Inteligencia Artificialsustenta su capacidad para construir discursos coherentes y ofrecer soluciones útiles para la humanidad a partir de un “alimento” básico: los datos y la información. Los mismos hacen posible el entrenamiento de los modelos de lenguaje grande (MLL), que han propiciado avances como ChatGPT, la aplicación de chatbot que presenta una conversación fluida similar a la comunicación humana.
De esta manera, la calidad y cantidad de los datos empleados en estos entrenamientos son vitales para el éxito de los sistemas de IA, como indica en The Conversation la especialista Rita Matulionyte, de la Universidad Macquarie, en Australia. Por ejemplo, ChatGPT se entrenó con 570 gigabytes de datos de texto, o alrededor de 300 mil millones de palabras. Pero la cantidad no es suficiente: también se requiere información confiable y precisa.
La calidad de los datos puede marcar el camino que tomará la IA: sistemas artificiales que propician el desarrollo tecnológico y económico o propuestas que pueden volverse hasta peligrosas para la humanidad. Por ejemplo, el texto tomado de las plataformas de redes sociales puede ser sesgado o prejuicioso, o puede incluir desinformación o contenido ilegal que el modelo podría replicar. Cuando Microsoft intentó entrenar su robot de IA utilizando contenido de Twitter, el modelo aprendió a producir resultados racistas y misóginos.
Un cuello de botella a superar
Debido a esto, las empresas que compiten por el dominio del segmento de la IA requieren una cantidad cada vez mayor de datos e información de calidad, provenientes de portales digitales reconocidos, artículos científicos, textos elaborados por expertos e incluso contenido digitalizado que se produjo antes de Internet, disponible en principio en libros o enciclopedias, por ejemplo. Al parecer, esta necesidad creciente podría derivar en la saturación de la oferta disponible.
Según un estudio liderado por el científico Pablo Villalobos, que apareció el año pasado en ArXiv, esta situación propiciará que el texto de alta calidad disponible para el entrenamiento de IA se agote antes de 2026, si continúan las tendencias actuales. Los investigadores también estimaron que los datos lingüísticos de baja calidad se agotarán entre 2030 y 2050, y los datos de imágenes de baja calidad entre 2030 y 2060.
Para hacer frente a este “cuello de botella” que deberá superar la IA, algunas empresas del sector están optando por el llamado contenido sintético, o sea un tipo de contenido elaborado artificialmente para el propio consumo de los sistemas de IA. Al mismo tiempo, los expertos creen que otra posible salida será ofrecer un mayor reconocimiento económico a los creadores de contenidos digitales, cuyo material es aprovechado actualmente de forma gratuita en el entrenamiento de la mayoría de los modelos de IA.
Referencia
Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. Pablo Villalobos et al. ArXiv (2022). DOI:https://doi.org/10.48550/arXiv.2211.04325
- Alerta urgente de la Policía Nacional a los usuarios que usan WhatsApp en el ordenador y en el móvil
- Atraca en Málaga uno de los yates más grandes del mundo, propiedad del príncipe de Dubái
- Hacienda avisa a los españoles: antes de junio, hay que pagar este impuesto o multa
- La Policía alerta a la población española por lo que está ocurriendo con los DNI
- ¿Qué caerá en la Selectividad 2024? Estos son los temas más recurrentes
- Así será el futuro Astoria: el estudio Barozzi Veiga gana el concurso para diseñarlo
- Los cafés 'de toda la vida' de Málaga resisten el envite de los 'millennials
- Oficial: los trabajadores que ganen menos de 1.350 euros podrán cobrar el paro y su sueldo al mismo tiempo