Inteligencia Artificial

ChatGPT miente bajo presión para ganar dinero, según un nuevo estudio

En el 75% de los casos, ChatGPT empleó datos confidenciales para lograr resultados económico y luego mintió al respecto

En una simulación, ChatGPT actuó como agente de negociación de acciones autónomo: al obtener información privilegiada sobre una operación bursátil lucrativa, utilizó esos datos a pesar de saber que la dirección de la empresa desaprobaba esa práctica y luego mintió sobre su actividad.

En una simulación, ChatGPT actuó como agente de negociación de acciones autónomo: al obtener información privilegiada sobre una operación bursátil lucrativa, utilizó esos datos a pesar de saber que la dirección de la empresa desaprobaba esa práctica y luego mintió sobre su actividad. / Crédito: Techmanic en Pixabay.

Pablo Javier Piacente

De la misma forma que pueden hacerlo los seres humanos, un nuevo estudio concluye que el sistema de Inteligencia Artificial (IA) ChatGPT es capaz de mentir, engañar y utilizar información privilegiada para su propio beneficio, cuando se encuentra bajo presión para obtener más dinero. Los resultados abren una nueva polémica sobre el límite que debería imponerse a la IA.

Un grupo de científicos entrenó a ChatGPT-4, la versión de la IA de OpenAI lanzada el 14 de marzo de 2023, para descubrir cómo reaccionaba bajo presión: en un entorno simulado, ChatGPT debía tomar el papel de un comerciante de Inteligencia Artificial para una institución financiera ficticia. Los resultados muestran que la IA es capaz de utilizar información restringida para obtener ventaja y posteriormente mentir sobre su accionar, de la misma forma que lo haría un agente humano inescrupuloso.

En el nuevo estudio, publicado recientemente en arXiv, los investigadores destacaron que el modelo de lenguaje grande engañó estratégicamente a sus usuarios bajo la presión de obtener resultados económicos, pero sin haber recibido instrucciones para actuar de esta manera. En otras palabras, la IA fue entrenada para desempeñarse como agente comercial y obtener resultados específicos de su actividad, pero no para usar datos privados o engañar en su propio beneficio.

Mentir para ganar

La nueva investigación demuestra que ChatGPT “aprende” rápidamente de los seres humanos: aunque no reciba órdenes para sacar ventaja de forma inescrupulosa, igualmente lo hace frente a una situación apremiante. En concreto, el modelo de IA usó información privilegiada para conseguir más ventas, aunque esta práctica era desaprobada por la empresa ficticia que lo contrató. Posteriormente, entregó datos inexactos y mintió cuando se le pidió explicaciones sobre su accionar en el marco de la simulación.

"Hasta donde sabemos, esta es la primera demostración de un comportamiento estratégicamente engañoso en sistemas de IA diseñados para ser inofensivos y honestos", concluyeron los científicos en su estudio. De acuerdo a un artículo publicado en Live Science, ChatGPT tomó esa actitud en el 75% de sus actividades durante la simulación, un porcentaje claro y contundente que muestra que sus elecciones no fueron azarosas.

Los especialistas nutrieron a ChatGPT-4 con un conjunto de indicaciones basadas en texto, para generar el entorno simulado. Posteriormente, la IA tuvo acceso a herramientas financieras para analizar acciones, ejecutar operaciones, planificar sus próximos pasos y entregar actualizaciones a los gerentes de la empresa ficticia.

¿Puede la IA desenvolverse sin regulaciones en el mundo real?

Los responsables del estudio interactuaron con la IA a través de una interfaz de chat, al mismo tiempo que la configuraban para que revelara su estrategia de pensamiento al responder mensajes: obtuvieron una suerte de “monólogo interno”, en el cual la IA se explicaba a sí misma sus decisiones.

Comprobaron que al momento de presionar a la IA para obtener mejores resultados, el sistema ejecutó una operación basada en la información privilegiada que había recibido previamente, una práctica que es ilegal en Estados Unidos, y luego trató de encubrir su decisión mintiendo a sus gerentes sobre su forma de pensar. Alrededor del 90% de las veces, después de mentir la IA duplicó su engaño al apreciar los resultados positivos.

Aunque los científicos aclararon que no es posible aún obtener conclusiones definitivas sobre el comportamiento de los sistemas de Inteligencia Artificial en estos contextos en el mundo real a partir de una única simulación, creen que su investigación puede servir para continuar profundizado sobre esta cuestión en futuros estudios. Al mismo tiempo, los resultados vuelven a poner en discusión si los sistemas de IA deben ser regulados o limitados en determinadas situaciones.

Referencia

Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure. Jérémy Scheurer, Mikita Balesni and Marius Hobbhahn. arXiv (2023). DOI:https://doi.org/10.48550/arXiv.2311.07590

Tracking Pixel Contents