Inteligencia Artificial

Un modelo de IA ya pasa como humano

GPT-4.5 supera oficialmente el Test de Turing: ¿se difumina el límite entre la inteligencia humana y la artificial?

¿Es posible determinar si nos comunicamos con una IA o un ser humano o los límites ya se han borrado?

¿Es posible determinar si nos comunicamos con una IA o un ser humano o los límites ya se han borrado? / Crédito: anaterate en Pixabay.

Pablo Javier Piacente / T21

Uno de los principales modelos de lenguaje grande de la industria ha pasado una prueba de Turing, un barómetro de larga data para la inteligencia humana. En un nuevo estudio, los participantes conversaron con un humano y una IA al mismo tiempo y luego evaluaron su identidad: el modelo GPT-4.5 de OpenAI fue considerado humano por los voluntarios en el 73% de los casos en los cuales se le solicitó actuar como una persona.

Un estudio publicado recientemente en arXiv ha verificado que un popular modelo de IA ya supera el legendario Test de Turing. A la espera de revisión por pares, la investigación realizada por científicos de la Universidad de California en San Diego, en Estados Unidos, evaluó el desempeño del modelo GPT-4.5 de OpenAI mediante una versión modificada del experimento original propuesto por Alan Turing en 1950.

El test original de Turing buscaba determinar la capacidad de una máquina para exhibir un comportamiento inteligente que no pueda distinguirse del razonamiento humano. Según informa Futurism, el experimento actual consistió en una prueba de tres participantes, en la que uno de ellos se comunicaba simultáneamente con un humano y con la IA.

Luego de la conversación, el interrogador debía determinar cuál de los dos interlocutores era el ser humano. En condiciones donde el modelo GPT-4.5 fue instruido para adoptar un comportamiento de "persona", por ejemplo interpretando el rol de un joven conocedor de la cultura y de Internet, el sistema fue percibido como humano en el 73% de las ocasiones. 

Este porcentaje supera de manera considerable el azar, que se sitúa en torno al 50%, sugiriendo que, al menos en el contexto de este experimento, la IA logró convencer a los participantes de su '"humanidad". Este hecho nos vuelve a hacer pensar sobre los límites de la IA, si es que existen o podemos fijarlos de alguna forma.

La importancia de los prompts

Para comprender mejor la metodología, es importante destacar que el estudio comparó diferentes enfoques en la instrucción a los modelos de IA. Cuando GPT-4.5 recibió únicamente un “prompt sin persona”, es decir, la simple indicación de convencer al interrogador de ser humano, su tasa de éxito descendió hasta el 36%. 

Por el contrario, el modelo GPT-4, al ser sometido también a instrucciones sin una persona definida, alcanzó solo un 21% de éxito. Incluso el histórico chatbot ELIZA, desarrollado hace aproximadamente 80 años, logró un 23% de efectividad. Esto subraya la importancia de la personalización en los prompts (las instrucciones que le damos a la IA) para lograr respuestas más humanas.

El estudio también incluyó la evaluación del modelo Llama 3.1-405B de Meta, el cual, al igual que GPT-4.5, se benefició del uso de prompts que le permitieron adoptar un rol específico durante la conversación. Los resultados apuntan a que la capacidad de imitar características humanas se potencia significativamente cuando la IA adopta una identidad concreta, facilitando que los interlocutores la perciban como un ser humano real.

Vale recordar que el test original fue ideado por Alan Turing como un “juego de imitación”, en el cual si un interrogador no lograba distinguir entre una conversación con una máquina y otra con un humano, se podía inferir que la máquina poseía cierto grado de inteligencia similar a la humana.

Dudas y certezas

Sin embargo, como señala un artículo publicado en Interesting Engineering, el test de Turing ya parece tener limitaciones en la actualidad. Aunque este experimento ha servido durante décadas como una referencia en debates filosóficos y tecnológicos, algunos expertos, como François Chollet de Google, han advertido que el test no es un indicador absoluto de pensamiento humano. 

Chollet ha enfatizado que la prueba era más bien un experimento mental y que aunque los modelos de lenguaje son excelentes conversadores entrenados con enormes cantidades de texto humano, su capacidad para generar respuestas plausibles no implica necesariamente un proceso de pensamiento similar al humano.

Referencia 

Large Language Models Pass the Turing Test. Cameron R. Jones and Benjamin K. Bergen. arXiv (2025). DOI:https://doi.org/10.48550/arXiv.2503.23674

El autor principal del nuevo estudio, Cameron Jones, señaló en redes sociales que estos hallazgos ofrecen evidencia en torno a que las IA actuales pueden sustituir a las personas en interacciones breves sin ser detectadas, algo que podría tener implicaciones potencialmente peligrosas en la automatización de empleos y en el aumento de ataques de ingeniería social. 

Además, Jones subrayó que la evolución en la percepción pública de la tecnología podría modificar la capacidad de las personas para detectar la presencia de una IA en futuras interacciones, a la par de la masificación de estos sistemas. Aunque los resultados del experimento demuestran un avance significativo en el desarrollo de sistemas conversacionales, la discusión sobre si una IA “piensa” como un humano continúa abierta

Tracking Pixel Contents