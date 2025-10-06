La capacidad de sintetizar el habla humana mediante IA tiene una gran cantidad de aplicaciones, tanto positivas como negativas. Ahora, una nueva investigación muestra que las voces actuales generadas por IA son prácticamente indistinguibles de las de los humanos reales.

Un estudio publicado en la revista PLoS One y realizado por científicos de la Universidad Queen Mary de Londres, en el Reino Unido, concluye que la capacidad humana para distinguir una voz real de una creada por Inteligencia Artificial (IA) se ha limitado notablemente: las voces clonadas generadas por modelos comerciales suenan, para el oyente promedio, tan realistas como las grabaciones humanas.

A pesar de las oportunidades tecnológicas, el avance también implica riesgos para la privacidad, la seguridad y la veracidad de la información. Mucha gente aún piensa que el habla generada por IA suena “falsa” o poco convincente y se puede distinguir rápidamente de las voces humanas, pero los nuevos modelos demuestran lo contrario.

Voces creadas con IA: confiables y convincentes

Según una nota de prensa, el estudio comparó voces humanas reales con dos tipos diferentes de voces sintéticas, producidas empleando herramientas de síntesis de voz de IA de última generación. Una parte de los ejemplos fueron “clonados” a partir de grabaciones de voz de humanos reales, mientras que otro modelo de voz no empleó una fuente humana específica.

Para desarrollar los clones, los autores emplearon herramientas comerciales y necesitaron apenas minutos de audio por persona, algo que demuestra la accesibilidad de la técnica. En los ensayos participaron 28 evaluadores, que debían valorar la “realidad” de cada muestra y decidir si era humana o artificial. El resultado indicó que mientras las voces totalmente sintéticas se reconocían con mayor facilidad, los clones de IA a partir de voces humanas resultaron indistinguibles de las grabaciones reales.

Además de la incapacidad para discriminar lo humano de lo artificial, el estudio observó otro efecto inquietante: muchas voces generadas por IA fueron percibidas como más dominantes o incluso más confiables que las voces reales. Esa percepción podría amplificar la eficacia de campañas de manipulación o fraude, si actores malintencionados emplean clones para suplantar identidades en llamadas o mensajes de audio.

Un cambio vertiginoso: puede ser positivo y riesgoso al mismo tiempo

Los investigadores destacan la velocidad con la cual esta tecnología ha avanzado y la facilidad con que hoy se pueden producir clones realistas con poco coste y conocimientos técnicos. Según publica SingularityHub, el aspecto positivo es que la síntesis de voz de alta calidad promete mejoras en accesibilidad, por ejemplo en el caso de voces personalizadas para lectores de texto, en educación y en atención al cliente automatizada con mayor naturalidad.

Referencia Voice clones sound realistic but not (yet) hyperrealistic. Nadine Lavan et al. PLoS One (2025). DOI:https://doi.org/10.1371/journal.pone.0332692

Sin embargo, distintos expertos advierten sobre el creciente uso de estas herramientas en estafas telefónicas, suplantaciones de identidad y difusión de noticias "basura" o desinformación: bastan unos minutos de grabación a partir de una mínima muestra de voz real para crear una pieza convincente.

El desarrollo de detectores más eficaces y marcos legales que regulen el uso de clones de voz con IA y protejan derechos de autor y privacidad podrían ser algunas de las soluciones a este problema. Los autores también proponen campañas de alfabetización tecnológica, para que ciudadanos y organizaciones aprendan a verificar la autenticidad de los audios y puedan desconfiar de pruebas basadas solo en la voz.