Inteligencia artificial

La interacción entre la IA y humanos alcanza un nuevo nivel: Modo de voz avanzado de ChatGPT

Gábor Bíró • 31 de julio de 2024

4 min de lectura

En el verano de 2024, OpenAI comenzó a implementar el esperado Modo de Voz Avanzado para ChatGPT. Aprovechando las capacidades multimodales del modelo GPT-4o, esta función abrió una nueva dimensión en la comunicación con la inteligencia artificial. Inicialmente disponible para un grupo selecto de suscriptores de pago (Plus), esta función ofrecía interacciones de voz hiperrealistas y en tiempo real, reduciendo significativamente la latencia de las funciones de voz anteriores y permitiendo conversaciones más naturales.

El Modo de Voz Avanzado cambió fundamentalmente la interacción entre usuarios y ChatGPT. Mientras que las funciones de voz anteriores utilizaban modelos separados para las conversiones de voz a texto y de texto a voz, el modelo GPT-4o puede manejar de forma nativa entradas y salidas de audio. Este enfoque multimodal permite respuestas casi instantáneas y un flujo de conversación más fluido y natural.

Capacidades del Modo de Voz Avanzado

En su lanzamiento, el Modo de Voz Avanzado prometió y ofreció varias características innovadoras a los probadores:

Interacción en tiempo real: Latencia mínima entre pregunta y respuesta, lo que permite un diálogo natural.
Interrumpibilidad: Los usuarios podían interrumpir a ChatGPT a mitad de frase, como en una conversación humana.
Detección y expresión de emociones: El sistema podía reconocer emociones en el tono de voz del usuario (por ejemplo, tristeza, entusiasmo) y responder con tonos emocionales igualmente matizados.
Voces preestablecidas: Para evitar el uso indebido (por ejemplo, la clonación de voz), OpenAI limitó inicialmente las voces de respuesta a cuatro opciones (Juniper, Breeze, Cove, Ember) creadas con actores de voz profesionales. Estas sustituyeron a la controvertida voz "Sky" que apareció en una demostración anterior.

Implementación gradual y medidas de seguridad

Desde el principio, OpenAI hizo hincapié en una implementación cautelosa y gradual y en la importancia de la seguridad. La fase alfa en julio de 2024 comenzó con un pequeño grupo de usuarios, con planes de poner la función a disposición de todos los suscriptores Plus en otoño de 2024. Antes del lanzamiento más amplio, trabajaron con más de 100 probadores externos en 45 idiomas para identificar y mitigar los posibles riesgos.

Se implementaron sólidas medidas de seguridad, incluidos filtros para evitar la generación de contenido violento, odioso o protegido por derechos de autor en formato de audio. Se construyeron sistemas específicos para garantizar que el modelo solo hable con las voces preestablecidas autorizadas, evitando la suplantación de individuos conocidos o de la propia voz del usuario.

Antecedentes: El caso de la voz "Sky"

El desarrollo del Modo de Voz Avanzado se vio ensombrecido por la controversia en torno a la voz "Sky", demostrada en mayo de 2024. Muchos creían que la voz guardaba un sorprendente parecido con la actriz Scarlett Johansson, que anteriormente había rechazado una oferta de OpenAI para poner voz al sistema. Johansson expresó públicamente su sorpresa y desaprobación. Aunque OpenAI negó haber imitado intencionadamente a la actriz (y posteriores investigaciones revelaron que el actor de voz de Sky fue contratado meses antes de que se acercaran a Johansson), la controversia llevó a la eliminación de la voz "Sky" antes de que comenzaran las pruebas más amplias.

En el momento del lanzamiento en julio de 2024, OpenAI indicó planes para mejorar el modo de voz con futuras capacidades, como el análisis de vídeo en tiempo real y el uso compartido de pantalla, y también planeaba publicar un informe de seguridad detallado en agosto.

Actualización (14 de abril de 2025)

Desde la publicación del artículo original en julio de 2024, el Modo de Voz Avanzado de ChatGPT ha experimentado un desarrollo significativo y se ha generalizado su disponibilidad:

Implementación completa para usuarios de pago: Como estaba previsto, OpenAI extendió el acceso al Modo de Voz Avanzado a todos los usuarios de ChatGPT Plus, Team, Pro, Enterprise y Edu en otoño de 2024. Se convirtió en el modo de voz predeterminado para los niveles de pago en interfaces móviles, de escritorio y web.
Disponibilidad para usuarios gratuitos: A partir de febrero de 2025, los usuarios gratuitos de ChatGPT también pueden experimentar el Modo de Voz Avanzado, aunque con límites de tiempo diarios. Para ellos, la función funciona con el modelo GPT-4o mini.
Nuevas funciones:
- Vídeo y pantalla compartida: Las capacidades de análisis de vídeo en tiempo real y pantalla compartida previamente anunciadas se hicieron disponibles para los usuarios de pago en las aplicaciones móviles (iOS y Android) a partir de diciembre de 2024.
- Memoria e instrucciones personalizadas: Estas funciones se han integrado en el modo de voz, lo que permite a ChatGPT recordar conversaciones pasadas y adherirse a las preferencias definidas por el usuario.
- Más voces y pronunciación mejorada: El número de voces disponibles aumentó a nueve (por ejemplo, Arbor, Maple, Sol), y también aparecieron opciones de temporada. OpenAI sigue perfeccionando la naturalidad de las voces y el manejo de diferentes acentos.
- Menos interrupciones: Una actualización de marzo de 2025 mejoró la capacidad del sistema para evitar interrumpir al usuario durante las pausas de pensamiento, haciendo el diálogo aún más fluido.
Informe de seguridad y preocupaciones: OpenAI publicó la Tarjeta del Sistema GPT-4o en agosto de 2024, detallando pruebas exhaustivas y medidas de seguridad integradas. Confirmó el uso de voces preestablecidas y el filtrado de contenido, pero también destacó riesgos como el antropomorfismo (atribuir cualidades humanas a la IA), el potencial apego emocional y casos raros de mimetismo vocal involuntario que requieren mayor refinamiento.
Límites de uso: El uso del Modo de Voz Avanzado está sujeto a límites diarios que varían según el nivel de usuario (Gratuito, Plus, Pro, etc.).

En general, el Modo de Voz Avanzado de ChatGPT se ha implementado con éxito y sigue evolucionando, acercando las interacciones con la IA a la conversación humana natural, mientras OpenAI se esfuerza por gestionar los desafíos éticos y de seguridad asociados.