Intelligence artificielle

L'IA et l'interaction humaine franchissent un nouveau cap : le mode vocal avancé de ChatGPT

Gábor Bíró • 31 juillet 2024

4 min de lecture

À l'été 2024, OpenAI a commencé à déployer le mode vocal avancé très attendu pour ChatGPT. Tirant parti des capacités multimodales du modèle GPT-4o, cette fonctionnalité a ouvert une nouvelle dimension dans la communication avec l'intelligence artificielle. Initialement disponible pour un groupe restreint d'abonnés payants (Plus), cette fonction offrait des interactions vocales hyperréalistes et en temps réel, réduisant considérablement la latence des fonctionnalités vocales précédentes et permettant des conversations plus naturelles.

Le mode vocal avancé a fondamentalement changé l'interaction entre les utilisateurs et ChatGPT. Alors que les fonctions vocales antérieures utilisaient des modèles distincts pour les conversions parole-texte et texte-parole, le modèle GPT-4o peut gérer nativement les entrées et sorties audio. Cette approche multimodale permet des réponses quasi instantanées et un déroulement de conversation plus fluide et naturel.

Capacités du mode vocal avancé

Lors de son lancement, le mode vocal avancé promettait et offrait plusieurs fonctionnalités révolutionnaires aux testeurs :

Interaction en temps réel : Latence minimale entre la question et la réponse, permettant un dialogue naturel.
Interruptibilité : Les utilisateurs pouvaient interrompre ChatGPT au milieu d'une phrase, comme dans une conversation humaine.
Détection et expression des émotions : Le système pouvait reconnaître les émotions dans le ton de la voix de l'utilisateur (par exemple, la tristesse, l'enthousiasme) et répondre avec des tons émotionnels nuancés similaires.
Voix prédéfinies : Pour éviter toute utilisation abusive (par exemple, le clonage vocal), OpenAI a initialement limité les voix de réponse à quatre options (Juniper, Breeze, Cove, Ember) créées avec des acteurs vocaux professionnels. Celles-ci ont remplacé la voix controversée "Sky" présentée dans une démo précédente.

Déploiement progressif et mesures de sécurité

Dès le début, OpenAI a mis l'accent sur un déploiement progressif et prudent, ainsi que sur l'importance de la sécurité. La phase alpha en juillet 2024 a commencé avec un petit groupe d'utilisateurs, avec des plans pour rendre la fonctionnalité disponible à tous les abonnés Plus à l'automne 2024. Avant la diffusion à plus grande échelle, ils ont travaillé avec plus de 100 testeurs externes dans 45 langues afin d'identifier et d'atténuer les risques potentiels.

Des mesures de sécurité robustes ont été mises en place, notamment des filtres pour empêcher la génération de contenu violent, haineux ou protégé par le droit d'auteur au format audio. Des systèmes spécifiques ont été construits pour garantir que le modèle ne parle qu'avec les voix prédéfinies autorisées, empêchant ainsi l'usurpation d'identité de personnes connues ou de la propre voix de l'utilisateur.

Contexte : L'affaire de la voix "Sky"

Le développement du mode vocal avancé a été éclipsé par la controverse entourant la voix "Sky", présentée en mai 2024. Beaucoup pensaient que la voix ressemblait de manière frappante à l'actrice Scarlett Johansson, qui avait précédemment refusé une offre d'OpenAI pour prêter sa voix au système. Johansson a publiquement exprimé son choc et sa désapprobation. Bien qu'OpenAI ait nié avoir intentionnellement imité l'actrice (et des enquêtes ultérieures ont révélé que l'acteur vocal de Sky avait été engagé des mois avant que Johansson ne soit approchée), la controverse a conduit à la suppression de la voix "Sky" avant que des tests plus larges ne commencent.

Au moment du lancement en juillet 2024, OpenAI a indiqué son intention d'améliorer le mode vocal avec de futures capacités, telles que l'analyse vidéo en temps réel et le partage d'écran, et prévoyait également de publier un rapport de sécurité détaillé en août.

Mise à jour (14 avril 2025)

Depuis la publication de l'article original en juillet 2024, le mode vocal avancé de ChatGPT a connu un développement significatif et est devenu plus largement disponible :

Déploiement complet pour les utilisateurs payants : Comme prévu, OpenAI a étendu l'accès au mode vocal avancé à tous les utilisateurs de ChatGPT Plus, Team, Pro, Enterprise et Edu à l'automne 2024. Il est devenu le mode vocal par défaut pour les niveaux payants sur les interfaces mobiles, de bureau et web.
Disponibilité pour les utilisateurs gratuits : Depuis février 2025, les utilisateurs gratuits de ChatGPT peuvent également expérimenter le mode vocal avancé, bien qu'avec des limites de temps quotidiennes. Pour eux, la fonctionnalité est alimentée par le modèle GPT-4o mini.
Nouvelles fonctionnalités :
- Vidéo et partage d'écran : Les capacités d'analyse vidéo en temps réel et de partage d'écran précédemment annoncées sont devenues disponibles pour les utilisateurs payants dans les applications mobiles (iOS et Android) à partir de décembre 2024.
- Mémoire et instructions personnalisées : Ces fonctionnalités ont été intégrées au mode vocal, permettant à ChatGPT de se souvenir des conversations passées et de respecter les préférences définies par l'utilisateur.
- Plus de voix et prononciation améliorée : Le nombre de voix disponibles est passé à neuf (par exemple, Arbor, Maple, Sol), avec des options saisonnières apparaissant également. OpenAI continue d'affiner le naturel des voix et la gestion des différents accents.
- Moins d'interruptions : Une mise à jour de mars 2025 a amélioré la capacité du système à éviter d'interrompre l'utilisateur pendant les pauses de réflexion, rendant le dialogue encore plus fluide.
Rapport de sécurité et préoccupations : OpenAI a publié la carte système GPT-4o en août 2024, détaillant des tests approfondis et des mesures de sécurité intégrées. Elle a confirmé l'utilisation de voix prédéfinies et le filtrage de contenu, mais a également souligné des risques tels que l'anthropomorphisme (attribuer des qualités humaines à l'IA), l'attachement émotionnel potentiel et de rares cas d'imitation vocale involontaire nécessitant un perfectionnement supplémentaire.
Limites d'utilisation : L'utilisation du mode vocal avancé est soumise à des limites quotidiennes qui varient en fonction du niveau d'utilisateur (Gratuit, Plus, Pro, etc.).

Dans l'ensemble, le mode vocal avancé de ChatGPT a été déployé avec succès et continue d'évoluer, rapprochant les interactions avec l'IA de la conversation humaine naturelle, tandis qu'OpenAI s'efforce de gérer les défis éthiques et de sécurité associés.