Künstliche Intelligenz

KI und Menschliche Interaktion erreichen ein neues Niveau: Der erweiterte Sprachmodus von ChatGPT

Gábor Bíró • 31. Juli 2024

4 Min. Lesezeit

Im Sommer 2024 begann OpenAI mit der Einführung des lang erwarteten erweiterten Sprachmodus für ChatGPT. Durch die Nutzung der multimodalen Fähigkeiten des GPT-4o-Modells eröffnete diese Funktion eine neue Dimension in der Kommunikation mit künstlicher Intelligenz. Zunächst war diese Funktion einer ausgewählten Gruppe von zahlenden (Plus) Abonnenten vorbehalten und bot hyperrealistische Echtzeit-Sprachinteraktionen, wodurch die Latenz bisheriger Sprachfunktionen deutlich reduziert und natürlichere Gespräche ermöglicht wurden.

Der erweiterte Sprachmodus hat die Interaktion zwischen Nutzern und ChatGPT grundlegend verändert. Während frühere Sprachfunktionen separate Modelle für die Sprach-zu-Text- und Text-zu-Sprache-Umwandlung verwendeten, kann das GPT-4o-Modell Audioeingaben und -ausgaben nativ verarbeiten. Dieser multimodale Ansatz ermöglicht nahezu verzögerungsfreie Antworten und einen flüssigeren Gesprächsfluss.

Funktionen des erweiterten Sprachmodus

Zum Start versprach und bot der erweiterte Sprachmodus den Testern mehrere bahnbrechende Funktionen:

Echtzeit-Interaktion: Minimale Latenz zwischen Frage und Antwort, die einen natürlichen Dialog ermöglicht.
Unterbrechbarkeit: Benutzer konnten ChatGPT mitten im Satz unterbrechen, genau wie in einem menschlichen Gespräch.
Emotionserkennung und -ausdruck: Das System konnte Emotionen im Tonfall des Benutzers erkennen (z. B. Trauer, Aufregung) und mit ähnlich nuancierten, emotionalen Tönen reagieren.
Voreingestellte Stimmen: Um Missbrauch (z. B. Stimmenklonierung) zu verhindern, beschränkte OpenAI die Antwortstimmen zunächst auf vier Optionen (Juniper, Breeze, Cove, Ember), die mit professionellen Synchronsprechern erstellt wurden. Diese ersetzten die umstrittene Stimme „Sky“, die in einer früheren Demo vorgestellt wurde.

Schrittweise Einführung und Sicherheitsmaßnahmen

Von Anfang an betonte OpenAI eine vorsichtige, schrittweise Einführung und die Bedeutung der Sicherheit. Die Alpha-Phase im Juli 2024 begann mit einer kleinen Benutzergruppe, wobei geplant war, die Funktion bis Herbst 2024 allen Plus-Abonnenten zugänglich zu machen. Vor der breiteren Veröffentlichung arbeitete man mit über 100 externen Testern in 45 Sprachen zusammen, um potenzielle Risiken zu identifizieren und zu mindern.

Es wurden robuste Sicherheitsmaßnahmen implementiert, darunter Filter, um die Generierung von gewalttätigen, hasserfüllten oder urheberrechtlich geschützten Inhalten im Audioformat zu verhindern. Spezifische Systeme wurden entwickelt, um sicherzustellen, dass das Modell nur mit den autorisierten voreingestellten Stimmen spricht und so die Nachahmung bekannter Personen oder der eigenen Stimme des Benutzers verhindert wird.

Hintergrund: Der Fall der „Sky“-Stimme

Die Entwicklung des erweiterten Sprachmodus wurde von der Kontroverse um die „Sky“-Stimme überschattet, die im Mai 2024 demonstriert wurde. Viele glaubten, die Stimme ähnele der Schauspielerin Scarlett Johansson, die zuvor ein Angebot von OpenAI abgelehnt hatte, dem System ihre Stimme zu leihen, frappierend. Johansson äußerte öffentlich ihren Schock und ihre Ablehnung. Obwohl OpenAI bestritt, die Schauspielerin absichtlich nachgeahmt zu haben (und spätere Untersuchungen ergaben, dass der Sprecher für Sky Monate vor der Kontaktaufnahme mit Johansson engagiert wurde), führte die Kontroverse zur Entfernung der „Sky“-Stimme, bevor breitere Tests begannen.

Zum Zeitpunkt der Einführung im Juli 2024 deutete OpenAI Pläne an, den Sprachmodus um zukünftige Funktionen wie Echtzeit-Videoanalyse und Bildschirmfreigabe zu erweitern, und plante außerdem die Veröffentlichung eines detaillierten Sicherheitsberichts im August.

Update (14. April 2025)

Seit der ursprünglichen Veröffentlichung des Artikels im Juli 2024 hat der erweiterte Sprachmodus von ChatGPT eine bedeutende Entwicklung durchlaufen und ist breiter verfügbar geworden:

Vollständige Einführung für zahlende Nutzer: Wie geplant erweiterte OpenAI den Zugriff auf den erweiterten Sprachmodus im Herbst 2024 auf alle ChatGPT Plus-, Team-, Pro-, Enterprise- und Edu-Nutzer. Er wurde zum Standard-Sprachmodus für kostenpflichtige Tarife auf Mobil-, Desktop- und Web-Oberflächen.
Verfügbarkeit für kostenlose Nutzer: Seit Februar 2025 können auch kostenlose ChatGPT-Nutzer den erweiterten Sprachmodus erleben, wenn auch mit täglichen Zeitlimits. Für sie wird die Funktion vom GPT-4o-Mini-Modell unterstützt.
Neue Funktionen:
- Video- und Bildschirmfreigabe: Die zuvor angekündigten Funktionen zur Echtzeit-Videoanalyse und Bildschirmfreigabe wurden ab Dezember 2024 für zahlende Nutzer in den mobilen Apps (iOS und Android) verfügbar.
- Speicher und benutzerdefinierte Anweisungen: Diese Funktionen wurden in den Sprachmodus integriert, sodass ChatGPT sich an frühere Gespräche erinnern und benutzerdefinierte Präferenzen berücksichtigen kann.
- Mehr Stimmen & verbesserte Aussprache: Die Anzahl der verfügbaren Stimmen wurde auf neun erhöht (z. B. Arbor, Maple, Sol), wobei auch saisonale Optionen auftauchten. OpenAI arbeitet weiterhin an der Verbesserung der Natürlichkeit der Stimmen und des Umgangs mit verschiedenen Akzenten.
- Weniger Unterbrechungen: Ein Update vom März 2025 verbesserte die Fähigkeit des Systems, den Benutzer während Denkpausen nicht zu unterbrechen, wodurch der Dialog noch flüssiger wurde.
Sicherheitsbericht und Bedenken: OpenAI veröffentlichte im August 2024 die GPT-4o-Systemkarte, in der umfangreiche Tests und integrierte Sicherheitsmaßnahmen detailliert beschrieben werden. Sie bestätigte die Verwendung voreingestellter Stimmen und Inhaltsfilterung, hob aber auch Risiken wie Anthropomorphismus (Zuschreibung menschlicher Eigenschaften an KI), potenzielle emotionale Bindung und seltene Fälle unbeabsichtigter Stimmennachahmung hervor, die weiterer Verfeinerung bedürfen.
Nutzungsbeschränkungen: Die Nutzung des erweiterten Sprachmodus unterliegt täglichen Beschränkungen, die je nach Benutzerstufe (kostenlos, Plus, Pro usw.) variieren.

Insgesamt wurde der erweiterte Sprachmodus von ChatGPT erfolgreich eingeführt und entwickelt sich ständig weiter, wodurch die Interaktion mit KI der natürlichen menschlichen Konversation näher kommt, während OpenAI bestrebt ist, die damit verbundenen Sicherheits- und ethischen Herausforderungen zu bewältigen.