Mesterséges intelligencia

Új szintre lépett az MI és az ember közötti interakció: A ChatGPT Fejlett Hangmódja

Gábor Bíró • 2024. július 31.

4 perc olvasási idő

Az OpenAI 2024 nyarán megkezdte a ChatGPT várva várt Fejlett Hangmódjának (Advanced Voice Mode) bevezetését, amely a GPT-4o multimodális képességeit kihasználva új dimenziót nyitott a mesterséges intelligenciával folytatott kommunikációban. Ez a funkció, amely kezdetben csak a fizetős (Plus) előfizetők egy szűk körének volt elérhető, hiperrealisztikus, valós idejű hangalapú interakciókat kínál, jelentősen csökkentve a korábbi hangfunkciók késleltetését és lehetővé téve a természetesebb párbeszédet.

A Fejlett Hangmód alapjaiban változtatta meg a felhasználók és a ChatGPT közötti interakciót. Míg a korábbi hangfunkciók külön modelleket használtak a beszéd szöveggé alakítására (speech-to-text) és a szöveg felolvasására (text-to-speech), addig a GPT-4o modell natívan képes kezelni az audio be- és kimeneteket. Ez a multimodális megközelítés teszi lehetővé a szinte azonnali válaszadást és a folyamatosabb, gördülékenyebb beszélgetést.

A Fejlett Hangmód Képességei

A bevezetéskor a Fejlett Hangmód számos úttörő funkciót ígért és kínált a tesztelőknek:

Valós idejű interakció: Minimális késleltetés a kérdés és a válasz között, ami természetes párbeszédet tesz lehetővé.
Megszakíthatóság: A felhasználók a mondat közepén is közbeszólhattak, megszakítva a ChatGPT válaszát, akárcsak egy emberi beszélgetés során.
Érzelemfelismerés és -kifejezés: A rendszer képes volt felismerni a felhasználó hangszínében rejlő érzelmeket (pl. szomorúság, izgatottság) és hasonlóan árnyalt, érzelemmel teli hangon válaszolni.
Előre beállított hangok: A visszaélések (pl. hangutánzás) megelőzése érdekében az OpenAI kezdetben négy, professzionális szinkronszínészekkel készített hangra (Juniper, Breeze, Cove, Ember) korlátozta a válaszhangokat. Ezek váltották fel a korábbi demóban szereplő, vitákat kiváltó "Sky" hangot.

Fokozatos bevezetés és biztonsági intézkedések

Az OpenAI a kezdetektől fogva hangsúlyozta az óvatos, fokozatos bevezetést és a biztonság fontosságát. A 2024 júliusi alfa fázis csak egy szűk felhasználói kör számára indult, azzal a tervvel, hogy 2024 őszére minden Plus előfizető számára elérhetővé teszik a funkciót. A széleskörű bevezetés előtt több mint 100 külső tesztelővel dolgoztak együtt 45 különböző nyelven, hogy azonosítsák és kezeljék a potenciális kockázatokat.

Robusztus biztonsági intézkedéseket vezettek be, beleértve azokat a szűrőket, amelyek megakadályozzák az erőszakos, gyűlöletkeltő vagy szerzői jog által védett tartalmak generálását hang formájában. Külön rendszereket építettek ki annak biztosítására, hogy a modell csak az engedélyezett, előre beállított hangokon szólaljon meg, kizárva ezzel ismert személyek vagy a felhasználó hangjának utánzását.

Háttér: A "Sky" hang esete

A Fejlett Hangmód fejlesztését beárnyékolta a 2024 májusában bemutatott "Sky" hang körüli vita. Sokan úgy vélték, a hang kísértetiesen hasonlít Scarlett Johansson színésznő hangjára, aki korábban elutasította az OpenAI felkérését, hogy adja hangját a rendszerhez. Johansson nyilvánosan is hangot adott megdöbbenésének és neheztelésének. Bár az OpenAI tagadta, hogy szándékosan utánozták volna a színésznőt, a vita hatására a "Sky" hangot eltávolították a rendszerből még a szélesebb körű tesztelés megkezdése előtt.

Az OpenAI a 2024 júliusi bevezetéskor jelezte, hogy a jövőben további képességekkel, például valós idejű videóelemzéssel és képernyőmegosztással bővítenék a hangmódot, valamint egy részletes biztonsági jelentés közzétételét is tervezték augusztusra.

Frissítés (2025. április 14.)

Az eredeti cikk 2024 júliusi megjelenése óta a ChatGPT Fejlett Hangmódja jelentős fejlődésen ment keresztül és szélesebb körben elérhetővé vált:

Teljes körű bevezetés fizetős felhasználóknak: Az OpenAI a terveknek megfelelően 2024 őszén kiterjesztette a Fejlett Hangmód elérhetőségét az összes ChatGPT Plus, Team, Pro, Enterprise és Edu felhasználóra. Ez lett az alapértelmezett hangmód a fizetős csomagokban mobilon és asztali gépen/webes felületen egyaránt.
Elérhetőség ingyenes felhasználóknak: 2025 februárjától az ingyenes ChatGPT felhasználók is kipróbálhatják a Fejlett Hangmódot napi korlátozott időkeretben, a GPT-4o mini modell révén.
Új funkciók:
- Videó és képernyőmegosztás: 2024 decemberétől elérhető a fizetős felhasználók mobilalkalmazásaiban.
- Memória és Egyéni Utasítások: Integrálva a hangmódba.
- Több hang és jobb kiejtés: Kilenc alap hang, szezonális opciók, folyamatos finomítás.
- Kevesebb félbeszakítás: 2025 márciusi frissítés javított a párbeszéd folyamatosságán.
Biztonsági jelentés és aggályok: Az OpenAI 2024 augusztusában közzétette a GPT-4o biztonsági jelentését (System Card), amely részletezte a teszteléseket és védelmi mechanizmusokat, de felhívta a figyelmet az antropomorfizáció és a hangutánzás ritka kockázatára is.
Használati limitek: Napi korlátok a felhasználói szinttől függően.

Összességében a ChatGPT Fejlett Hangmódja sikeresen bevezetésre került, és folyamatosan fejlődik, egyre közelebb hozva a természetes, emberhez hasonló interakciót a mesterséges intelligenciával, miközben az OpenAI igyekszik kezelni a technológiával járó biztonsági és etikai kihívásokat.

Források

OpenAI hivatalos blogbejegyzései és termékfrissítései (2024-2025)
GPT-4o Modell Kártya és Rendszer Kártya (System Card) dokumentáció
Vezető technológiai híroldalak cikkei (pl. TechCrunch, The Verge, Engadget) a ChatGPT funkcióinak bevezetéséről és frissítéseiről
Felhasználói visszajelzések és közösségi fórumok (pl. Reddit)