ИИ и человеческое взаимодействие выходят на новый уровень: продвинутый голосовой режим ChatGPT
Летом 2024 года OpenAI начала развертывание долгожданного продвинутого голосового режима для ChatGPT. Используя мультимодальные возможности модели GPT-4o, эта функция открыла новое измерение в общении с искусственным интеллектом. Первоначально доступная избранной группе платных подписчиков (Plus), эта функция предлагала гиперреалистичное голосовое взаимодействие в реальном времени, значительно снижая задержку предыдущих голосовых функций и обеспечивая более естественные разговоры.

Продвинутый голосовой режим кардинально изменил взаимодействие пользователей с ChatGPT. В то время как более ранние голосовые функции использовали отдельные модели для преобразования речи в текст и текста в речь, модель GPT-4o может изначально обрабатывать аудиовходы и выходы. Этот мультимодальный подход обеспечивает почти мгновенные ответы и более плавный, текучий ход беседы.
Возможности продвинутого голосового режима
На момент запуска продвинутый голосовой режим обещал и предложил тестировщикам несколько революционных функций:
- Взаимодействие в реальном времени: Минимальная задержка между вопросом и ответом, обеспечивающая естественный диалог.
- Возможность прерывания: Пользователи могут прервать ChatGPT на середине фразы, как в человеческом разговоре.
- Распознавание и выражение эмоций: Система может распознавать эмоции в голосе пользователя (например, грусть, волнение) и отвечать столь же нюансированными, эмоциональными тонами.
- Предустановленные голоса: Чтобы предотвратить злоупотребления (например, клонирование голоса), OpenAI первоначально ограничила голоса ответов четырьмя вариантами (Juniper, Breeze, Cove, Ember), созданными профессиональными актерами озвучивания. Они заменили противоречивый голос «Sky», представленный в более ранней демонстрации.
Постепенное развертывание и меры безопасности
С самого начала OpenAI подчеркивала осторожное, постепенное развертывание и важность безопасности. Альфа-фаза в июле 2024 года началась с небольшой группы пользователей, с планами сделать функцию доступной для всех подписчиков Plus к осени 2024 года. Перед более широким выпуском они работали с более чем 100 внешними тестировщиками на 45 языках, чтобы выявить и смягчить потенциальные риски.
Были реализованы надежные меры безопасности, включая фильтры для предотвращения создания аудиоконтента насильственного, ненавистнического содержания или защищенного авторским правом. Были созданы специальные системы, чтобы гарантировать, что модель говорит только авторизованными предустановленными голосами, предотвращая выдачу себя за известных лиц или собственный голос пользователя.
Предыстория: Дело о голосе «Sky»
Разработка продвинутого голосового режима была омрачена спорами вокруг голоса «Sky», продемонстрированного в мае 2024 года. Многие считали, что голос поразительно напоминает актрису Скарлетт Йоханссон, которая ранее отклонила предложение OpenAI озвучить систему. Йоханссон публично выразила свое потрясение и неодобрение. Хотя OpenAI отрицала намеренное подражание актрисе (а последующие расследования показали, что актер озвучивания для Sky был нанят за несколько месяцев до того, как к Йоханссон обратились), споры привели к удалению голоса «Sky» до начала более широкого тестирования.
На момент запуска в июле 2024 года OpenAI заявила о планах по расширению голосового режима будущими возможностями, такими как анализ видео в реальном времени и демонстрация экрана, а также планировала выпустить подробный отчет о безопасности в августе.
Обновление (14 апреля 2025 г.)
С момента публикации оригинальной статьи в июле 2024 года продвинутый голосовой режим ChatGPT претерпел значительное развитие и стал более широко доступным:
- Полное развертывание для платных пользователей: Как и планировалось, осенью 2024 года OpenAI расширила доступ к продвинутому голосовому режиму для всех пользователей ChatGPT Plus, Team, Pro, Enterprise и Edu. Он стал голосовым режимом по умолчанию для платных уровней на мобильных, настольных и веб-интерфейсах.
- Доступность для бесплатных пользователей: С февраля 2025 года бесплатные пользователи ChatGPT также могут опробовать продвинутый голосовой режим, хотя и с дневными ограничениями по времени. Для них эта функция работает на базе мини-модели GPT-4o.
- Новые функции:
- Видео и демонстрация экрана: Ранее анонсированные возможности анализа видео в реальном времени и демонстрации экрана стали доступны для платных пользователей в мобильных приложениях (iOS и Android) с декабря 2024 года.
- Память и пользовательские инструкции: Эти функции были интегрированы в голосовой режим, позволяя ChatGPT запоминать прошлые разговоры и придерживаться заданных пользователем предпочтений.
- Больше голосов и улучшенное произношение: Количество доступных голосов увеличилось до девяти (например, Arbor, Maple, Sol), также появились сезонные варианты. OpenAI продолжает совершенствовать естественность голосов и обработку различных акцентов.
- Меньше прерываний: Обновление в марте 2025 года улучшило способность системы избегать прерывания пользователя во время пауз для размышления, делая диалог еще более плавным.
- Отчет о безопасности и опасения: OpenAI опубликовала карту системы GPT-4o в августе 2024 года, подробно описывающую обширное тестирование и встроенные меры безопасности. В ней подтверждено использование предустановленных голосов и фильтрация контента, но также подчеркнуты риски, такие как антропоморфизм (приписывание человеческих качеств ИИ), потенциальная эмоциональная привязанность и редкие случаи непреднамеренной имитации голоса, требующие дальнейшего совершенствования.
- Ограничения на использование: Использование продвинутого голосового режима подлежит ежедневным ограничениям, которые зависят от уровня пользователя (Free, Plus, Pro и т. д.).
В целом, продвинутый голосовой режим ChatGPT был успешно развернут и продолжает развиваться, приближая взаимодействие с ИИ к естественному человеческому разговору, в то время как OpenAI стремится управлять связанными с этим проблемами безопасности и этики.
Ссылки
- tomsguide.com
- fliki.ai
- mpost.io
- nowadais.com
- northeastern.edu
- pymnts.com
- mashable.com
- ainews.com
- zdnet.com
- techradar.com