人工智能

人工智能与人机交互迈上新台阶：ChatGPT 高级语音模式

Gábor Bíró • 2024年7月31日

4 阅读时间

2024年夏天，OpenAI 开始推出备受期待的 ChatGPT 高级语音模式。借助 GPT-4o 模型的多模态能力，这项功能开启了人工智能通信的新维度。该功能最初仅向部分付费（Plus）用户开放，提供超逼真的实时语音互动，显著降低了之前语音功能的延迟，从而实现更自然的对话。

高级语音模式从根本上改变了用户与 ChatGPT 之间的互动方式。之前的语音功能使用单独的模型进行语音转文本和文本转语音转换，而 GPT-4o 模型可以原生处理音频输入和输出。这种多模态方法实现了近乎瞬时的响应以及更流畅、更自然的对话流程。

高级语音模式的功能

在其发布时，高级语音模式承诺并为测试人员提供了多项突破性功能：

实时互动： 问题和答案之间的延迟极低，实现自然对话。
可打断性： 用户可以在 ChatGPT 说话时打断，就像在真人对话中一样。
情感检测和表达： 系统可以识别用户语气中的情感（例如，悲伤、兴奋），并以类似的细微、情感化的语气回应。
预设声音： 为防止滥用（例如，声音克隆），OpenAI 最初将回复声音限制为四种选项（Juniper、Breeze、Cove、Ember），这些声音由专业配音演员创建。这些声音取代了早期演示中备受争议的“Sky”声音。

逐步推广和安全措施

从一开始，OpenAI 就强调谨慎、逐步推广以及安全的重要性。 2024 年 7 月的 alpha 测试阶段从小范围用户群开始，计划在 2024 年秋季向所有 Plus 订阅者开放该功能。在更广泛发布之前，他们与 45 种语言的 100 多名外部测试人员合作，以识别和减轻潜在风险。

实施了强大的安全措施，包括过滤器，以防止生成暴力、仇恨或受版权保护的音频内容。构建了专门的系统，以确保模型仅使用授权的预设声音说话，从而防止冒充知名人士或用户自己的声音。

背景：“Sky”声音事件

高级语音模式的开发被围绕 2024 年 5 月演示的“Sky”声音的争议所笼罩。许多人认为该声音与女演员斯嘉丽·约翰逊惊人地相似，后者此前曾拒绝 OpenAI 让她为该系统配音的提议。约翰逊公开表达了她的震惊和不满。尽管 OpenAI 否认有意模仿这位女演员（后来的调查显示，Sky 的配音演员是在约翰逊被接洽的几个月前聘请的），但这场争议导致“Sky”声音在更广泛的测试开始前被移除。

在 2024 年 7 月发布时，OpenAI 表示计划通过未来的功能增强语音模式，例如实时视频分析和屏幕共享，并计划在 8 月发布详细的安全报告。

更新（2025 年 4 月 14 日）

自 2024 年 7 月最初的文章发布以来，ChatGPT 的高级语音模式经历了重大发展，并变得更加普及：

面向付费用户的全面推广： 正如计划的那样，OpenAI 在 2024 年秋季将高级语音模式的访问权限扩展到所有 ChatGPT Plus、Team、Pro、Enterprise 和 Edu 用户。它成为移动设备、桌面设备和 Web 界面上付费层的默认语音模式。
面向免费用户的可用性： 从 2025 年 2 月开始，免费 ChatGPT 用户也可以体验高级语音模式，但有每日时间限制。对于他们来说，该功能由 GPT-4o mini 模型提供支持。
新功能：
- 视频和屏幕共享： 之前宣布的实时视频分析和屏幕共享功能于 2024 年 12 月开始在移动应用程序（iOS 和 Android）中向付费用户开放。
- 记忆和自定义指令： 这些功能已集成到语音模式中，使 ChatGPT 能够记住过去的对话并遵守用户定义的偏好。
- 更多声音和改进的发音： 可用声音的数量增加到九种（例如，Arbor、Maple、Sol），并且还出现了季节性选项。 OpenAI 继续改进声音的自然度和不同口音的处理。
- 更少的打断： 2025 年 3 月的更新改进了系统避免在用户思考停顿时打断用户说话的能力，使对话更加流畅。
安全报告和担忧： OpenAI 于 2024 年 8 月发布了 GPT-4o 系统卡，详细介绍了广泛的测试和内置安全措施。它确认了预设声音和内容过滤的使用，但也强调了拟人化（将人类品质归因于 AI）、潜在的情感依恋以及需要进一步改进的罕见意外声音模仿等风险。
使用限制： 高级语音模式的使用受到每日限制，具体限制因用户层级（免费、Plus、Pro 等）而异。