人工智能与人机交互迈上新台阶:ChatGPT 高级语音模式

Gábor Bíró 2024年7月31日
4 阅读时间

2024年夏天,OpenAI 开始推出备受期待的 ChatGPT 高级语音模式。 借助 GPT-4o 模型的多模态能力,这项功能开启了人工智能通信的新维度。 该功能最初仅向部分付费(Plus)用户开放,提供超逼真的实时语音互动,显著降低了之前语音功能的延迟,从而实现更自然的对话。

人工智能与人机交互迈上新台阶:ChatGPT 高级语音模式
来源: 作者原创

高级语音模式从根本上改变了用户与 ChatGPT 之间的互动方式。 之前的语音功能使用单独的模型进行语音转文本和文本转语音转换,而 GPT-4o 模型可以原生处理音频输入和输出。 这种多模态方法实现了近乎瞬时的响应以及更流畅、更自然的对话流程。

高级语音模式的功能

在其发布时,高级语音模式承诺并为测试人员提供了多项突破性功能:

  • 实时互动: 问题和答案之间的延迟极低,实现自然对话。
  • 可打断性: 用户可以在 ChatGPT 说话时打断,就像在真人对话中一样。
  • 情感检测和表达: 系统可以识别用户语气中的情感(例如,悲伤、兴奋),并以类似的细微、情感化的语气回应。
  • 预设声音: 为防止滥用(例如,声音克隆),OpenAI 最初将回复声音限制为四种选项(Juniper、Breeze、Cove、Ember),这些声音由专业配音演员创建。 这些声音取代了早期演示中备受争议的“Sky”声音。

逐步推广和安全措施

从一开始,OpenAI 就强调谨慎、逐步推广以及安全的重要性。 2024 年 7 月的 alpha 测试阶段从小范围用户群开始,计划在 2024 年秋季向所有 Plus 订阅者开放该功能。 在更广泛发布之前,他们与 45 种语言的 100 多名外部测试人员合作,以识别和减轻潜在风险。

实施了强大的安全措施,包括过滤器,以防止生成暴力、仇恨或受版权保护的音频内容。 构建了专门的系统,以确保模型仅使用授权的预设声音说话,从而防止冒充知名人士或用户自己的声音。

背景:“Sky”声音事件

高级语音模式的开发被围绕 2024 年 5 月演示的“Sky”声音的争议所笼罩。 许多人认为该声音与女演员斯嘉丽·约翰逊惊人地相似,后者此前曾拒绝 OpenAI 让她为该系统配音的提议。 约翰逊公开表达了她的震惊和不满。 尽管 OpenAI 否认有意模仿这位女演员(后来的调查显示,Sky 的配音演员是在约翰逊被接洽的几个月前聘请的),但这场争议导致“Sky”声音在更广泛的测试开始前被移除。

在 2024 年 7 月发布时,OpenAI 表示计划通过未来的功能增强语音模式,例如实时视频分析和屏幕共享,并计划在 8 月发布详细的安全报告。

更新(2025 年 4 月 14 日)

自 2024 年 7 月最初的文章发布以来,ChatGPT 的高级语音模式经历了重大发展,并变得更加普及:

  • 面向付费用户的全面推广: 正如计划的那样,OpenAI 在 2024 年秋季将高级语音模式的访问权限扩展到所有 ChatGPT Plus、Team、Pro、Enterprise 和 Edu 用户。 它成为移动设备、桌面设备和 Web 界面上付费层的默认语音模式。
  • 面向免费用户的可用性: 从 2025 年 2 月开始,免费 ChatGPT 用户也可以体验高级语音模式,但有每日时间限制。 对于他们来说,该功能由 GPT-4o mini 模型提供支持。
  • 新功能:
    • 视频和屏幕共享: 之前宣布的实时视频分析和屏幕共享功能于 2024 年 12 月开始在移动应用程序(iOS 和 Android)中向付费用户开放。
    • 记忆和自定义指令: 这些功能已集成到语音模式中,使 ChatGPT 能够记住过去的对话并遵守用户定义的偏好。
    • 更多声音和改进的发音: 可用声音的数量增加到九种(例如,Arbor、Maple、Sol),并且还出现了季节性选项。 OpenAI 继续改进声音的自然度和不同口音的处理。
    • 更少的打断: 2025 年 3 月的更新改进了系统避免在用户思考停顿时打断用户说话的能力,使对话更加流畅。
  • 安全报告和担忧: OpenAI 于 2024 年 8 月发布了 GPT-4o 系统卡,详细介绍了广泛的测试和内置安全措施。 它确认了预设声音和内容过滤的使用,但也强调了拟人化(将人类品质归因于 AI)、潜在的情感依恋以及需要进一步改进的罕见意外声音模仿等风险。
  • 使用限制: 高级语音模式的使用受到每日限制,具体限制因用户层级(免费、Plus、Pro 等)而异。

总的来说,ChatGPT 的高级语音模式已成功推广并不断发展,使与 AI 的互动更接近自然的人类对话,同时 OpenAI 也在努力管理相关的安全和伦理挑战。

参考文献

  • tomsguide.com
  • fliki.ai
  • mpost.io
  • nowadais.com
  • northeastern.edu
  • pymnts.com
  • mashable.com
  • ainews.com
  • zdnet.com
  • techradar.com
Gábor Bíró 2024年7月31日