OpenAI 发布 GPT-4o:更快、更便宜、原生多模态

Gábor Bíró 2024年5月14日
2 阅读时间

OpenAI 近期发布了其最新的旗舰语言模型 GPT-4o。其名称源于 "omni"(全能),寓意着人工智能领域的重大飞跃,因为该模型原生支持处理文本、音频和视觉的输入和输出。这种固有的多模态方法为开发者和用户解锁了新的可能性,进一步巩固了 OpenAI 在人工智能创新前沿的地位。

OpenAI 发布 GPT-4o:更快、更便宜、原生多模态
来源: OpenAI
  • 原生多模态能力: GPT-4o 最重要的创新在于其原生处理和生成跨文本、音频和视觉内容的能力。与之前分别处理不同模态的模型不同,GPT-4o 在单个神经网络中无缝地跨模态推理。这使得人机交互更加自然和直观。

  • 更快更便宜: GPT-4o 不仅功能更全面,而且速度也明显更快(据报道快两倍),并且在 API 中比其前身 GPT-4 Turbo 便宜 50%。这使得 GPT-4 级别的智能更易于访问,并为开发者以更具成本效益的方式构建创新解决方案开辟了机会。

  • 增强的 ChatGPT 体验: GPT-4o 为新的 ChatGPT 提供动力,使聊天机器人更加智能、通用且互动性更强。用户可以进行实时的语音对话,并获得近乎即时的响应。该模型可以感知语气中的细微差别,以各种情感风格回应,甚至可以通过用户的摄像头“看到”,从而实现更自然和动态的互动。许多这些高级功能也正在向免费 ChatGPT 用户推出。

  • 改进的语言支持: GPT-4o 在 50 多种语言中提供了增强的功能和性能,显著提高了其在不同语言环境中的有效性。这使开发者能够创建可以覆盖更广泛全球受众的应用程序。

  • 开发者的新机遇: GPT-4o 通过其 API 为开发者提供了众多新的可能性,旨在创建可以处理、解释和生成文本、音频和图像组合的应用程序。该模型可能会开创人工智能的新纪元,技术通过更丰富的多模态界面更加无缝地融入我们的日常生活。

Gábor Bíró 2024年5月14日