人工智能

OpenAI 发布 GPT-4o：更快、更便宜、原生多模态

Gábor Bíró • 2024年5月14日

2 阅读时间

OpenAI 近期发布了其最新的旗舰语言模型 GPT-4o。其名称源于 "omni"（全能），寓意着人工智能领域的重大飞跃，因为该模型原生支持处理文本、音频和视觉的输入和输出。这种固有的多模态方法为开发者和用户解锁了新的可能性，进一步巩固了 OpenAI 在人工智能创新前沿的地位。

原生多模态能力： GPT-4o 最重要的创新在于其原生处理和生成跨文本、音频和视觉内容的能力。与之前分别处理不同模态的模型不同，GPT-4o 在单个神经网络中无缝地跨模态推理。这使得人机交互更加自然和直观。
更快更便宜： GPT-4o 不仅功能更全面，而且速度也明显更快（据报道快两倍），并且在 API 中比其前身 GPT-4 Turbo 便宜 50%。这使得 GPT-4 级别的智能更易于访问，并为开发者以更具成本效益的方式构建创新解决方案开辟了机会。
增强的 ChatGPT 体验： GPT-4o 为新的 ChatGPT 提供动力，使聊天机器人更加智能、通用且互动性更强。用户可以进行实时的语音对话，并获得近乎即时的响应。该模型可以感知语气中的细微差别，以各种情感风格回应，甚至可以通过用户的摄像头“看到”，从而实现更自然和动态的互动。许多这些高级功能也正在向免费 ChatGPT 用户推出。
改进的语言支持： GPT-4o 在 50 多种语言中提供了增强的功能和性能，显著提高了其在不同语言环境中的有效性。这使开发者能够创建可以覆盖更广泛全球受众的应用程序。
开发者的新机遇： GPT-4o 通过其 API 为开发者提供了众多新的可能性，旨在创建可以处理、解释和生成文本、音频和图像组合的应用程序。该模型可能会开创人工智能的新纪元，技术通过更丰富的多模态界面更加无缝地融入我们的日常生活。

相关文章

群体智能：自然启发的复杂问题解决方案

石黑浩：复制自己的人

人工智能走进超市：克罗格动态定价的影响

开源机器人技术助力可持续园艺

量子存储器：驱动量子互联网的关键组件

大脑中的量子纠缠：意识的关联？