人工智能

OpenAI发布GPT-4o mini：以更低成本实现高性能

Gábor Bíró • 2024年7月22日

3 阅读时间

GPT-4o mini 在 MMLU 基准测试中取得了 82% 的惊人成绩，超越了同类中的其他小型模型。该模型具有 128,000 个 token 的上下文窗口，并支持文本和视觉功能，未来计划增加音频和视频功能。

该模型的定价极具成本效益：每百万输入 token 0.15 美元，每百万输出 token 0.60 美元，比 GPT-3.5 Turbo 便宜 60% 以上。此外，GPT-4o mini 在多语言理解方面也显示出显著改进，支持多种非英语语言。

GPT-4o mini 技术规格

GPT-4o mini 令人印象深刻的技术规格使其成为一款功能强大且经济高效的 AI 模型。以下是 GPT-4o mini 和其他 OpenAI 模型之间主要功能的比较：

功能	GPT-4o mini	GPT-3.5 Turbo	GPT-4o
MMLU 分数	82%	69.8%	88.7%
上下文窗口	128,000 tokens	16,000 tokens	128,000 tokens
输入 Token 价格	$0.15 / 百万	$0.50 / 百万	$5.00 / 百万
输出 Token 价格	$0.60 / 百万	$1.50 / 百万	$15.00 / 百万
模态	文本、视觉	文本	文本、视觉、音频
知识截止日期	2023 年 10 月	2021 年 9 月	2023 年 10 月

GPT-4o 的完整多模态功能包括音频，但 API 功能可能有所不同。

功能与应用

GPT-4o mini 在文本智能和多模态推理方面超越了 GPT-3.5 Turbo，同时提供了更大的上下文窗口。它在上下文窗口大小和知识截止日期上与旗舰模型 GPT-4o 相匹配，但价格却低得多。该模型支持文本和视觉输入，未来计划加入音频和视频功能，使其成为开发人员的多功能选择。其增强的多语言理解能力进一步拓宽了其在各种应用和市场中的实用性。

可访问性和集成

GPT-4o mini 已立即在 OpenAI API 套件中提供，包括 Assistants API、Chat Completions API 和 Batch API。该模型于 2024 年 7 月 18 日开始向免费和付费 ChatGPT 用户（包括 Plus 和 Team 订阅者）推出。企业用户预计将在下周获得访问权限。该模型也正在集成到 Microsoft Azure AI 平台中，使客户能够利用其功能进行各种应用，包括音频、视觉和文本处理。

竞争优势和影响

GPT-4o mini 以强大的竞争者姿态进入小型 AI 模型竞争激烈的市场。在多模态推理基准测试 (MMMU) 中，它优于 Anthropic 的 Claude 3 Haiku，得分分别为 59.4% 和 Haiku 的 50.2%。GPT-4o mini 在 MMMU 基准测试中也优于 Google 的 Gemini Flash（59.4% 对 56.1%）。在通用智能方面，GPT-4o mini 在 MMLU 基准测试中取得的 82% 分数也引人注目，显著超越了 GPT-3.5 Turbo 的 69.8%。这种性能，加上其大幅降低的价格和扩大的上下文窗口，使 GPT-4o mini 成为寻求经济高效、高性能 AI 解决方案的开发人员和企业极具竞争力的选择。

未来前景

GPT-4o mini 有望通过使先进的语言模型更易于访问和负担得起，从而对 AI 领域产生重大影响。其成本效益和改进的性能预计将推动其在各个行业和应用中的更广泛采用。OpenAI 设想 AI 模型无缝集成到每个应用程序和网站中，而 GPT-4o mini 为开发人员更有效地构建和扩展强大的 AI 应用程序铺平了道路。该公司仍然致力于进一步降低成本，同时增强模型功能，自 2022 年推出 text-davinci-003 以来，每 token 成本已降低 99%。随着 GPT-4o mini 得到更广泛的应用，它可能会刺激客户服务、内容生成和数据分析等领域的创新，从而可能改变企业和个人与 AI 技术互动的方式。