人工智能

Anthropic 推出 Claude 3.5 Sonnet，树立 AI 新基准

Gábor Bíró • 2024年6月21日

3 阅读时间

Anthropic 全新人工智能模型 Claude 3.5 Sonnet 树立了推理、知识和编码能力的新行业标准。该模型运行速度是其前代产品的两倍，在复杂任务中表现出色，并通过全新的 Artifacts 功能增强了协作能力。

Anthropic 发布了其最新且最先进的人工智能模型 Claude 3.5 Sonnet，与之前的模型相比，在性能和功能上均实现了显著提升。新模型的关键进步包括：

在 9 项综合基准测试中的 7 项以及 5 项视觉基准测试中的 4 项中，性能超越了 OpenAI 的 GPT-4o、谷歌的 Gemini 1.5 Pro 和 Meta 的 Llama 3 400B 等竞争对手模型。
为研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 树立了新的行业基准。
运行速度是 Anthropic 之前顶级模型 Claude 3 Opus 的两倍。
擅长编写和翻译代码、处理多步骤工作流程以及解读图表。
更好地理解细微差别、幽默和复杂指令。
生成高质量内容，语调自然且贴近生活。
在内部 Agentic 编码测试中解决了 64% 的问题，而 Claude 3 Opus 的解决率为 38%。
在标准视觉基准测试中超越了 Claude 3 Opus，在视觉推理和从不完美的图像中转录文本方面表现出改进。

这些增强功能使 Claude 3.5 Sonnet 成为处理复杂任务的强大工具，例如情境感知客户支持和编排多步骤工作流程。

除了新模型之外，Anthropic 还推出了旨在提高协作和生产力的 Artifacts 功能。这项创新功能允许用户在聊天界面内实时查看、编辑和构建 AI 生成的内容（如代码片段和文本文档）。Artifacts 将 Claude 转变为动态协作工作空间，使团队能够将 AI 生成的内容无缝集成到他们的项目和工作流程中。例如，设计和用户体验团队可以使用 Artifacts 协作创建、迭代和改进 UI 原型，利用 Claude 对设计原则的理解和生成视觉元素的能力。

Anthropic 强调其对 Claude 3.5 Sonnet 的安全性和隐私性的承诺。该模型经过了严格的测试，并经过训练以减少误用，其中包括英国人工智能安全研究所 (UK AISI) 等外部专家。Anthropic 还采纳了儿童安全专家的反馈，以更新分类器和微调模型。该公司重申了其在数据隐私方面的立场，声明未经明确许可，不会使用用户提交的数据来训练其生成模型。这些措施反映了 Anthropic 为应对潜在风险和维护用户对其 AI 技术的信任所做的努力。

这款新 AI 模型可在 Claude.ai 和 Claude iOS 应用程序上免费使用，Claude Pro 和 Team 订阅者可享受更高的速率限制。用户还可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 访问 Claude 3.5 Sonnet。Anthropic 计划在今年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus，从而完成 Claude 3.5 模型系列。该公司还在开发新功能和集成，包括 Memory 功能，该功能将允许 Claude 记住用户偏好和交互历史记录。

相关文章

用英语查询模型，我们能得到更好的答案吗？

重新解读棉花糖实验

效率陷阱

Waymo 机器人出租车现已向所有人开放

历史长波中的金钱、权力与社会

生物发光矮牵牛花：会发光的花朵