Anthropic 推出 Claude 3.5 Sonnet,树立 AI 新基准
Anthropic 全新人工智能模型 Claude 3.5 Sonnet 树立了推理、知识和编码能力的新行业标准。该模型运行速度是其前代产品的两倍,在复杂任务中表现出色,并通过全新的 Artifacts 功能增强了协作能力。

Anthropic 发布了其最新且最先进的人工智能模型 Claude 3.5 Sonnet,与之前的模型相比,在性能和功能上均实现了显著提升。新模型的关键进步包括:
- 在 9 项综合基准测试中的 7 项以及 5 项视觉基准测试中的 4 项中,性能超越了 OpenAI 的 GPT-4o、谷歌的 Gemini 1.5 Pro 和 Meta 的 Llama 3 400B 等竞争对手模型。
- 为研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 树立了新的行业基准。
- 运行速度是 Anthropic 之前顶级模型 Claude 3 Opus 的两倍。
- 擅长编写和翻译代码、处理多步骤工作流程以及解读图表。
- 更好地理解细微差别、幽默和复杂指令。
- 生成高质量内容,语调自然且贴近生活。
- 在内部 Agentic 编码测试中解决了 64% 的问题,而 Claude 3 Opus 的解决率为 38%。
- 在标准视觉基准测试中超越了 Claude 3 Opus,在视觉推理和从不完美的图像中转录文本方面表现出改进。
这些增强功能使 Claude 3.5 Sonnet 成为处理复杂任务的强大工具,例如情境感知客户支持和编排多步骤工作流程。
除了新模型之外,Anthropic 还推出了旨在提高协作和生产力的 Artifacts 功能。这项创新功能允许用户在聊天界面内实时查看、编辑和构建 AI 生成的内容(如代码片段和文本文档)。Artifacts 将 Claude 转变为动态协作工作空间,使团队能够将 AI 生成的内容无缝集成到他们的项目和工作流程中。例如,设计和用户体验团队可以使用 Artifacts 协作创建、迭代和改进 UI 原型,利用 Claude 对设计原则的理解和生成视觉元素的能力。
Anthropic 强调其对 Claude 3.5 Sonnet 的安全性和隐私性的承诺。该模型经过了严格的测试,并经过训练以减少误用,其中包括英国人工智能安全研究所 (UK AISI) 等外部专家。Anthropic 还采纳了儿童安全专家的反馈,以更新分类器和微调模型。该公司重申了其在数据隐私方面的立场,声明未经明确许可,不会使用用户提交的数据来训练其生成模型。这些措施反映了 Anthropic 为应对潜在风险和维护用户对其 AI 技术的信任所做的努力。
这款新 AI 模型可在 Claude.ai 和 Claude iOS 应用程序上免费使用,Claude Pro 和 Team 订阅者可享受更高的速率限制。用户还可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 访问 Claude 3.5 Sonnet。Anthropic 计划在今年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus,从而完成 Claude 3.5 模型系列。该公司还在开发新功能和集成,包括 Memory 功能,该功能将允许 Claude 记住用户偏好和交互历史记录。