人工智能

Grok-1 LLM 部分开源

Gábor Bíró • 2024年3月18日

3 阅读时间

2024 年 3 月，xAI 宣布开源其 Grok-1 大型语言模型，这与埃隆·马斯克公开表示的意愿一致，即普及先进的 AI 技术，并挑战 OpenAI 等竞争对手的封闭式做法。

Grok-1 是一个由 xAI 从头开始开发的庞大模型，拥有 3140 亿参数的混合专家 (MoE) 模型。MoE 架构意味着该模型利用专门的子网络（“专家”），并将输入令牌动态路由到最相关的专家，与同等规模的单体模型相比，这提高了训练和推理效率。此次开源版本包括基础模型权重和网络架构，均采用宽松的 Apache 2.0 许可证，允许商业使用和修改，但需署名。

然而，值得注意的是，此次发布不包括训练数据或用于创建 X 平台（前身为 Twitter）上 Grok 聊天机器人的特定微调代码。这意味着开源的 Grok-1 代表了原始的、预训练的基础模型检查点（来自 2023 年 10 月），并不能直接复制与 X 集成的微调聊天机器人的行为或实时信息访问能力。模型文件本身很大，通过磁力链接分发，可下载约 300GB 的 torrent 文件。

此次发布意义重大，因为它使当时最大的语言模型之一可供公众使用，研究人员可以研究其架构和权重。然而，由于缺乏微调细节和训练数据，这限制了其“开箱即用”的可用性，无法直接创建与完善的聊天机器人竞争的产品，导致一些人质疑其在研究之外的实际影响。

此举符合马斯克对 OpenAI 等公司（他曾共同创立但后来离开）的更广泛批评，他指责这些公司为了追求利润而放弃了最初的开源原则。

Grok 聊天机器人及其市场背景

Grok 聊天机器人最初由 Grok-1 模型驱动，于 2023 年 11 月为 X 平台的付费订阅者推出。它的设计宗旨是以“一丝俏皮和叛逆”来回答问题，并利用对 X 平台信息的实时访问。它将自己定位为 OpenAI 的 ChatGPT 等其他 AI 聊天机器人的替代品，提供独特的个性和最新的数据访问。xAI 发布的基准测试显示，Grok-1 在各种任务上取得了有竞争力的性能，包括在 GSM8k 数学基准测试中获得了 62.9% 的分数。

Grok-1 开源发布的战略意义

通过开源 Grok-1 基础模型，xAI 旨在提供对底层技术的广泛访问，这与许多其他领先 AI 模型提供的受限访问形成对比。此次发布在马斯克和 OpenAI 之间日益紧张的关系和法律纠纷中获得了突出地位，凸显了马斯克对 AI 公司优先考虑利润而非安全和透明度的持续批评。

更新（2025 年 4 月）：

虽然 2024 年 3 月 Grok-1 的开源是一个值得关注的事件，但随后的发展澄清了 xAI 的做法。自从 Grok-1 发布以来：

Grok-1.5（2024 年 3 月发布）和 Grok-1.5V（Vision，2024 年 4 月发布）引入了改进的功能和多模态，但未开源。它们已提供给 X 平台的早期测试者和高级用户。
Grok-2（2024 年 8 月发布），具有进一步的增强功能和图像生成，也未开源，尽管早期的一些猜测或声明表明，之前的版本可能会随着新版本的到来而开源。
Grok-3（2025 年 2 月发布），最新迭代版本，仍然是专有的，主要通过 X 订阅层级访问。

因此，截至目前，只有最初的 Grok-1 基础模型权重和架构已根据开源许可证发布。xAI 更先进和微调的模型仍然是封闭的，并通过 X 平台作为其商业产品的一部分，这缓和了 Grok-1 发布时为他们的旗舰模型设定的完全开放开发路径的最初期望。

Grok 聊天机器人及其市场背景

Grok-1 开源发布的战略意义

相关文章

OpenAI 实现通用人工智能 (AGI) 的五级路线图

库兹韦尔：人工智能发展时间线与未来影响

不可预测中的秩序

仿人机器人

技能悖论：为何人工智能精通国际象棋，却在楼梯上绊倒

开源机器人技术助力可持续园艺