Grok-1 LLM 部分开源
2024 年 3 月,xAI 宣布开源其 Grok-1 大型语言模型,这与埃隆·马斯克公开表示的意愿一致,即普及先进的 AI 技术,并挑战 OpenAI 等竞争对手的封闭式做法。

Grok-1 是一个由 xAI 从头开始开发的庞大模型,拥有 3140 亿参数的混合专家 (MoE) 模型。MoE 架构意味着该模型利用专门的子网络(“专家”),并将输入令牌动态路由到最相关的专家,与同等规模的单体模型相比,这提高了训练和推理效率。此次开源版本包括基础模型权重和网络架构,均采用宽松的 Apache 2.0 许可证,允许商业使用和修改,但需署名。
然而,值得注意的是,此次发布不包括训练数据或用于创建 X 平台(前身为 Twitter)上 Grok 聊天机器人的特定微调代码。这意味着开源的 Grok-1 代表了原始的、预训练的基础模型检查点(来自 2023 年 10 月),并不能直接复制与 X 集成的微调聊天机器人的行为或实时信息访问能力。模型文件本身很大,通过磁力链接分发,可下载约 300GB 的 torrent 文件。
此次发布意义重大,因为它使当时最大的语言模型之一可供公众使用,研究人员可以研究其架构和权重。然而,由于缺乏微调细节和训练数据,这限制了其“开箱即用”的可用性,无法直接创建与完善的聊天机器人竞争的产品,导致一些人质疑其在研究之外的实际影响。
此举符合马斯克对 OpenAI 等公司(他曾共同创立但后来离开)的更广泛批评,他指责这些公司为了追求利润而放弃了最初的开源原则。
Grok 聊天机器人及其市场背景
Grok 聊天机器人最初由 Grok-1 模型驱动,于 2023 年 11 月为 X 平台的付费订阅者推出。它的设计宗旨是以“一丝俏皮和叛逆”来回答问题,并利用对 X 平台信息的实时访问。它将自己定位为 OpenAI 的 ChatGPT 等其他 AI 聊天机器人的替代品,提供独特的个性和最新的数据访问。xAI 发布的基准测试显示,Grok-1 在各种任务上取得了有竞争力的性能,包括在 GSM8k 数学基准测试中获得了 62.9% 的分数。
Grok-1 开源发布的战略意义
通过开源 Grok-1 基础模型,xAI 旨在提供对底层技术的广泛访问,这与许多其他领先 AI 模型提供的受限访问形成对比。此次发布在马斯克和 OpenAI 之间日益紧张的关系和法律纠纷中获得了突出地位,凸显了马斯克对 AI 公司优先考虑利润而非安全和透明度的持续批评。
更新(2025 年 4 月):
虽然 2024 年 3 月 Grok-1 的开源是一个值得关注的事件,但随后的发展澄清了 xAI 的做法。自从 Grok-1 发布以来:
- Grok-1.5(2024 年 3 月发布)和 Grok-1.5V(Vision,2024 年 4 月发布)引入了改进的功能和多模态,但未开源。它们已提供给 X 平台的早期测试者和高级用户。
- Grok-2(2024 年 8 月发布),具有进一步的增强功能和图像生成,也未开源,尽管早期的一些猜测或声明表明,之前的版本可能会随着新版本的到来而开源。
- Grok-3(2025 年 2 月发布),最新迭代版本,仍然是专有的,主要通过 X 订阅层级访问。
因此,截至目前,只有最初的 Grok-1 基础模型权重和架构已根据开源许可证发布。xAI 更先进和微调的模型仍然是封闭的,并通过 X 平台作为其商业产品的一部分,这缓和了 Grok-1 发布时为他们的旗舰模型设定的完全开放开发路径的最初期望。