Google Gemini:理解谷歌强大的多模态 AI

Gábor Bíró 2024年1月24日
3 阅读时间

Gemini 是 Google 迄今为止最先进、最灵活的 AI 模型系列,旨在跨越从大型数据中心到移动设备等不同平台高效运行。Gemini 从一开始就被构建为多模态模型,可以无缝理解、跨越和组合不同类型的信息,包括文本、代码、音频、图像和视频,从而显著增强开发者和企业客户集成和扩展 AI 应用的方式。

Google Gemini:理解谷歌强大的多模态 AI
来源: 作者原创

在发布时,旗舰模型 Gemini Ultra 在众多学术基准测试中展示了最先进的性能。值得注意的是,其在 MMLU(大规模多任务语言理解)基准测试中报告的 90.0% 得分使其成为首批声称在此特定测试中超越人类专家水平的模型之一。

MMLU 是一个综合基准,用于评估 AI 模型在 57 个不同学科(如数学、物理、历史、法律、医学和伦理学)中的知识和问题解决能力。获得高分意味着模型具有广泛的通用理解和推理能力,这对于应对复杂的现实世界语言挑战至关重要。

Gemini 系列推出了三种不同的尺寸,针对不同的用例进行了优化:

  • Gemini Ultra: 最大、功能最强大的模型,专为需要深度推理和创造力的高度复杂任务而设计。主要通过 Gemini Advanced 订阅服务访问。
  • Gemini Pro: 一种多功能模型,在性能和可扩展性之间提供了强大的平衡,适用于广泛的任务。为标准 Gemini 聊天机器人体验提供支持,并通过 API 向开发者开放。
  • Gemini Nano: 最有效的模型,经过优化,可直接在智能手机等终端用户设备上运行(例如,为 Google Pixel 手机和 Gboard 上的功能提供支持),即使离线也能实现设备端 AI 功能。

所有 Gemini 模型都基于仅解码器 Transformer 架构,类似于其他领先的 LLM,利用了 Google 在该领域的深厚专业知识。它们发布时的上下文窗口为 32,768 个 tokens,使其能够一次处理大量信息。一个关键的差异化因素是其原生多模态性,这意味着它们从一开始就使用各种数据类型进行预训练,与稍后可能添加模态的模型相比,能够实现更复杂、更集成的理解。

Gemini 的第一个版本展示了在理解和生成流行编程语言的高质量代码方面的先进能力。Gemini Ultra 在多个编码基准测试中表现出色。此外,AlphaCode 2 是一个由 Gemini 驱动的专业系统,在竞争性编程中表现出了非凡的性能,能够解决超出标准编码任务的复杂问题。

Gemini 1.0 是在 Google 针对 AI 优化的基础设施上使用其专有的 张量处理单元 (TPU) 进行大规模训练的。TPU 是专为机器学习工作负载定制设计的硬件加速器,为训练像 Gemini 这样的大型模型和运行它们进行推理(生成响应)提供了显著的效率优势。

Google Gemini 1.0 的发布加剧了竞争格局,尤其对微软在 OpenAI 的 GPT 模型上的大量投资构成了挑战。虽然 Gemini 提供了独特的特性,如原生多模态和不同的模型尺寸,但其最初的推出也面临挑战,包括对演示视频的审查,以及报告的在某些语言或语境(如后来的图像生成)中聊天功能或安全护栏的问题,这可能影响了早期的采用或认知。

生产环境中生成式 AI 工具的市场仍在发展,为竞争留下了空间。微软通过其已建立的开发者生态系统,通过 GitHub CopilotVisual Studio Code 中深度集成 AI,并利用其 Azure 云平台,从而占据了显著优势。Google 缺乏类似的主导开发者平台或 IDE,这意味着即使 Gemini 在某些编码辅助任务中被证明更优秀,微软的集成方法也可能为许多开发者提供更无缝的工作流程,这对 Google 的市场渗透努力提出了关键挑战。

来源

  • https://deepmind.google
  • https://arxiv.org/pdf/2009.03300
Gábor Bíró 2024年1月24日