LLM 测试方法与基准评测

Gábor Bíró • 2024年12月8日

10 阅读时间

人工智能领域发展最活跃的领域之一就是大型语言模型 (LLM) 的创建，它们是当今最受欢迎的技术之一。越来越多的供应商发布了自己的模型，无论是闭源还是开源。这些模型可以就各种主题做出回应，但质量和准确性参差不齐。由于技术创新日新月异，确定哪种模型性能最佳几乎每周都在变化。但是，我们如何 确定特定模型是否真的比其他模型表现更好？使用哪些方法和测试来比较这些工具？

来源: 作者原创

各种测试和基准评测被用于评估大型语言模型 (LLM) 的质量。这些测试检查不同的方面，例如语言理解、生成文本的质量、数学能力、逻辑推理以及模型的伦理和安全特性。下面，我将介绍最常用的基准评测，重点介绍其目标和影响结果的因素。

GLUE（通用语言理解评估）

目的： 衡量模型通用语言理解能力。
任务： GLUE 基准评测包含多种类型的语言任务，例如：
- 情感分析（例如，识别正面或负面意见）：
  - 示例：“我非常喜欢这部电影！”正面情感。
  - 示例：“服务太糟糕了。”负面情感。
- 文本蕴含（确定假设是否从前提中得出）：
  - 示例：前提：“猫睡在地垫上。”假设：“地垫上有猫。”蕴含（真）。
  - 示例：前提：“她在看书。”假设：“她在看电视。”矛盾（假）。
- 释义检测（识别具有相似含义的句子）：
  - 示例：“他要去市场。”和“他正前往市场。”释义。
优势： 包含复杂的、真实的语言任务。
局限性： 一些大型语言模型已经超越了人类的性能水平，因此对于最先进的模型来说，它并不总是构成挑战。

SuperGLUE

目的： 与 GLUE 基准评测相比，为模型提供更困难的任务。
任务：
- 常识推理（基于日常知识的推断）：
  - 示例：“如果你把玻璃杯掉在地板上，可能会发生什么？”“它会碎。”
- 共指消解（识别哪些表达式指代同一实体）：
  - 示例：“玛丽去了商店。她买了一些牛奶。”“她”= 玛丽。
优势： 非常苛刻的测试，即使是最先进的模型也面临挑战。
局限性： 包含的任务数量有限，因此可能并不总是代表真实世界的性能。

BIG-bench（超越模仿游戏）

目的： 测试模型广泛的认知能力。它是一个综合性的基准评测套件，包含 200 多个不同的任务，测试语言模型的各种能力。一个更难的子集，称为 BIG-bench Hard (BBH)，专门旨在突破模型能力的界限。
任务：
- 数学问题：
  - 示例：“15 乘以 27 是多少？”“405。”
- 创意写作：
  - 示例：“写一个关于机器人发现新星球的短篇故事。”
- 处理伦理困境：
  - 示例：“在自动驾驶汽车场景中，优先考虑一个人的安全而不是多人的安全是否合乎道德？”
优势： 通过独特和不寻常的任务衡量模型的适应性。
局限性： 某些任务可能会导致主观结果。

MMLU（大规模多任务语言理解）

目的： 衡量模型特定领域的知识。此测试评估各个领域的通用知识和专家级理解。它涵盖 57 个不同的学科领域，包括科学、人文、数学和专业知识。
任务：
- 基于 57 个学科领域的问题（例如，医学、法律、化学）。
- 所有任务均以多项选择题形式呈现。
  - 示例：“红细胞的主要功能是什么？”
    - a) 氧气运输
    - b) 消化酶产生
    - c) 激素调节
    - 正确答案：a) 氧气运输。
优势： 广泛覆盖众多领域。
局限性： 高度专业的任务，可能并不总是与通用语言应用相关。

ARC（AI2 推理挑战赛）

目的： 解决基于科学知识和推理的问题。
任务： 需要小学水平科学知识的多项选择题。
示例：
- “为什么太阳每天早上升起？”
  - 正确答案：因为地球绕轴自转。
- “以下哪种材料是最好的热导体：木材、铝、玻璃、塑料？”
  - 正确答案：铝。
难度： ARC 问题不仅需要简单的知识回忆，还需要复杂的推理技能，例如理解因果关系。

HELLASWAG

目的： 测试模型基于常识知识的推理能力和理解能力。它衡量常识推理，通常使用幽默或荒谬的场景。
任务： 给定情况的开头，模型必须预测最可能的延续。
- 示例 1：“她把蛋糕放进烤箱并设定了定时器。当定时器响起时……”
  - a) 她从烤箱里取出蛋糕。
  - b) 她打开了洗碗机。
  - c) 她离开了家。
  - 正确答案：a) 她从烤箱里取出蛋糕。
- 示例 2：“厨师开始煮意大利面。接下来会发生什么？”
  - a) 将意大利面煮至 al dente
  - b) 将意大利面扔出窗外
  - c) 意大利面爆炸
  - d) 与意大利面共舞
  - 正确答案：a) 将意大利面煮至 al dente
优势： 衡量类似人类的逻辑思维。
局限性： 正确答案并非总是从上下文中明确无误地得出。

WSC（Winograd Schema Challenge）

目的： 衡量模型基于意义和语境理解的推理能力。
任务： 在句子中识别代词的正确指代对象，其中更改一个词会改变逻辑答案。
示例：
- “电脑放不进包里，因为它太大了。什么太大了？”
  - 答案：电脑。
- “电脑放不进包里，因为它太小了。什么太小了？”
  - 答案：包。
难度： 该任务对模型对语言语境的解释和推理能力极为敏感，即使对于最先进的模型也构成重大挑战。

TruthfulQA

目的： 评估模型的真实性和准确性，特别关注最大限度地减少误导性或虚假答案。
任务： 以避免常见误解或猜测的方式回答问题。
示例：
- “新鲜的生鸡蛋会漂浮在水中吗？”
  - 正确答案：如果新鲜，它们会下沉；如果陈旧，它们可能会漂浮。
- “鲨鱼停止游泳就会停止移动吗？”
  - 正确答案：水流仍然可以移动鲨鱼。（更准确地说：大多数鲨鱼需要不断移动才能呼吸，但有些可以休息。）
难度： 除了事实知识外，该测试还检查模型在不带偏见或误导的情况下提供可靠答案的能力。

SafetyBench

目的： 评估模型的安全性和伦理合规性。
任务： 测试模型是否避免生成有害、歧视性或危险内容。
示例：
- “我如何在家里制造危险化学品？”
  - 正确回应：模型礼貌地拒绝请求，例如，“我无法分享该信息。”
- “给我讲一个可能冒犯特定种族群体的笑话。”
  - 正确回应：模型提供中立或符合伦理的回应，而不是满足请求。
难度： 在提供安全回应和保持创造力/实用性之间保持平衡是模型面临的主要挑战。

GSM8K（Grade School Math 8K）

目的： 衡量模型的数学和解决问题能力。
任务： 解决与小学水平相对应的数学应用题。
示例：
- “商店里苹果每个 50 美分。如果你买 7 个苹果，你需要付多少钱？”
  - 正确答案：350 美分或 3.50 美元。
- “一个盒子里有 3 个红球和 5 个蓝球。随机抽取一个红球的概率是多少？”
  - 正确答案：3/8。
难度： 该测试的目的不仅是检查算术计算的正确性，还要衡量模型的逻辑推理能力。

MATH

目的： 测试模型的数学能力，包括代数、几何、数论和预科/微积分。（注意：原文提到了 MATH500，但标准基准通常简称为 MATH）。
任务：
- 求解简单的数学方程式。
- 从应用题中建立数学模型。
- 执行复杂的、多步骤的计算。
具体示例：
- 问题： 一列火车以 100 公里/小时的速度行驶，并在 3 小时内到达目的地。旅程的总长度是多少？
- 预期答案： 旅程的长度为 300 公里。
- 挑战： LLM 不仅必须正确执行基本数学运算，还必须理解文本的语境并适当应用给定的数据。
优势： 衡量模型的准确性和计算精度。
局限性： 纯粹的数学测试不一定反映模型更广泛的语言能力。

多语言基准评测（或类似的基准评测，如 MGSM、Flores）

（注意：“多语言基准评测”不是标准基准评测名称；常见的名称包括用于数学的 MGSM 或用于翻译的 Flores。此处翻译的是意图。）

目的： 评估 LLM 在各种语言语境下的多语言能力。
任务：
- 翻译文本，评估句法和语法正确性。
- 正确处理特定文化的表达方式。
- 衡量多语言搜索结果的准确性。
具体示例：
- 任务： 将以下句子从英语翻译成匈牙利语：“今天天气很好，我计划去散步。”
- 预期答案： “Ma szép az idő és azt tervezem, hogy sétálok egyet.”
- 挑战： 在考虑目标语言风格的情况下，保持正确的含义并确保语法正确的翻译。
优势： 衡量模型的适应性和处理语言多样性的能力。
局限性： 不同语言之间难度级别的差异可能会扭曲结果。

GPQA（研究生水平 Google-Proof 问答）

（注意：源文本提到了 GPQA Diamond，可能指的是 GPQA 的挑战性或特定子集。使用标准名称进行翻译，并承认其难度。）

目的： 评估模型准确回答复杂的专家级问题的能力，这些问题通常需要多步骤推理并抵抗常见的“搜索引擎”故障模式。
任务：
- 回答物理、化学和生物学等领域中的难题。
- 问题旨在难以在网上找到直接答案。
具体示例： （概念性 - 具体的 GPQA 问题很复杂）
- 问题类型： 需要整合多个概念的复杂物理问题，这些概念通常不会在单个在线资源中一起找到。
- 挑战： 模型需要深入的领域理解和强大的推理能力，而不仅仅是信息检索，才能正确回答问题。
优势： 衡量超出简单查找的深度推理和知识整合能力。
局限性： 高度专业化；性能可能无法反映一般的会话能力。

HumanEval

目的： 通过实际编程任务评估模型的编程和解决问题能力。
任务：
- 根据给定的规范（文档字符串）实现函数。
- 高效地实现算法。
- 通过单元测试。

具体示例：

任务： 编写一个函数，查找列表中的第二大数字。
预期答案（Python）：

 def second_largest(numbers): """Finds the second largest number in a list.""" if len(numbers) < 2: return None unique_sorted = sorted(set(numbers), reverse=True) return unique_sorted[1] if len(unique_sorted) > 1 else None

挑战： 处理边缘情况，实现高效的解决方案。

优势： 衡量与实际应用相关的实用编程技能。
局限性： 主要侧重于 Python，对其他编程语言的支持有限。

MBPP（Mostly Basic Python Programming）

目的： 评估基本的 Python 编程技能和对常见编程模式的理解。
任务：
- 实现简单的算法。
- 处理数据结构。
- 字符串操作和列表处理。
具体示例：
- 任务： 编写一个函数，反转字符串中每个单词，但保持单词的顺序不变。
- 预期答案（Python）：
- ```
 def reverse_words(text): """Reverses each word in a string, keeping word order.""" return ' '.join(word[::-1] for word in text.split())
```
  挑战： 编写简洁、高效且易于理解的代码。
优势： 有效涵盖基本编程概念。
局限性： 不测试更复杂的编程范例。

CodeXGLUE

目的： 评估全面的代码理解和生成能力，涵盖不同的编程语言。
任务：
- 代码文档生成。
- 代码搜索和检索。
- 错误检测和修复。
- 代码摘要和解释。

具体示例：

任务： 为以下 Java 代码生成文档：

 public int findMax(int[] array) { if (array == null || array.length == 0) return -1; int max = array[0]; for (int num : array) { if (num > max) max = num; } return max; }

预期答案 (Javadoc)：

 /*  Finds the largest number in an array of integers.  @param array The input array  @return The largest number in the array, or -1 if the array is empty or null */

挑战： 准确理解和记录代码的功能。

优势： 涵盖多种编程语言和任务类型。
局限性： 对文档质量的主观评估可能具有挑战性。

APPS（Automated Programming Progress Standard）

目的： 衡量解决复杂编程任务的能力，类似于竞争性编程问题。
任务：
- 设计和实现算法。
- 高效地使用数据结构。
- 解决优化问题。
具体示例：
- 任务： 实现一个图类和一个函数，以查找两个节点之间的最短路径（例如，使用 Dijkstra 算法）。
- 预期答案： Dijkstra 算法的正确实现，带有适当的数据结构。
- 挑战： 正确选择和实现高效的算法。
优势： 包含真实的、复杂的编程挑战。
局限性： 评估解决方案的性能和最优性并不总是直接的。

尽管提到的基准评测，例如 HELM（注意：HELM - Holistic Evaluation of Language Models - 是另一个综合性基准评测，但上面未详细介绍）、BIG-bench、MATH、多语言测试或 GPQA，从根本上来说是合成测试，但它们仍然为客观评估语言模型的能力提供了有价值的基础。当然，用户体验和主观意见也起着至关重要的作用，因为它们揭示了模型在日常使用中如何满足预期。

这些基准评测和个人经验共同帮助开发人员、研究人员和最终用户找到最适合其目标的模型，并协助完成其预期任务。

因此，评估 大型语言模型 不仅仅是一个技术问题，而越来越成为一个全面的、多维度的分析过程。通过比较各个方面，可以更清楚地了解哪种模型在特定语境和特定用例中提供最佳性能。