审视“思维的幻觉”
在人工智能持续不断的炒作热潮中,我们常常听说自己正处在通往真正通用人工智能(AGI)的快车道上。但如果驱动我们前进的引擎,并不像看上去那么强大呢?一个有趣的转折是,来自苹果公司的研究人员发表了两篇论文,对人工智能的现状进行了一次关键的“现实检验”。

这些研究表明,我们模型所展示的惊人能力,可能更多是一种精密的幻觉,而非真正的智能,由此引发了激烈的辩论。让我们深入了解一下他们的发现及其重要性。
GSM-Symbolic:当AI在基础数学上失手时
第一个重大挑战来自2024年一篇题为《GSM-Symbolic》的论文。在研究员Iman Mirzadeh和Mehrdad Farajtabar的带领下,该团队创建了一个新的基准测试,用以检验大语言模型(LLM)处理数学推理的能力。他们测试的不仅仅是模型能否得出正确答案,更是其推理过程的鲁棒性。
这些发现很有启发性:
- 逻辑脆弱:当研究人员仅改变应用题中的数字而保持其底层数学逻辑不变时,模型的表现会大幅下降。一个能解决“2+3”的模型,在同样的故事背景下,可能会无法解决“4+5”。
- 容易分心:当在问题中加入一条看似相关但实则无用的信息时,所有主流AI模型的表现都急剧下降——在某些情况下甚至下降了65%。
- 核心结论:该研究有力地表明,这些模型并非在进行真正的逻辑推理。相反,它们是在进行高度先进的模式匹配,本质上是在其训练数据中寻找熟悉的问题结构来找到解决方案。
这首次暗示了其底层机制存在问题。但真正撼动整个讨论的,是他们的后续研究。
“思维的幻觉”:人工智能撞上了墙
2025年6月,一篇由Parshin Shojaee和Iman Mirzadeh牵头、题为《思维的幻觉》(The Illusion of Thinking)的论文将这项调查又推进了一步。该团队用一套可调整难度的经典逻辑谜题来测试所谓的“大型推理模型”(LRM)——专为解决复杂问题而设计的模型,其中包括:
- 汉诺塔
- 过河问题
- 跳棋
- 积木世界
其结果可谓惊人。
- “准确率悬崖”:在简单版的谜题上,模型表现良好。但随着复杂度的提升,它们的表现并非平缓下降,而是断崖式下跌,准确率骤降至零。
- 自相矛盾的扩展行为:更奇怪的是,当面对更难的问题时,模型使用的计算步骤(或“思考词元”)反而常常更少。就好像,当AI意识到挑战超出其能力范围时,它干脆就“放弃”了,而不是更努力地尝试。
- 三种表现区间:研究人员发现了三个截然不同的区域。在低复杂度下,标准的LLM有时表现更好。在中等复杂度下,专门的LRM具有优势。但在高复杂度下,所有模型都彻底失败了。
研究人员的结论直白而有力:这些模型创造了“形式推理的幻觉”,但实际上它们执行的是一种脆弱的模式匹配,这种匹配可以被像“在谜题中改个名字”这样简单的事情所打破。
争论与苹果的动机
自然,这些发现并非没有受到挑战。科学界展开了激烈的辩论。一些批评者,如Alex Lawsen在一篇题为《思维幻觉的幻觉》(The Illusion of the Illusion of Thinking)的回应文章中指出,实验设置的缺陷——例如使用了无解版本的过河问题,或设置了迫使模型退出的词元限制——才是罪魁祸首,而非模型本身存在根本性缺陷。
这种科学上的反复辩论是健康且必要的。但我们同样也值得考虑其背后的背景。苹果在人工智能竞赛中一直在追赶。当其竞争对手在AI热潮中高歌猛进时,苹果的步伐则更为谨慎。发布强调当前主流方法根本性弱点的研究,可能是一种重塑话语权的战略举措,意在表明一条更慢、更审慎的路径比当前“规模就是一切”的哲学更为明智。
这对AI的未来意味着什么
苹果研究的意义是深远的,迫使我们直面一些令人不安的问题:
- 真正的推理可能吗?无论规模变得多大,当前的LLM架构是否从根本上就无法实现真正的、通用的推理能力?
- 扩展定律的终结?这项研究对盛行的“扩展定律”——即简单地增加更多数据和计算能力就必然会带来更高智能的观点——提出了质疑。
- 呼唤创新:如果当前的方法存在一个硬性上限,那么实现AGI可能需要超越当今AI所依赖的Transformer模型的全新架构创新。
苹果的研究并非声称AI毫无用处;其作为工具的力量是不可否认的。然而,它为持续不断的炒作提供了一个冷静且有据可循的反面叙事。它表明,通往真正智能机器的道路可能不是一条直线向上的坦途,而可能需要我们从头再来,重返绘图板。