出人意料的冠军

Gábor Bíró 2025年10月16日
9 阅读时间

在科学世界里,有时最深刻的见解源于最简单的实验。20世纪80年代初,个人电脑时代刚刚拉开序幕,一位名叫罗伯特·阿克塞尔罗德的政治学家建立了一个数字竞技场,让各个带有自身“个性”的计算机程序在一场经典的策略游戏中相互较量。其结果不仅出人意料,更是具有开创性的,为我们审视合作本身的演化提供了一个强有力的全新视角。

出人意料的冠军

该实验围绕博弈论中最著名的难题之一:囚徒困境展开。

历史上,这些竞赛由罗伯特·阿克塞尔罗德组织和分析,他不仅协调了参赛作品的提交,还在其影响深远的著作中对结果进行了综合阐述。被称为“一报还一报”的策略——通常认为阿纳托尔·拉波波特是其早期提出者——通过阿克塞尔罗德的分析而闻名于世。关于该实验及其意义的权威论述,请参见阿克塞尔罗德的著作(Axelrod & Hamilton, 1981; Axelrod, 1984)。随后的理论和实证研究(例如,Nowak & Sigmund, 1993)加深了我们的理解,揭示了在不同条件下,其他互惠规则(如“赢定输变”或更宽容的变体)何时以及为何可能优于简单的“一报还一报”策略。

搭建舞台:信任的困境

你很可能熟悉这个经典设定:两个犯罪同伙被捕后,关在无法交流的独立牢房里。检察官分别向他们每个人提出了一项交易。

  • 如果你背叛你的同伙(背叛),而他保持沉默(合作),你将获释,而他将面临长期监禁(例如10年)。
  • 如果你们都保持沉默(合作),你们都将获得短期监禁(例如1年)。
  • 如果你们互相背叛(背叛),你们都将获得中期监禁(例如5年)。

从纯粹的个人主义、理性角度来看,背叛永远是最佳选择。如果你的同伙合作,你会得到最好的结果(自由)。如果你的同伙背叛,你则避免了最坏的结果(傻瓜的报酬)。悖论在于,当两个参与者都遵循这种“理性”逻辑时,他们最终的处境都比他们相互信任时更糟。

阿克塞尔罗德感兴趣的是,当这不仅仅是一次性博弈时会发生什么。他专注于重复囚徒困境(IPD),即相同的两个参与者一次又一次地进行对抗。突然之间,声誉和记忆变得至关重要。“未来的影响”改变了一切。合作还有机会吗?

算法的大赛

为了找到答案,阿克塞尔罗德邀请了来自经济学、心理学、数学和计算机科学等不同领域的学者提交一个用于进行重复囚徒困境博弈的程序。每个程序都是一种策略,一套用于决定在任何一轮中是合作还是背叛的规则。

提交的程序从极其复杂到异常简单,五花八门。有些程序极具攻击性,总是选择背叛。有些则是纯粹的利他主义者,总是选择合作。还有许多程序非常复杂,利用统计分析试图预测对手的下一步行动。这些数字“人格”被投入一场循环赛。每个程序都与所有其他程序(以及其自身的一个副本,还有一个随机行动的程序)对战200轮。目标不是赢得单场比赛,而是在整个竞赛中累积最高的总分。

一场数字巨头之间的较量即将上演。人们普遍预期,一个复杂而狡猾的策略将会胜出。

接下来发生的事情非同寻常。

胜利者:简约的大师

当数字世界的尘埃落定,获胜者是所提交的最简单的策略之一。它被称为“一报还一报”,由数学心理学家阿纳托尔·拉波波特编写。

“一报还一报”的逻辑简单得近乎可笑:

  1. 第一步,选择合作。
  2. 在之后的每一步,模仿你的对手在上一步所做的选择。

就是这样。如果对手合作,“一报还一报”就合作。如果他们背叛,“一报还一报”就立刻回以背叛。它就像一个简单的回声,一面数字镜子。它对上一步之外的行为不存芥蒂,也从不试图智取对手。

这样一个基础的算法,是如何战胜那些设计了复杂预测模型和马基雅维利式逻辑的程序的呢?阿克塞尔罗德对结果的分析揭示了成功合作的关键要素,而“一报还一报”完美地体现了这些要素。他确定了高分策略共有的四个特性:

  • 善良:一个“善良”的程序从不首先背叛。通过以合作开局,“一报还一报”立即表明了共同协作的意愿,为互利共赢的结果打开了大门,并避免了不必要的冲突。
  • 报复性(或称“可激怒性”):“一报还一报”不是一个任人宰割的“软柿子”。如果对手背叛,它会在下一步立即进行报复。这种迅速的惩罚明确表示,剥削是不会被容忍的,从而阻止了攻击性策略占它便宜。
  • 宽容:这可以说是其最关键的特质。在对一次背叛进行报复后,如果对手回归合作,“一报还一报”会立即“原谅”他们,并在下一轮中选择合作。它不记仇。这种打破相互指责循环的能力,对于重建信任并回到高分合作的节奏至关重要。
  • 清晰:它的策略简单透明。对手很快就能摸清它的规则。他们明白合作会得到回报,而背叛会受到惩罚。这种清晰性和可预测性使其成为一个可靠的合作伙伴。

一个重要的注意事项是噪音:在现实互动中,错误时有发生——一个合作的举动可能被误判为背叛,或者一个预期的行动可能失败。在这种充满噪音的环境中,纯粹的“一报还一报”策略可能会陷入长期的报复循环。因此,后来的研究和竞赛探索了为增强稳健性而设计的变体,如“两报还一报”(仅在对手连续两次背叛后才背叛)、“宽容的一报还一报”(偶尔会原谅一次背叛)以及“赢定输变”(巴甫洛夫策略),在不同的错误率和群体动态下,这些策略各自都能胜过普通的“一报还一报”。提及这一细微差别解释了为什么实验室和现实世界中的合作动态有时会出现分歧。

从形式上看,在重复囚徒困境中维持合作取决于两个要素:收益排序和未来互动的价值。收益必须满足 T > R > P > S(Temptation/诱惑 > Reward/奖励 > Punishment/惩罚 > Sucker/傻瓜),并且参与者必须足够重视未来的收益(即有很高的继续博弈概率或较低的贴现率)。当这些条件成立且互动以合理的确定性重复进行时,互惠策略便可以自我实施——这构成了阿克塞尔罗德的实证竞赛与重复博弈论的理论结果之间的一座桥梁。

背景知识 – 从数字代码到一战的战壕

或许,与阿克塞尔罗德的发现最引人注目且最深刻的现实世界对应,出现在一个你最意想不到合作的地方:第一次世界大战的战壕。在西线长期的僵持中,对立的英德军队之间自发地出现了一种非正式的休战体系。这一现象被称为“相安无事”体系

它的运作方式就像一场有机的“一报还一报”博弈:

  • 保持善良(不先开火):一个单位会通过进行可预测的、非致命的常规活动来表明其和平意图。例如,他们可能每天在同一时间对战壕的无人区进行炮击。这是一个“合作”的举动。
  • 进行报复:如果一方突然发动致命的、无端的突袭(一次“背叛”),另一方会立即以猛烈的反击予以报复,以表明侵略是不会被容忍的。
  • 保持宽容:至关重要的是,在这次报复之后,被攻击的一方通常会恢复到之前的“合作”常规,表明愿意恢复休战。他们不会永远记仇。

这个不成文的合作体系是在没有任何高层命令的情况下出现的(事实上,将军们曾积极试图杜绝它)。它源于双方士兵的自身利益,他们认识到自己正处于一场重复博弈中。他们知道明天、后天还将面对同样的对手。“未来的影响”是深远的,他们意识到相互克制远比持续不断的、无节制的侵略更有利于他们的生存。

这个强有力的历史案例表明,在阿克塞尔罗德的计算机竞赛中发现的原则不仅仅是抽象的理论。它们是人类在生存与合作中策略的基本组成部分,即使在可以想象的最恶劣的环境中也是如此。

策略名册 – 关键参与者一览

为了让这场竞赛更加具体,了解一些参赛的数字“人格”会很有帮助。虽然提交了数十种策略,但它们通常可以归为不同的原型。以下是一些最引人注目的参赛者及其表现。

(注意:“排名”是一个概括性的说法。实际上,表现取决于竞赛中其他策略的具体组合,但这反映了总体结果。)

排名 策略名称 简要描述 主要特点
1 一报还一报 第一步合作,然后复制对手上一步的行动。 善良、报复性、宽容、清晰
顶尖 测试者 第一步背叛以“试探深浅”。如果对手报复,它会道歉并转为“一报还一报”策略。否则,它会继续背叛。 具有试探性,但最终会与不天真的参与者合作。
顶尖 弗里德曼(冷酷触发) 一直合作,直到对手哪怕只背叛一次,之后它就永远背叛。 善良、严格报复性、不宽容
顶尖 两报还一报 一种更宽容的变体。它只在对手连续两次背叛后才进行背叛。 非常善良、宽容、能抵抗回声效应
中等 乔斯 “一报还一报”的“狡猾”版本。它大多模仿对手,但有10%的几率在应该合作时选择背叛。 基本善良、有报复性,但“奸诈”
中等 唐宁 开始时试图为对手建模。如果对手看起来有反应且有“良知”,它就合作。如果对手看起来是随机或无反应的,它就背叛以保护自己。 适应性强、精于计算、本质上不“善良”
底层 永远背叛 (ALL D) 无论如何,总是选择背叛。 恶意、攻击性
底层 随机策略 根据50/50的随机几率决定合作或背叛。 不可预测、不可靠
垫底 永远合作 (ALL C) 无论被背叛多少次,总是选择合作。 善良,但天真且易被利用
垫底 奈德格 一个更复杂的基于规则的策略,试图成为“一报还一报”的宽容版本,但其逻辑存在缺陷且容易被利用,导致表现不佳。 意图良好,但令人困惑且易被利用

这张表清楚地表明,最成功的策略是“善良的”(它们从不首先背叛),但它们并非任人宰割。纯粹攻击性(ALL D)和纯粹天真(ALL C)的策略表现非常差,因为从长远来看,它们相互利用,最终导致两败俱伤。

第二轮竞赛与深远影响

阿克塞尔罗德认为第一次的结果可能只是侥幸,于是他举办了第二场规模更大的竞赛。这一次,参与者们已经知道了第一轮的结果。他们了解“一报还一报”的成功,并可以设计专门用来对抗它的策略。来自世界各地的六十二份参赛作品纷至沓来。

结果,“一报还一报”再次获胜。

它的稳健性得到了证实。初始友善、迅速但对等的报复、立即的宽恕以及清晰明了的原则,不仅仅是一个制胜法宝,它们似乎是合作演化的基本秘诀。

阿克塞尔罗德的研究成果发表在他于1984年出版的开创性著作《合作的演化》中,其影响远远超出了博弈论的范畴。生物学家用它来模拟动物种群中的互惠利他行为。经济学家用它来理解商业关系中的信任。政治学家在冷战期间的国际外交和军备控制条约中看到了它的影子。

今天,这些简单的互惠原则为社会科学以外的领域提供了启示:多智能体系统的设计者、区块链中的去中心化协议和激励机制,以及互动的人工智能团队,都面临着在剥削与合作之间的同样权衡。稳健的互惠规则——那些能够容忍噪音并在群体中扩展的规则——仍然是构建人类和人工智能系统中合作行为的核心。

这场竞赛给了我们一个强有力的教训:合作并不需要集中的权威或无私的利他主义。当自利的个体知道他们未来会再次互动时,合作就可以自发地出现。在一个常常看似复杂和犬儒的世界里,“一报还一报”的胜利仍然是一个充满希望且经久不衰的提醒:最佳策略往往是善良,但不能天真;宽容,但不能遗忘;最重要的是,在行动中保持清晰和一致。

Gábor Bíró 2025年10月16日