Неожиданный чемпион

Gábor Bíró 16 октября 2025 г.
9 мин. чтения

В мире науки самые глубокие открытия порой рождаются из простейших экспериментов. В начале 1980-х, на заре эры персональных компьютеров, политолог по имени Роберт Аксельрод создал цифровую арену, чтобы столкнуть друг с другом компьютерные программы — каждая со своей «личностью» — в классической стратегической игре. Результаты оказались не просто удивительными, а революционными, предложив новый мощный взгляд на саму эволюцию сотрудничества.

Неожиданный чемпион

Эксперимент был построен вокруг одной из самых известных головоломок теории игр: Дилеммы заключённого.

Исторически эти турниры организовывал и анализировал Роберт Аксельрод, который координировал приём заявок и обобщил результаты в своей влиятельной работе. Стратегия, известная как «Око за око» (Tit for Tat) — часто ассоциируемая с Анатолем Рапопортом как одним из её ранних авторов — стала знаменитой благодаря анализу Аксельрода. Каноническое изложение эксперимента и его последствий можно найти в работах Аксельрода (Axelrod & Hamilton, 1981; Axelrod, 1984). Последующие теоретические и эмпирические исследования (например, Nowak & Sigmund, 1993) углубили наше понимание, показав, когда и почему другие правила взаимности (такие как «Выиграл — оставайся, проиграл — меняй» или более щедрые варианты) могут превосходить простое «Око за око» в различных условиях.

Подготовка сцены: Дилемма доверия

Вы, вероятно, знакомы с классической постановкой задачи: двух сообщников арестовывают и держат в разных камерах, не давая им общаться. Прокурор предлагает каждому из них сделку, независимо друг от друга.

  • Если вы предадите своего партнёра (откажетесь от сотрудничества), а он будет молчать (сотрудничать), вы выйдете на свободу, а он получит длительный срок (например, 10 лет).
  • Если вы оба будете молчать (сотрудничать), вы оба получите короткий срок (например, 1 год).
  • Если вы оба предадите друг друга (откажетесь от сотрудничества), вы оба получите средний срок (например, 5 лет).

С чисто индивидуалистической, рациональной точки зрения, предательство — всегда лучший ход. Если ваш партнёр сотрудничает, вы получаете лучший исход (свободу). Если ваш партнёр предаёт, вы избегаете худшего исхода («платы простака»). Парадокс в том, что когда оба игрока следуют этой «рациональной» логике, они оба оказываются в худшем положении, чем если бы доверяли друг другу.

Аксельрода интересовало, что происходит, когда это не разовая встреча. Он сосредоточился на Повторяющейся дилемме заключённого (ПДЗ), где одни и те же два игрока сталкиваются снова и снова. Внезапно репутация и память начинают иметь значение. «Тень будущего» всё меняет. Есть ли у сотрудничества шанс?

Великий турнир алгоритмов

Чтобы найти ответ, Аксельрод пригласил учёных из различных областей — экономики, психологии, математики и информатики — представить программу, которая будет играть в ПДЗ. Каждая программа представляла собой стратегию, набор правил для принятия решения о сотрудничестве или предательстве на каждом ходу.

Представленные программы варьировались от гениально сложных до дьявольски простых. Некоторые были неумолимо агрессивны, всегда предавая. Другие были чисто альтруистичны, всегда сотрудничая. Многие были очень изощрёнными, используя статистический анализ, чтобы попытаться предсказать следующий ход оппонента. Эти цифровые «личности» были заявлены на круговой турнир. Каждая программа играла против всех остальных (а также против своей копии и программы, делающей случайные ходы) в течение 200 раундов. Цель состояла не в том, чтобы «выиграть» отдельные матчи, а в том, чтобы набрать наибольшее общее количество очков за весь турнир.

Сцена была готова к битве цифровых титанов. Ожидалось, что победит сложная, хитрая стратегия.

То, что произошло дальше, было поразительно.

Победитель: Мастер-класс простоты

Когда цифровая пыль улеглась, победителем оказалась одна из самых простых представленных стратегий. Она называлась «Око за око» (Tit for Tat) и была написана Анатолем Рапопортом, математическим психологом.

Логика «Ока за око» была почти до смешного прямолинейна:

  1. На первом ходу — сотрудничать.
  2. На каждом последующем ходу — делать то же, что сделал ваш оппонент на предыдущем ходу.

Вот и всё. Если оппонент сотрудничал, «Око за око» сотрудничало. Если он предавал, «Око за око» тут же отвечало предательством. Это было простое эхо, цифровое зеркало. Стратегия не держала зла дольше одного хода и никогда не пыталась перехитрить своего оппонента.

Как такой базовый алгоритм мог одержать победу над программами, разработанными со сложными прогностическими моделями и макиавеллиевской логикой? Анализ результатов, проведённый Аксельродом, выявил ключевые компоненты успешного сотрудничества, идеально воплощённые в «Оке за око». Он определил четыре свойства, общие для стратегий с высоким результатом:

  • Она была «доброй»: «Добрая» программа — это та, которая никогда не предаёт первой. Начиная с сотрудничества, «Око за око» немедленно сигнализировало о готовности работать вместе, открывая путь к взаимовыгодным результатам и избегая ненужных конфликтов.
  • Она была мстительной (или провоцируемой): «Око за око» не было простаком. Если оппонент предавал, стратегия немедленно отвечала тем же на следующем ходу. Это быстрое наказание давало понять, что эксплуатация недопустима, отбивая у агрессивных стратегий желание ею воспользоваться.
  • Она была всепрощающей: Это, возможно, её самая важная черта. После ответного предательства, если оппонент возвращался к сотрудничеству, «Око за око» немедленно «прощало» его и сотрудничало на следующем ходу. Оно не держало зла. Эта способность прерывать циклы взаимных обвинений была жизненно важна для восстановления доверия и возвращения к высокодоходному ритму сотрудничества.
  • Она была понятной: Её стратегия была простой и прозрачной. Оппоненты быстро усваивали её правила. Они понимали, что сотрудничество будет вознаграждено, а предательство — наказано. Эта ясность и предсказуемость делали её надёжным партнёром для сотрудничества.

Важным уточнением является наличие «шума»: в реальных взаимодействиях случаются ошибки — ход сотрудничества может быть неверно воспринят как предательство, или намеченное действие может не удаться. В таких «шумных» средах чистое «Око за око» может застрять в долгих циклах возмездия. Поэтому в более поздних работах и турнирах исследовались варианты, разработанные для повышения надёжности, такие как «Око за два ока» (которое предаёт только после двух последовательных предательств со стороны оппонента), «Великодушное Око за око» (которое время от времени прощает предательство) и «Выиграл — оставайся, проиграл — меняй» (Павлов), каждая из которых может превзойти обычное «Око за око» при различных уровнях ошибок и динамике популяции. Упоминание этого нюанса объясняет, почему динамика сотрудничества в лаборатории и в реальной жизни иногда расходится.

Формально, поддержание сотрудничества в повторяющихся сценариях Дилеммы заключённого зависит от двух составляющих: порядка выигрышей и ценности будущего взаимодействия. Выигрыши должны удовлетворять условию T > R > P > S (Искушение > Вознаграждение > Наказание > Проигрыш простака), и игроки должны достаточно ценить будущие выигрыши (высокая вероятность продолжения или низкий дисконт). Когда эти условия соблюдаются и взаимодействия повторяются с достаточной уверенностью, стратегии взаимности могут стать самоподдерживающимися — это мост между эмпирическими турнирами Аксельрода и теоретическими результатами из теории повторяющихся игр.

Исторический контекст – От цифрового кода к окопам Первой мировой войны

Возможно, самая поразительная и пронзительная параллель с выводами Аксельрода в реальном мире обнаруживается там, где сотрудничества ожидаешь меньше всего: в окопах Первой мировой войны. В периоды длительного позиционного тупика на Западном фронте между противоборствующими британскими и немецкими войсками возникла спонтанная система неформальных перемирий. Это явление стало известно как система «Живи и давай жить другим».

Она работала точно так же, как органическая игра «Око за око»:

  • Будь «добрым» (не стреляй первым): Подразделение сигнализировало о своих мирных намерениях, придерживаясь предсказуемых, несмертельных рутинных действий. Например, они могли вести артиллерийский обстрел в одно и то же время каждый день, целясь в пустой участок траншей. Это был «сотрудничающий» ход.
  • Отвечай на удар: Если одна сторона внезапно совершала смертоносный, неспровоцированный рейд («предательство»), другая сторона немедленно отвечала яростной контратакой, чтобы показать, что агрессия не останется безнаказанной.
  • Будь всепрощающим: Что особенно важно, после такого возмездия атакованная сторона часто возвращалась к прежней «сотрудничающей» рутине, сигнализируя о готовности восстановить перемирие. Они не держали зла вечно.

Эта негласная система сотрудничества возникла без каких-либо приказов от высшего командования (на самом деле, генералы активно пытались её искоренить). Она родилась из корыстных интересов солдат с обеих сторон, которые осознали, что находятся в повторяющейся игре. Они знали, что столкнутся с теми же противниками завтра и послезавтра. «Тень будущего» была длинной, и они поняли, что взаимная сдержанность гораздо лучше для их выживания, чем постоянная, безудержная агрессия.

Этот мощный исторический пример показывает, что принципы, открытые в компьютерном турнире Аксельрода, — это не просто абстрактная теория. Они являются фундаментальной частью человеческой стратегии выживания и сотрудничества даже в самых враждебных условиях, какие только можно себе представить.

Список стратегий – Взгляд на ключевых игроков

Чтобы сделать турнир более конкретным, полезно познакомиться с некоторыми из соревновавшихся цифровых «личностей». Хотя были представлены десятки стратегий, они часто делились на определённые архетипы. Вот взгляд на некоторых из самых заметных участников и их результаты.

(Примечание: «Ранг» является обобщением. В действительности, результат зависел от конкретного набора других стратегий в турнире, но это отражает общие итоги.)

Ранг Название стратегии Краткое описание Ключевая характеристика(и)
1 Око за око Сотрудничает на первом ходу, затем копирует предыдущий ход оппонента. Добрая, мстительная, всепрощающая, понятная
Высший уровень Тестер Предаёт на первом ходу, чтобы «прощупать почву». Если оппонент отвечает тем же, извиняется и играет «Око за око». Если нет, продолжает предавать. Прощупывающая, но в итоге сотрудничающая с не-наивными игроками.
Высший уровень Стратегия Фридмана (Непрощающая) Сотрудничает до тех пор, пока оппонент не предаст хотя бы раз, после чего предаёт всегда. Добрая, строго мстительная, не прощающая
Высший уровень Око за два ока Более всепрощающий вариант. Предаёт, только если оппонент предал два раза подряд. Очень добрая, всепрощающая, устойчива к эффекту эха
Средний уровень Стратегия Джосса «Хитрая» версия «Ока за око». В основном копирует оппонента, но с 10% вероятностью предаёт вместо сотрудничества. В основном добрая, мстительная, но «коварная»
Средний уровень Стратегия Даунинга Начинает с попытки смоделировать своего оппонента. Если оппонент кажется отзывчивым и имеет «совесть», сотрудничает. Если оппонент кажется случайным или неотзывчивым, предаёт, чтобы защитить себя. Адаптивная, расчётливая, не является «доброй» по своей сути
Низший уровень Всегда предавать (ALL D) Всегда выбирает предательство, несмотря ни на что. Злая, агрессивная
Низший уровень Случайная стратегия Сотрудничает или предаёт на основе случайного выбора 50/50. Непредсказуемая, ненадёжная
Последние места Всегда сотрудничать (ALL C) Всегда выбирает сотрудничество, независимо от того, сколько раз её предали. Добрая, но наивная и уязвимая для эксплуатации
Последние места Стратегия Нидеггера Более сложная стратегия на основе правил, которая пыталась быть всепрощающей версией «Ока за око», но её логика была ошибочной и уязвимой, что привело к плохим результатам. С благими намерениями, но запутанная и уязвимая

Эта таблица ясно показывает, что наиболее успешные стратегии были «добрыми» (они никогда не предавали первыми), но они не были простаками. Чисто агрессивные (ALL D) и чисто наивные (ALL C) стратегии показали очень плохие результаты, так как в долгосрочной перспективе одни эксплуатировали других к их обоюдному вреду.

Второй раунд и долгосрочное наследие

Полагая, что результаты могли быть случайностью, Аксельрод провёл второй, ещё более масштабный турнир. На этот раз участники знали итоги первого раунда. Они были осведомлены об успехе «Ока за око» и могли разрабатывать стратегии специально для противодействия ей. Со всего мира поступило шестьдесят две заявки.

И снова победила стратегия «Око за око».

Её надёжность была подтверждена. Простые принципы изначальной доброты, быстрого, но пропорционального возмездия, немедленного прощения и ясности были не просто выигрышной формулой; они оказались фундаментальным рецептом для эволюции сотрудничества.

Работа Аксельрода, опубликованная в его основополагающей книге 1984 года «Эволюция сотрудничества», оказала глубокое влияние далеко за пределами теории игр. Биологи использовали её для моделирования взаимного альтруизма в популяциях животных. Экономисты применяли её для понимания доверия в деловых отношениях. Политологи видели её отражение в международной дипломатии и договорах о контроле над вооружениями во время холодной войны.

Сегодня эти простые принципы взаимности лежат в основе работы не только в социальных науках: разработчики многоагентных систем, децентрализованных протоколов и механизмов стимулирования в блокчейне, а также команды взаимодействующих ИИ сталкиваются с теми же компромиссами между эксплуатацией и сотрудничеством. Надёжные правила взаимности — те, которые устойчивы к «шуму» и масштабируются в популяциях — остаются центральными для инженерии кооперативного поведения как в человеческих, так и в искусственных системах.

Турнир преподал нам мощный урок: сотрудничество не требует централизованной власти или бескорыстного альтруизма. Оно может возникать спонтанно среди эгоистичных индивидов, когда они знают, что будут взаимодействовать снова в будущем. В мире, который часто кажется сложным и циничным, триумф «Ока за око» остаётся обнадёживающим и вечным напоминанием о том, что лучшая стратегия — это часто быть добрым, но не наивным; быть всепрощающим, но не забывчивым; и, прежде всего, быть ясным и последовательным в своих действиях.

Gábor Bíró 16 октября 2025 г.