Наука и бизнес

Неожиданный чемпион

Gábor Bíró • 16 октября 2025 г.

13 мин. чтения

В мире науки самые глубокие открытия порой рождаются из простейших экспериментов. В начале 1980-х, на заре эры персональных компьютеров, политолог Роберт Аксельрод создал цифровую арену, чтобы столкнуть друг с другом компьютерные программы — каждая со своей «индивидуальностью» — в классической стратегической игре. Результаты оказались не просто удивительными, а революционными, предложив новый мощный взгляд на саму эволюцию сотрудничества.

Подготовка сцены: Дилемма доверия

Эксперимент был построен на одной из самых известных головоломок теории игр: дилемме заключенного.

Вы, вероятно, знакомы с классической постановкой задачи: двух сообщников арестовывают и держат в отдельных камерах, не давая им общаться. Прокурор предлагает каждому из них сделку.

Если вы предадите своего партнера (откажетесь от сотрудничества), а он будет молчать (сотрудничать), вы выйдете на свободу, а он получит длительный срок (например, 10 лет).
Если вы оба будете молчать (сотрудничать), вы оба получите короткий срок (например, 1 год).
Если вы оба предадите друг друга (откажетесь от сотрудничества), вы оба получите средний срок (например, 5 лет).

С чисто индивидуалистической, рациональной точки зрения, предательство — всегда лучший ход. Если ваш партнер сотрудничает, вы получаете наилучший результат (свободу). Если ваш партнер предает, вы избегаете наихудшего исхода (остаться в дураках). Парадокс заключается в том, что когда оба игрока следуют этой «рациональной» логике, они оба оказываются в худшем положении, чем если бы доверяли друг другу.

Аксельрода интересовало, что происходит, когда это не разовая встреча. Он сосредоточился на итерированной дилемме заключенного (ИДЗ), где одни и те же два игрока сталкиваются друг с другом снова и снова. Внезапно репутация и память начинают иметь значение. «Тень будущего» меняет все. Есть ли у сотрудничества шанс?

Великий турнир алгоритмов

Чтобы найти ответ, Аксельрод пригласил ученых из различных областей — экономики, психологии, математики и информатики — представить программу, которая будет играть в итерированную дилемму заключенного. Однако, прежде чем представить цифровых соперников, необходимо понять правила игры, которые определят их успех или неудачу.

Очки вместо тюрьмы: Структура турнира

Чтобы стратегии могли соревноваться в компьютерном турнире, Аксельроду пришлось перевести дилемму заключенного на язык битов и байтов. Вместо абстрактной угрозы тюремных лет он ввел конкретную, измеримую систему: очки. Логика постановки задачи осталась прежней, но перспектива изменилась. Целью стало не минимизировать наказание, а максимизировать вознаграждение.

В каждом раунде два игрока (программы) могли зарабатывать очки. Их решение — сотрудничать или предать — определяло выигрыш. Матрица выплат, легшая в основу турнира, выглядела так:

Взаимное сотрудничество: Если обе программы выбирают сотрудничество, они обе получают приятное, справедливое вознаграждение. Каждая получает 3 очка. Это награда за доверие и взаимодействие.
Вы предаете, они сотрудничают: Если вы решаете предать, в то время как ваш оппонент наивно сотрудничает, вы получаете самый большой приз, а он остается ни с чем. Вы получаете 5 очков (награда за искушение), а ваш оппонент — 0 (плата за наивность).
Взаимное предательство: Если вы оба выбираете путь недоверия и предаете, каждый из вас получает минимальный утешительный приз, но результат оказывается гораздо хуже, чем при сотрудничестве. Каждый из вас получает всего 1 очко. Это наказание за взаимное недоверие.

Эта система подсчета очков блестяще сохраняет напряжение исходной дилеммы:

Искушение всегда присутствует: Независимо от того, что делает ваш оппонент в одном раунде, для вас всегда выгоднее предать. Если он сотрудничает, вы получаете 5 очков вместо 3. Если он предает, вы получаете 1 очко вместо 0.
Парадокс сохраняется: Если оба игрока следуют этой краткосрочной «рациональной» логике, они набирают по 1 очку за раунд. В то же время, если бы они доверяли друг другу, они могли бы заработать по 3 очка. Общий выигрыш пары от взаимного предательства (1+1=2) намного ниже, чем от взаимного сотрудничества (3+3=6).

И вот где начинается самое интересное. Поскольку турнир длился 200 раундов, победа в одном матче (получив 5 очков) могла оказаться пирровой победой. Если программа создавала себе репутацию безжалостного предателя, другие программы (способные запоминать прошлые ходы) просто отказывались с ней сотрудничать. Такая программа обрекала себя на долгосрочные взаимные предательства, зарабатывая всего 1 очко за раунд.

Настоящая задача заключалась не в том, чтобы победить оппонента в данном раунде, а в том, чтобы создать среду, в которой могло бы процветать взаимное сотрудничество (исход с 3 очками). Ключ к успеху был не в том, чтобы нокаутировать противника, а в том, чтобы построить с ним долгосрочное, плодотворное партнерство. С такой постановкой задачи Аксельрод сделал доверие, репутацию и значимость будущих последствий центральными элементами соревнования.

Аксельрод пригласил к участию широкий круг экспертов. Каждая программа представляла собой стратегию, набор правил для принятия решения о сотрудничестве или предательстве в данном раунде.

Представленные программы варьировались от гениально сложных до дьявольски простых. Некоторые были неумолимо злыми, всегда предавая. Другие были чисто альтруистическими, всегда сотрудничая. Многие были очень изощренными, используя статистический анализ для предсказания следующего хода оппонента. Эти цифровые «личности» были заявлены на круговой турнир. Каждая программа играла с каждой другой программой (плюс со своим клоном и программой, делающей случайные ходы) в течение 200 раундов. Цель состояла не в том, чтобы «выиграть» отдельные матчи, а в том, чтобы набрать наибольшее общее количество очков за весь турнир.

Сцена была готова к битве цифровых титанов. Ожидалось, что победит сложная, хитрая стратегия.

То, что произошло дальше, было поразительно.

Победитель: Мастер-класс простоты

Когда цифровая пыль улеглась, победителем оказалась одна из самых простых представленных стратегий. Она называлась «Око за око» и была написана Анатолием Рапопортом, математическим психологом.

Логика «Ока за око» была почти до смешного проста:

На первом ходу сотрудничать.
На каждом последующем ходу делать то, что ваш оппонент сделал на предыдущем ходу.

Вот и все. Если оппонент сотрудничал, «Око за око» сотрудничало. Если он предавал, «Око за око» немедленно отвечало предательством. Это было простое эхо, цифровое зеркало. Стратегия не держала обид дольше одного хода и никогда не пыталась перехитрить своего оппонента.

Как мог такой базовый алгоритм одержать победу над программами, разработанными со сложными моделями прогнозирования и макиавеллиевской логикой? Анализ результатов, проведенный Аксельродом, выявил ключевые компоненты успешного сотрудничества, которые «Око за око» идеально воплощало. Он определил четыре свойства, общие для стратегий с высоким результатом:

Она была «доброй»: «Добрая» программа — это та, которая никогда не предает первой. Начиная с сотрудничества, «Око за око» немедленно сигнализировало о готовности работать вместе, открывая дверь для взаимовыгодных результатов и избегая ненужных конфликтов.
Она была мстительной (или отвечающей на провокацию): «Око за око» не было простаком. Если оппонент предавал, стратегия немедленно отвечала тем же на следующем ходу. Это быстрое наказание давало понять, что эксплуатация недопустима, и удерживало агрессивные стратегии от попыток воспользоваться ею.
Она была всепрощающей: Это, возможно, ее самая важная черта. После ответного предательства, если оппонент возвращался к сотрудничеству, «Око за око» немедленно «прощало» и сотрудничало на следующем ходу. Оно не держало зла. Эта способность прерывать циклы взаимных обвинений была жизненно важна для восстановления доверия и возвращения к высокодоходному ритму сотрудничества.
Она была понятной: Ее стратегия была простой и прозрачной. Оппоненты быстро усваивали ее правила. Они могли понять, что сотрудничество будет вознаграждено, а предательство — наказано. Эта ясность и предсказуемость делали ее надежным партнером в сотрудничестве.

Действующие лица: Взгляд на ключевых игроков

Чтобы сделать турнир более конкретным, давайте познакомимся с некоторыми цифровыми «личностями», которые в нем участвовали. Хотя были представлены десятки стратегий, их часто можно сгруппировать по разным архетипам. Вот взгляд на некоторых из самых заметных участников и их результаты.

(Примечание: «Ранг» является обобщением. В действительности результат зависел от конкретного набора других стратегий в турнире, но это отражает общие итоги.)

Ранг	Название стратегии	Краткое описание	Ключевая(-ые) черта(-ы)
1	Око за око	Сотрудничает на первом ходу, затем копирует предыдущий ход оппонента.	Добрая, Мстительная, Всепрощающая, Понятная
Высший ранг	Тестер	Предает на первом ходу, чтобы «прощупать почву». Если оппонент отвечает тем же, извиняется и играет «Око за око». Если нет — продолжает предавать.	Зондирующая, но в итоге сотрудничающая с теми, кто не позволяет себя обмануть.
Высший ранг	Фридман (Мрачный мститель)	Сотрудничает до тех пор, пока оппонент не предаст хотя бы раз, после чего предает всегда.	Добрая, Жестоко мстительная, Непрощающая
Высший ранг	Око за два ока	Более всепрощающая версия. Предает только после того, как оппонент предал два раза подряд.	Очень добрая, Всепрощающая, Устойчива к эффекту «эха»
Средний ранг	Джосс	«Хитрая» версия «Ока за око». В основном подражает оппоненту, но с 10% вероятностью предает вместо сотрудничества.	В основном добрая, Мстительная, но «Коварная»
Средний ранг	Даунинг	Начинает с попытки смоделировать своего оппонента. Если оппонент кажется отзывчивым и имеет «совесть», сотрудничает. Если оппонент кажется случайным или неотзывчивым, предает, чтобы защитить себя.	Адаптивная, Расчетливая, не изначально «Добрая»
Низший ранг	Всегда предавать (ALL D)	Всегда выбирает предательство, несмотря ни на что.	Злая, Агрессивная
Низший ранг	Случайная	Сотрудничает или предает с вероятностью 50/50.	Непредсказуемая, Ненадежная
Последний ранг	Всегда сотрудничать (ALL C)	Всегда выбирает сотрудничество, независимо от того, сколько раз ее предают.	Добрая, но Наивная и Уязвимая для эксплуатации
Последний ранг	Нидеггер	Более сложная стратегия на основе правил, которая пыталась быть более всепрощающей версией «Ока за око», но ее логика была ошибочной и уязвимой, что привело к плохим результатам.	С благими намерениями, но Запутанная и Уязвимая

Эта таблица ясно показывает, что наиболее успешные стратегии были «добрыми» (они никогда не предавали первыми), но они не были простаками. Чисто агрессивные (ALL D) и чисто наивные (ALL C) стратегии показали очень плохие результаты, так как их эксплуатировали или они оказывались запертыми во взаимоуничтожающих паттернах.

Второй раунд и долгосрочное наследие

Полагая, что результаты могли быть случайностью, Аксельрод провел второй, еще более крупный турнир. На этот раз участники знали результаты первого раунда. Они знали об успехе «Ока за око» и могли разработать стратегии специально для победы над ней. Поступило шестьдесят две заявки со всего мира.

И «Око за око» снова победило.

Его надежность была доказана. Простые принципы — быть изначально добрым, быстрым, но соразмерным в возмездии, немедленно прощающим и понятным — оказались не просто выигрышной формулой; они стали фундаментальным рецептом эволюции сотрудничества.

Теория против «шумной» реальности

Прежде чем провозгласить «Око за око» чудодейственным средством от всех жизненных конфликтов, крайне важно помнить, что турнир Аксельрода проходил в чистой, цифровой «лаборатории». Программы безупречно выполняли свои инструкции, не было недопонимания, и каждый ход был четко либо сотрудничеством, либо предательством.

Хотя обнаруженные принципы бесценны, реальная жизнь редко бывает такой стерильной. Она полна недопонимания, случайностей и неверно истолкованных намерений. Теория игр описывает эту непредсказуемость как «шум», и его присутствие может коренным образом изменить эффективность стратегии.

В «шумной» среде даже «Око за око» становится уязвимым. Представьте себе двух игроков, использующих «Око за око» и счастливо сотрудничающих. Одно недоразумение приводит к тому, что ход сотрудничества одного игрока воспринимается как предательство. Следуя своим правилам, второй игрок немедленно отвечает тем же. Первый игрок, не зная о первоначальной ошибке, воспринимает это как неспровоцированное предательство и в свою очередь наносит ответный удар. Они могут оказаться в «смертельной спирали» взаимного возмездия, в цифровой кровной мести, и все из-за одной случайной ошибки.

Именно поэтому в более поздних работах и турнирах исследовались более надежные вариации, такие как «Око за два ока» (которая предает только после двух предательств подряд), «Великодушное Око за око» (которая иногда прощает предательство) и «Выиграл — оставайся, проиграл — меняй» (Павлов), которые могут превосходить стандартное «Око за око» при различных уровнях ошибок и динамике популяции. Признание этого нюанса помогает объяснить, почему динамика сотрудничества иногда различается в лаборатории и в реальном мире.

Формально устойчивость сотрудничества в повторяющихся дилеммах заключенного зависит от двух компонентов: порядка выплат и ценности будущего взаимодействия. Выплаты должны соответствовать условию T > R > P > S (Искушение > Вознаграждение > Наказание > Плата за наивность), и игроки должны достаточно ценить будущие выигрыши (высокая вероятность продолжения или низкая ставка дисконтирования). Когда эти условия соблюдаются и взаимодействия повторяются с разумной уверенностью, взаимные стратегии могут стать самоподдерживающимися — мостом между эмпирическими турнирами Аксельрода и теоретическими выводами теории повторяющихся игр.

За пределами симуляции: Логика сотрудничества в реальном мире

Естественно возникает вопрос: являются ли уроки из цифровой арены Аксельрода лишь теоретическими курьезами, или они раскрывают реальные закономерности в человеческом и природном мире? Действительно ли основные принципы «Ока за око» — доброта, возмездие и прощение — составляют универсальные строительные блоки сотрудничества?

Ответ поразителен. Оказывается, эта логика появляется снова и снова в самых неожиданных местах, доказывая, что сотрудничество имеет глубокие эволюционные и социальные корни. Ниже приведены несколько случаев, когда принципы «Ока за око» возникали спонтанно, без какого-либо централизованного замысла.

Самый поразительный пример: Окопы Первой мировой войны

Возможно, самая трогательная параллель из реального мира с выводами Аксельрода происходит из места, где мы меньше всего ожидали бы сотрудничества: окопов Первой мировой войны. Во время длительных периодов патовой ситуации на Западном фронте между противоборствующими британскими и немецкими войсками возникла спонтанная, неформальная система перемирия. Это явление стало известно как система «Живи и дай жить другим».

Она работала в точности как органическая игра «Око за око»:

Будь добр (не стреляй первым): Подразделение сигнализировало о своих мирных намерениях предсказуемыми, нелетальными действиями. Например, они могли обстреливать один и тот же пустой участок траншеи в одно и то же время каждый день. Это был «сотрудничающий» ход.
Отвечай взаимностью: Если одна сторона внезапно предпринимала смертельную, неспровоцированную атаку («предательство»), другая сторона немедленно отвечала яростной контратакой, чтобы показать, что агрессия недопустима.
Будь всепрощающим: Что особенно важно, после ответного удара атакованная сторона часто возвращалась к своему предыдущему «сотрудничающему» поведению, сигнализируя о готовности восстановить перемирие. Они не держали зла вечно.

Эта негласная система сотрудничества возникла без приказов высшего командования (на самом деле, генералы активно пытались ее искоренить). Она выросла из корыстных интересов солдат с обеих сторон, которые осознали, что находятся в повторяющейся игре. Они знали, что столкнутся с теми же противниками завтра и послезавтра. «Тень будущего» была велика, и они поняли, что взаимная сдержанность гораздо лучше для их выживания, чем постоянная, необузданная агрессия.

Этот мощный исторический пример показывает, что принципы, обнаруженные в компьютерном турнире Аксельрода, — это не просто абстрактная теория. Они являются фундаментальной частью человеческого выживания и стратегии сотрудничества даже в самых враждебных условиях, какие только можно вообразить. Логика «Ока за око» не ограничивается человеческими конфликтами. Ее можно наблюдать и в других областях:

Взаимность у летучих мышей-вампиров: В биологии классическим примером реципрокного альтруизма является поведение летучих мышей-вампиров. Эти животные питаются кровью, но ночная охота может оказаться неудачной. Летучую мышь, вернувшуюся в убежище голодной, часто кормит срыгнутой кровью сытый сородич. Исследования показали, что летучие мыши с большей вероятностью делятся пищей с той, которая ранее им помогала. Это явная стратегия «Око за око»: сотрудничай (делись кровью) с теми, кто сотрудничал с тобой, и не помогай тем, кто отказывался помочь в прошлом (возмездие).
Деловые отношения и ценообразование: В экономике (часто негласные) ценовые соглашения между фирмами могут следовать этому образцу. Два конкурента могут избежать взаимоуничтожающей ценовой войны (взаимное сотрудничество). Но если одна компания внезапно снижает цены, чтобы захватить долю рынка (предательство), другая почти немедленно последует ее примеру (возмездие), что в конечном итоге нанесет ущерб прибыли обеих фирм. Стабильность восстанавливается только тогда, когда они возвращаются к ранее оговоренному уровню цен (прощение).

Эти примеры показывают, как эксперимент Аксельрода раскрыл фундаментальный механизм, который позволяет доверию и сотрудничеству возникать даже среди эгоистичных, рациональных акторов, при условии, что их отношения являются долгосрочными.

Заключение

Работа Аксельрода, кульминацией которой стала его основополагающая книга 1984 года «Эволюция сотрудничества», оказала глубокое влияние далеко за пределами теории игр. Биологи использовали ее для моделирования реципрокного альтруизма в популяциях животных. Экономисты применяли ее для понимания доверия в деловых отношениях. Политологи видели ее отражение в международной дипломатии и договорах о контроле над вооружениями во время холодной войны.

Сегодня эти простые принципы взаимности вдохновляют работу за пределами социальных наук: разработчики многоагентных систем, децентрализованных протоколов и механизмов стимулирования в блокчейне, а также команды взаимодействующих ИИ — все они сталкиваются с одними и теми же компромиссами между эксплуатацией и сотрудничеством. Разработка надежных правил взаимности — тех, которые устойчивы к шуму и масштабируются на популяции — остается центральной задачей для инжиниринга кооперативного поведения как в человеческих, так и в искусственных системах.

Турнир преподал нам мощный урок: сотрудничество не требует ни центральной власти, ни самоотверженного альтруизма. Оно может возникать спонтанно среди эгоистичных индивидов, пока они знают, что встретятся снова. В мире, который часто кажется сложным и циничным, триумф «Ока за око» является обнадеживающим и непреходящим напоминанием о том, что лучшая стратегия — это часто быть добрым, но не наивным; прощающим, но не забывчивым; и, прежде всего, ясным и последовательным в своих действиях.

Исторически эти турниры были организованы и проанализированы Робертом Аксельродом, который координировал подачу заявок и обобщил выводы в своей влиятельной работе. Стратегия, известная как «Око за око» — часто приписываемая Анатолию Рапопорту как раннему ее стороннику — стала знаменитой благодаря анализу Аксельрода. Каноническое изложение эксперимента и его последствий см. в работах Аксельрода (Axelrod & Hamilton, 1981; Axelrod, 1984). Более поздние теоретические и эмпирические исследования (например, Nowak & Sigmund, 1993) углубили наше понимание, показав, когда и почему другие правила взаимности (такие как «Выиграл — оставайся, проиграл — меняй» или более великодушные варианты) могут превосходить простое «Око за око» в различных условиях.