Le champion inattendu

Gábor Bíró 16 octobre 2025
9 min de lecture

Dans le monde de la science, les découvertes les plus profondes proviennent parfois des expériences les plus simples. Au début des années 1980, à l'aube de l'ère de l'informatique personnelle, un politologue du nom de Robert Axelrod a mis en place une arène numérique pour opposer des programmes informatiques — chacun doté de sa propre « personnalité » — dans un jeu de stratégie classique. Les résultats ne furent pas seulement surprenants ; ils furent révolutionnaires, offrant une nouvelle perspective puissante pour comprendre l'évolution de la coopération elle-même.

Le champion inattendu

L'expérience était construite autour de l'une des énigmes les plus célèbres de la théorie des jeux : le dilemme du prisonnier.

Historiquement, ces tournois ont été organisés et analysés par Robert Axelrod, qui a à la fois coordonné les soumissions et synthétisé les résultats dans son ouvrage influent. La stratégie connue sous le nom de Donnant-donnant — souvent associée à Anatol Rapoport comme l'un de ses premiers partisans — a été rendue célèbre par les analyses d'Axelrod. Pour la présentation canonique de l'expérience et de ses implications, voir les travaux d'Axelrod (Axelrod & Hamilton, 1981 ; Axelrod, 1984). Des études théoriques et empiriques ultérieures (par exemple, Nowak & Sigmund, 1993) ont approfondi notre compréhension, montrant quand et pourquoi d'autres règles de réciprocité (comme Gagnant-Reste, Perdant-Change ou des variantes plus généreuses) peuvent surpasser le simple Donnant-donnant dans différentes conditions.

Mise en situation : Le dilemme de la confiance

Vous connaissez probablement le scénario classique : deux complices sont arrêtés et détenus dans des cellules séparées, sans possibilité de communiquer. Le procureur offre à chacun un marché, indépendamment.

  • Si vous trahissez votre partenaire (trahison) et qu'il garde le silence (coopération), vous êtes libéré, et il écope d'une longue peine (par ex., 10 ans).
  • Si vous gardez tous les deux le silence (coopération), vous écopez tous les deux d'une courte peine (par ex., 1 an).
  • Si vous vous trahissez mutuellement (trahison), vous écopez tous les deux d'une peine moyenne (par ex., 5 ans).

D'un point de vue purement individualiste et rationnel, trahir est toujours la meilleure décision. Si votre partenaire coopère, vous obtenez le meilleur résultat (la liberté). Si votre partenaire trahit, vous évitez le pire résultat (le gain du dupe). Le paradoxe est que lorsque les deux joueurs suivent cette logique « rationnelle », ils se retrouvent tous deux dans une situation pire que s'ils s'étaient fait confiance.

Axelrod s'intéressait à ce qui se passe lorsque ce n'est pas une rencontre unique. Il s'est concentré sur le dilemme du prisonnier itéré (DPI), où les deux mêmes joueurs s'affrontent encore et encore. Soudain, la réputation et la mémoire entrent en jeu. L'« ombre du futur » change tout. La coopération a-t-elle une chance ?

Le grand tournoi des algorithmes

Pour trouver une réponse, Axelrod a invité des universitaires de divers domaines — économie, psychologie, mathématiques et informatique — à soumettre un programme qui jouerait au DPI. Chaque programme était une stratégie, un ensemble de règles pour décider de coopérer ou de trahir à chaque tour.

Les soumissions allaient du brillamment complexe au diaboliquement simple. Certaines étaient implacablement agressives, trahissant toujours. D'autres étaient purement altruistes, coopérant toujours. Beaucoup étaient très sophistiquées, utilisant l'analyse statistique pour tenter de prédire le prochain coup de leur adversaire. Ces « personnalités » numériques ont été inscrites à un tournoi toutes rondes. Chaque programme a joué contre tous les autres programmes (et une copie de lui-même, ainsi qu'un programme jouant au hasard) pendant 200 tours. Le but n'était pas de « gagner » des matchs individuels, mais d'accumuler le score total le plus élevé sur l'ensemble du tournoi.

La scène était prête pour un affrontement de titans numériques. On s'attendait à ce qu'une stratégie complexe et rusée l'emporte.

Ce qui s'est passé ensuite fut remarquable.

Le vainqueur : une leçon de simplicité

Lorsque la poussière numérique est retombée, le vainqueur était l'une des stratégies les plus simples soumises. Elle s'appelait Donnant-donnant (Tit for Tat) et avait été écrite par Anatol Rapoport, un psychologue mathématicien.

La logique de Donnant-donnant était d'une simplicité presque risible :

  1. Au premier coup, coopérer.
  2. À chaque coup suivant, faire ce que l'adversaire a fait au coup précédent.

C'est tout. Si l'adversaire coopérait, Donnant-donnant coopérait. S'il trahissait, Donnant-donnant trahissait en retour. C'était un simple écho, un miroir numérique. Il ne gardait aucune rancune au-delà du dernier coup immédiat et n'essayait jamais de déjouer son adversaire.

Comment un algorithme aussi basique a-t-il pu triompher de programmes conçus avec des modèles prédictifs complexes et une logique machiavélique ? L'analyse des résultats par Axelrod a révélé les ingrédients clés d'une coopération réussie, parfaitement incarnés par Donnant-donnant. Il a identifié quatre propriétés que les stratégies les plus performantes partageaient :

  • Elle était bienveillante (Nice) : Un programme « bienveillant » est un programme qui n'est jamais le premier à trahir. En commençant par la coopération, Donnant-donnant signalait immédiatement une volonté de collaborer, ouvrant la voie à des résultats mutuellement bénéfiques et évitant les conflits inutiles.
  • Elle était prompte à la riposte (Retaliatory) : Donnant-donnant n'était pas un faire-valoir. Si un adversaire trahissait, il ripostait immédiatement au coup suivant. Cette punition rapide indiquait clairement que l'exploitation ne serait pas tolérée, décourageant les stratégies agressives d'en profiter.
  • Elle était indulgente (Forgiving) : C'est sans doute son trait le plus crucial. Après avoir riposté à une trahison, si l'adversaire revenait à la coopération, Donnant-donnant lui « pardonnait » immédiatement et coopérait au tour suivant. Il ne gardait pas rancune. Cette capacité à briser les cycles de récriminations mutuelles était vitale pour rétablir la confiance et revenir à un rythme de coopération à score élevé.
  • Elle était claire (Clear) : Sa stratégie était simple et transparente. Les adversaires apprenaient rapidement ses règles. Ils comprenaient que la coopération serait récompensée et la trahison punie. Cette clarté et cette prévisibilité en faisaient un partenaire fiable avec qui coopérer.

Une mise en garde importante concerne le bruit : dans les interactions réelles, des erreurs se produisent — un mouvement coopératif peut être interprété à tort comme une trahison, ou une action intentionnelle peut échouer. Dans de tels environnements bruyants, le pur Donnant-donnant peut se retrouver piégé dans de longs cycles de représailles. Des travaux et des tournois ultérieurs ont donc exploré des variantes conçues pour la robustesse, comme le Donnant-donnant pour deux trahisons (qui ne trahit qu'après deux trahisons consécutives de l'adversaire), le Donnant-donnant généreux (qui pardonne occasionnellement une trahison), et le Gagnant-Reste, Perdant-Change (Pavlov), chacun pouvant surpasser le Donnant-donnant simple sous différents taux d'erreur et dynamiques de population. Mentionner cette nuance explique pourquoi les dynamiques de coopération en laboratoire et dans la nature divergent parfois.

Formellement, le maintien de la coopération dans des contextes de dilemme du prisonnier répété dépend de deux ingrédients : l'ordre des gains et la valeur de l'interaction future. Les gains doivent satisfaire T > R > P > S (Tentation > Récompense > Punition > Dupe), et les joueurs doivent suffisamment valoriser les gains futurs (une forte probabilité de continuation ou une faible actualisation). Lorsque ces conditions sont réunies et que les interactions se répètent avec une certitude raisonnable, les stratégies réciproques peuvent être auto-exécutoires — un pont entre les tournois empiriques d'Axelrod et les résultats théoriques de la théorie des jeux répétés.

Contexte – Du code numérique aux tranchées de la Première Guerre mondiale

Le parallèle le plus frappant et poignant du monde réel avec les découvertes d'Axelrod se trouve peut-être dans un endroit où l'on s'attendrait le moins à la coopération : les tranchées de la Première Guerre mondiale. Pendant les longues périodes de statu quo sur le front occidental, un système spontané de trêves informelles a émergé entre les troupes britanniques et allemandes opposées. Ce phénomène est devenu connu sous le nom de système « Vivre et laisser vivre » (Live and Let Live).

Il fonctionnait exactement comme un jeu organique de Donnant-donnant :

  • Être bienveillant (Ne pas tirer le premier) : Une unité signalait ses intentions pacifiques en s'engageant dans des routines prévisibles et non létales. Par exemple, elle pouvait effectuer des tirs d'artillerie à la même heure chaque jour, visant une partie vide de la ligne de tranchées. C'était un geste « coopératif ».
  • Riposter : Si un camp lançait soudainement un raid meurtrier et non provoqué (une « trahison »), l'autre camp ripostait immédiatement par une contre-attaque féroce pour montrer que l'agression ne serait pas tolérée.
  • Être indulgent : Fait crucial, après cette riposte, le camp qui avait été attaqué revenait souvent à la routine « coopérative » précédente, signalant une volonté de restaurer la trêve. Il ne gardait pas rancune éternellement.

Ce système tacite de coopération a émergé sans aucun ordre du haut commandement (en fait, les généraux ont activement tenté de l'éradiquer). Il est né de l'intérêt personnel des soldats des deux camps qui ont reconnu qu'ils se trouvaient dans un jeu itéré. Ils savaient qu'ils affronteraient les mêmes adversaires le lendemain, et le jour d'après. L'« ombre du futur » était longue, et ils ont réalisé que la retenue mutuelle était bien meilleure pour leur survie qu'une agression constante et débridée.

Ce puissant exemple historique montre que les principes découverts dans le tournoi informatique d'Axelrod ne sont pas seulement une théorie abstraite. Ils constituent un élément fondamental de la stratégie humaine pour la survie et la coopération, même dans les environnements les plus hostiles imaginables.

La liste des stratégies – Un aperçu des principaux acteurs

Pour rendre le tournoi plus concret, il est utile de rencontrer certaines des « personnalités » numériques qui ont concouru. Bien que des dizaines de stratégies aient été soumises, elles appartenaient souvent à des archétypes distincts. Voici un aperçu de certains des concurrents les plus notables et de leur performance.

(Note : Le « Rang » est une généralisation. En réalité, la performance dépendait du mélange spécifique d'autres stratégies dans le tournoi, mais cela reflète les résultats globaux.)

Rang Nom de la stratégie Brève description Caractéristique(s) clé(s)
1 Donnant-donnant (Tit for Tat) Coopère au premier coup, puis copie le coup précédent de l'adversaire. Bienveillante, prompte à la riposte, indulgente, claire
Haut du classement Testeur (Tester) Trahit au premier coup pour « tâter le terrain ». Si l'adversaire riposte, il s'excuse et joue Donnant-donnant. Sinon, il continue de trahir. Sondeur, mais finalement coopératif avec les joueurs non naïfs.
Haut du classement Friedman (Gâchette Sévère) Coopère jusqu'à ce que l'adversaire trahisse une seule fois, après quoi il trahit pour toujours. Bienveillante, strictement vindicative, impitoyable
Haut du classement Donnant-donnant pour deux trahisons Une variante plus indulgente. Ne trahit que si l'adversaire a trahi deux fois de suite. Très bienveillante, indulgente, résiste aux effets d'écho
Milieu de classement Joss Une version « sournoise » de Donnant-donnant. Imite principalement l'adversaire, mais a 10 % de chances de trahir au lieu de coopérer. Majoritairement bienveillante, prompte à la riposte, mais « traîtresse »
Milieu de classement Downing Commence par essayer de modéliser son adversaire. Si l'adversaire semble réceptif et a une « conscience », il coopère. Si l'adversaire semble aléatoire ou non réceptif, il trahit pour se protéger. Adaptative, calculatrice, pas intrinsèquement « bienveillante »
Bas du classement Trahison Systématique (ALL D) Choisit toujours de trahir, quoi qu'il arrive. Méchante, agressive
Bas du classement Aléatoire (Random) Coopère ou trahit au hasard (50/50). Imprévisible, peu fiable
Derniers du classement Coopération Systématique (ALL C) Choisit toujours de coopérer, peu importe le nombre de fois où elle est trahie. Bienveillante, mais naïve et exploitable
Derniers du classement Nydegger Une stratégie plus complexe basée sur des règles qui tentait d'être une version indulgente de Donnant-donnant, mais sa logique était défectueuse et pouvait être exploitée, menant à de mauvaises performances. Bien intentionnée, mais confuse et exploitable

Ce tableau montre clairement que les stratégies les plus réussies étaient « bienveillantes » (elles n'étaient jamais les premières à trahir), mais elles n'étaient pas des proies faciles. Les stratégies purement agressives (ALL D) et purement naïves (ALL C) ont très mal performé, l'une exploitant l'autre à leur détriment mutuel à long terme.

Le deuxième tournoi et l'héritage durable

Pensant que les résultats pourraient être un coup de chance, Axelrod organisa un deuxième tournoi, encore plus grand. Cette fois, les participants connaissaient le résultat du premier tour. Ils étaient conscients du succès de Donnant-donnant et pouvaient concevoir des stratégies spécifiquement pour le contrer. Soixante-deux candidatures affluèrent du monde entier.

Et une fois de plus, Donnant-donnant l'emporta.

Sa robustesse était confirmée. Les principes simples de bienveillance initiale, de riposte rapide mais proportionnée, de pardon immédiat et de clarté n'étaient pas seulement une formule gagnante ; ils semblaient être une recette fondamentale pour l'évolution de la coopération.

L'œuvre d'Axelrod, publiée dans son livre fondateur de 1984, The Evolution of Cooperation, a eu un impact profond bien au-delà de la théorie des jeux. Les biologistes l'ont utilisée pour modéliser l'altruisme réciproque dans les populations animales. Les économistes l'ont appliquée pour comprendre la confiance dans les relations commerciales. Les politologues y ont vu des reflets dans la diplomatie internationale et les traités de contrôle des armements pendant la Guerre froide.

Aujourd'hui, ces simples principes de réciprocité éclairent des travaux au-delà des sciences sociales : les concepteurs de systèmes multi-agents, de protocoles décentralisés et de mécanismes d'incitation dans la blockchain, ainsi que les équipes d'IA interagissant, sont tous confrontés aux mêmes compromis entre exploitation et coopération. Les règles de réciprocité robustes — celles qui tolèrent le bruit et s'adaptent à l'échelle des populations — restent essentielles pour concevoir des comportements coopératifs dans les systèmes humains et artificiels.

Le tournoi nous a appris une leçon puissante : la coopération ne nécessite ni autorité centralisée ni altruisme désintéressé. Elle peut émerger spontanément parmi des individus agissant dans leur propre intérêt lorsqu'ils savent qu'ils interagiront à nouveau dans le futur. Dans un monde qui semble souvent complexe et cynique, le triomphe de Donnant-donnant reste un rappel plein d'espoir et durable que la meilleure stratégie est souvent d'être bienveillant, mais pas naïf ; d'être indulgent, mais sans oublier ; et surtout, d'être clair et cohérent dans ses actions.

Gábor Bíró 16 octobre 2025