Science et affaires

Le Champion Inattendu

Gábor Bíró 16 octobre 2025
13 min de lecture

Dans le monde de la science, les découvertes les plus profondes proviennent parfois des expériences les plus simples. Au début des années 1980, à l'aube de l'ère de l'informatique personnelle, un politologue nommé Robert Axelrod a mis en place une arène numérique pour opposer des programmes informatiques — chacun doté de sa propre « personnalité » — dans un jeu de stratégie classique. Les résultats ne furent pas seulement surprenants ; ils furent révolutionnaires, offrant une nouvelle perspective puissante pour comprendre l'évolution de la coopération elle-même.

Le Champion Inattendu

Mise en scène : Le dilemme de la confiance

L'expérience reposait sur l'une des énigmes les plus célèbres de la théorie des jeux : le Dilemme du prisonnier.

Vous connaissez probablement le scénario classique : deux complices sont arrêtés et détenus dans des cellules séparées, sans possibilité de communiquer. Le procureur propose à chacun, individuellement, un marché.

  • Si vous trahissez votre partenaire (trahison) et qu'il garde le silence (coopération), vous êtes libéré, et il écope d'une longue peine (par exemple, 10 ans).
  • Si vous gardez tous les deux le silence (coopération), vous écopez tous les deux d'une courte peine (par exemple, 1 an).
  • Si vous vous trahissez mutuellement (trahison), vous écopez tous les deux d'une peine moyenne (par exemple, 5 ans).

D'un point de vue purement individualiste et rationnel, la trahison est toujours le meilleur choix. Si votre partenaire coopère, vous obtenez le meilleur résultat (la liberté). Si votre partenaire trahit, vous évitez le pire résultat (être le dupe). Le paradoxe est que lorsque les deux joueurs suivent cette logique « rationnelle », ils se retrouvent tous deux dans une situation pire que s'ils s'étaient fait confiance.

Axelrod s'intéressait à ce qui se passe lorsque la rencontre n'est pas unique. Il s'est concentré sur le Dilemme du prisonnier itéré (DPI), où les deux mêmes joueurs s'affrontent encore et encore. Soudain, la réputation et la mémoire entrent en jeu. L'« ombre du futur » change tout. La coopération a-t-elle une chance ?

Le grand tournoi des algorithmes

Pour trouver la réponse, Axelrod a invité des universitaires de divers domaines — économie, psychologie, mathématiques et informatique — à soumettre un programme qui jouerait au Dilemme du prisonnier itéré. Avant de présenter les concurrents numériques, il est cependant essentiel de comprendre les règles du jeu qui détermineraient leur succès ou leur échec.

Des points plutôt que la prison : La structure du tournoi

Pour faire s'affronter des stratégies dans un tournoi informatique, Axelrod a dû traduire le Dilemme du prisonnier dans le langage des bits et des octets. Au lieu de la menace abstraite d'années de prison, il a introduit un système concret et mesurable : les points. La logique du dispositif restait la même, mais la perspective était inversée. Le but n'était plus de minimiser la punition, mais de maximiser la récompense.

À chaque tour, les deux joueurs (programmes) pouvaient gagner des points. Leur décision — coopérer ou trahir — déterminait le gain. La matrice des scores qui constituait la base du tournoi se présentait comme suit :

  • Coopération mutuelle : Si les deux programmes choisissent de coopérer, ils reçoivent tous deux une belle récompense équitable. Chacun obtient 3 points. C'est la récompense de la confiance et de la collaboration.
  • Vous trahissez, ils coopèrent : Si vous choisissez de trahir alors que votre adversaire coopère naïvement, vous obtenez le plus gros lot, et il repart les mains vides. Vous obtenez 5 points (le gain de la Tentation), et votre adversaire en obtient 0 (le gain du Dupe).
  • Trahison mutuelle : Si vous choisissez tous deux la voie de la méfiance et de la trahison, vous recevez chacun un lot de consolation minimal, mais vous vous en sortez bien moins bien que si vous aviez coopéré. Vous n'obtenez chacun que 1 point. C'est la punition pour la méfiance mutuelle.

Ce système de points préserve brillamment la tension du dilemme original :

  1. La tentation est toujours présente : Peu importe ce que fait votre adversaire en un seul tour, il est toujours préférable pour vous de trahir. S'il coopère, vous obtenez 5 points au lieu de 3. S'il trahit, vous obtenez 1 point au lieu de 0.
  2. Le paradoxe demeure : Si les deux joueurs suivent cette logique « rationnelle » à court terme, ils marquent chacun 1 point par tour. En revanche, s'ils s'étaient fait confiance, ils auraient pu gagner 3 points chacun. Le gain total pour la paire d'une trahison mutuelle (1+1=2) est bien inférieur à celui d'une coopération mutuelle (3+3=6).

Et c'est là que ça devient intéressant. Comme le tournoi se déroulait sur 200 tours, remporter une seule manche (en empochant les 5 points) pouvait être une victoire à la Pyrrhus. Si un programme se forgeait une réputation de traître impitoyable, d'autres programmes (capables de se souvenir des coups passés) refuseraient simplement de coopérer avec lui. Ce programme se condamnerait à de longues séries de trahisons réciproques, ne rapportant que 1 point par tour.

Le véritable défi n'était pas de battre un adversaire lors d'un tour donné, mais de favoriser un environnement où la coopération mutuelle (le résultat à 3 points) pouvait s'épanouir. La clé du succès n'était pas d'éliminer son adversaire, mais de construire un partenariat fructueux et à long terme avec lui. Avec ce dispositif, Axelrod a placé la confiance, la réputation et le poids des conséquences futures au cœur de la compétition.

Axelrod a invité des experts de tous horizons à soumettre leurs contributions. Chaque programme était une stratégie, un ensemble de règles pour décider de coopérer ou de trahir à un tour donné.

Les propositions allaient du brillamment complexe au diaboliquement simple. Certaines étaient implacablement méchantes, trahissant toujours. D'autres étaient purement altruistes, coopérant toujours. Beaucoup étaient très sophistiquées, utilisant l'analyse statistique pour prédire le prochain coup de leur adversaire. Ces « personnalités » numériques ont été engagées dans un tournoi toutes rondes. Chaque programme a joué contre tous les autres (plus un clone de lui-même et un programme jouant au hasard) pendant 200 tours. L'objectif n'était pas de « gagner » des matchs individuels, mais d'obtenir le score total le plus élevé sur l'ensemble du tournoi.

Le décor était planté pour un choc de titans numériques. On s'attendait à ce qu'une stratégie complexe et rusée l'emporte.

Ce qui s'est passé ensuite fut remarquable.

Le vainqueur : Une leçon de simplicité

Lorsque la poussière numérique est retombée, le vainqueur était l'une des stratégies les plus simples soumises. Son nom était Donnant-donnant (Tit for Tat), et elle avait été écrite par Anatol Rapoport, un psychologue mathématicien.

La logique de Donnant-donnant était d'une simplicité presque risible :

  1. Au premier coup, coopérer.
  2. À chaque coup suivant, faire ce que l'adversaire a fait au coup précédent.

C'est tout. Si l'adversaire coopérait, Donnant-donnant coopérait. S'il trahissait, Donnant-donnant ripostait immédiatement par une trahison. C'était un simple écho, un miroir numérique. Il ne gardait aucune rancune au-delà du dernier coup et n'essayait jamais de déjouer son adversaire.

Comment un algorithme aussi basique a-t-il pu triompher de programmes conçus avec des modèles prédictifs complexes et une logique machiavélique ? L'analyse des résultats par Axelrod a révélé les ingrédients clés d'une coopération réussie, que Donnant-donnant incarnait parfaitement. Il a identifié quatre propriétés partagées par les stratégies les plus performantes :

  • Elle était Bienveillante : Un programme « bienveillant » (Nice) est un programme qui n'est jamais le premier à trahir. En commençant par la coopération, Donnant-donnant signalait immédiatement sa volonté de collaborer, ouvrant la porte à des résultats mutuellement bénéfiques et évitant les conflits inutiles.
  • Elle était Capable de représailles (ou Provoquable) : Donnant-donnant n'était pas une proie facile. Si un adversaire trahissait, il ripostait immédiatement au coup suivant. Cette punition rapide indiquait clairement que l'exploitation ne serait pas tolérée, dissuadant les stratégies agressives de tenter d'en profiter.
  • Elle était Indulgente : C'est sans doute son trait le plus important. Après avoir riposté à une trahison, si l'adversaire revenait à la coopération, Donnant-donnant « pardonnait » immédiatement et coopérait au tour suivant. Il ne gardait pas rancune. Cette capacité à briser les cycles de récriminations mutuelles était vitale pour rétablir la confiance et revenir au rythme très rentable de la coopération.
  • Elle était Claire : Sa stratégie était simple et transparente. Les adversaires apprenaient rapidement ses règles. Ils pouvaient comprendre que la coopération serait récompensée et la trahison punie. Cette clarté et cette prévisibilité en faisaient un partenaire de coopération fiable.

La galerie des personnages : Un aperçu des principaux concurrents

Pour rendre le tournoi plus concret, faisons connaissance avec certaines des « personnalités » numériques qui y ont participé. Bien que des dizaines de stratégies aient été soumises, elles peuvent souvent être regroupées en différents archétypes. Voici un aperçu de quelques-uns des concurrents les plus notables et de leurs performances.

(Note : Le « Rang » est une généralisation. En réalité, la performance dépendait du mélange spécifique d'autres stratégies dans le tournoi, mais cela reflète les résultats généraux.)

Rang Nom de la stratégie Brève description Trait(s) clé(s)
1 Donnant-donnant Coopère au premier coup, puis copie le coup précédent de l'adversaire. Bienveillante, Capable de représailles, Indulgente, Claire
Haut du classement Testeur Trahit au premier coup pour « tâter le terrain ». Si l'adversaire riposte, il s'excuse et joue Donnant-donnant. Sinon, il continue de trahir. Sondeur, mais finalement coopératif avec les non-dupes.
Haut du classement Friedman (Gâchette Sévère) Coopère jusqu'à ce que l'adversaire trahisse une seule fois, après quoi il trahit pour toujours. Bienveillante, Représailles sévères, Impitoyable
Haut du classement Donnant-donnant pour deux coups Une version plus indulgente. Ne trahit qu'après que l'adversaire a trahi deux fois de suite. Très Bienveillante, Indulgente, Résiste aux effets d'écho
Milieu de classement Joss Une version « sournoise » de Donnant-donnant. Imite principalement l'adversaire mais a 10% de chances de trahir au lieu de coopérer. Majoritairement Bienveillante, Capable de représailles, mais « Perfide »
Milieu de classement Downing Commence par essayer de modéliser son adversaire. Si l'adversaire semble réceptif et a une « conscience », il coopère. Si l'adversaire semble aléatoire ou non réceptif, il trahit pour se protéger. Adaptative, Calculatrice, pas intrinsèquement « Bienveillante »
Bas du classement Toujours Trahir (ALL D) Choisit toujours de trahir, quoi qu'il arrive. Méchante, Agressive
Bas du classement Aléatoire Coopère ou trahit avec une probabilité de 50/50. Imprévisible, Peu fiable
Fin de classement Toujours Coopérer (ALL C) Choisit toujours de coopérer, peu importe le nombre de trahisons subies. Bienveillante, mais Naïve et Exploitable
Fin de classement Nydegger Une stratégie plus compliquée basée sur des règles qui tentait d'être une version plus indulgente de Donnant-donnant, mais sa logique était défectueuse et exploitable, menant à de piètres performances. Bien intentionnée, mais Confuse et Exploitable

Ce tableau montre clairement que les stratégies les plus réussies étaient « bienveillantes » (elles n'étaient jamais les premières à trahir), mais elles n'étaient pas des proies faciles. Les stratégies purement agressives (ALL D) et purement naïves (ALL C) ont obtenu de très mauvais résultats, car elles étaient exploitées ou enfermées dans des schémas mutuellement destructeurs.

Le deuxième tournoi et l'héritage durable

Pensant que les résultats auraient pu être un coup de chance, Axelrod organisa un deuxième tournoi, encore plus grand. Cette fois, les participants connaissaient les résultats du premier. Ils connaissaient le succès de Donnant-donnant et pouvaient concevoir des stratégies spécifiquement pour la battre. Soixante-deux propositions affluèrent du monde entier.

Et Donnant-donnant gagna à nouveau.

Sa robustesse était prouvée. Les principes simples consistant à être initialement bienveillant, prompt mais proportionné dans la riposte, immédiatement indulgent et clair n'étaient pas seulement une formule gagnante ; ils semblaient être une recette fondamentale pour l'évolution de la coopération.

Théorie contre réalité bruitée

Avant de saluer Donnant-donnant comme le remède miracle à tous les conflits de la vie, il est crucial de se rappeler que le tournoi d'Axelrod s'est déroulé dans un « laboratoire » numérique propre. Les programmes exécutaient leurs instructions sans faille, il n'y avait pas de malentendus, et chaque coup était clairement soit une coopération, soit une trahison.

Bien que les principes découverts soient inestimables, la vie réelle est rarement aussi stérile. Elle est remplie de problèmes de communication, d'accidents et d'intentions mal interprétées. La théorie des jeux décrit cette imprévisibilité sous le nom de « bruit », et sa présence peut changer fondamentalement l'efficacité d'une stratégie.

Dans un environnement bruité, même Donnant-donnant devient vulnérable. Imaginez deux joueurs Donnant-donnant coopérant joyeusement. Un simple malentendu fait que le coup coopératif d'un joueur est perçu comme une trahison. Suivant ses règles, le second joueur riposte immédiatement. Le premier joueur, ignorant l'erreur initiale, voit cela comme une trahison non provoquée et riposte à son tour. Les deux peuvent se retrouver enfermés dans une « spirale de la mort » de représailles mutuelles, une vendetta numérique, tout cela à cause d'une seule erreur aléatoire.

C'est précisément pourquoi des travaux et des tournois ultérieurs ont exploré des variantes plus robustes, telles que Donnant-donnant pour deux coups (qui ne trahit qu'après deux trahisons consécutives), Donnant-donnant Généreux (qui pardonne occasionnellement une trahison), et Gagnant-Reste, Perdant-Change (Pavlov), qui peuvent toutes surpasser le Donnant-donnant standard sous divers taux d'erreur et dynamiques de population. Reconnaître cette nuance aide à expliquer pourquoi la dynamique de la coopération diffère parfois entre le laboratoire et le monde réel.

Formellement, la durabilité de la coopération dans les dilemmes du prisonnier répétés repose sur deux composantes : l'ordre des gains et la valeur de l'interaction future. Les gains doivent respecter la condition T > R > P > S (Tentation > Récompense > Punition > Dupe), et les joueurs doivent suffisamment valoriser les gains futurs (une forte probabilité de continuation ou un faible taux d'actualisation). Lorsque ces conditions sont réunies et que les interactions sont répétées avec une certitude raisonnable, les stratégies réciproques peuvent devenir auto-exécutoires — un pont entre les tournois empiriques d'Axelrod et les découvertes théoriques de la théorie des jeux répétés.

Au-delà de la simulation : La logique de la coopération dans le monde réel

La question se pose naturellement : les leçons de l'arène numérique d'Axelrod sont-elles de simples curiosités théoriques, ou révèlent-elles de véritables schémas dans le monde humain et naturel ? Les principes fondamentaux de Donnant-donnant — bienveillance, représailles et indulgence — forment-ils vraiment les blocs de construction universels de la coopération ?

La réponse est fascinante. Il s'avère que cette logique apparaît encore et encore dans les endroits les plus inattendus, prouvant que la coopération a des racines évolutives et sociales profondes. Voici quelques cas où les principes de Donnant-donnant ont émergé spontanément, sans aucune conception descendante.

L'exemple le plus frappant : Les tranchées de la Première Guerre mondiale

Le parallèle le plus poignant du monde réel avec les découvertes d'Axelrod vient peut-être d'un endroit où l'on s'attendrait le moins à la coopération : les tranchées de la Première Guerre mondiale. Pendant de longues périodes de statu quo sur le front occidental, un système de trêve spontané et informel a émergé entre les troupes britanniques et allemandes opposées. Ce phénomène est devenu connu sous le nom de système « Vivre et laisser vivre ».

Il fonctionnait exactement comme un jeu organique de Donnant-donnant :

  • Être bienveillant (Ne pas tirer en premier) : Une unité signalait ses intentions pacifiques par des routines prévisibles et non létales. Par exemple, elle pouvait bombarder la même partie vide de la tranchée à la même heure chaque jour. C'était un coup « coopératif ».
  • Riposter : Si un côté lançait soudainement un raid meurtrier et non provoqué (une « trahison »), l'autre côté ripostait immédiatement avec une contre-attaque féroce pour montrer que l'agression ne serait pas tolérée.
  • Être indulgent : Fait crucial, après la riposte, le côté attaqué revenait souvent à sa routine « coopérative » précédente, signalant sa volonté de restaurer la trêve. Ils ne gardaient pas rancune éternellement.

Ce système de coopération tacite a émergé sans ordres du haut commandement (en fait, les généraux ont activement tenté de l'éradiquer). Il est né de l'intérêt personnel des soldats des deux camps, qui ont reconnu qu'ils étaient dans un jeu répété. Ils savaient qu'ils affronteraient les mêmes adversaires le lendemain, et le jour d'après. L'« ombre du futur » pesait lourdement, et ils ont réalisé que la retenue mutuelle était bien meilleure pour leur survie qu'une agression constante et débridée.

Ce puissant exemple historique montre que les principes découverts dans le tournoi informatique d'Axelrod ne sont pas seulement une théorie abstraite. Ils constituent un élément fondamental de la survie humaine et de la stratégie coopérative, même dans les environnements les plus hostiles imaginables. La logique de Donnant-donnant ne se limite pas aux conflits humains. Elle peut être observée dans d'autres domaines :

  • La réciprocité des chauves-souris vampires : En biologie, un exemple classique d'altruisme réciproque est le comportement des chauves-souris vampires. Ces animaux se nourrissent de sang, mais une nuit de chasse peut être infructueuse. Une chauve-souris qui rentre affamée au gîte est souvent nourrie de sang régurgité par un congénère bien nourri. Des études ont montré que les chauves-souris sont plus susceptibles de partager de la nourriture avec une chauve-souris qui les a précédemment aidées. C'est une stratégie claire de Donnant-donnant : coopérer (partager le sang) avec ceux qui ont coopéré avec vous, et ne pas aider ceux qui ont refusé d'aider dans le passé (représailles).
  • Relations commerciales et tarification : En économie, les accords de prix (souvent tacites) entre entreprises peuvent suivre ce modèle. Deux concurrents peuvent éviter une guerre des prix mutuellement destructrice (coopération mutuelle). Mais si une entreprise baisse soudainement ses prix pour gagner des parts de marché (trahison), l'autre suivra presque immédiatement (représailles), nuisant finalement aux bénéfices des deux entreprises. La stabilité n'est restaurée que lorsqu'elles reviennent au niveau de prix précédemment convenu (indulgence).

Ces exemples soulignent comment l'expérience d'Axelrod a mis au jour un mécanisme fondamental qui permet à la confiance et à la coopération d'émerger même parmi des acteurs rationnels et égoïstes, à condition que leur relation s'inscrive dans la durée.

Conclusion

Les travaux d'Axelrod, qui ont abouti à son livre fondateur de 1984, The Evolution of Cooperation, ont eu un impact profond bien au-delà de la théorie des jeux. Les biologistes l'ont utilisé pour modéliser l'altruisme réciproque dans les populations animales. Les économistes l'ont appliqué pour comprendre la confiance dans les relations commerciales. Les politologues y ont vu son reflet dans la diplomatie internationale et les traités de contrôle des armements pendant la Guerre Froide.

Aujourd'hui, ces simples principes de réciprocité inspirent des travaux au-delà des sciences sociales : les concepteurs de systèmes multi-agents, de protocoles décentralisés et de mécanismes d'incitation sur la blockchain, ainsi que les équipes d'IA interagissant, sont tous confrontés aux mêmes arbitrages entre exploitation et coopération. La conception de règles de réciprocité robustes — celles qui tolèrent le bruit et s'adaptent à l'échelle des populations — reste essentielle pour l'ingénierie du comportement coopératif dans les systèmes humains comme artificiels.

Le tournoi nous a appris une leçon puissante : la coopération ne nécessite ni autorité centrale ni altruisme désintéressé. Elle peut émerger spontanément parmi des individus égoïstes, pourvu qu'ils sachent qu'ils se rencontreront à nouveau. Dans un monde qui semble souvent complexe et cynique, le triomphe de Donnant-donnant est un rappel plein d'espoir et durable que la meilleure stratégie est souvent d'être bienveillant, mais pas naïf ; indulgent, mais pas amnésique ; et surtout, clair et cohérent dans nos actions.

Historiquement, ces tournois ont été organisés et analysés par Robert Axelrod, qui a coordonné les soumissions et synthétisé les résultats dans ses travaux influents. La stratégie connue sous le nom de Donnant-donnant (Tit for Tat) — souvent attribuée à Anatol Rapoport comme l'un de ses premiers promoteurs — a été rendue célèbre par l'analyse d'Axelrod. Pour la présentation canonique de l'expérience et de ses implications, voir les travaux d'Axelrod (Axelrod & Hamilton, 1981; Axelrod, 1984). Des études théoriques et empiriques ultérieures (par exemple, Nowak & Sigmund, 1993) ont approfondi notre compréhension, montrant quand et pourquoi d'autres règles de réciprocité (comme Gagnant-Reste, Perdant-Change ou des variantes plus généreuses) peuvent surpasser le simple Donnant-donnant dans différentes conditions.