El campeón inesperado

Gábor Bíró 16 de octubre de 2025
9 min de lectura

En el mundo de la ciencia, a veces las ideas más profundas provienen de los experimentos más sencillos. A principios de la década de 1980, en los albores de la era de la computación personal, un politólogo llamado Robert Axelrod creó una arena digital para enfrentar programas informáticos —cada uno con su propia "personalidad"— en un clásico juego de estrategia. Los resultados no solo fueron sorprendentes, sino también revolucionarios, ofreciendo una nueva y poderosa lente a través de la cual ver la evolución de la propia cooperación.

El campeón inesperado

El experimento se construyó en torno a uno de los enigmas más famosos de la teoría de juegos: el Dilema del prisionero.

Históricamente, estos torneos fueron organizados y analizados por Robert Axelrod, quien coordinó las propuestas y sintetizó los resultados en su influyente obra. La estrategia conocida como Toma y daca (Tit for Tat) —a menudo asociada con Anatol Rapoport como uno de sus primeros proponentes— se hizo famosa gracias a los análisis de Axelrod. Para la presentación canónica del experimento y sus implicaciones, véase la obra de Axelrod (Axelrod & Hamilton, 1981; Axelrod, 1984). Estudios teóricos y empíricos posteriores (p. ej., Nowak & Sigmund, 1993) han profundizado nuestra comprensión, mostrando cuándo y por qué otras reglas de reciprocidad (como Gana-Sigue, Pierde-Cambia o variantes más generosas) pueden superar a la simple estrategia Toma y daca en diferentes condiciones.

Preparando el escenario: el dilema de la confianza

Probablemente conozcas la configuración clásica: dos cómplices de un delito son arrestados y recluidos en celdas separadas, sin poder comunicarse. El fiscal le ofrece a cada uno un trato, de forma independiente.

  • Si traicionas a tu compañero (traicionar) y él guarda silencio (cooperar), quedas libre y él recibe una larga condena (p. ej., 10 años).
  • Si ambos guardan silencio (cooperar), ambos reciben una condena corta (p. ej., 1 año).
  • Si ambos se traicionan mutuamente (traicionar), ambos reciben una condena media (p. ej., 5 años).

Desde un punto de vista puramente individualista y racional, traicionar es siempre la mejor jugada. Si tu compañero coopera, obtienes el mejor resultado (la libertad). Si tu compañero traiciona, evitas el peor resultado (el pago del primo). La paradoja es que cuando ambos jugadores siguen esta lógica "racional", ambos terminan peor que si hubieran confiado el uno en el otro.

Axelrod estaba interesado en lo que sucede cuando no se trata de un encuentro único. Se centró en el Dilema del prisionero iterado (DPI), donde los mismos dos jugadores se enfrentan una y otra vez. De repente, la reputación y la memoria importan. La "sombra del futuro" lo cambia todo. ¿Tiene alguna oportunidad la cooperación?

El gran torneo de algoritmos

Para encontrar una respuesta, Axelrod invitó a académicos de diversos campos —economía, psicología, matemáticas e informática— a presentar un programa que jugara al DPI. Cada programa era una estrategia, un conjunto de reglas para decidir si cooperar o traicionar en cada turno.

Las propuestas iban desde las brillantemente complejas hasta las endiabladamente sencillas. Algunas eran implacablemente agresivas, traicionando siempre. Otras eran puramente altruistas, cooperando siempre. Muchas eran muy sofisticadas y utilizaban análisis estadísticos para intentar predecir el siguiente movimiento de su oponente. Estas "personalidades" digitales se inscribieron en un torneo de todos contra todos. Cada programa jugó contra todos los demás (y una copia de sí mismo, y un programa que hacía movimientos aleatorios) durante 200 rondas. El objetivo no era "ganar" partidas individuales, sino acumular la puntuación total más alta de todo el torneo.

El escenario estaba listo para un choque de titanes digitales. La expectativa era que prevaleciera una estrategia compleja y astuta.

Lo que sucedió a continuación fue extraordinario.

El ganador: una clase magistral de simplicidad

Cuando el polvo digital se asentó, el vencedor fue una de las estrategias más sencillas presentadas. Se llamaba Toma y daca (Tit for Tat) y fue escrita por Anatol Rapoport, un psicólogo matemático.

La lógica de Toma y daca era casi ridículamente simple:

  1. En el primer movimiento, coopera.
  2. En cada movimiento posterior, haz lo que tu oponente hizo en su movimiento anterior.

Eso es todo. Si el oponente cooperaba, Toma y daca cooperaba. Si traicionaba, Toma y daca devolvía la traición de inmediato. Era un simple eco, un espejo digital. No guardaba rencor más allá del último movimiento inmediato y nunca intentó ser más listo que su oponente.

¿Cómo pudo un algoritmo tan básico triunfar sobre programas diseñados con complejos modelos predictivos y lógica maquiavélica? El análisis de los resultados de Axelrod reveló los ingredientes clave para una cooperación exitosa, encarnados perfectamente por Toma y daca. Identificó cuatro propiedades que compartían las estrategias con mayor puntuación:

  • Era amable: Un programa "amable" es aquel que nunca es el primero en traicionar. Al empezar cooperando, Toma y daca señalaba inmediatamente su voluntad de colaborar, abriendo la puerta a resultados mutuamente beneficiosos y evitando conflictos innecesarios.
  • Tomaba represalias (o era provocable): Toma y daca no era fácil de vencer. Si un oponente traicionaba, tomaba represalias inmediatamente en el siguiente movimiento. Este rápido castigo dejaba claro que no se toleraría la explotación, disuadiendo a las estrategias agresivas de aprovecharse de ella.
  • Perdonaba: Este es posiblemente su rasgo más crucial. Después de tomar represalias por una traición, si el oponente volvía a cooperar, Toma y daca lo "perdonaba" inmediatamente y cooperaba en el siguiente turno. No guardaba rencor. Esta capacidad para romper ciclos de recriminación mutua fue vital para restablecer la confianza y volver a un ritmo de cooperación de alta puntuación.
  • Era clara: Su estrategia era sencilla y transparente. Los oponentes aprendían rápidamente sus reglas. Entendían que la cooperación sería recompensada y la traición castigada. Esta claridad y previsibilidad la convertían en un socio fiable con el que cooperar.

Una advertencia importante es el ruido: en las interacciones reales se cometen errores —un movimiento cooperativo puede registrarse erróneamente como una traición, o una acción intencionada puede fallar—. En entornos con tanto ruido, la estrategia Toma y daca pura puede quedar atrapada en largos ciclos de represalias. Por ello, trabajos y torneos posteriores exploraron variantes diseñadas para ser más robustas, como Toma y daca por dos traiciones (que solo traiciona después de dos traiciones consecutivas del oponente), Toma y daca generoso (que ocasionalmente perdona una traición) y Gana-Sigue, Pierde-Cambia (Pavlov), cada una de las cuales puede superar a la estrategia Toma y daca simple bajo diferentes tasas de error y dinámicas de población. Mencionar este matiz explica por qué las dinámicas de cooperación en el laboratorio y en el mundo real a veces divergen.

Formalmente, mantener la cooperación en escenarios repetidos del Dilema del prisionero depende de dos ingredientes: el orden de los pagos y el valor de la interacción futura. Los pagos deben satisfacer T > R > P > S (Tentación > Recompensa > Castigo > Pago del Primo), y los jugadores deben valorar suficientemente los pagos futuros (una alta probabilidad de continuación o un bajo factor de descuento). Cuando se cumplen estas condiciones y las interacciones se repiten con una certeza razonable, las estrategias recíprocas pueden ser autoejecutables, un puente entre los torneos empíricos de Axelrod y los resultados teóricos de la teoría de juegos repetidos.

Recuadro de contexto: del código digital a las trincheras de la Primera Guerra Mundial

Quizás el paralelismo más sorprendente y conmovedor en el mundo real con los hallazgos de Axelrod se puede encontrar en un lugar donde menos se esperaría la cooperación: las trincheras de la Primera Guerra Mundial. Durante largos períodos de estancamiento en el Frente Occidental, surgió un sistema espontáneo de treguas informales entre las tropas británicas y alemanas enfrentadas. Este fenómeno se conoció como el sistema de "Vivir y dejar vivir".

Funcionaba como una partida orgánica de Toma y daca:

  • Ser amable (no disparar primero): Una unidad señalaba sus intenciones pacíficas mediante rutinas predecibles y no letales. Por ejemplo, podían realizar bombardeos de artillería a la misma hora todos los días, apuntando a una parte vacía de la línea de trincheras. Este era un movimiento "cooperativo".
  • Tomar represalias: Si un bando lanzaba de repente una incursión mortal y no provocada (una "traición"), el otro bando respondía inmediatamente con un feroz contraataque para demostrar que no se toleraría la agresión.
  • Perdonar: Crucialmente, después de esta represalia, el bando atacado a menudo volvía a la rutina "cooperativa" anterior, señalando su voluntad de restablecer la tregua. No guardaban rencor para siempre.

Este sistema de cooperación tácito surgió sin ninguna orden del alto mando (de hecho, los generales intentaron activamente eliminarlo). Nació del propio interés de los soldados de ambos bandos, que reconocieron que estaban en un juego iterado. Sabían que se enfrentarían a los mismos oponentes al día siguiente y al otro. La "sombra del futuro" era larga, y se dieron cuenta de que la contención mutua era mucho mejor para su supervivencia que la agresión constante y desenfrenada.

Este poderoso ejemplo histórico demuestra que los principios descubiertos en el torneo informático de Axelrod no son solo teoría abstracta. Son una parte fundamental de la estrategia humana para la supervivencia y la cooperación, incluso en los entornos más hostiles que se puedan imaginar.

La lista de estrategias: un vistazo a los jugadores clave

Para hacer el torneo más concreto, es útil conocer algunas de las "personalidades" digitales que compitieron. Aunque se presentaron docenas de estrategias, a menudo se encuadraban en arquetipos distintos. Aquí tienes un vistazo a algunos de los contendientes más notables y su rendimiento.

(Nota: La "Clasificación" es una generalización. En realidad, el rendimiento dependía de la mezcla específica de otras estrategias en el torneo, pero esto refleja los resultados generales).

Clasificación Nombre de la estrategia Breve descripción Característica(s) clave
1 Toma y daca Coopera en el primer movimiento, luego copia el movimiento anterior del oponente. Amable, Toma represalias, Perdona, Clara
Nivel superior Probador (Tester) Traiciona en el primer movimiento para "sondear el terreno". Si el oponente toma represalias, se disculpa y juega a Toma y daca. Si no, sigue traicionando. Sondea, pero al final coopera con jugadores no ingenuos.
Nivel superior Friedman (Gatillo inexorable) Coopera hasta que el oponente traiciona una sola vez, después de lo cual traiciona para siempre. Amable, Estrictamente vengativa, No perdona
Nivel superior Toma y daca por dos traiciones Una variante más indulgente. Solo traiciona si el oponente ha traicionado dos veces seguidas. Muy amable, Perdona, Resiste los efectos de eco
Nivel medio Joss Una versión "astuta" de Toma y daca. Imita sobre todo al oponente, pero tiene un 10 % de posibilidades de traicionar en lugar de cooperar. Mayormente amable, Toma represalias, pero "Traicionera"
Nivel medio Downing Empieza intentando modelar a su oponente. Si el oponente parece receptivo y tiene "conciencia", coopera. Si parece aleatorio o no receptivo, traiciona para protegerse. Adaptable, Calculadora, no intrínsecamente "Amable"
Nivel bajo Siempre Traicionar (ALL D) Siempre elige traicionar, pase lo que pase. Mezquina, Agresiva
Nivel bajo Aleatorio Coopera o traiciona según una probabilidad aleatoria del 50/50. Impredecible, Poco fiable
Último nivel Siempre Cooperar (ALL C) Siempre elige cooperar, sin importar cuántas veces sea traicionada. Amable, pero Ingenua y Explotable
Último nivel Nydegger Una estrategia más compleja basada en reglas que intentaba ser una versión indulgente de Toma y daca, pero su lógica era defectuosa y podía ser explotada, lo que llevó a un bajo rendimiento. Bienintencionada, pero Confusa y Explotable

Esta tabla muestra claramente que las estrategias más exitosas eran "amables" (nunca eran las primeras en traicionar), pero no se dejaban avasallar. Las estrategias puramente agresivas (ALL D) y las puramente ingenuas (ALL C) tuvieron un rendimiento muy bajo, ya que una explotaba a la otra en detrimento mutuo a largo plazo.

La segunda ronda y el legado duradero

Pensando que los resultados podrían ser una casualidad, Axelrod organizó un segundo torneo, aún más grande. Esta vez, los participantes conocían el resultado de la primera ronda. Eran conscientes del éxito de Toma y daca y podían diseñar estrategias específicamente para contrarrestarla. Se recibieron sesenta y dos propuestas de todo el mundo.

Y una vez más, ganó Toma y daca.

Su robustez quedó confirmada. Los sencillos principios de amabilidad inicial, represalia rápida pero proporcionada, perdón inmediato y claridad no eran solo una fórmula ganadora; parecían ser una receta fundamental para la evolución de la cooperación.

La obra de Axelrod, publicada en su libro fundamental de 1984, La evolución de la cooperación, tuvo un profundo impacto mucho más allá de la teoría de juegos. Los biólogos la utilizaron para modelar el altruismo recíproco en poblaciones animales. Los economistas la aplicaron para entender la confianza en las relaciones comerciales. Los politólogos vieron reflejos de ella en la diplomacia internacional y en los tratados de control de armas durante la Guerra Fría.

Hoy en día, esos sencillos principios de reciprocidad informan el trabajo más allá de las ciencias sociales: los diseñadores de sistemas multiagente, los protocolos descentralizados y los mecanismos de incentivos en blockchain, y los equipos de IA que interactúan entre sí se enfrentan a las mismas disyuntivas entre explotación y cooperación. Las reglas de reciprocidad robustas —aquellas que toleran el ruido y se escalan a través de las poblaciones— siguen siendo fundamentales para diseñar el comportamiento cooperativo tanto en sistemas humanos como artificiales.

El torneo nos enseñó una poderosa lección: la cooperación no requiere una autoridad centralizada ni un altruismo desinteresado. Puede surgir espontáneamente entre individuos egoístas cuando saben que volverán a interactuar en el futuro. En un mundo que a menudo parece complejo y cínico, el triunfo de Toma y daca sigue siendo un recordatorio esperanzador y perdurable de que la mejor estrategia es a menudo ser amable, pero no ingenuo; perdonar, pero no olvidar; y, sobre todo, ser claro y coherente en tus acciones.

Gábor Bíró 16 de octubre de 2025