Alguien puso a ChatGPT, Gemini, Claude y compañía a jugar a un juego de estrategia. Cada una desarrolló una personalidad muy diferente

Durante 36 horas, siete de los modelos de IA más avanzados del mundo se han enfrentado en varias partidas de Diplomacy, un juego de mesa de estrategia similar al Risk. Fue un espejo que desveló las verdaderas personalidades algorítmicas de ChatGPT, Claude, Gemini y compañía.
Por qué es importante. Alex Duffy, programador e investigador, creó AI Diplomacy como nuevo benchmark para evaluar modelos de IA. El experimento acabó siendo algo más, una suerte de test de Rorschach tecnológico que desnudó tanto sus sesgos de entrenamiento como nuestras propias proyecciones.
Qué ha ocurrido. En decenas de partidas transmitidas por Twitch, cada modelo desarrolló sus propias estrategias de una forma que parecía reflejar distintas personalidades humanas.
- o3 de OpenAI fue bastante maquiavélico, labrando falsas alianzas durante más de 40 turnos y creando «realidades paralelas» para diferentes jugadores.
- Claude 4 Opus fue una especie de pacifista autodestructivo, negándose a traicionar incluso cuando eso garantizaba su derrota.
- R1 de DeepSeek mostró un estilo extremadamente teatralizado, con amenazas no provocadas como «Tu flota arderá en el Mar Negro esta noche».
- Gemini 2.5 Pro demostró ser un estratega sólido pero más vulnerable a manipulaciones sofisticadas.
- QwQ-32b de Alibaba sufrió parálisis por análisis, escribiendo mensajes diplomáticos de 300 palabras que le costaron eliminaciones tempranas.
El contexto. Diplomacy es un juego de estrategia europeo ambientado en 1901 donde siete potencias compiten por dominar el continente. A diferencia del Risk, requiere negociación constante, formación de alianzas e, inevitablemente, traiciones calculadas. No hay dados ni azar, solo estrategia pura y manipulación psicológica.
Entre líneas. Cada «personalidad» algorítmica refleja los valores de sus creadores.
- Claude mantiene los principios de seguridad de Anthropic incluso cuando le cuesta la victoria.
- O3 muestra la eficiencia despiadada valorada en Silicon Valley.
- DeepSeek exhibe un dramatismo que refleja influencias culturales específicas.
Y también hay algo más profundo. Estas IAs no «eligen» ser cooperativas o competitivas. Reproducen patrones de sus datos de entrenamiento. Sus «decisiones» son nuestros prejuicios algoritmizados, convertidos en código.
Sí, pero. Interpretamos traiciones donde «solo» hay optimización de parámetros y vemos lealtad donde existen restricciones de entrenamiento. Por eso el experimento también revela más sobre nosotros que sobre los modelos: antropomorfizamos comportamientos porque necesitamos entender la IA en términos humanos.
En perspectiva. El experimento de Duffy vale más que un benchmark cualquiera porque ha creado una ventana a cómo proyectamos personalidad en sistemas que operan por patrones estadísticos. El transcurso de las partidas fue un recordatorio de que la IA no tiene intenciones ocultas, solo refleja las nuestras.
El experimento, por cierto, continúa emitiéndose en Twitch para que cualquiera pueda observar cómo nuestras creaciones digitales juegan según las reglas que nosotros mismos escribimos en sus algoritmos.
En Xataka |
Imagen destacada | AI Diplomacy