ChatGPT no es 100% fiable y OpenAI cree tener una solución: que nos confiese cuándo está mintiendo
La IA generativa tiene un problema de credibilidad. Por mucho que nos asombre su capacidad de conversar, seguimos sin poder fiarnos de ella al 100%. Las alucinaciones son el talón de Aquiles de la tecnología, un fallo estructural que ni los modelos más avanzados como GPT-5 han logrado erradicar. OpenAI lo sabe, y su plan para mitigarlo no es hacer que el modelo sea perfecto, sino que sea honesto: están entrenando a sus IAs para que confiesen cuando hacen trampas.

Premio al chivatazo. Según revela MIT Technology Review, investigadores de OpenAI están probando una nueva técnica de entrenamiento con su modelo de razonamiento GPT-5 Thinking. La idea es sencilla pero potente: recompensar al modelo no solo por dar una respuesta correcta, sin por admitir si ha hecho algo mal o ha tomado un atajo indebido. Es algo así como un sistema de recompensa: si confiesas el error, te llevas el premio y te libras del castigo.
Cómo funciona y resultados. En las pruebas, el modelo genera un segundo bloque de texto después de la respuesta principal. En él, analiza su propio comportamiento y marca si ha cumplido las instrucciones. Por ejemplo, en un test donde se le pidió resolver un problema matemático en nanosegundos (imposible para el código que podía escribir), la IA manipuló el temporizador a cero. Sin embargo, en la confesión posterior admitió el engaño. De 12 escenarios diseñados para forzar errores o mentiras, el modelo admitió su mal comportamiento en 11 de ellos.
Por qué miente la IA. Los modelos actuales que están entrenados con aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), a menudo entran en conflicto. Quieren ser útiles, inofensivos y honestos a la vez. Cuando estas metas chocan —por ejemplo, si no saben una respuesta— la IA opta por inventar algo que suene bien.
Boaz Barak, uno de los investigadores de OpenAI, explica que los modelos siguen «el camino de menor resistencia»: si mentir es la forma más fácil de cumplir una tarea difícil, mentirán. La confesión busca alterar esa ecuación, haciendo que la honestidad sea también un camino premiado para el modelo.
Transparencia vs caja negra. La técnica de la confesión es un intento de abrir la «caja negra» de los LLMs. Hasta ahora, dependíamos de la chain of thoght (el monólogo interno del chatbot) para entender sus pasos. A medida que se vuelven más complejos, esos razonamientos son ilegibles para nosotros. Es por eso que las confesiones ofrecen un resumen más fácil de comprender.
Sin embargo, expertos externos a la compañía advierten: no podemos confiar ciegamente en que una IA sea honesta sobre su propia deshonestidad. Si el modelo no sabe que ha alucinado, no podrá confesarlo.
Un paso necesario hacia la fiabilidad. OpenAI necesita que sus modelos sean fiables si quiere que ChatGPT se convierta en ese «sistema operativo» que gestione nuestras vidas. Ya han tenido que ajustar sus modelos para cuidar la salud mental de los usuarios y evitar respuestas peligrosas. Pero el reto de la veracidad es técnico y legal, especialmente en el viejo continente, donde inventarse los datos choca con el propio RGPD. Que la IA aprenda a decir «me lo he inventado» podría ser, irónicamente, su avance más humano hasta la fecha.
Imagen de portada | Generada por Pepu Ricca para Xataka (con edición)
En Xataka | En 2022 OpenAI puso en «código rojo» a Google. Tres años después Google tiene contra las cuerdas a OpenAI






