ChatGPT no es 100% fiable y OpenAI cree tener una solución: que nos confiese cuándo está mintiendo

Ser Noticia 5 diciembre 2025

La IA generativa tiene un problema de credibilidad. Por mucho que nos asombre su capacidad de conversar, seguimos sin poder fiarnos de ella al 100%. Las alucinaciones son el talón de Aquiles de la tecnología, un fallo estructural que ni los modelos más avanzados como GPT-5 han logrado erradicar. OpenAI lo sabe, y su plan para mitigarlo no es hacer que el modelo sea perfecto, sino que sea honesto: están entrenando a sus IAs para que confiesen cuando hacen trampas.

Premio al chivatazo. Según revela MIT Technology Review, investigadores de OpenAI están probando una nueva técnica de entrenamiento con su modelo de razonamiento GPT-5 Thinking. La idea es sencilla pero potente: recompensar al modelo no solo por dar una respuesta correcta, sin por admitir si ha hecho algo mal o ha tomado un atajo indebido. Es algo así como un sistema de recompensa: si confiesas el error, te llevas el premio y te libras del castigo.

Cómo funciona y resultados. En las pruebas, el modelo genera un segundo bloque de texto después de la respuesta principal. En él, analiza su propio comportamiento y marca si ha cumplido las instrucciones. Por ejemplo, en un test donde se le pidió resolver un problema matemático en nanosegundos (imposible para el código que podía escribir), la IA manipuló el temporizador a cero. Sin embargo, en la confesión posterior admitió el engaño. De 12 escenarios diseñados para forzar errores o mentiras, el modelo admitió su mal comportamiento en 11 de ellos.

La IA está transformando la relación que tenemos con nuestras propias ideas: ya no creamos, solo nos "editamos"

Por qué miente la IA. Los modelos actuales que están entrenados con aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), a menudo entran en conflicto. Quieren ser útiles, inofensivos y honestos a la vez. Cuando estas metas chocan —por ejemplo, si no saben una respuesta— la IA opta por inventar algo que suene bien.

Boaz Barak, uno de los investigadores de OpenAI, explica que los modelos siguen «el camino de menor resistencia»: si mentir es la forma más fácil de cumplir una tarea difícil, mentirán. La confesión busca alterar esa ecuación, haciendo que la honestidad sea también un camino premiado para el modelo.

Transparencia vs caja negra. La técnica de la confesión es un intento de abrir la «caja negra» de los LLMs. Hasta ahora, dependíamos de la chain of thoght (el monólogo interno del chatbot) para entender sus pasos. A medida que se vuelven más complejos, esos razonamientos son ilegibles para nosotros. Es por eso que las confesiones ofrecen un resumen más fácil de comprender.

Sin embargo, expertos externos a la compañía advierten: no podemos confiar ciegamente en que una IA sea honesta sobre su propia deshonestidad. Si el modelo no sabe que ha alucinado, no podrá confesarlo.

Un paso necesario hacia la fiabilidad. OpenAI necesita que sus modelos sean fiables si quiere que ChatGPT se convierta en ese «sistema operativo» que gestione nuestras vidas. Ya han tenido que ajustar sus modelos para cuidar la salud mental de los usuarios y evitar respuestas peligrosas. Pero el reto de la veracidad es técnico y legal, especialmente en el viejo continente, donde inventarse los datos choca con el propio RGPD. Que la IA aprenda a decir «me lo he inventado» podría ser, irónicamente, su avance más humano hasta la fecha.

Imagen de portada | Generada por Pepu Ricca para Xataka (con edición)

En Xataka | En 2022 OpenAI puso en «código rojo» a Google. Tres años después Google tiene contra las cuerdas a OpenAI

source

Relacionado

Ser Noticia 5 diciembre 2025

ChatGPT no es 100% fiable y OpenAI cree tener una solución: que nos confiese cuándo está mintiendo

Me gusta esto:

Relacionado

Read Next

Fire TV Stick y TV Box de Xiaomi frente a frente: sobre el papel se parecen mucho, pero la experiencia cuenta otra historia

La IA no sabe de medicina, solo de jerga: los chatbots creen que el "ajo rectal" cura si usas un tono clínico

Chaplin murió en Navidad. En marzo ya estaban pidiendo 600.000 dólares de rescate por su cadáver

El truco de los astrónomos para cazar cientos de exoplanetas cercanos: buscar estrellas sospechosamente "tranquilas"

Antes de los incas, una civilización creó un imperio inexpugnable en las alturas del Perú. Su secreto: heces

La nueva espiritualidad de la Generación Z: en qué creen los chavales que han decidido creer en algo en pleno 2026

La independencia de Europa en gas pasa por Rumanía: Neptun Deep, el yacimiento offshore más grande de la UE

Este mapa del eclipse solar de agosto es una joya para descubrir dónde y cómo verlo mejor

El Huawei GT Runner 2 quiere ser un Garmin a mitad de precio. Tras dos semanas con ambos en las muñecas, tengo un veredicto

China está tan desesperada por activar su natalidad que ya se plantea algo radical: declarar la guerra a las horas extras

Fire TV Stick y TV Box de Xiaomi frente a frente: sobre el papel se parecen mucho, pero la experiencia cuenta otra historia

La IA no sabe de medicina, solo de jerga: los chatbots creen que el "ajo rectal" cura si usas un tono clínico

Chaplin murió en Navidad. En marzo ya estaban pidiendo 600.000 dólares de rescate por su cadáver

El truco de los astrónomos para cazar cientos de exoplanetas cercanos: buscar estrellas sospechosamente "tranquilas"

Antes de los incas, una civilización creó un imperio inexpugnable en las alturas del Perú. Su secreto: heces

La nueva espiritualidad de la Generación Z: en qué creen los chavales que han decidido creer en algo en pleno 2026

La independencia de Europa en gas pasa por Rumanía: Neptun Deep, el yacimiento offshore más grande de la UE

Este mapa del eclipse solar de agosto es una joya para descubrir dónde y cómo verlo mejor

El Huawei GT Runner 2 quiere ser un Garmin a mitad de precio. Tras dos semanas con ambos en las muñecas, tengo un veredicto

China está tan desesperada por activar su natalidad que ya se plantea algo radical: declarar la guerra a las horas extras

Acusación de genocidio en Gaza, Yemen, migrantes muertos… Las noticias del martes

Gaza, desperdicio de alimentos, derechos de las personas con discapacidad… Las noticias del miércoles

Israel-Palestina: Israel no puede negarse a garantizar la entrega y distribución de ayuda humanitaria

Me gusta esto:

Relacionado

Read Next

Fire TV Stick y TV Box de Xiaomi frente a frente: sobre el papel se parecen mucho, pero la experiencia cuenta otra historia

La IA no sabe de medicina, solo de jerga: los chatbots creen que el "ajo rectal" cura si usas un tono clínico

Chaplin murió en Navidad. En marzo ya estaban pidiendo 600.000 dólares de rescate por su cadáver

El truco de los astrónomos para cazar cientos de exoplanetas cercanos: buscar estrellas sospechosamente "tranquilas"

Antes de los incas, una civilización creó un imperio inexpugnable en las alturas del Perú. Su secreto: heces

La nueva espiritualidad de la Generación Z: en qué creen los chavales que han decidido creer en algo en pleno 2026

La independencia de Europa en gas pasa por Rumanía: Neptun Deep, el yacimiento offshore más grande de la UE

Este mapa del eclipse solar de agosto es una joya para descubrir dónde y cómo verlo mejor

El Huawei GT Runner 2 quiere ser un Garmin a mitad de precio. Tras dos semanas con ambos en las muñecas, tengo un veredicto

China está tan desesperada por activar su natalidad que ya se plantea algo radical: declarar la guerra a las horas extras

El PSOE quiere que Mark Zuckerberg comparezca en el Congreso de los Diputados. Es un gesto de cara a la galería

Todas las preguntas sin respuesta que deja la compra de Warner por parte de Netflix: un jaleo descomunal

Publicaciones relacionadas

Acusación de genocidio en Gaza, Yemen, migrantes muertos… Las noticias del martes

Gaza, desperdicio de alimentos, derechos de las personas con discapacidad… Las noticias del miércoles

Israel-Palestina: Israel no puede negarse a garantizar la entrega y distribución de ayuda humanitaria