Los 'modelos de mundo' apuntan a ser la próxima gran revolución de la IA: es lo que necesita la robótica para parecerse a las películas
Imagina una IA que no solo responda preguntas, sino que pueda imaginar escenarios, predecir consecuencias o planificar acciones antes de ejecutarlas. Esto es precisamente lo que prometen los modelos de mundo (‘world models’), una tecnología que está captando la atención de los principales laboratorios de inteligencia artificial y que podría cambiar radicalmente cómo las máquinas entienden e interactúan con su entorno.
Qué son exactamente. Los modelos de mundo son sistemas de IA que construyen una representación interna del entorno, como si llevaran dentro una simulación del mundo real. A diferencia del aprendizaje supervisado tradicional, que simplemente mapea entradas con salidas usando datos etiquetados, estos modelos aprenden cómo funciona un entorno y pueden predecir qué pasará a continuación. Es similar a cómo los humanos utilizamos simulaciones mentales para anticipar resultados sin necesidad de experimentar físicamente cada situación.
El ejemplo del bateador. Los investigadores David Ha y Jürgen Schmidhuber lo explican con una analogía deportiva: un bateador de béisbol tiene apenas milisegundos para decidir cómo golpear la pelota, menos tiempo del que tarda la señal visual en llegar al cerebro. Lo que le permite batear una bola rápida a 160 kilómetros por hora es su capacidad de predecir instintivamente dónde irá la pelota. Sus músculos reaccionan de forma refleja según las predicciones de su modelo mental interno, sin necesidad de planificar conscientemente cada escenario posible.
Por qué importan ahora. Figuras destacadas como Yann LeCun (Meta), Demis Hassabis (Google DeepMind) y Yoshua Bengio (Instituto de IA de Quebec) consideran que estos modelos son esenciales para construir sistemas verdaderamente inteligentes. La startup World Labs de Fei-Fei Li, una de las figuras más influyentes de IA, recaudó el año pasado 230 millones de dólares para desarrollarlos.
Por otro lado, General Intuition, un nuevo laboratorio de IA propiedad de Medal (conocidos por su app para grabar y compartir clips de juegos), acaba de conseguir una ronda de financiación de 133,7 millones. La inversión vino principalmente del fundador de Khosla Ventures, Vinod Khosla (uno de los primeros inversores de OpenAI), quien afirma que «se construirán múltiples empresas valoradas en cientos de miles de millones, potencialmente incluso de billones de dólares» en este campo.
Cómo funcionan. Estos sistemas tienen tres capacidades fundamentales. Por un lado, comprimen datos sensoriales complejos (imágenes, vídeos, texto) en representaciones más simples. Segundo, predicen estados futuros del entorno basándose en información pasada y presente. Tercero, utilizan ese modelo aprendido para simular diferentes acciones y elegir la mejor opción. Es como si la IA pudiera «soñar» distintos escenarios antes de actuar.
El caso de los videojuegos. Ha y Schmidhuber también tienen un ejemplo clarificador para ello: imagina una IA aprendiendo a jugar a un juego de carreras. En lugar de memorizar secuencias de movimientos, primero construye un modelo interno de cómo se comporta el mundo del juego: cómo se mueve el coche, cómo se curva la carretera, dónde aparecen los obstáculos. Después puede imaginar escenarios futuros, probando diferentes estrategias de conducción en su mundo simulado antes de aplicarlas en el juego real.
Aplicaciones prometedoras. Los modelos de mundo ya están transformando varios campos. En conducción autónoma, permiten que los vehículos simulen dinámicas del tráfico y comportamiento de peatones para tomar decisiones más seguras. En robótica, los robots pueden imaginar diferentes formas de completar una tarea antes de ejecutarla, especialmente útil cuando el entrenamiento en el mundo real es costoso o peligroso. Y en generación de vídeo, ayudan a crear contenido más realista: un modelo que comprende por qué rebota una pelota va a representarlo de mejor manera que uno que simplemente ha memorizado patrones.
Más allá del vídeo. Un mejor modelo de generación de vídeo sería solo el comienzo. LeCun describe cómo un modelo de mundo podría ayudar a alcanzar objetivos mediante razonamiento: dado un vídeo de una habitación desordenada y el objetivo de limpiarla, podría idear una secuencia de acciones (pasar la aspiradora, limpiar los platos, vaciar la basura) no porque haya observado ese patrón, sino porque comprende a un nivel más profundo cómo pasar de sucio a limpio. «Necesitamos máquinas que entiendan el mundo, que puedan recordar cosas, que tengan intuición y sentido común», afirma.
Los obstáculos por delante. Entrenar y ejecutar modelos de mundo requiere una potencia de cálculo masiva, incluso comparada con los actuales modelos generativos. Si bien ahora mismo ya se necesitan miles y miles de GPUs enclaustradas en gigantescos centros de datos que consumen una barbaridad de energía para ejecutar modelos actuales, entrenar modelos de mundo es otro nivel. Además, como todos los modelos de IA, también tienen el riesgo de alucinar e internalizar sesgos de sus datos de entrenamiento.
La apuesta de la industria. Pese a los desafíos técnicos, hay diferentes estrategias en marcha. Google DeepMind y OpenAI apuestan por que con suficientes datos de entrenamiento multimodal (vídeo, simulaciones 3D y más allá del texto) surgirá espontáneamente un modelo de mundo dentro de una red neuronal. LeCun, por su parte, cree que será necesaria una arquitectura de IA completamente nueva y no generativa.
Qué viene después. Varios expertos prevén además que los modelos de mundo permitirán crear mundos 3D interactivos bajo demanda para videojuegos, fotografía virtual y otras aplicaciones. Según Justin Johnson, cofundador de World Labs, «ya tenemos la capacidad de crear mundos virtuales e interactivos, pero cuesta cientos de millones de dólares y muchísimo tiempo de desarrollo». También podrían revolucionar la robótica al dotar a los robots de una conciencia real de su entorno y su propio cuerpo. Como resume Mashrabov, «con un modelo de mundo avanzado, una IA podría desarrollar una comprensión personal de cualquier escenario en el que se encuentre y empezar a razonar posibles soluciones».
Aunque LeCun estima que todavía estamos al menos a una década de los modelos de mundo que él imagina, la gran expectación de la industria por ver evoluciones en el campo de la IA y la monstruosa inversión que está recibiendo este fenómeno, indican que esta tecnología podría ser el siguiente gran salto hacia máquinas que no solo reaccionen al mundo, sino que lo comprendan y lo modelen.
Imagen de portada | Michael Marais
En Xataka | «La seguridad de nuestros hijos no está en venta»: ya está aquí la primera ley que regula los ‘amigos IA’