En septiembre de 2024, OpenAI presentó o1, un gran modelo de razonamiento (LRM), distinto a ChatGPT que es un gran modelo de lenguaje (LLM) porque el primero es capaz de "razonar", en palabras de la compañía.
Los competidores no se quedaron atrás. DeepSeek-R1, Claude 3.7 Sonnet Thinking y Google Gemini Thinking fueron respuestas a este fresco y novedoso LRM.
Sam Altman, director ejecutivo de OpenAI, comentó en distintos momentos que estamos cerca de la inteligencia artificial general (AGI) o, para decirlo simple, una IA capaz de razonar y entender el mundo como nosotros los humanos.
Una de las declaraciones que más revuelo causó fue cuando a finales de 2024 expresó que este año estaríamos un paso más cerca de la AGI, para luego enfriar el tema en enero pasado.
Es difícil tomar como verdad lo dicho por estos presuntos "gurus" de la inteligencia artificial, pues sus declaraciones están motivadas por el dinero. La IA es cara de construir y mantener, así que el "hype" por la tecnología mantiene fluyendo el dinero.
No obstante, en los hechos, los modelos de razonamiento actuales están lejos de realizar tareas generales y pensar como una persona, por más que directivos lo presuman, o al menos eso encontró Apple en una reciente investigación.
Desde el nombre: La Ilusión de Pensar: Comprender Los Puntos Fuertes Y Las Limitaciones De Los Modelos De Razonamiento A Través Del Prisma De La Complejidad de los Problemas, el artículo lanza una bomba sobre los más optimistas por el avance de la IA.
Los investigadores de Apple probaron diferentes LRM con puzzles como la Torre de Hanói, Damas Chinas (Checker Jumping), Cruzar el Río (River Crossing), Juego de Bloques (Blocks World).
En concreto, los modelos testeados fueron Claude-3.7-Sonnet and DeepSeek R1 vs. V3, o sea, tanto sus versiones LLM como LRM.
Al culminar las pruebas, Apple determinó que a pesar de los sofisticados mecanismos de autorreflexión, los modelos no han desarrollado capacidades de razonamiento generales más allá de ciertos umbrales de complejidad.
"Especialmente preocupante es la reducción contra intuitiva del esfuerzo de razonamiento a medida que los problemas se acercan a la complejidad crítica, lo que sugiere un límite de escalado computacional inherente a los LRM", aseguró.
La investigación pone en tela de juicio las presuntas capacidades de "pensamiento" de los LRM y sugieren que los enfoques actuales pueden estar encontrando obstáculos fundamentales para el razonamiento general.
Apple indicó que hay tests a los LRM sobre matemáticas u otras temáticas, pero habla de una "contaminación de datos" que han impedido medir las capacidades de estos modelos a cabalidad.
No especifica a qué se refiere, pero en la prensa sí ha habido casos en los que se menciona que la IA supera en razonamiento a las personas en pruebas cognitivas e incluso a científicas y científicos.
La compañía liderada por Tim Cook considera que su método de medición es más preciso y deja ver que aún estamos lejos de la inteligencia artificial general, anhelada por Silicon Valley.
Aun así, Apple no hizo las pruebas con modelos de OpenAI, empresa que dota a sus dispositivos como el iPhone de IA móvil.