Los modelos LLM tradicionales se limitaban a memorizar y recuperar conocimientos existentes. En contraste, o3 de OpenAi introduce un mecanismo para sintetizar nuevas soluciones mediante un enfoque iterativo y evaluativo. Esto lo distingue como un modelo más cercano a las capacidades de razonamiento humano.
Un punto importante consiste a que muchos de sus resultados no estaban publicados así que no hacen parte de su data de entrenamiento.
ARC PRIZE 👉 Puntuación alta de OpenAI o3 en ARC-AGI-Pub
¿Cómo lo logra?
El modelo o3 representa una innovación significativa en la forma en que los modelos de lenguaje procesan y resuelven tareas novedosas. A diferencia de los enfoques tradicionales que dependen de memorizar y aplicar programas preexistentes, o3 utiliza un paradigma de “búsqueda guiada y recombinación de conocimiento” para generar soluciones en tiempo de prueba. Esto se basa en los siguientes principios:
- Cadenas de Pensamiento (CoT): Durante las pruebas, o3 genera secuencias de instrucciones en lenguaje natural que describen los pasos necesarios para resolver tareas específicas. Estas cadenas actúan como “programas” temporales, entendidos como conjuntos estructurados de instrucciones que guían al modelo en la resolución de problemas. Estos programas no son ejecutables directamente por una máquina, pero permiten al modelo evaluar y ajustar las soluciones de manera dinámica para optimizar los resultados.
- Búsqueda en Espacio de Programas: o3 explora un espacio de posibles soluciones mediante un proceso similar a la búsqueda en árboles de Monte-Carlo utilizada en sistemas como AlphaZero. La exploración es guiada por un modelo evaluador que determina la efectividad de cada posible programa.
- Recombinación de Conocimiento: Aprovechando un vasto repositorio de conocimientos previos, o3 combina elementos existentes para crear nuevos programas adaptados a las tareas.
Ventajas de Este Enfoque
- Adaptabilidad: Permite al modelo abordar tareas completamente nuevas sin necesidad de entrenamiento específico previo.
- Capacidad de Generalización: Supera la limitación de los modelos LLM tradicionales que no pueden crear programas sobre la marcha.
- Flexibilidad: El uso de lenguaje natural para describir programas simplifica la interpretación y evaluación de las soluciones.
Limitaciones Identificadas
- Dependencia de Datos Etiquetados: El modelo requiere ejemplos etiquetados por humanos para generar y evaluar las cadenas de pensamiento.
- Restricciones en la Ejecución: Los programas generados no son simbólicos ni ejecutables directamente, lo que limita su capacidad de interactuar con entornos reales.
- Costo Computacional: La búsqueda intensiva en el espacio de programas puede ser costosa, con tareas que requieren millones de tokens y un tiempo significativo.