El nuevo LLM de OpenAI, O3, enfrenta un escrutinio después de que las pruebas dedent descubrieron que resolvió una cantidad mucho menos de problemas matemáticos difíciles de lo que la compañía afirmó por primera vez.
Cuando Operai presentó O3 en diciembre, los ejecutivos dijeron que el modelo podría responder "un poco más de un cuarto" de los problemas en Frontiermath, un conjunto notoriamente difícil de acertijos de matemáticas a nivel de posgrado.
El mejor competidor, agregaron, estaba atrapado cerca del 2%. "Hoy, todas las ofertas tienen menos del 2%", dijo el director de investigación Mark Chen durante la transmisión en vivo . "Estamos viendo, con O3 en la configuración de cómputo agresivo de Test -time, podemos superar el 25%".
TechCrunch informó que el resultado fue obtenido por OpenAI en una versión de O3 que usó más potencia informática que el modelo que la compañía lanzó la semana pasada la semana pasada..
El viernes, la Epoch AI del Instituto de Investigación, que creó Frontiermath, publicó su propia puntuación para el Público O3.
Operai ha lanzado O3, su muy esperado modelo de razonamiento, junto con O4-Mini, un modelo más pequeño y más barato que tiene éxito O3-Mini.
Evaluamos los nuevos modelos en nuestro conjunto de puntos de referencia de matemáticas y ciencias. Resultados en hilo! pic.twitter.com/5gbtzkey1b
- Epoch AI (@epochairesearch) 18 de abril de 2025
Utilizando una edición actualizada de 290 preguntas del punto de referencia, Epoch puso el modelo en aproximadamente el 10%.
El resultado coincide con una cifra de unión inferior en el documento técnico de diciembre de OpenAI, y Epoch advirtió que la discrepancia podría deberse a varias razones.
"La diferencia entre nuestros resultados y la de OpenAI podría deberse a la evaluación de OpenAI con un andamio interno más potente, utilizando más computación en tiempo de prueba, o porque esos resultados se ejecutaron en un subconjunto diferente de Frontiermath", escribió .
Frontiermath está diseñado para medir el progreso hacia el razonamiento avanzado de Matematical. El conjunto público de diciembre de 2024 contenía 180 problemas, mientras que la actualización privada de febrero de 2025 amplió el grupo a 290.
Los cambios en la lista de preguntas y la cantidad de potencia informática permitida en el tiempo de prueba pueden causar grandes cambios en porcentajes informados.
La evidencia de que falta el O3 comercial también provino de las pruebas de la Fundación del Premio ARC, que probó una construcción anterior y más grande. El lanzamiento público "es un modelo diferente ... sintonizado para el uso de chat/producto", ARC Price Foundation publicó en X, y agregó que "todos los niveles de cómputo O3 lanzados son más pequeños que la versión que comparamos".
La empleada de Operai, Wenda Zhou, ofreció una explicación similar durante una transmisión en vivo la semana pasada. El sistema de producción, dijo, estaba "más optimizado para los casos de uso del mundo real" y la velocidad. "Hemos hecho [optimizaciones] para que el modelo sea más rentable [y] más útil en general", dijo Zhou, al tiempo que reconoce posibles "disparidades".
Dos modelos más pequeños de la compañía, O3 -Mini -Aligh y el recientemente anunciado O4 -Mini, ya vencieron a O3 en Frontiermath, y OpenAi dice que una mejor variante de O3 -Pro llegará en las próximas semanas.
Aún así, muestra cómo los titulares de referencia pueden ser engañosos. En enero, Epoch fue criticada por retrasar la divulgación de fondos de Operai hasta después del debut de O3. Más recientemente, la startup Xai de Elon Musk fue acusada de presentar cuadros que exageraban las capacidades de su modelo Grok 3.
Los observadores de la industria dicen que tales controversias de referencia se están convirtiendo en una ocurrencia en la industria de la IA a medida que las empresas corren para capturar los titulares con nuevos modelos.
Academia Cryptopolitan: ¿Cansado de columpios del mercado? Aprenda cómo DeFi puede ayudarlo a generar ingresos pasivos constantes. Registrarse ahora