El modelo O3 de OpenAI no se encuentra en sus propias reclamaciones de referencia

Fuente Cryptopolitan

El nuevo LLM de OpenAI, O3, enfrenta un escrutinio después de que las pruebas dedent descubrieron que resolvió una cantidad mucho menos de problemas matemáticos difíciles de lo que la compañía afirmó por primera vez. 

Cuando Operai presentó O3 en diciembre, los ejecutivos dijeron que el modelo podría responder "un poco más de un cuarto" de los problemas en Frontiermath, un conjunto notoriamente difícil de acertijos de matemáticas a nivel de posgrado.

El mejor competidor, agregaron, estaba atrapado cerca del 2%. "Hoy, todas las ofertas tienen menos del 2%", dijo el director de investigación Mark Chen durante la transmisión en vivo . "Estamos viendo, con O3 en la configuración de cómputo agresivo de Test -time, podemos superar el 25%".

TechCrunch informó que el resultado fue obtenido por OpenAI en una versión de O3 que usó más potencia informática que el modelo que la compañía lanzó la semana pasada la semana pasada..

El viernes, la Epoch AI del Instituto de Investigación, que creó Frontiermath, publicó su propia puntuación para el Público O3.

Utilizando una edición actualizada de 290 preguntas del punto de referencia, Epoch puso el modelo en aproximadamente el 10%.

El resultado coincide con una cifra de unión inferior en el documento técnico de diciembre de OpenAI, y Epoch advirtió que la discrepancia podría deberse a varias razones.

"La diferencia entre nuestros resultados y la de OpenAI podría deberse a la evaluación de OpenAI con un andamio interno más potente, utilizando más computación en tiempo de prueba, o porque esos resultados se ejecutaron en un subconjunto diferente de Frontiermath", escribió .

Frontiermath está diseñado para medir el progreso hacia el razonamiento avanzado de Matematical. El conjunto público de diciembre de 2024 contenía 180 problemas, mientras que la actualización privada de febrero de 2025 amplió el grupo a 290.

Los cambios en la lista de preguntas y la cantidad de potencia informática permitida en el tiempo de prueba pueden causar grandes cambios en porcentajes informados.

Operai confirmó que el modelo Public O3 usa menos cómputo que la versión de demostración

La evidencia de que falta el O3 comercial también provino de las pruebas de la Fundación del Premio ARC, que probó una construcción anterior y más grande. El lanzamiento público "es un modelo diferente ... sintonizado para el uso de chat/producto", ARC Price Foundation publicó en X, y agregó que "todos los niveles de cómputo O3 lanzados son más pequeños que la versión que comparamos".

La empleada de Operai, Wenda Zhou, ofreció una explicación similar durante una transmisión en vivo la semana pasada. El sistema de producción, dijo, estaba "más optimizado para los casos de uso del mundo real" y la velocidad. "Hemos hecho [optimizaciones] para que el modelo sea más rentable [y] más útil en general", dijo Zhou, al tiempo que reconoce posibles "disparidades".

Dos modelos más pequeños de la compañía, O3 -Mini -Aligh y el recientemente anunciado O4 -Mini, ya vencieron a O3 en Frontiermath, y OpenAi dice que una mejor variante de O3 -Pro llegará en las próximas semanas.

Aún así, muestra cómo los titulares de referencia pueden ser engañosos. En enero, Epoch fue criticada por retrasar la divulgación de fondos de Operai hasta después del debut de O3. Más recientemente, la startup Xai de Elon Musk fue acusada de presentar cuadros que exageraban las capacidades de su modelo Grok 3.

Los observadores de la industria dicen que tales controversias de referencia se están convirtiendo en una ocurrencia en la industria de la IA a medida que las empresas corren para capturar los titulares con nuevos modelos.

Academia Cryptopolitan: ¿Cansado de columpios del mercado? Aprenda cómo DeFi puede ayudarlo a generar ingresos pasivos constantes. Registrarse ahora

Descargo de responsabilidad: Sólo con fines informativos. Rentabilidades pasadas no son indicativas de resultados futuros.
placeholder
¿Es el momento de invertir en yuanes? La gran oportunidad de ChinaLa economía china está creciendo a un ritmo muy superior al de Europa y, sobre todo, al de Estados Unidos. ¿Es el momento ideal para invertir en yuanes?
Autor  Mitrade Team
29 de jun de 2023
La economía china está creciendo a un ritmo muy superior al de Europa y, sobre todo, al de Estados Unidos. ¿Es el momento ideal para invertir en yuanes?
placeholder
El precio de Solana podría alcanzar los tres dígitos en 2024, un analista comparte una visión alcista sobre SOLEl volumen mensual de Solana supera los 6.000 millones de dólares, lo que soporta la actual recuperación del precio de SOL. El analista de criptomonedas Altcoin Sherpa predijo una subida masiva del precio de SOL en 2024. El precio de SOL podría retroceder por debajo de los 50$, antes de volver a subir.
Autor  FXStreet
27 de nov de 2023
El volumen mensual de Solana supera los 6.000 millones de dólares, lo que soporta la actual recuperación del precio de SOL. El analista de criptomonedas Altcoin Sherpa predijo una subida masiva del precio de SOL en 2024. El precio de SOL podría retroceder por debajo de los 50$, antes de volver a subir.
placeholder
Predicción del precio de Ripple: ¿Es posible una ruptura a 3$ mientras XRP se dispara más del 10% en una semana?El precio de Ripple (XRP) avanza y cotiza a 2.15$ durante la primera sesión europea del lunes. El token mantuvo una perspectiva alcista durante todo el fin de semana tras recuperar el soporte por encima de 2.00$ el viernes.
Autor  FXStreet
4 Mes 14 Día Lun
El precio de Ripple (XRP) avanza y cotiza a 2.15$ durante la primera sesión europea del lunes. El token mantuvo una perspectiva alcista durante todo el fin de semana tras recuperar el soporte por encima de 2.00$ el viernes.
placeholder
El Banco Central Europeo se dispone a recortar las tasas de interés nuevamente en medio de la inflación en descenso y la incertidumbre sobre arancelesEl Banco Central Europeo (BCE) anunciará su decisión sobre las tasas de interés de abril el jueves a las 12:15 GMT. Los mercados esperan ampliamente que el banco central reduzca las tasas clave por sexta vez consecutiva.
Autor  FXStreet
4 Mes 17 Día Jue
El Banco Central Europeo (BCE) anunciará su decisión sobre las tasas de interés de abril el jueves a las 12:15 GMT. Los mercados esperan ampliamente que el banco central reduzca las tasas clave por sexta vez consecutiva.
placeholder
Rusia considera la emisión de Stablecoin similar a Tether a raíz de $ 30 millones de congelación de USDTEl Ministerio de Finanzas en Moscú ahora está considerando la creación de una criptomoneda rusa similar al Tether (USDT) de los Estados Unidos (USDT), informaron los medios locales. La propuesta de emitir un establo doméstico se produce después de que el mes pasado bloqueó miles de millones de rublos de activos criptográficos en billeteras en un intercambio ruso sancionado.
Autor  Cryptopolitan
4 Mes 18 Día Vie
El Ministerio de Finanzas en Moscú ahora está considerando la creación de una criptomoneda rusa similar al Tether (USDT) de los Estados Unidos (USDT), informaron los medios locales. La propuesta de emitir un establo doméstico se produce después de que el mes pasado bloqueó miles de millones de rublos de activos criptográficos en billeteras en un intercambio ruso sancionado.
goTop
quote