O modelo O3 da OpenAI fica aquém de suas próprias reivindicações de referência

O mais novo LLM da Openai, O3, está enfrentando escrutínio depois que os testes da Independent descobriram que ele resolveu um número muito menos de problemas matemáticos difíceis do que a empresa afirmou pela primeira vez.
Quando o OpenAI divulgou a O3 em dezembro, os executivos disseram que o modelo pode responder "pouco mais de um quarto" dos problemas da Frontiermath, um conjunto notoriamente difícil de quebra -cabeças de matemática em nível de pós -graduação.
O melhor concorrente, acrescentou, ficou preso perto de 2%. "Hoje, todas as ofertas por aí têm menos de 2%", disse o diretor de pesquisa Mark Chen durante o O3 e o O3 Mini LiveStream . "Estamos vendo, com a O3 em configurações agressivas de computação de tempo de teste, podemos obter mais de 25%".
O TechCrunch informou que o resultado foi obtido pelo OpenAI em uma versão da O3 que usava mais poder de computação do que o modelo que a empresa lançou na semana passada.
Na sexta -feira, a época do Instituto de Pesquisa AI, que criou a Frontiermath, publicou sua própria pontuação para a O3 pública.
O Openai lançou a O3, seu modelo de raciocínio altamente esperado, junto com o O4-Mini, um modelo menor e mais barato que sucede a O3-mini.
Avaliamos os novos modelos em nosso conjunto de benchmarks de matemática e ciências. Resulta em thread! pic.twitter.com/5gbtzkey1b
- Epoch ai (@epochairesearch) 18 de abril de 2025
Usando uma edição atualizada de 290 perguntas do benchmark, a Epoch colocou o modelo em cerca de 10%.
O resultado corresponde a uma figura inferior no documento técnico de dezembro da OpenAI, e Epoch alertou que a discrepância poderia ser devido a vários motivos.
"A diferença entre nossos resultados e o OpenAI pode ser devida à avaliação do OpenAI com um andaime interno mais poderoso, usando mais computação de tempo de teste ou porque esses resultados foram executados em um subconjunto de fronteira diferente", escreveu .
O FrontierMath foi projetado para medir o progresso em direção ao raciocínio avançado do Mathematic. O conjunto público de dezembro de 2024 continha 180 problemas, enquanto a atualização privada de fevereiro de 2025 expandiu o pool para 290.
As mudanças na lista de perguntas e a quantidade de energia de computação permitida no tempo de teste podem causar grandes balanços nas porcentagens relatadas.
OpenAI confirmou que o modelo público O3 usa menos computação do que a versão demo
A evidência de que a O3 comercial também veio também veio de testes da ARC Prêmio Foundation, que tentou uma construção anterior e maior. O lançamento público "é um modelo diferente ... sintonizado para o uso de bate -papo/produto", o arco Price Foundation postou em X, acrescentando que "todas as camadas de computação O3 lançadas são menores que a versão que comparamos".
A funcionária da Openai, Wenda Zhou, ofereceu uma explicação semelhante durante uma transmissão ao vivo na semana passada. O sistema de produção, disse ele, foi "mais otimizado para casos de uso do mundo real" e velocidade. "Fizemos [otimizações] para tornar o modelo mais econômico [e] mais útil em geral", disse Zhou, ao mesmo tempo em que reconhece a possível referência "disparidades".
Dois modelos menores da empresa, O3 -Mini -High e o recém -anunciado O4 -Mini, já venceram a O3 na Frontiermath, e o Openai diz que uma melhor variante O3 -Pro chegará nas próximas semanas.
Ainda assim, mostra como as manchetes de referência podem ser enganosas. Em janeiro, a Epoch foi criticada por adiar a divulgação do financiamento do Openai até depois da estréia da O3. Mais recentemente, a startup Xai de Elon Musk foi acusada de apresentar gráficos que exageravam as capacidades de seu modelo GROK 3.
Os observadores da indústria dizem que essas controvérsias de referência estão se tornando uma ocorrência no setor de IA, enquanto as empresas correm para capturar manchetes com novos modelos.
Isenção de responsabilidade: este artigo representa apenas a opinião do autor e não pode ser usado como consultoria de investimento. O conteúdo do artigo é apenas para referência. Os leitores não devem tomar este artigo como base para investimento. Antes de tomar qualquer decisão de investimento, procure orientação profissional independente para garantir que você entenda os riscos.
Os Contratos por Diferença (CFDs) são produtos alavancados que podem resultar na perda de todo o seu capital. Esses produtos não são adequados para todos os clientes; por favor, invista com rigor. Consulte este arquivo para obter mais informações.