O modelo O3 da OpenAI fica aquém de suas próprias reivindicações de referência

Cryptopolitan
Atualizado em
Mitrade Team
coverImg
Fonte: DepositPhotos

O mais novo LLM da Openai, O3, está enfrentando escrutínio depois que os testes da Independent descobriram que ele resolveu um número muito menos de problemas matemáticos difíceis do que a empresa afirmou pela primeira vez. 

Quando o OpenAI divulgou a O3 em dezembro, os executivos disseram que o modelo pode responder "pouco mais de um quarto" dos problemas da Frontiermath, um conjunto notoriamente difícil de quebra -cabeças de matemática em nível de pós -graduação.

O melhor concorrente, acrescentou, ficou preso perto de 2%. "Hoje, todas as ofertas por aí têm menos de 2%", disse o diretor de pesquisa Mark Chen durante o O3 e o O3 Mini LiveStream . "Estamos vendo, com a O3 em configurações agressivas de computação de tempo de teste, podemos obter mais de 25%".

O TechCrunch informou que o resultado foi obtido pelo OpenAI em uma versão da O3 que usava mais poder de computação do que o modelo que a empresa lançou na semana passada.

Na sexta -feira, a época do Instituto de Pesquisa AI, que criou a Frontiermath, publicou sua própria pontuação para a O3 pública.

Usando uma edição atualizada de 290 perguntas do benchmark, a Epoch colocou o modelo em cerca de 10%.

O resultado corresponde a uma figura inferior no documento técnico de dezembro da OpenAI, e Epoch alertou que a discrepância poderia ser devido a vários motivos.

"A diferença entre nossos resultados e o OpenAI pode ser devida à avaliação do OpenAI com um andaime interno mais poderoso, usando mais computação de tempo de teste ou porque esses resultados foram executados em um subconjunto de fronteira diferente", escreveu  .

O FrontierMath foi projetado para medir o progresso em direção ao raciocínio avançado do Mathematic. O conjunto público de dezembro de 2024 continha 180 problemas, enquanto a atualização privada de fevereiro de 2025 expandiu o pool para 290.

As mudanças na lista de perguntas e a quantidade de energia de computação permitida no tempo de teste podem causar grandes balanços nas porcentagens relatadas.

OpenAI confirmou que o modelo público O3 usa menos computação do que a versão demo

A evidência de que a O3 comercial também veio também veio de testes da ARC Prêmio Foundation, que tentou uma construção anterior e maior. O lançamento público "é um modelo diferente ... sintonizado para o uso de bate -papo/produto", o arco Price Foundation postou em X, acrescentando que "todas as camadas de computação O3 lançadas são menores que a versão que comparamos".

A funcionária da Openai, Wenda Zhou, ofereceu uma explicação semelhante durante uma transmissão ao vivo na semana passada. O sistema de produção, disse ele, foi "mais otimizado para casos de uso do mundo real" e velocidade. "Fizemos [otimizações] para tornar o modelo mais econômico [e] mais útil em geral", disse Zhou, ao mesmo tempo em que reconhece a possível referência "disparidades".

Dois modelos menores da empresa, O3 -Mini -High e o recém -anunciado O4 -Mini, já venceram a O3 na Frontiermath, e o Openai diz que uma melhor variante O3 -Pro chegará nas próximas semanas.

Ainda assim, mostra como as manchetes de referência podem ser enganosas. Em janeiro, a Epoch foi criticada por adiar a divulgação do financiamento do Openai até depois da estréia da O3. Mais recentemente, a startup Xai de Elon Musk foi acusada de apresentar gráficos que exageravam as capacidades de seu modelo GROK 3.

Os observadores da indústria dizem que essas controvérsias de referência estão se tornando uma ocorrência no setor de IA, enquanto as empresas correm para capturar manchetes com novos modelos.


Isenção de responsabilidade: este artigo representa apenas a opinião do autor e não pode ser usado como consultoria de investimento. O conteúdo do artigo é apenas para referência. Os leitores não devem tomar este artigo como base para investimento. Antes de tomar qualquer decisão de investimento, procure orientação profissional independente para garantir que você entenda os riscos.

 

Os Contratos por Diferença (CFDs) são produtos alavancados que podem resultar na perda de todo o seu capital. Esses produtos não são adequados para todos os clientes; por favor, invista com rigor. Consulte este arquivo para obter mais informações.


goTop
quote
Você achou este artigo útil?
Artigos Relacionados
placeholder
Tesla enfrenta “Code Red” como o papel do Doge de Musk Sparks Brand CrisisO analista da Tesla, Dan Ives, alertou os investidores no domingo que a empresa enfrenta um momento "Code Red", a menos que o executivo -chefe Elon Musk se afaste de suas controversas atividades do governo e volte sua atenção para a empresa. Em uma nota para os clientes da Wedbush Securities antes do relatório de ganhos do primeiro quarto da Tesla na terça -feira, Ives escreveu “Musk precisa […]
Autor  Cryptopolitan
1 hora atrás
O analista da Tesla, Dan Ives, alertou os investidores no domingo que a empresa enfrenta um momento "Code Red", a menos que o executivo -chefe Elon Musk se afaste de suas controversas atividades do governo e volte sua atenção para a empresa. Em uma nota para os clientes da Wedbush Securities antes do relatório de ganhos do primeiro quarto da Tesla na terça -feira, Ives escreveu “Musk precisa […]
placeholder
Warren Buffett acha que o caos do mercado é um presente para os investidores que mantêm a cabeça diretaWarren Buffett disse aos investidores que permanecessem calmos durante os períodos de pânico do mercado extremo e, agora, no meio de um dos períodos mais caóticos da memória recente, suas palavras estão sendo testadas novamente. O conselho veio pela primeira vez durante a reunião anual de Berkshire Hathaway em 1997, quando ele criou o colapso de 1974, um […]
Autor  Cryptopolitan
5 horas atrás
Warren Buffett disse aos investidores que permanecessem calmos durante os períodos de pânico do mercado extremo e, agora, no meio de um dos períodos mais caóticos da memória recente, suas palavras estão sendo testadas novamente. O conselho veio pela primeira vez durante a reunião anual de Berkshire Hathaway em 1997, quando ele criou o colapso de 1974, um […]
placeholder
Aqui estão todos os insiders de Trump que venderam bilhões em ações antes do anúncio tarifárioOs executivos de algumas das maiores empresas da América venderam bilhões de dólares em ações logo antes do anúncio tarifário de Trump chegar aos mercados. As negociações ocorreram durante o primeiro trimestre de 2025, à medida que a tensão construiu em torno da próxima jogada econômica da Casa Branca. De acordo com a Bloomberg, nomes como Mark Zuckerberg, Safra Catz e Jamie Dimon todos despejaram […]
Autor  Cryptopolitan
5 horas atrás
Os executivos de algumas das maiores empresas da América venderam bilhões de dólares em ações logo antes do anúncio tarifário de Trump chegar aos mercados. As negociações ocorreram durante o primeiro trimestre de 2025, à medida que a tensão construiu em torno da próxima jogada econômica da Casa Branca. De acordo com a Bloomberg, nomes como Mark Zuckerberg, Safra Catz e Jamie Dimon todos despejaram […]
placeholder
Dow Jones cai mais de 500 pontos com a queda da UnitedHealth, Trump critica Powell por atrasar cortesNa quinta-feira, o Dow Jones Industrial Average (DJIA) caiu mais de 500 pontos, ou mais de 1,30%, e as ações do UnitedHealth Group (UNH) despencaram 23% após uma perda de lucros e uma perspectiva pessimista para o ano inteiro.
Autor  FXStreet
4 Mês 18 Dia Sex
Na quinta-feira, o Dow Jones Industrial Average (DJIA) caiu mais de 500 pontos, ou mais de 1,30%, e as ações do UnitedHealth Group (UNH) despencaram 23% após uma perda de lucros e uma perspectiva pessimista para o ano inteiro.
placeholder
Aergo diminui mais de 65% após as alegações de manipulação BinanceO Aergo Price caiu 63% nas últimas 24 horas após uma série de ações controversas da Binance Exchange. A queda significativa ocorre depois que o Aergo registrou um ganho de 248,1% nos últimos 14 dias, um período durante o qual foi um dos principais desempenhos do mercado. O tempo suspeito desencadeia as alegações de manipulação do Aergo declínio de preços […]
Autor  Cryptopolitan
4 Mês 18 Dia Sex
O Aergo Price caiu 63% nas últimas 24 horas após uma série de ações controversas da Binance Exchange. A queda significativa ocorre depois que o Aergo registrou um ganho de 248,1% nos últimos 14 dias, um período durante o qual foi um dos principais desempenhos do mercado. O tempo suspeito desencadeia as alegações de manipulação do Aergo declínio de preços […]