Openai最新的LLM O3在Independent 測試發現它解決的嚴重數學問題要比該公司最初聲稱的要少得多。
當Openai於12月宣佈O3時,高管們說,該模型可以回答“ Frontiermath的第四個問題”,這是衆所周知的一組研究生級數學難題。
他們補充說,最好的競爭對手被困在接近2%。 “今天,所有產品都少於2%,”首席研究官Mark Chen在O3和O3迷你直播。 “我們看到的是,O3處於積極的測試時間計算設置中,我們能夠獲得超過25%。”
TechCrunch報告說,該結果是由Openai在O3版本上獲得的,該版本使用的計算能力比公司上週發佈的模型更多.
星期五,創建Frontiermath的研究所時代的AI爲公共O3發佈了自己的成績。
Openai與O4-Mini一起發佈了O3,這是O4-Mini,這是一個成功的O3 Mini模型。
我們評估了數學和科學基準套件的新模型。導致線程! pic.twitter.com/5gbtzkey1b
- Epoch AI(@epochairesearch) 2025年4月18日
使用基準的290個問題的更新版本,Epoch將模型的限制約爲10%。
結果確實與OpenAI的12月技術論文中的較低型數字相匹配,時代警告說,差異可能是由於各種原因所致。
寫道 “我們的結果與OpenAI之間的差異可能是由於使用更強大的內部支架,使用更多的測試時間計算,或者是因爲這些結果是在前面的另一個子集上運行的,” Epoch。
Frontiermath旨在衡量高級MathematicAl推理的進步。 2024年12月的公共場合包含180個問題,而2025年2月的私人更新將池擴展到290。
問題列表中的變化和測試時間允許的計算能力量可能會導致報告百分比的大幅波動。
ARC獎基金會的測試也來自於較早的構建,這也來自ARC獎基金會的測試。 發佈的ARC Price Foundation發佈了公共發行的“是另一個用於聊天/產品使用”的模型,並補充說:“所有已發佈的O3計算層都比我們基準的版本小。”
Openai員工Wenda Zhou在上週的直播中也提供了類似的解釋。他說,生產系統“針對現實世界的用例更優化”和速度。周說:“我們已經進行了[優化],以使模型更具成本效益,並且一般而言。”同時承認可能的基準“差異”。
該公司的兩個較小型號,O3 -Mini -High和新宣佈的O4 -Mini,已經在Frontiermath上擊敗O3,Openai表示,未來幾周將有更好的O3 -Pro變體。
儘管如此,它表明了基準標題如何誤導。一月份,Epoch因將OpenAI資金披露推遲到O3首次亮相後而受到批評。最近,埃隆·馬斯克(Elon Musk)的創業公司XAI被指控展示了誇大其Grok 3模型功能的圖表。
行業觀察家說,隨着公司爭奪新車型的頭條新聞,這種基準爭議已成爲AI行業的一個發生。
密碼大都會學院:厭倦了市場波動?瞭解DeFi幫助您建立穩定的被動收入。立即註冊