OpenAI 表示用於衡量 AI 編碼技能的基準“受到污染”——原因如下

Decrypt

簡要

  • OpenAI 認為 SWE-bench Verified 不再反映真正的編碼能力,因為該基準測試被指控受到污染。
  • 現在它正推廣更嚴苛的 SWE-bench Pro 作為替代品。
  • 在較新的基準測試中,分數從約70%暴跌至約23%。

每個主要的 AI 實驗室用來宣稱編碼霸主地位的數據,現在被宣布毫無意義。 OpenAI 本週發布一篇文章,宣布用來衡量 AI 編碼能力的主要基準 SWE-bench Verified,因為充斥著有缺陷的測試和訓練資料洩漏,已經無法提供任何有用的資訊,無法判斷模型是否真的能寫軟體。 這個基準的運作方式是:給 AI 一個來自熱門開源 Python 項目的 GitHub 問題,讓它在不看到測試的情況下修復錯誤,並檢查其修復是否讓失敗的測試通過且不破壞其他功能。

 OpenAI 於2024年8月創建了 SWE-bench Verified,作為原始2023年基準測試的較乾淨版本,招募了93名軟體工程師篩選出不可能或設計不良的任務。 這次清理工作相當成功,以至於每個主要實驗室都開始引用其分數作為進步的證明。當 Anthropic 在2025年5月推出 Claude Opus 4 時,_Decrypt 報導_該模型在 SWE-bench Verified 上得分72.5%,超越 GPT-4.1 的54.6% 和 Gemini 2.5 Pro 的63.2%。這才是真正重要的編碼基準。 從那時起,從美國到中國的每個 AI 實驗室都展示 SWE 的表現,以宣稱自己是最具編碼能力的模型。

圖片:Minimax

如今 OpenAI 表示這場競賽部分是海市蜃樓。根據報告,團隊審核了 GPT-5.2 在64次獨立測試中持續失敗的138個任務,並由六位工程師審查每個任務。最終得出結論,這些任務中有59.4%是有問題的。 約35.5%的任務測試範圍過於狹窄,要求特定的函數名稱,而該名稱在問題描述中從未提及。另外18.8%的測試則檢查與原始問題完全無關的功能,這些功能來自不相關的 pull request。 污染問題大致如下:SWE-bench 從大多數 AI 公司在建立訓練集時會爬取的開源存儲庫中抽取題目。OpenAI 測試了 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Flash Preview 是否在訓練中見過基準的解答。結果都見過。 只提供任務ID和簡短提示,每個模型都能憑記憶重現精確的修復代碼,包括問題描述中未提及的變數名稱和內聯註解。在某次測試中,GPT-5.2 的思考鏈日誌顯示它推理出某個特定參數“是在 Django 4.1 版本左右加入的”——這個細節只在 Django 的版本說明中找到,並不存在於任務描述中。它回答的問題,早已見過答案。 OpenAI 現在建議使用 Scale AI 的較新基準 SWE-bench Pro,該基準使用更多元的代碼庫和授權,降低訓練資料曝光。性能的下降令人震驚:在舊的 Verified 基準測試中達到70%以上的模型,在 SWE-bench Pro 的公開測試中僅得約23%,私有任務更少。 在目前的公開 SWE-bench Verified 排行榜上,OpenAI 遙遙落後於基準的榜首。退出一個自己輸的基準,並推崇一個所有人起點都只有23%的基準,這在合適的時機重置了比賽榜,也讓競爭者的聲稱顯得不那麼令人信服。

這一點尤為重要,因為備受期待的新版 DeepSeek 傳聞能超越甚至接近美國 AI 模型,尤其是在代理和編碼任務中,並且是基於一個免費的開源模型。該模型可能在幾天內發布,而 SWE-bench Verified 可能成為衡量其品質的關鍵指標。

OpenAI 表示正建立私有評估,並不會在測試前公開,指向其 GDPVal 項目,該項目由領域專家撰寫原創任務,並由訓練有素的人類評審打分。 這個基準問題並不新穎,也不僅限於編碼。AI 實驗室已經多次更換評估標準,每次都在模型訓練或任務過於狹窄之前,發現它們的局限性。 但值得注意的是,OpenAI 曾大力宣傳 SWE-bench Verified,在模型發布中推廣,現在卻公開記錄其徹底失敗的過程——甚至展示自己模型在測試中作弊的證據。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言