每個主要的 AI 實驗室用來宣稱編碼霸主地位的數據，現在被宣布毫無意義。 OpenAI 本週發布一篇文章，宣布用來衡量 AI 編碼能力的主要基準 SWE-bench Verified，因為充斥著有缺陷的測試和訓練資料洩漏，已經無法提供任何有用的資訊，無法判斷模型是否真的能寫軟體。這個基準的運作方式是：給 AI 一個來自熱門開源 Python 項目的 GitHub 問題，讓它在不看到測試的情況下修復錯誤，並檢查其修復是否讓失敗的測試通過且不破壞其他功能。

OpenAI 於2024年8月創建了 SWE-bench Verified，作為原始2023年基準測試的較乾淨版本，招募了93名軟體工程師篩選出不可能或設計不良的任務。這次清理工作相當成功，以至於每個主要實驗室都開始引用其分數作為進步的證明。當 Anthropic 在2025年5月推出 Claude Opus 4 時，_Decrypt 報導_該模型在 SWE-bench Verified 上得分72.5%，超越 GPT-4.1 的54.6% 和 Gemini 2.5 Pro 的63.2%。這才是真正重要的編碼基準。從那時起，從美國到中國的每個 AI 實驗室都展示 SWE 的表現，以宣稱自己是最具編碼能力的模型。

圖片：Minimax

如今 OpenAI 表示這場競賽部分是海市蜃樓。根據報告，團隊審核了 GPT-5.2 在64次獨立測試中持續失敗的138個任務，並由六位工程師審查每個任務。最終得出結論，這些任務中有59.4%是有問題的。約35.5%的任務測試範圍過於狹窄，要求特定的函數名稱，而該名稱在問題描述中從未提及。另外18.8%的測試則檢查與原始問題完全無關的功能，這些功能來自不相關的 pull request。污染問題大致如下：SWE-bench 從大多數 AI 公司在建立訓練集時會爬取的開源存儲庫中抽取題目。OpenAI 測試了 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Flash Preview 是否在訓練中見過基準的解答。結果都見過。只提供任務ID和簡短提示，每個模型都能憑記憶重現精確的修復代碼，包括問題描述中未提及的變數名稱和內聯註解。在某次測試中，GPT-5.2 的思考鏈日誌顯示它推理出某個特定參數“是在 Django 4.1 版本左右加入的”——這個細節只在 Django 的版本說明中找到，並不存在於任務描述中。它回答的問題，早已見過答案。 OpenAI 現在建議使用 Scale AI 的較新基準 SWE-bench Pro，該基準使用更多元的代碼庫和授權，降低訓練資料曝光。性能的下降令人震驚：在舊的 Verified 基準測試中達到70%以上的模型，在 SWE-bench Pro 的公開測試中僅得約23%，私有任務更少。在目前的公開 SWE-bench Verified 排行榜上，OpenAI 遙遙落後於基準的榜首。退出一個自己輸的基準，並推崇一個所有人起點都只有23%的基準，這在合適的時機重置了比賽榜，也讓競爭者的聲稱顯得不那麼令人信服。

這一點尤為重要，因為備受期待的新版 DeepSeek 傳聞能超越甚至接近美國 AI 模型，尤其是在代理和編碼任務中，並且是基於一個免費的開源模型。該模型可能在幾天內發布，而 SWE-bench Verified 可能成為衡量其品質的關鍵指標。

OpenAI 表示正建立私有評估，並不會在測試前公開，指向其 GDPVal 項目，該項目由領域專家撰寫原創任務，並由訓練有素的人類評審打分。這個基準問題並不新穎，也不僅限於編碼。AI 實驗室已經多次更換評估標準，每次都在模型訓練或任務過於狹窄之前，發現它們的局限性。但值得注意的是，OpenAI 曾大力宣傳 SWE-bench Verified，在模型發布中推廣，現在卻公開記錄其徹底失敗的過程——甚至展示自己模型在測試中作弊的證據。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言