OpenAI 推 GPT-5.5:12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準

鏈新聞abmedia

OpenAI 於 4/23 正式發布 GPT-5.5,定位為面向代理式(agentic)工作與企業知識處理的主力模型,同步登上 ChatGPT 與 Codex。官方宣傳定調為「我們最聰明、最直覺易用的模型」,AA Intelligence Index 以 60 分登頂,領先 Claude Opus 4.7 與 Gemini 3.1 Pro Preview 各 3 分。

關鍵數據一覽

指標 GPT-5.5 對照(GPT-5.4 或同級競品) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0(命令列工作流) 82.7% GPT-5.4:75.1% Expert-SWE(OpenAI 內部程式評估) 73.1% GPT-5.4:68.5% 脈絡視窗 1,200 萬 tokens 大幅提升,可處理整個企業程式庫或數小時影片 價格(每百萬 token) 輸入 5 美元、輸出 30 美元 GPT-5.4 的 2 倍單價;但輸出 token 使用量降約 40%,淨成本上升約 20%

定位:為「Agent 時代」設計

OpenAI 將 GPT-5.5 描述為代理式運算的基礎模型,能理解複雜目標、使用工具、自我檢查工作成果,並能把多步任務跑到完成而無需人類在每一步介入。根據 TechCrunch 採訪,總裁 Greg Brockman 形容此版本是「邁向未來運算的一大步,但只是一步」,並強調它「相較 5.4 是更快、更銳利的推理者,使用的 token 更少」。

首席科學家 Jakub Pachocki 指出,「我們在短期內看到非常顯著的提升」;研究長 Mark Chen 則強調本次版本在「科學與技術研究工作流上帶來有意義的突破」。

供應範圍與版本分層

GPT-5.5:Plus、Pro、Business、Enterprise 用戶在 ChatGPT 與 Codex 中可使用

GPT-5.5 Pro:Pro、Business、Enterprise 用戶在 ChatGPT 中可使用的更高階推理版本

Codex 整合:同步可用於 OpenAI 的程式代理工具,強化多檔案編輯、命令列與測試迴圈

資安與國防論述同步升高

技術團隊成員 Mia Glaese 在接受 TechCrunch 訪問時表示,GPT-5.5 的資安能力將對 OpenAI「部署模型投入數位防禦的方式產生重大影響」。這個論述與 Anthropic 近期圍繞 Claude Mythos 武器級資安模型的爭議形成直接對照——Altman 先前才於《Core Memory》節目批評 Anthropic 的「恐懼行銷」策略。OpenAI 在 GPT-5.5 上更強調「攻守兼備、可部署」的論述,意在與 Anthropic 限制存取的立場拉開差異。

價格策略變化

GPT-5.5 的每百萬 token 價格翻倍至輸入 5 美元、輸出 30 美元,這是 GPT-5 系列首次出現單價顯著上升的世代。OpenAI 的解釋是:模型在推理效率上可減少 40% 左右的輸出 token 使用,因此典型任務的實際帳單約比 GPT-5.4 高 20%,而非單純 2 倍。對企業來說,決策因此從「單價是否划算」轉向「在同一 prompt 下,GPT-5.5 能否在 Token 總量更少的情況下完成更複雜任務」。

對產業的訊號

GPT-5.5 把 OpenAI 在 Terminal-Bench 與內部 SWE 評估的差距拉大,這兩個基準分別測試命令列代理執行與實際軟體工程任務——對 Codex 與 Claude Code 的正面對抗而言,是更直接的分數戰場。加上同步開放 1,200 萬 tokens 脈絡視窗,OpenAI 對「企業知識庫全量處理」與「長任務代理」兩條賽道同時加壓。對 Anthropic 而言,Claude Opus 4.7 在 AA 指數以 57 分落後 3 分,對 Claude Code 使用者而言也多一個理由觀察下一世代(Opus 4.8 或新一代 Claude)的進度。

這篇文章 OpenAI 推 GPT-5.5:12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

OKX 推出用於 AI 商業週期的代理支付協議

加密貨幣交易所 OKX 於週三推出其代理付款協議 (APP),這是一種開放標準,旨在支援 AI 代理在超越單純付款的情況下,完成完整的商業流程。根據 OKX 的說法,該協議讓 AI 機器人能夠在處理報價時進行「為服務付款並彼此付款」,

Crypto Frontier3小時前

AI 金融平台 Rogo 在不到 3 個月內完成 B 輪融資,由 Kleiner Perkins 領投

根據 Beating 的說法,為高頻金融情境而設計的 AI 平台 Rogo 於 2026 年 4 月完成了一輪 $160 百萬美元的 B 輪融資,由 Kleiner Perkins 領投,並有 Sequoia、Thrive Capital、Khosla Ventures 以及 J.P. Morgan 參與。本輪融資在該公司於 1 月下旬完成 百萬美元的 C 輪融資後不到三個月,使總融資額超過 百萬美元。 Rogo 同步推出 Felix,這是一個面向金融專業人士的 AI 代理平台。該平台使投資銀行家與分析師能夠將金融建模、報表分析與簡報製作等多步任務委派給 Felix,從而騰出時間投入高槓桿的客戶工作。目前,該平台已被超過 35,000 名專業人士使用,覆蓋超過 250 家頂級投資銀行、資產管理公司以及私募股權公司。

GateNews9小時前

部分 CEX 推出 Agent Payments Protocol,支援 4 種付款模式,包含 9 個合作夥伴(含以太坊基金會)

根據官方消息,主要加密貨幣交易所已於 4 月 29 日推出 Agent Payments Protocol (APP),這是一項用於 AI 代理(AI Agent)商業交易的開放式支付標準。該協議使 AI 代理能夠在多條區塊鏈上處理單筆付款、批次付款、按使用量計費的付款以及託管付款

GateNews9小時前

China Blocks Meta-Backed Manus AI Acquisition on April 29, Citing Tech and Data Security Concerns

According to PANews, on April 29, China's National Development and Reform Commission investment security review office banned a foreign acquisition of the Manus project and required the transaction be terminated. Manus, billed as the world's first general artificial intelligence agent, had

GateNews10小時前

KITE AI Mainnet Launches on Avalanche on April 29 as Purpose-Built AI Agent Blockchain

According to Altcoin Buzz, KITE AI mainnet launched on Avalanche on April 29, introducing a dedicated Layer 1 blockchain designed for autonomous AI agents. The platform integrates identity and native payment capabilities to enable AI agents to operate, transact, and scale without friction. Avalanch

GateNews13小時前

B.AI 與 deBridge 攜手打造 AI Agent 的跨鏈基礎設施

根據 ChainCatcher,B.AI 和 deBridge 於 4 月 29 日宣布建立策略夥伴關係,旨在開發以意圖驅動的跨鏈基礎設施。該合作的目標是為可擴展的 AI Agent 經濟提供順暢的跨鏈執行。deBridge 的 0-TVL 模型與免 Gas 的跨鏈技術將支援該夥伴關係在高效、安全的自主交易系統方面的發展,並在 AI Agent 時代加速跨鏈執行。

GateNews14小時前
留言
0/400
暫無留言