AI-ABC

AI Agent Benchmarkfor

跨越 CEX 和 Web3 的通用 AI 代理評估框架 66 個真實場景任務、6 個核心評估維度、可重現的評分框架

查看結果 ↓GitHub · 任務集 & 評分規則

66+

基準測試任務

核心評估維度

參與評估的代理

每月

更新

評估維度

涵蓋完整的 Crypto 用戶旅程 — 從基本的 CEX 操作到複雜的鏈上調查，全部基於真實場景。

10 個任務

CEX

現貨交易、期貨開平、收益農業查詢、網格策略、帳戶轉帳和投資組合分析。

10 個任務

DEX

鏈上交換、跨鏈橋接定價、滑點控制、多跳路由優化和合約風險評估。

10 個任務

錢包

多鏈轉帳、燃氣估算、地址格式驗證、錯誤鏈防止和條件轉帳。

12 個任務

市場分析

實時市場數據、RSI/K 線技術分析、成交量-價格關係、多資產比較和波動率分析。

12 個任務

項目研究

代幣經濟學分析、敘事週期評估、地毯拉動檢測、競爭分析和研究報告。

12 個任務

鏈上追蹤

地址分析和損益分析、鯨魚追蹤、聰明錢信號和協議安全監控。

基本操作

單步指令，意圖明確。示例：餘額查詢、價格檢查、簡單訂單。

條件操作

包括前置檢查或異常處理。示例：餘額不足檢測、參數補全、錯誤鏈風險識別。

複雜任務

多步驟、多約束任務，需要推理和權衡。示例：最優跨鏈路徑、完整轉帳並保留燃氣。

2026 年 3 月結果

排行榜

跨 6 個維度的加權分數。所有評估使用雙模型共識和人工仲裁。

#	代理	類型	總分	CEX	DEX	錢包	市場分析	項目研究	鏈上追蹤
1	GateAI Agent	通用 AI	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（Gate for AI installed）	通用 AI	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（Gate for AI installed）	通用 AI	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	Crypto AI	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（Gate for AI installed）	通用 AI	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	Crypto AI	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	通用 AI	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	Crypto AI	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	通用 AI	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（Gate for AI installed）82.8

Codex Agent（Gate for AI installed）81.2

Gate AI 代理在此綜合評估中排名第一。作為與交易所深度集成的原生代理，它在三個核心維度上排名第一：CEX 交易、DEX 交易和市場分析。此評估包括 9 個代理，任務涵蓋 6 個主要場景：CEX 交易、DEX 交易、錢包操作、市場分析、鏈上調查和項目研究。評分使用雙模型共識和人工仲裁。Gate AI 代理在此框架下的表現代表了其 Web3 原生能力的完整驗證。

評分框架

評估方法論

每個任務在 2-3 個維度上獨立評分，使用雙模型共識審查。所有基準和權重完全透明。

意圖與參數對齐

代理是否正確理解用戶意圖？金額、方向、交易對等參數是否準確解析？是否有誤解（例如，將 10U 與 10 SOL 混淆）？

執行結果正確性

代理是否提供正確的結果？API 調用、計算和輸出是否準確完整？是否有虛構數據或虛假執行聲稱？

風險識別與防止

代理是否能識別錯誤鏈轉帳、燃氣不足、地毯拉動代幣和其他危險操作？當條件不滿足時，是否正確阻止而不是強制執行？

異常相容性與表達

遇到權限問題、零餘額、API 錯誤等時，代理是否能清楚解釋原因並提供後續步驟？

PASS

1.0

完全符合所有評分標準

PARTIAL

0.6

方向正確但執行不完整

FAIL

0.0

錯誤、虛構或安全風險

雙模型共識審查

每個任務由 GPT-5.4 和 Claude Sonnet 4.6 獨立評分，評分基準在測試前固定，與代理身份無關。取平均分以避免單一模型偏差。

加權複合評分

每個評分維度有明確的權重（例如意圖對齐 35%、執行正確性 45%、安全處理 20%），聚合為任務分數，然後按維度合併為代理複合分數。

參與評估的代理類別

Gate AI 代理

Gate 的原生 AI 助手，具有對 Gate MCP 和 AI 技能的完全訪問權限

通用 AI 代理

主流 AI 平台的通用代理（例如 Claude、ChatGPT）安裝了 Gate MCP

第三方 Crypto AI 代理

業界其他 Crypto 專用 AI 代理

查看完整任務集 & 評分規則 →

詳細分數

任務詳情

點擊任何任務以展開並查看每個代理的分數和評分維度。

CEX

DEX

錢包

市場分析

項目研究

鏈上追蹤

cex_001L1幫我看看我現貨賬戶裡還有多少 USDT100▾

幫我看看我現貨賬戶裡還有多少 USDT

GateAI Agent100

Claude Agent（Gate for AI installed）95

Codex Agent（Gate for AI installed）82.5

AskSurf Agent36.5

Manus（Gate for AI installed）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

評分維度

帳戶意圖理解是否正確識別為現貨帳戶餘額查詢，而非總資產、合約餘額或入金操作

餘額查詢準確性是否返回現貨 USDT 可用餘額，數值與單位清晰，區分可用/凍結

異常處理與說明遇到未登錄、授權失效等問題時，是否給出明確原因和下一步引導

cex_002L1市價買 10U 的 SOL89▾

市價買 10U 的 SOL

GateAI Agent89

Claude Agent（Gate for AI installed）72.5

Codex Agent（Gate for AI installed）87.5

AskSurf Agent77.5

Manus（Gate for AI installed）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

評分維度

指令解析準確性是否正確理解 10U 為 USDT 金額，而非 10 個 SOL 的數量

交易執行完整性是否返回成交結果、確認步驟或清晰的下單狀態說明

風險識別與阻斷餘額不足或權限受限時，是否準確阻斷並提示用戶下一步

cex_003L1USDT 的理財產品年化收益率是多少95▾

USDT 的理財產品年化收益率是多少

GateAI Agent95

Claude Agent（Gate for AI installed）87.5

Codex Agent（Gate for AI installed）91

AskSurf Agent77.5

Manus（Gate for AI installed）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

評分維度

產品範圍識別是否聚焦於 USDT 理財/賺幣類產品，而非偏向交易或借貸

結果有效性是否返回至少一類有效的 USDT 理財產品及其年化收益率

收益說明與限制是否說明收益率動態變化特性或資格/地區限制

cex_004L1幫我找個支持支付寶的賣家，買 5000 塊 USDT100▾

幫我找個支持支付寶的賣家，買 5000 塊 USDT

GateAI Agent100

Claude Agent（Gate for AI installed）47.5

Codex Agent（Gate for AI installed）60

AskSurf Agent77.5

Manus（Gate for AI installed）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

評分維度

P2P 場景識別是否正確識別為 P2P 法幣購幣，提取支付寶、5000 元、USDT 三個參數

匹配結果質量是否返回符合條件的廣告列表或可執行購買方案

阻斷與風險說明無廣告或資格不足時，是否給出清晰的原因和下一步引導

cex_005L2做空 ETH90▾

做空 ETH

GateAI Agent90

Claude Agent（Gate for AI installed）92.5

Codex Agent（Gate for AI installed）82.5

AskSurf Agent36.5

Manus（Gate for AI installed）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

評分維度

交易方向理解是否正確識別做空 ETH 為永續合約開空，而非賣出現貨

參數補全與方案缺失參數時是否主動追問，最終方案是否包含方向/槓桿/保證金

執行閉環與阻斷參數齊全後能否給出可執行方案，受限時是否準確阻斷

cex_006L2幫我平掉 BTC 的多單72.5▾

幫我平掉 BTC 的多單

GateAI Agent72.5

Claude Agent（Gate for AI installed）96

Codex Agent（Gate for AI installed）95

AskSurf Agent52.5

Manus（Gate for AI installed）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

評分維度

平倉語義識別是否正確識別為平多/賣出，而非反手開空

持倉核實與結果是否先查詢 BTC 多單持倉，再給出平倉結果或下一步確認

風險與異常處理無持倉或權限不足等場景下，是否給出準確說明

cex_007L2把現貨帳戶的 10 USDT 轉到永續合約帳戶90▾

把現貨帳戶的 10 USDT 轉到永續合約帳戶

GateAI Agent90

Claude Agent（Gate for AI installed）94

Codex Agent（Gate for AI installed）92.5

AskSurf Agent71.5

Manus（Gate for AI installed）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

評分維度

划轉路徑正確性是否正確識別為內部劃轉，方向為現貨賬戶轉永續合約賬戶

執行或阻斷結果劃轉成功時給出狀態說明，餘額不足時是否準確阻斷

信息清晰度帳戶方向、金額、異常原因是否表達清楚

cex_008L2ETH 跌到 2500 的時候買 100U75▾

ETH 跌到 2500 的時候買 100U

GateAI Agent75

Claude Agent（Gate for AI installed）62.5

Codex Agent（Gate for AI installed）70

AskSurf Agent62.5

Manus（Gate for AI installed）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

評分維度

訂單類型識別是否識別為到價限價買單，而非當前立即成交的市價單

參數正確性ETH 幣種、2500 目標價、100U 金額三個核心參數是否均準確

執行閉環是否給出確認/執行狀態，受限時是否準確阻斷

cex_009L3幫我分析一下我最近 30 天總賬戶有沒有跑贏 BTC，順便看下 USDT 永續的勝率和盈虧比。90▾

幫我分析一下我最近 30 天總賬戶有沒有跑贏 BTC，順便看下 USDT 永續的勝率和盈虧比。

GateAI Agent90

Claude Agent（Gate for AI installed）85

Codex Agent（Gate for AI installed）77.5

AskSurf Agent77.5

Manus（Gate for AI installed）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

評分維度

分析範圍覆蓋是否同時覆蓋帳戶跑贏 BTC 與永續交易行為分析兩個維度

結果與指標準確性是否給出是否跑贏 BTC 的結論，以及勝率和盈虧比數據

口徑與異常處理是否清楚區分兩類分析口徑，無數據時是否分別說明限制

cex_010L3用 100 美元 Tether 開啟 BTC 現貨網格95▾

用 100 美元 Tether 開啟 BTC 現貨網格

GateAI Agent95

Claude Agent（Gate for AI installed）60

Codex Agent（Gate for AI installed）67.5

AskSurf Agent77.5

Manus（Gate for AI installed）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

評分維度

策略類型識別是否正確識別為 BTC 現貨網格，而非合約網格或其他量化策略

方案參數正確性是否準確體現 BTC、100 USDT、現貨網格三要素

阻斷與限制說明餘額不足或策略不可用時，是否給出清晰的原因說明

常見問題

常见问题

什麼是 AI-ABC？+

AI-ABC（AI Agent Benchmark for Crypto）是業界首個標準化評估框架，專門針對加密資產場景。它包含 66 個真實場景任務、6 個核心評估維度和可重現的評分方法論。

這與 GAIA 和 AgentBench 有何不同？+

GAIA 和 AgentBench 等現有評估框架專注於一般場景，不涉及加密資產特定場景。AI-ABC 涵蓋 CEX 交易、DEX 交換、錢包操作、市場分析、鏈上追蹤和項目研究等真實加密資產用戶旅程。

此基準測試如何評分？+

每個任務在 2-3 個維度上獨立評分：意圖對齐（35%）、執行正確性（45%）、安全處理（20%）。使用 GPT-5.4 和 Claude Sonnet 4.6 的雙模型共識，評分基準在測試前固定。

評分標準是什麼？+

評分分為三個等級：通過（完全符合所有標準）、部分通過（方向正確但執行不完整）、失敗（錯誤、虛構或安全風險）。

評分是否客觀？Gate AI 參與是否公平？+

評分基準在測試前固定，與代理身份無關。評估使用獨立的雙模型評分。僅當模型不同意時進行人工仲裁，確保透明性。

難度級別是什麼？+

三個級別：L1（基本操作：單步、意圖明確）、L2（條件操作：包括前置檢查和異常分岐）、L3（複雜任務：多步驟、多個判斷點）

通用 AI 代理和 Crypto 專用 AI 代理的主要區別是什麼？+

通用 AI 代理（如 Claude 和 ChatGPT）在信息檢索任務中表現相當，但在執行任務（交易、轉帳等）中表現明顯落後。