跨越 CEX 和 Web3 的通用 AI 代理評估框架 66 個真實場景任務、6 個核心評估維度、可重現的評分框架
涵蓋完整的 Crypto 用戶旅程 — 從基本的 CEX 操作到複雜的鏈上調查,全部基於真實場景。
現貨交易、期貨開平、收益農業查詢、網格策略、帳戶轉帳和投資組合分析。
鏈上交換、跨鏈橋接定價、滑點控制、多跳路由優化和合約風險評估。
多鏈轉帳、燃氣估算、地址格式驗證、錯誤鏈防止和條件轉帳。
實時市場數據、RSI/K 線技術分析、成交量-價格關係、多資產比較和波動率分析。
代幣經濟學分析、敘事週期評估、地毯拉動檢測、競爭分析和研究報告。
地址分析和損益分析、鯨魚追蹤、聰明錢信號和協議安全監控。
單步指令,意圖明確。示例:餘額查詢、價格檢查、簡單訂單。
包括前置檢查或異常處理。示例:餘額不足檢測、參數補全、錯誤鏈風險識別。
多步驟、多約束任務,需要推理和權衡。示例:最優跨鏈路徑、完整轉帳並保留燃氣。
跨 6 個維度的加權分數。所有評估使用雙模型共識和人工仲裁。
| # | 代理 | 類型 | 總分 | CEX | DEX | 錢包 | 市場分析 | 項目研究 | 鏈上追蹤 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GateAI Agent | 通用 AI | 83.1 | 89.7 | 82.4 | 61.5 | 86.8 | 92.3 | 83.5 |
| 2 | Claude Agent(Gate for AI installed) | 通用 AI | 82.8 | 79.2 | 81.6 | 82.2 | 83.2 | 89.6 | 79.9 |
| 3 | Codex Agent(Gate for AI installed) | 通用 AI | 81.2 | 80.6 | 72.8 | 79 | 81.5 | 86.8 | 84.4 |
| 4 | AskSurf Agent | Crypto AI | 77.5 | 75.8 | 75.8 | 57.5 | 83.7 | 95.4 | 83 |
| 5 | Manus(Gate for AI installed) | 通用 AI | 74.3 | 74.5 | 74.5 | 77.3 | 73.7 | 78.4 | 68.1 |
| 6 | Binance Agent | Crypto AI | 70.1 | 59.7 | 72.3 | 63.9 | 69.4 | 80.3 | 72.6 |
| 7 | Claude Agent | 通用 AI | 68.2 | 59.4 | 58.6 | 59 | 73.1 | 80.9 | 73.6 |
| 8 | Bitget Agent | Crypto AI | 62.2 | 66.1 | 44.5 | 48.9 | 72 | 80.3 | 57.2 |
| 9 | Codex Agent | 通用 AI | 52.2 | 51.4 | 46.5 | 55 | 60.4 | 57 | 42.4 |
Gate AI 代理在此綜合評估中排名第一。作為與交易所深度集成的原生代理,它在三個核心維度上排名第一:CEX 交易、DEX 交易和市場分析。 此評估包括 9 個代理,任務涵蓋 6 個主要場景:CEX 交易、DEX 交易、錢包操作、市場分析、鏈上調查和項目研究。評分使用雙模型共識和人工仲裁。Gate AI 代理在此框架下的表現代表了其 Web3 原生能力的完整驗證。
每個任務在 2-3 個維度上獨立評分,使用雙模型共識審查。所有基準和權重完全透明。
代理是否正確理解用戶意圖?金額、方向、交易對等參數是否準確解析?是否有誤解(例如,將 10U 與 10 SOL 混淆)?
代理是否提供正確的結果?API 調用、計算和輸出是否準確完整?是否有虛構數據或虛假執行聲稱?
代理是否能識別錯誤鏈轉帳、燃氣不足、地毯拉動代幣和其他危險操作?當條件不滿足時,是否正確阻止而不是強制執行?
遇到權限問題、零餘額、API 錯誤等時,代理是否能清楚解釋原因並提供後續步驟?
每個任務由 GPT-5.4 和 Claude Sonnet 4.6 獨立評分,評分基準在測試前固定,與代理身份無關。取平均分以避免單一模型偏差。
每個評分維度有明確的權重(例如意圖對齐 35%、執行正確性 45%、安全處理 20%),聚合為任務分數,然後按維度合併為代理複合分數。
Gate 的原生 AI 助手,具有對 Gate MCP 和 AI 技能的完全訪問權限
主流 AI 平台的通用代理(例如 Claude、ChatGPT)安裝了 Gate MCP
業界其他 Crypto 專用 AI 代理
點擊任何任務以展開並查看每個代理的分數和評分維度。