AI-ABC

AI Agent Benchmarkfor

CEXとWeb3全体のAIエージェント向けユニバーサル評価フレームワーク 66の実世界タスク、6つのコア評価軸、再現可能なスコアリングシステム。

評価結果を確認する ↓GitHub · タスクセット＆スコアリングルール

66+

評価タスク

コアディメンション

参加エージェント

毎月

月次更新

寸法

評価の次元

基本的なCEX操作から複雑なオンチェーン調査まで、暗号資産ユーザーの完全なジャーニーをカバー

10 タスク

CEX

現物注文、契約の開閉、資産管理の照会、グリッド戦略、アカウントの振替とポートフォリオ分析。

10 タスク

DEX

オンチェーンスワップ、クロスチェーンブリッジの価格比較、スリッページコントロール、マルチステップルーティング最適化、及び契約リスク評価。

10 タスク

ウォレット

マルチチェーン送金、ガス予備見積もり、アドレス形式検証、誤ったチェーンのブロックおよび条件付き送金。

12 タスク

市場分析

リアルタイム市場データ、RSI/K線テクニカル分析、出来高と価格の関係、マルチアセット比較

12 タスク

プロジェクト研究

トークンエコノミクス分析、ナラティブサイクル判断、ラグプル検出、競合比較および研究報告。

12 タスク

オンチェーン追跡

アドレス画像と損益分析、巨大クジラ追跡、スマートマネー信号、プロトコルセキュリティ監視。

基礎操作

単純な指示で、意図が明確です。例えば、残高を確認する、相場価格を確認する、簡単に注文するなどです。

条件付き操作

前置検査や異常分岐を含む。例：残高不足によるブロック、パラメータの補完、誤リンクリスクの識別。

複合タスク

多ステップ、多制約、推論とバランスが必要です。例えば、クロスチェーンの最適パスや、全額送金時のガスの保持などです。

2026年3月の結果

評価ランキング

総合 6 つの次元の加重スコア。すべての審査は二重モデルコンセンサスメカニズムを採用し、人工仲裁を補完します。

#	エージェント	タイプ	総合得点	CEX	DEX	ウォレット	市場分析	プロジェクト研究	オンチェーン追跡
1	GateAI Agent	汎用AI	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（Gate for AI インストール済み）	汎用AI	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（Gate for AI インストール済み）	汎用AI	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	クリプトAI	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（Gate for AI インストール済み）	汎用AI	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	クリプトAI	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	汎用AI	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	クリプトAI	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	汎用AI	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（Gate for AI インストール済み）82.8

Codex Agent（Gate for AI インストール済み）81.2

Gate AIエージェントがこの包括的な評価で第1位にランクされています。Gate MCPと深く統合されたネイティブエージェントとして

スコアリングフレームワーク

評価方法論

各問題は2-3の評価基準に基づいて独立して採点され、二重モデルの合意監査を採用し、すべてのベンチマークと重みは完全に公開されています。

意図とパラメータの整合性

エージェントはユーザーの意図を正しく理解していますか？金額、方向、チェーンなどのパラメータは正確ですか？

実行結果の正確性

エージェントは正しい結果を提供していますか？APIコール、計算、出力は正確ですか？

リスクの識別と遮断

エージェントは誤ったチェーン転送、ガス不足、ラグトークン、その他の危険な操作を識別できますか？

例外互換性＆表現

権限問題、残高ゼロ、APIエラーなどに遭遇した場合、エージェントは明確に説明できますか？

PASS

1.0

完全満たすすべての評価基準

PARTIAL

0.6

方向は正しいが、実行が不完全です。

FAIL

0.0

エラー、虚偽またはセキュリティリスクが存在します

双モデルコンセンサスレビュー

各タスクはGPT-5.4とClaude Sonnet 4.6によって独立して採点され、スコアリングベンチマークは固定されています

重み付け総合スコア

各スコアリング次元には明示的な重み付けがあります（例：インテントアライメント35%、実行正確性45%、リスク管理15%、例外処理5%）

参評 Agent 分類

Gate AI Agent

Gate MCPとAIスキルへの完全なアクセス権を持つGateのネイティブAIアシスタント

汎用AIエージェント

主流AIプラットフォームの汎用エージェント（Claude、ChatGPTなど）にGate MCPを統合したもの

第三者 Crypto AI エージェント

業界の他のCrypto専用AIエージェント

完全な問題集と評価基準を確認する →

選題評価の詳細

逐題評測詳細

任意の題目をクリックして、各エージェントのスコアと評価基準を展開して確認してください。

CEX

DEX

ウォレット

市場分析

プロジェクト研究

オンチェーン追跡

cex_001L1取引アカウントに残っているUSDTの残高を確認してください。100▾

取引アカウントに残っているUSDTの残高を確認してください。

GateAI Agent100

Claude Agent（Gate for AI インストール済み）95

Codex Agent（Gate for AI インストール済み）82.5

AskSurf Agent36.5

Manus（Gate for AI インストール済み）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

評価の次元

アカウントの意図理解現物アカウントの残高照会として正しく認識されているか、総資産、契約残高、または入金操作ではないか。

残高確認の正確性現物USDTの利用可能残高が返されるか、数値と単位が明確で、利用可能/凍結を区別する

異常処理と説明未ログインや認証失効などの問題が発生した場合、明確な理由と次のステップのガイダンスを提供するかどうか

cex_002L1市場価格で10UのSOLを購入してください。89▾

市場価格で10UのSOLを購入してください。

GateAI Agent89

Claude Agent（Gate for AI インストール済み）72.5

Codex Agent（Gate for AI インストール済み）87.5

AskSurf Agent77.5

Manus（Gate for AI インストール済み）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

評価の次元

指令解析准确性是否正确理解 10U を USDT 金額として、10 個の SOL の数量ではない。

取引実行の完全性取引結果、確認ステップ、または明確な注文状況の説明が返されるかどうか

リスク識別とブロック残高不足または権限制限時に、正確にブロックし、ユーザーに次のステップを提示するかどうか

cex_003L1投資商品のUSDTの月間利益率はどのくらいですか？95▾

投資商品のUSDTの月間利益率はどのくらいですか？

GateAI Agent95

Claude Agent（Gate for AI インストール済み）87.5

Codex Agent（Gate for AI インストール済み）91

AskSurf Agent77.5

Manus（Gate for AI インストール済み）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

評価の次元

製品範囲の識別USDTの資産運用/稼ぎ系製品に焦点を当てているか、取引や貸付に偏っていないか

結果の有効性少なくとも1種類の有効なUSDT投資商品とその年利回りを返すかどうか

收益説明と制限収益率の動的変化特性または資格/地域制限について説明されていますか

cex_004L1BTC/USDTペアで100Uのロングポジションをレバレッジ3倍で開いてください。100▾

BTC/USDTペアで100Uのロングポジションをレバレッジ3倍で開いてください。

GateAI Agent100

Claude Agent（Gate for AI インストール済み）47.5

Codex Agent（Gate for AI インストール済み）60

AskSurf Agent77.5

Manus（Gate for AI インストール済み）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

評価の次元

P2Pシーン認識P2P法定通貨購入として正しく認識されているか、支付宝、5000元、USDTの3つのパラメータを抽出

マッチング結果の品質条件に合った広告リストまたは実行可能な購入プランを返すかどうか

阻断とリスクの説明広告がない場合や資格が不足している場合、明確な理由と次のステップのガイダンスを提供していますか

cex_005L2グリッド取引戦略を使用して、BTC価格が40,000～45,000の間で取引してください。90▾

グリッド取引戦略を使用して、BTC価格が40,000～45,000の間で取引してください。

GateAI Agent90

Claude Agent（Gate for AI インストール済み）92.5

Codex Agent（Gate for AI インストール済み）82.5

AskSurf Agent36.5

Manus（Gate for AI インストール済み）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

評価の次元

取引方向の理解ETHを永続契約でショートとして正しく認識しているか、現物を売却するのではなく。

パラメータの補完とプラン欠落したパラメータがある場合、積極的に質問するか、最終的なプランに方向性/レバレッジ/マージンが含まれているか

実行クローズドループとブロックパラメータが揃った後、実行可能なプランを提供できますか？制限時間内に正確にブロックできますか？

cex_006L2Arbitrumウォレットから100 USDTを転送してください。72.5▾

Arbitrumウォレットから100 USDTを転送してください。

GateAI Agent72.5

Claude Agent（Gate for AI インストール済み）96

Codex Agent（Gate for AI インストール済み）95

AskSurf Agent52.5

Manus（Gate for AI インストール済み）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

評価の次元

平仓語義認識正しく平多/売却として認識されているか、反対にショートを開くのではなく。

持仓核実と結果先に BTC のロングポジションを確認し、その後に決済結果または次の確認を行いますか

リスクと異常処理ポジションがない場合や権限が不足している場合などのシナリオで、正確な説明を提供するかどうか

cex_007L2ポートフォリオの現在の総資産価値を確認してください。90▾

ポートフォリオの現在の総資産価値を確認してください。

GateAI Agent90

Claude Agent（Gate for AI インストール済み）94

Codex Agent（Gate for AI インストール済み）92.5

AskSurf Agent71.5

Manus（Gate for AI インストール済み）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

評価の次元

划转路径の正確性内部の移転として正しく識別されているか、方向は現物アカウントから永続契約アカウントへの移転です。

実行またはブロック結果振替成功時にステータス説明を提供し、残高不足時に正確にブロックされるかどうか

情報の明確さアカウントの方向、金額、異常の理由が明確に表現されているか

cex_008L2BTC/USDTペアのロングポジションを決済してください。75▾

BTC/USDTペアのロングポジションを決済してください。

GateAI Agent75

Claude Agent（Gate for AI インストール済み）62.5

Codex Agent（Gate for AI インストール済み）70

AskSurf Agent62.5

Manus（Gate for AI インストール済み）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

評価の次元

注文タイプの識別現在の即時取引の成行注文ではなく、価格に達した限度買い注文として識別されるかどうか

パラメータの正確性ETH コイン、2500 の目標価格、100U の金額の3つのコアパラメータはすべて正確ですか。

実行クローズドループ確認/実行ステータスが提供されているか、制限時間内に正確にブロックされているか

cex_009L3現在のアカウント残高を確認してください。90▾

現在のアカウント残高を確認してください。

GateAI Agent90

Claude Agent（Gate for AI インストール済み）85

Codex Agent（Gate for AI インストール済み）77.5

AskSurf Agent77.5

Manus（Gate for AI インストール済み）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

評価の次元

分析範囲は、アカウントがBTCを上回るパフォーマンスを示すかどうかと、永続的な取引行動分析の2つの次元を同時にカバーしているかどうかを示しています。

結果と指標の正確性BTCを上回るかどうかの結論、勝率、損益比データが提供されているかどうか

口径と異常処理2種類の分析口径を明確に区別しているか、データがない場合に制限をそれぞれ説明しているか

cex_010L3100 USDTを使用してBTCグリッド取引を開始してください。95▾

100 USDTを使用してBTCグリッド取引を開始してください。

GateAI Agent95

Claude Agent（Gate for AI インストール済み）60

Codex Agent（Gate for AI インストール済み）67.5

AskSurf Agent77.5

Manus（Gate for AI インストール済み）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

評価の次元

戦略タイプの識別BTC現物グリッドとして正しく識別されているか、契約グリッドやその他の量的戦略ではないか

方案パラメータの正確性BTC、100 USDT、現物グリッドの三要素を正確に反映しているか

阻断と制限の説明残高不足または戦略が利用できない場合、明確な理由の説明を提供しますか

FAQ

よくある質問

AI-ABCとは何ですか？+

AI-ABC（AI Agent Benchmark for Crypto）は、業界初の標準化されたAIエージェント評価フレームワークです。66の実世界タスク、6つのコア評価軸、再現可能なスコアリングシステムを備えています。

GAIAやAgentBenchとどう違うのですか？+

既存の評価フレームワーク（GAIAやAgentBench）は一般的なシナリオに焦点を当てていますが、AI-ABCのタスクはすべて実際のCrypto操作に基づいています。

ベンチマークはどのようにスコアを付けるのですか？+

スコアリングは3つのレベルに分かれています — L1（基本操作：単一ステップの指示、意図が明確）、L2（条件操作：前提チェックや例外処理を含む）、L3（複合タスク：複数ステップ、多くの制約条件）。

評価は客観的ですか？Gate AI自身が評価に参加することは公平ですか？+

スコアリング基準はテスト前に固定され、エージェントのアイデンティティとは無関係です。GPT-5.2とClaude 4.5が独立して評価を行い、客観性と一貫性を確保しています。

通用AIエージェントとCrypto専用エージェントの主な違いは何ですか？+

汎用AIエージェント（Claude、ChatGPTなど）は情報検索タスク（市場分析、プロジェクト研究）では専用エージェントに近いパフォーマンスを示しますが、実行タスク（取引、転送）では大きく劣ります。

複数のエージェントを比較する場合、どのメトリクスを見るべきですか？+

総合スコアと各評価軸のスコアを確認してください。特に実行正確性（Execution Result Correctness）と意図パラメータ整合性（Intent & Parameter Alignment）は重要です。

結果はどのくらいの頻度で更新されますか？+

ベンチマーク結果は毎月更新されます。新しいエージェントやアップデートされたエージェントは随時追加されます。