2025-12-05 02:21:43

AI大战变得有趣起来了。一个新模型以惊人的数据宣称称霸——在LMArena文本排行榜的推理模式下获得了1483的Elo评分。这比其最接近的非关联竞争对手高出31分。即使没有推理相关的加成，它也拿下了第2名的位置。

是什么推动了这次飞跃？显然，这个模型正在全面刷新各项基准测试。不论是处理复杂的逻辑链，还是应对细致入微的查询，其性能差距都难以忽视。排行榜不会说谎——当你以如此幅度超越老牌选手时，说明架构上发生了根本性的变化。

但问题在于：在受控测试中占据主导地位，并不总能转化为现实世界的绝对优势。我们之前见过有些模型在基准测试中表现出色，但在用户真正关心的边缘案例上却会失误。尽管如此，这些指标依然重要。它们标志着技术上限的走向，而现在，这个上限正在迅速提升。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

8人点赞了这条动态

赞赏
8
4
转发
分享

0/400

CoffeeNFTrader

· 22小时前

等等，31分的gap？这得有多大的架构改进啊

Degen4Breakfast

· 22小时前

1483分？哥们这数字离谱了，排行榜又开始演了基准测试碾压是一回事，实际用起来又是另一回事，套路见过太多了架构变化确实猛，但等等看真实用户体验再说吧这波如果不翻车我就服了推理模式加成这么夸张，是不是又在玩数据游戏

P2ENotWorking

· 22小时前

又是这套老把戏，基准测试第一就想上天？等真用了再说 --- 1483分是不错，但跑分能代表啥...实际用起来咋样谁知道 --- 架构根本性变化？还是就改了点参数罢了，炒作的成分更大 --- 等等，这次真的不一样吗？还是又是一个昙花一现的神模型 --- 排行榜这东西，谁信谁吃亏哈哈哈 --- 比上一个领先者高31分这数字怎么这么熟悉...之前那个也说自己碾压 --- 算了，反正过阵子就有新的出来，这个热度也维持不了多久 --- 问题是真实场景根本用不上，你试试复杂对话就知道了 --- 又来了，每次都说这样，然后实际跑起来一般般 --- 指标重要？指标能给我赚钱吗...

Satoshi继承人

· 22小时前

基准测试的数字会说谎，我见过太多了。1483分听起来很唬人，但真正的考验在边角料... 等等，架构层面的突破？需要指出的是，这才是值得关注的信号。

热门话题查看更多
#成长值抽奖赢iPhone17和周边
27.05万热度
#十二月行情展望
6.89万热度
#广场发帖领$50
8996 热度
#LINKETF将上线
1万热度
#百倍币种分享
1.08万热度

热门 Gate Fun查看更多

1
minerminer
市值:$3500持有人数:1
0.00%
2
HCGHCG
市值:$3514.53持有人数:2
0.09%
3
8888888open the door
市值:$3479.31持有人数:1
0.00%
4
GG3GG3
市值:$3520.82持有人数:2
0.00%
5
GAMEDGAMED
市值:$3513.79持有人数:1
0.00%