AI大战变得有趣起来了。一个新模型以惊人的数据宣称称霸——在LMArena文本排行榜的推理模式下获得了1483的Elo评分。这比其最接近的非关联竞争对手高出31分。即使没有推理相关的加成,它也拿下了第2名的位置。



是什么推动了这次飞跃?显然,这个模型正在全面刷新各项基准测试。不论是处理复杂的逻辑链,还是应对细致入微的查询,其性能差距都难以忽视。排行榜不会说谎——当你以如此幅度超越老牌选手时,说明架构上发生了根本性的变化。

但问题在于:在受控测试中占据主导地位,并不总能转化为现实世界的绝对优势。我们之前见过有些模型在基准测试中表现出色,但在用户真正关心的边缘案例上却会失误。尽管如此,这些指标依然重要。它们标志着技术上限的走向,而现在,这个上限正在迅速提升。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 4
  • 转发
  • 分享
评论
0/400
CoffeeNFTradervip
· 22小时前
等等,31分的gap?这得有多大的架构改进啊
回复0
Degen4Breakfastvip
· 22小时前
1483分?哥们这数字离谱了,排行榜又开始演了 基准测试碾压是一回事,实际用起来又是另一回事,套路见过太多了 架构变化确实猛,但等等看真实用户体验再说吧 这波如果不翻车我就服了 推理模式加成这么夸张,是不是又在玩数据游戏
回复0
P2ENotWorkingvip
· 22小时前
又是这套老把戏,基准测试第一就想上天?等真用了再说 --- 1483分是不错,但跑分能代表啥...实际用起来咋样谁知道 --- 架构根本性变化?还是就改了点参数罢了,炒作的成分更大 --- 等等,这次真的不一样吗?还是又是一个昙花一现的神模型 --- 排行榜这东西,谁信谁吃亏哈哈哈 --- 比上一个领先者高31分这数字怎么这么熟悉...之前那个也说自己碾压 --- 算了,反正过阵子就有新的出来,这个热度也维持不了多久 --- 问题是真实场景根本用不上,你试试复杂对话就知道了 --- 又来了,每次都说这样,然后实际跑起来一般般 --- 指标重要?指标能给我赚钱吗...
回复0
Satoshi继承人vip
· 22小时前
基准测试的数字会说谎,我见过太多了。1483分听起来很唬人,但真正的考验在边角料... 等等,架构层面的突破?需要指出的是,这才是值得关注的信号。
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)