去年12月初,OpenAGI基金会搞了个大动作——推出名叫Lux的基础模型。这玩意儿有点意思,号称是第一个专门让AI学会「像人一样点鼠标敲键盘」的开源方案。



简单说就是,以前AI再聪明也得靠API接口干活,现在Lux能直接操作软件界面了。他们拿300个日常任务场景做测试,结果挺能打:在Online-Mind2Web这个业内常用基准上跑出83.6%的成绩。

对比下就知道含金量——某搜索巨头的Gemini CUA拿了69%,某聊天机器人公司的Operator是61.3%,连某主打AI助手的厂商Claude Sonnet都没超过这个分数。

开源这条路确实有点东西,至少让更多开发者能摸到「AI自动操作电脑」这个方向的门槛了。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 6
  • 转发
  • 分享
评论
0/400
LiquidatedTwicevip
· 12小时前
靠,Lux这数据是真的假的,83.6%直接碾压Claude?有点离谱啊
回复0
做题家の困惑vip
· 12小时前
83.6%这数字有点吓人啊,感觉AI真的开始会"自己干活"了 --- 开源就是玩家的福音,之前这些东西都被大厂锁死了 --- 等等,Lux能直接操作界面?那我这行饭怎么吃啊 --- Claude Sonnet被干翻了,这就尴尬了 --- 300个任务场景测试出来的成绩能信吗,我怎么总觉得有水分 --- 果然还是得看开源方案,商业的AI一个比一个离谱 --- 点鼠标敲键盘听起来简单,但能落地成这样还是牛的 --- 这玩意儿要是成熟了,很多重复劳动直接没了吧
回复0
智能合约反叛者vip
· 12小时前
83.6%这数字确实离谱,直接吊打那些闭源的大厂方案 开源版本竟然能超过Claude,这说明什么?说明大厂们可能摸鱼了哈哈 真正让我好奇的是300个任务场景够不够真实...感觉还要时间检验 话说这种AI自动操作电脑的东西普及了,我们这帮搬砖的是要失业了吗 Lux这名字取得不错,听起来就很"光明",暗示开源要拯救世界是吧 基金会这次真没吹牛,数据摆在那儿,比官方发布会的PPT可信多了 感觉2024年的AI基准测试都快成笑话了,这个Lux冒出来直接改了排名
回复0
社区打工仔vip
· 12小时前
83.6%直接按死其他的,开源真的这么猛吗,我怎么感觉有点虚
回复0
SandwichVictimvip
· 12小时前
83.6%这数据是真的绝,直接压制Gemini和Claude,开源模型开始翻身了? --- 这真的是开源社区的胜利,终于有人把这事儿做出来了 --- 等等,能直接操作界面这不就是RPA的终极进化么,这要是铺开了感觉有点可怕诶 --- 比Claude Sonnet还猛?我怎么感觉这说法有点吹啊 --- 开源万岁,是时候让大厂垄断局面破一破了 --- 直接点鼠标敲键盘...这要真用起来,很多工作岗位得抖三抖
回复0
alpha_leakervip
· 12小时前
83.6% 直接干趴 Gemini 和 Claude,这开源猛啊,终于有人把 AI 操电脑这块搞出来了
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)