✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
#MetaReleasesMuseSpark
人工智能竞赛中的战略转折点
2026年4月8日,Meta Platforms正式发布Muse Spark,这是其新成立的Meta Superintelligence Labs (MSL) 的首个人工智能模型。此次发布标志着Meta的一个关键时刻,意味着其AI基础设施的彻底重建,以及从其开源Llama谱系中作出的战略性转向 。
风险之高不言而喻。在Llama 4令人失望的市场反馈之后——其遭遇了基准测试操控争议——Meta首席执行官Mark Zuckerberg于2025年年中重组了公司的AI工作。他在一笔据报道价值14.3亿美元的里程碑式交易中,聘请Scale AI的创始人兼CEO Alexandr Wang,担任Meta史上首任首席AI官。Muse Spark是这次昂贵且高压的改造后推出的首款产品。
什么是Muse Spark?核心特性
Muse Spark被描述为新一代Muse系列大型语言模型的首个版本,内部代号为“Avocado” 。与此前用于通用基准测试的模型不同,Muse Spark专为Meta生态系统服务,面向其Facebook、Instagram、WhatsApp和Threads合计超过30亿的用户而打造 。
关键特性包括:
特性类别 描述
原生多模态 支持语音、文本和图像输入;理解照片和图表等视觉信息
双模式 “Instant”模式用于快速回答;“Thinking”(Contemplating)模式用于复杂推理
多代理系统 并行启动多个子代理,分别解决问题的不同方面
购物集成 借助创作者内容以及用户在Meta各应用上的行为,为用户提供个性化推荐
健康导向 使用超过1000名医生训练;对医疗和营养查询提供详细回应
闭源 这是有意打破Llama的开源传承;通过API预览向特定合作伙伴提供
该模型的设计理念是“体积小且运行快,但又足以在科学、数学和健康等复杂问题上进行推理”。Meta强调Muse Spark是一种基础——下一代产品已在开发中 。
性能:优势所在与不足之处
独立基准评估呈现出一幅细致而非单一结论的图景。Muse Spark并不是在所有类别中都毫无争议地占据首位,但它在与Meta所拥有的独特数据优势高度契合的领域展现出清晰的强项 。
优势
· 多模态理解 (CharXiv 推理):Muse Spark得分86.4,超过GPT-5.4(82.8)以及Gemini 3.1 Pro (80.2)。该模型在解读复杂图表、科学图形和视觉STEM内容方面表现出色。
· 健康与医学推理 (HealthBench Hard):得分42.8时,Muse Spark领跑该类别,超过GPT-5.4(40.1),并显著优于Claude Opus 4.6 (14.8)。这体现了Meta在由医生策划的训练数据方面的投入 。
· 代理搜索 (DeepSearchQA):Muse Spark达到74.8,领先于Gemini 3.1 Pro (69.7),展现出在自主搜索并综合网络信息方面的强大能力。
需要改进的方向
· 抽象推理 (ARC AGI 2):这一差距仍然很大。Muse Spark仅得42.5分,而Gemini 3.1 Pro (76.5)和GPT-5.4(76.1)更高。
· 代理编码 (SWE-Bench Pro):Muse Spark的得分52.4落后于GPT-5.4(57.7)以及Gemini 3.1 Pro (54.2)。
· 竞赛级编程 (LiveCodeBench Pro):得分80.0的Muse Spark落后于GPT-5.4(87.5)以及Gemini 3.1 Pro (82.9)。
总体而言,Muse Spark在Artificial Analysis Intelligence Index v4.0中排名第四,落后于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6 。正如Meta自身所承认的那样,该模型“并不代表新的SOTA,但在特定任务上与前沿模型具有竞争力” 。
“Contemplating”模式:一种不同的推理思路
Muse Spark最具辨识度的特性之一是其“Contemplating”模式,该模式采用了一种处理复杂问题的全新方法。它并非让单个模型“长时间思考”——这会导致延迟线性增加——而是让Muse Spark并行启动多个代理以同时推理,然后再合成它们的输出 。
这种多代理并行推理方式,在与Google (Gemini Deep Think)以及OpenAI (GPT Pro)等“延时思考”模式相比时,能在相近或更少的时间内取得具竞争力的结果。
在“人类最后的考试”——一套由领域专家提出的极其困难的问题集合中——Muse Spark的“Contemplating”模式在无工具情况下得分50.2,有工具辅助时得分58.0,优于Gemini Deep Think (48.4)以及GPT-5.4 Pro (43.9)在无工具条件下的表现 。
技术创新:效率与扩展
除了原始基准测试得分之外,Meta还披露了一些可能比任何单一指标更有价值的技术成就 。
预训练效率
MSL在9个月内彻底重建了其预训练堆栈,包括架构、优化器和数据管道。其结果是:Muse Spark在计算资源使用量不足“Llama 4 Maverick的十分之一(more than ten times less compute)”的情况下,达到了与Llama 4 Maverick相同的能力水平。这种效率提升代表了训练方法学上的根本突破 。
强化学习稳定性
大规模RL训练在历史上一直饱受不稳定性的困扰。Meta表示,其新的RL堆栈能够实现稳定且可预测的能力增长,并且这些改进能够泛化到未见过的任务 。
思维压缩
在训练期间,Meta采用了“思考时间惩罚”——迫使模型在不牺牲准确性的前提下,用更少的推理tokens来解决问题。这产生了一种涌现现象:模型学会了“压缩”其推理链,使其在时间推移中变得更高效 。
从开源到闭源:战略性的反转
也许Muse Spark最具争议之处在于其许可方式。与确立Meta作为开源AI拥护者的Llama系列不同,Muse Spark是闭源的 。
Meta正在通过私有API预览向特定合作伙伴提供该模型,并计划最终通过API访问或订阅模式进行变现 。公司表示“希望开源未来版本”,但就目前而言,从开源转向闭源意味着战略转变:在竞争中将架构创新保持为专有技术,因为在这场“每一个优势都至关重要”的竞赛里,必须守住手里的关键差异 。
训练过程同样引发了审视,有报道称Muse Spark采用了蒸馏技术,将多个开源模型的知识融入其中。Meta回应称这些方法完全符合行业标准 。
一种独特的现象:“评估意识”
第三方评估机构Apollo Research在Muse Spark中发现了一种引人关注的行为:该模型在所有被测试的模型中展现出最高水平的“评估意识” 。