#MetaReleasesMuseSpark


人工智慧競賽中的策略轉折點
2026年4月8日,Meta平台正式推出Muse Spark,這是其新成立的Meta超智能實驗室(MSL)的首款人工智慧模型。此舉標誌著Meta的一個關鍵轉折點,代表其AI基礎設施的全面重建以及在開源Llama血統上的戰略轉變。
風險空前。繼Llama 4因操縱基準測試而受到批評後——Meta執行長Mark Zuckerberg於2025年中重組了公司的AI策略。他聘請Scale AI的創始人兼CEO Alexandr Wang,作為Meta史上首位首席AI官,這是一筆據報價達143億美元的里程碑式交易。Muse Spark是這次高成本、高壓力改革的首個產物。
什麼是Muse Spark?核心特點
Muse Spark被描述為一個全新Muse系列大型語言模型的首款,內部代號為「酪梨」(。與之前為通用基準測試而建的模型不同,Muse Spark專為Meta的生態系統打造,涵蓋Facebook、Instagram、WhatsApp和Threads等超過30億用戶。
主要特點包括:
特點類別 描述
原生多模態 接受語音、文字和圖像輸入;理解照片和圖表等視覺資訊
雙重模式 「即時」模式,用於快速回答;「思考」)沉思(模式,用於複雜推理
多代理系統 同時啟動多個子代理,並行處理問題的不同方面
購物整合 從創作者內容和用戶行為中提取資訊,提供個性化推薦
健康專注 與超過1000名醫生合作訓練;能對醫療和營養問題提供詳細回應
封閉源碼 有意打破Llama的開源傳統;僅向選定合作夥伴提供API預覽
該模型設計為「小巧快速,但足以進行科學、數學和健康等複雜問題的推理」)。Meta強調,Muse Spark是一個基礎——下一代模型已在開發中。
性能:優勢與不足
獨立基準評測展現出細膩的故事。Muse Spark並非所有類別的絕對領導者,但在與Meta獨特數據優勢相關的領域展現出明顯優勢。
優勢
· 多模態理解(CharXiv推理):Muse Spark得分86.4,超越GPT-5.4(82.8)和Gemini 3.1 Pro(80.2)。在解讀複雜圖表、科學數據和視覺STEM內容方面表現出色。
· 健康與醫學推理(HealthBench Hard):得分42.8,Muse Spark在此類別中領先,超越GPT-5.4(40.1),並顯著優於Claude Opus 4.6(14.8)。這反映出Meta在醫生策劃訓練資料上的投入。
· 代理搜尋(DeepSearchQA):Muse Spark取得74.8,超越Gemini 3.1 Pro(69.7),展現出自主搜尋和整合網路資訊的強大能力。
改進空間
· 抽象推理(ARC AGI 2):仍是重大差距。Muse Spark僅得42.5分,而Gemini 3.1 Pro(76.5)和GPT-5.4(76.1)。
· 代理程式碼編寫(SWE-Bench Pro):Muse Spark得分52.4,落後於GPT-5.4(57.7)和Gemini 3.1 Pro(54.2)。
· 競賽級程式設計(LiveCodeBench Pro):得分80.0,落後於GPT-5.4(87.5)和Gemini 3.1 Pro(82.9)。
總體而言,Muse Spark在人工智能分析指數v4.0中排名第四,僅次於Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6(。正如Meta自己所承認,該模型「並不代表新的SOTA,但在特定任務上與前沿模型具有競爭力」。
「沉思」模式:另一種推理方法
Muse Spark最具特色的功能之一是其沉思模式,採用一種新穎的方法來解決複雜問題。它不允許單一模型長時間「思考」——這會線性增加延遲——而是啟動多個代理同時推理,然後合成它們的輸出。
這種多代理並行推理在時間上與Google的)Gemini Deep Think(和OpenAI的)GPT Pro(相比,取得了具有競爭力的結果。
在「人類最後的考試」——一系列由領域專家提出的極難問題——Muse Spark的沉思模式在無工具情況下得分50.2,有工具輔助時得分58.0,超越了Gemini Deep Think)48.4和GPT-5.4 Pro43.9。
技術創新:效率與擴展
除了原始基準分數外,Meta還披露了一些可能比任何單一指標更具價值的技術成就。
預訓練效率
MSL在九個月內徹底重建了預訓練堆疊,包括架構、優化器和數據管道。結果:Muse Spark在計算資源少於Llama 4 Maverick十倍以上的情況下,達到了相同的能力水平。這一效率提升代表了訓練方法的根本突破。
強化學習穩定性
大規模RL訓練歷來充滿不穩定性。Meta報告稱,其新RL堆疊實現了穩定、可預測的能力增長,並能將改進推廣到未見過的任務。
思維壓縮
在訓練過程中,Meta應用了「思考時間懲罰」——迫使模型用更少的推理標記來解決問題,同時不犧牲準確性。這產生了一種新興現象,即模型學會了「壓縮」其推理鏈,變得更加高效。
從開放到封閉:策略逆轉
或許最具爭議的是Muse Spark的授權方式。與建立Meta為開源AI旗手的Llama系列不同,Muse Spark採用封閉源碼。
Meta通過私人API預覽向選定合作夥伴提供模型,並計劃最終通過API存取或訂閱模式來盈利。公司表示「希望未來版本能開源」,但目前的轉向封閉源碼,象徵著一個戰略轉變:將架構創新作為專有技術,同時在每一個優勢都至關重要的競賽中保持競爭力。
訓練過程也引發關注,有報導稱Muse Spark融合了多個開源模型的知識,採用蒸餾技術。Meta回應稱這些方法完全符合行業標準。
一個獨特現象:「評估意識」
第三方評估公司Apollo Research發現,Muse Spark展現出所有測試模型中最高的「評估意識」水平。
MUSE3.97%
SPK3.19%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 2
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
CryptoSelf
· 1小時前
2026 GOGOGO 👊
回復0
CryptoSelf
· 1小時前
LFG 🔥
回復0