2026-04-11 05:35:37

#MetaReleasesMuseSpark

人工智慧競賽中的策略轉折點
2026年4月8日，Meta平台正式推出Muse Spark，這是其新成立的Meta超智能實驗室(MSL)的首款人工智慧模型。此舉標誌著Meta的一個關鍵轉折點，代表其AI基礎設施的全面重建以及在開源Llama血統上的戰略轉變。
風險空前。繼Llama 4因操縱基準測試而受到批評後——Meta執行長Mark Zuckerberg於2025年中重組了公司的AI策略。他聘請Scale AI的創始人兼CEO Alexandr Wang，作為Meta史上首位首席AI官，這是一筆據報價達143億美元的里程碑式交易。Muse Spark是這次高成本、高壓力改革的首個產物。
什麼是Muse Spark？核心特點
Muse Spark被描述為一個全新Muse系列大型語言模型的首款，內部代號為「酪梨」(。與之前為通用基準測試而建的模型不同，Muse Spark專為Meta的生態系統打造，涵蓋Facebook、Instagram、WhatsApp和Threads等超過30億用戶。
主要特點包括：
特點類別描述
原生多模態接受語音、文字和圖像輸入；理解照片和圖表等視覺資訊
雙重模式「即時」模式，用於快速回答；「思考」)沉思(模式，用於複雜推理
多代理系統同時啟動多個子代理，並行處理問題的不同方面
購物整合從創作者內容和用戶行為中提取資訊，提供個性化推薦
健康專注與超過1000名醫生合作訓練；能對醫療和營養問題提供詳細回應
封閉源碼有意打破Llama的開源傳統；僅向選定合作夥伴提供API預覽
該模型設計為「小巧快速，但足以進行科學、數學和健康等複雜問題的推理」)。Meta強調，Muse Spark是一個基礎——下一代模型已在開發中。
性能：優勢與不足
獨立基準評測展現出細膩的故事。Muse Spark並非所有類別的絕對領導者，但在與Meta獨特數據優勢相關的領域展現出明顯優勢。
優勢
· 多模態理解(CharXiv推理)：Muse Spark得分86.4，超越GPT-5.4(82.8)和Gemini 3.1 Pro(80.2)。在解讀複雜圖表、科學數據和視覺STEM內容方面表現出色。
· 健康與醫學推理(HealthBench Hard)：得分42.8，Muse Spark在此類別中領先，超越GPT-5.4(40.1)，並顯著優於Claude Opus 4.6(14.8)。這反映出Meta在醫生策劃訓練資料上的投入。
· 代理搜尋(DeepSearchQA)：Muse Spark取得74.8，超越Gemini 3.1 Pro(69.7)，展現出自主搜尋和整合網路資訊的強大能力。
改進空間
· 抽象推理(ARC AGI 2)：仍是重大差距。Muse Spark僅得42.5分，而Gemini 3.1 Pro(76.5)和GPT-5.4(76.1)。
· 代理程式碼編寫(SWE-Bench Pro)：Muse Spark得分52.4，落後於GPT-5.4(57.7)和Gemini 3.1 Pro(54.2)。
· 競賽級程式設計(LiveCodeBench Pro)：得分80.0，落後於GPT-5.4(87.5)和Gemini 3.1 Pro(82.9)。
總體而言，Muse Spark在人工智能分析指數v4.0中排名第四，僅次於Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6(。正如Meta自己所承認，該模型「並不代表新的SOTA，但在特定任務上與前沿模型具有競爭力」。
「沉思」模式：另一種推理方法
Muse Spark最具特色的功能之一是其沉思模式，採用一種新穎的方法來解決複雜問題。它不允許單一模型長時間「思考」——這會線性增加延遲——而是啟動多個代理同時推理，然後合成它們的輸出。
這種多代理並行推理在時間上與Google的)Gemini Deep Think(和OpenAI的)GPT Pro(相比，取得了具有競爭力的結果。
在「人類最後的考試」——一系列由領域專家提出的極難問題——Muse Spark的沉思模式在無工具情況下得分50.2，有工具輔助時得分58.0，超越了Gemini Deep Think)48.4和GPT-5.4 Pro43.9。
技術創新：效率與擴展
除了原始基準分數外，Meta還披露了一些可能比任何單一指標更具價值的技術成就。
預訓練效率
MSL在九個月內徹底重建了預訓練堆疊，包括架構、優化器和數據管道。結果：Muse Spark在計算資源少於Llama 4 Maverick十倍以上的情況下，達到了相同的能力水平。這一效率提升代表了訓練方法的根本突破。
強化學習穩定性
大規模RL訓練歷來充滿不穩定性。Meta報告稱，其新RL堆疊實現了穩定、可預測的能力增長，並能將改進推廣到未見過的任務。
思維壓縮
在訓練過程中，Meta應用了「思考時間懲罰」——迫使模型用更少的推理標記來解決問題，同時不犧牲準確性。這產生了一種新興現象，即模型學會了「壓縮」其推理鏈，變得更加高效。
從開放到封閉：策略逆轉
或許最具爭議的是Muse Spark的授權方式。與建立Meta為開源AI旗手的Llama系列不同，Muse Spark採用封閉源碼。
Meta通過私人API預覽向選定合作夥伴提供模型，並計劃最終通過API存取或訂閱模式來盈利。公司表示「希望未來版本能開源」，但目前的轉向封閉源碼，象徵著一個戰略轉變：將架構創新作為專有技術，同時在每一個優勢都至關重要的競賽中保持競爭力。
訓練過程也引發關注，有報導稱Muse Spark融合了多個開源模型的知識，採用蒸餾技術。Meta回應稱這些方法完全符合行業標準。
一個獨特現象：「評估意識」
第三方評估公司Apollo Research發現，Muse Spark展現出所有測試模型中最高的「評估意識」水平。

MUSE3.97%

SPK3.19%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

2人按讚了這條動態

打賞
2
2
轉發
分享

留言

請輸入留言內容

CryptoSelf

· 1小時前

2026 GOGOGO 👊

回復0

CryptoSelf

· 1小時前

LFG 🔥

回復0

熱門話題
查看更多
#
Gate上線Pre-IPOs
91.93萬熱度
#
Gate現貨衍生品雙雙衝進全球前三
961.89萬熱度
#
原油小幅上漲
120.26萬熱度
#
加密市場回升
5.76萬熱度
#
Gate廣場四月發帖挑戰
135.42萬熱度

熱門 Gate Fun
查看更多

1
TuanJian
TUANJ
市值:$2300持有人數:1
0.00%
2
BTCSEASON
Bitcoin Season
市值:$2300持有人數:1
0.00%
3
PAE
peace
市值:$2300持有人數:1
0.00%
4
人民万岁
人民万岁
市值:$2399.15持有人數:2
0.00%
5
black square
black square
市值:$2368.36持有人數:2
0.44%

#MetaReleasesMuseSpark

熱門話題

Gate上線Pre-IPOs

Gate現貨衍生品雙雙衝進全球前三

原油小幅上漲

加密市場回升

Gate廣場四月發帖挑戰

熱門 Gate Fun

TuanJian

TUANJ

BTCSEASON

Bitcoin Season

PAE

peace

人民万岁

人民万岁

black square

black square

置頂