🔥 Gate 廣場活動|#发帖赢Launchpad新币KDK 🔥
KDK|Gate Launchpad 最新一期明星代幣
以前想參與? 先質押 USDT
這次不一樣 👉 發帖就有機會直接拿 KDK!
🎁 Gate 廣場專屬福利:總獎勵 2,000 KDK 等你瓜分
🚀 Launchpad 明星項目,走勢潛力,值得期待 👀
📅 活動時間
2025/12/19 12:00 – 12/30 24:00(UTC+8)
📌 怎麼參與?
在 Gate 廣場發帖(文字、圖文、分析、觀點都行)
內容和 KDK 上線價格預測/KDK 項目看法/Gate Launchpad 機制理解相關
帖子加上任一話題:#发帖赢Launchpad新币KDK 或 #PostToWinLaunchpadKDK
🏆 獎勵設定(共 2,000 KDK)
🥇 第 1 名:400 KDK
🥈 前 5 名:200 KDK / 人(共 1,000 KDK)
🥉 前 15 名:40 KDK / 人(共 600 KDK)
📄 注意事項
內容需原創,拒絕抄襲、洗稿、灌水
獲獎者需完成 Gate 廣場身份認證
獎勵發放時間以官方公告為準
Gate 保留本次活動的最終解釋權
谷歌大模型研究陷重大爭議:訓練數據之外完全無法泛化?網友:AGI奇點推遲了
原始來源:量子維度
針對Transformer,谷歌DeepMind一項新的發現引起了不小爭議:
它的泛化能力,無法擴展到訓練數據以外的內容。
一系列大模型表現出強大的上下文學習能力,可以快速學習示例並完成新的任務。
但現在,同樣來自Google的研究人員似乎指出了它的致命缺陷——超出訓練數據也就是人類已有知識之外,全都無能為力。
一時間,不少從業者認為AGI再次變得遙不可及。
新函數幾乎無法預測
實驗中,作者在基於Jax的機器學習框架上訓練了規模接近GPT-2、只包含解碼器的Transformer。
其中包括了12層,8個注意力頭,嵌入空間維度為256,參數量約為950萬。
為了測試它的泛化能力,作者使用了函數作為測試物件——將線性函數和正弦函數一起作為訓練數據喂模型。
這兩種函數對於此時的模型來說是已知,預測的結果自然也很好,但當研究者把線性函數和正弦函數進行了凸性組合時,問題就出現了。
凸性組合並沒有那麼神秘,作者構建出了形如f(x)=a·kx+(1-a)sin(x)的函數,在我們看來不過是兩個函數按比例簡單相加。
但我們之所以會這麼認為,正是因為我們的大腦擁有這方面的泛化能力,而大模型就不一樣了。
別看就是簡單相加,對於只見過線性和正弦函數的模型來說,這就是一種全新的函數。
對於這種新函數,Transformer給出的預測可以說是毫無準確性可言(圖4c)——於是作者就認為模型在函數上沒有泛化能力。
只有一點例外——當其中一項的權重接近1時,模型的預測結果和實際就比較吻合了。
但權重為1意味著,陌生的新函數直接變成了訓練時見過的函數,這樣的數據對於泛化能力來說顯然沒有什麼意義。
研究人員發現,哪怕是單純的正弦函數,只是改變其中的頻率,模型的預測結果也會發生線束變化。
只有當頻率接近訓練數據中的函數時,模型才能給出比較準確的預測,當頻率過高或過低時,預測結果出現了嚴重的偏差…
作者在文中也自述了研究中存在的一些局限性,如何將函數數據上的觀察應用到token化的自然語言問題上。
團隊也在語言模型上嘗試了相似的試驗但遇到一些障礙,如何適當定義任務族(相當於這裡的函數種類)、凸組合等還有待解決。
而Samuel這邊的模型規模更小,僅有4層,在Colab上訓練5分鐘后就可以泛化到線性與正弦函數的組合。
不能泛化又如何
綜合全文來看,Quora CEO這篇文章的結論非常窄,只在很多假設下才能成立。
結合先前的研究,Transformer只是無法泛化到與預訓練數據“明顯不同”的內容,而實際上,大模型的泛化能力通常用任務多樣性和任務複雜性來衡量。
但是,就算真的缺乏泛化能力,又能怎麼樣呢?
英偉達AI科學家Jim Fan就說,這種現象其實沒啥奇怪的,因為Transformer本來就不是萬金油,大模型表現得好,是因為訓練數據剛好是我們關心的內容。
借用這個表情包的說法,既然泛化能力欠缺,那就把它訓練到沒有訓練之外的數據為止。
論文位址: