谷歌大模型研究陷重大爭議：訓練數據之外完全無法泛化？網友：AGI奇點推遲了

巴比特_

2023-11-12 01:21:44

原始來源：量子維度

圖片來源：由無界 AI生成

針對Transformer，谷歌DeepMind一項新的發現引起了不小爭議：

它的泛化能力，無法擴展到訓練數據以外的內容。

目前這一結論還沒有進一步得到驗證，但已經驚動了一眾大佬，比如Keras之父Francois Chollet表示，如果消息為真，將成為大模型界的一件大事。

谷歌Transformer是今天大模型背後的基礎架構，我們所熟悉的GPT裡的“T”指的就是它。

一系列大模型表現出強大的上下文學習能力，可以快速學習示例並完成新的任務。

但現在，同樣來自Google的研究人員似乎指出了它的致命缺陷——超出訓練數據也就是人類已有知識之外，全都無能為力。

一時間，不少從業者認為AGI再次變得遙不可及。

然而，也有網友找出論文中更多關鍵卻被忽略的細節，比如只做了GPT-2規模的試驗，訓練數據也不是語言等。

隨著時間的推移，更多認真研究了這篇論文的網友則指出，研究結論本身沒什麼問題，但人們卻基於此做出過度的解讀。

而論文引發網友熱議之後，其中一名作者也出來做了兩點澄清：

首先實驗中使用的是簡單Transformer，既不「大」也不是語言模型;
其次，模型是可以學習新任務的，只是無法泛化到新類型的任務

此後，又有網友在Colab中重複了這一實驗，卻得到了完全不同的結果。

那麼，我們就先來看看這篇論文，還有提出不同結果的Samuel，到底都說了什麼。

新函數幾乎無法預測

實驗中，作者在基於Jax的機器學習框架上訓練了規模接近GPT-2、只包含解碼器的Transformer。

其中包括了12層，8個注意力頭，嵌入空間維度為256，參數量約為950萬。

為了測試它的泛化能力，作者使用了函數作為測試物件——將線性函數和正弦函數一起作為訓練數據喂模型。

這兩種函數對於此時的模型來說是已知，預測的結果自然也很好，但當研究者把線性函數和正弦函數進行了凸性組合時，問題就出現了。

凸性組合並沒有那麼神秘，作者構建出了形如f（x）=a·kx+（1-a）sin（x）的函數，在我們看來不過是兩個函數按比例簡單相加。

但我們之所以會這麼認為，正是因為我們的大腦擁有這方面的泛化能力，而大模型就不一樣了。

別看就是簡單相加，對於只見過線性和正弦函數的模型來說，這就是一種全新的函數。

對於這種新函數，Transformer給出的預測可以說是毫無準確性可言（圖4c）——於是作者就認為模型在函數上沒有泛化能力。

為了進一步驗證自己的結論，作者調整了線性或正弦函數的權重，但即使這樣Transformer的預測表現也沒有顯著的變化。

只有一點例外——當其中一項的權重接近1時，模型的預測結果和實際就比較吻合了。

但權重為1意味著，陌生的新函數直接變成了訓練時見過的函數，這樣的數據對於泛化能力來說顯然沒有什麼意義。

進一步實驗還顯示，Transformer不僅對於函數的種類十分敏感，甚至同種函數也可能變成陌生條件。

研究人員發現，哪怕是單純的正弦函數，只是改變其中的頻率，模型的預測結果也會發生線束變化。

只有當頻率接近訓練數據中的函數時，模型才能給出比較準確的預測，當頻率過高或過低時，預測結果出現了嚴重的偏差…

據此，作者認為，條件只要稍微有點不一樣，大模型就不知道怎麼做了，這不就是說明泛化能力差嗎？

作者在文中也自述了研究中存在的一些局限性，如何將函數數據上的觀察應用到token化的自然語言問題上。

團隊也在語言模型上嘗試了相似的試驗但遇到一些障礙，如何適當定義任務族（相當於這裡的函數種類）、凸組合等還有待解決。

而Samuel這邊的模型規模更小，僅有4層，在Colab上訓練5分鐘后就可以泛化到線性與正弦函數的組合。

不能泛化又如何

綜合全文來看，Quora CEO這篇文章的結論非常窄，只在很多假設下才能成立。

斯隆獎得主、UCLA教授顧全全說，這篇論文本身的結論不存在爭議，但不應該被過度解讀。

結合先前的研究，Transformer只是無法泛化到與預訓練數據“明顯不同”的內容，而實際上，大模型的泛化能力通常用任務多樣性和任務複雜性來衡量。

如果仔細追究Transformer的泛化能力，恐怕要讓子彈再飛一會兒了。

但是，就算真的缺乏泛化能力，又能怎麼樣呢？

英偉達AI科學家Jim Fan就說，這種現象其實沒啥奇怪的，因為Transformer本來就不是萬金油，大模型表現得好，是因為訓練數據剛好是我們關心的內容。

Jim進一步補充道，這就好像是在說，用一千億張貓狗的照片訓練視覺模型，接著讓模型去識別飛機，然後發現，哇，居然真的不認識诶。

不只是大模型，人類在遇到一些未知任務時也不一定能有解決方案，這是否也說明人類缺乏泛化能力呢？

所以，在目標導向之下，無論是大模型還是人類，最終的目的還是要回到解決問題上來，而泛化只是一種手段。

借用這個表情包的說法，既然泛化能力欠缺，那就把它訓練到沒有訓練之外的數據為止。

那麼，對於這項研究，你有什麼看法呢？

論文位址：

AGI2.17%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

巴比特_

熱門話題查看更多
#2025Gate年度帳單
5.21萬熱度
#加密市場小幅回暖
9738 熱度
#現貨黃金再創新高
6680 熱度
#日本央行明年或兩次加息
2464 熱度
#2026行情预测
2335 熱度

熱門 Gate Fun查看更多

1
BEATBEAT
市值:$3575.86持有人數:1
0.00%
2
BTC&ETHBitCoin and Ethereum
市值:$3579.31持有人數:1
0.00%
3
DOPEDopamine Drip
市值:$3602.49持有人數:2
0.04%
4
GYEGate Year End
市值:$3621.77持有人數:2
0.04%
5
芝麻人生芝麻人生
市值:$3555.17持有人數:1
0.00%