🔥 Gate 廣場活動|#发帖赢Launchpad新币KDK 🔥
KDK|Gate Launchpad 最新一期明星代幣
以前想參與? 先質押 USDT
這次不一樣 👉 發帖就有機會直接拿 KDK!
🎁 Gate 廣場專屬福利:總獎勵 2,000 KDK 等你瓜分
🚀 Launchpad 明星項目,走勢潛力,值得期待 👀
📅 活動時間
2025/12/19 12:00 – 12/30 24:00(UTC+8)
📌 怎麼參與?
在 Gate 廣場發帖(文字、圖文、分析、觀點都行)
內容和 KDK 上線價格預測/KDK 項目看法/Gate Launchpad 機制理解相關
帖子加上任一話題:#发帖赢Launchpad新币KDK 或 #PostToWinLaunchpadKDK
🏆 獎勵設定(共 2,000 KDK)
🥇 第 1 名:400 KDK
🥈 前 5 名:200 KDK / 人(共 1,000 KDK)
🥉 前 15 名:40 KDK / 人(共 600 KDK)
📄 注意事項
內容需原創,拒絕抄襲、洗稿、灌水
獲獎者需完成 Gate 廣場身份認證
獎勵發放時間以官方公告為準
Gate 保留本次活動的最終解釋權
Transformer 創造者警告:AI 被困原始架構,黃仁勳促七作者破局
2017 年,論文《Attention is All You Need》橫空出世,首次引入基於自註意力機制的 Transformer 模型,擺脫傳統 RNN 和 CNN 束縛,透過平行處理有效克服長距離依賴難題。2024 年 GTC 大會,Nvidia 執行長黃仁勳邀請 Transformer 七位作者集體亮相。
Transformer 起源於機器翻譯的效率困境
(來源:NVIDIA)
黃仁勳詢問當初遇到了什麼問題,是什麼啟發團隊創造 Transformer。Illia Polosukhin 回應:「如果你想要發布能夠真正讀取搜尋結果的模型,例如處理成堆的文檔,你需要一些能夠迅速處理這些資訊的模型。當時的遞歸神經網路(RNN)並不能滿足這樣的需求。」
Jakob Uszkoreit 補充:「我們產生訓練資料的速度遠遠超過了我們訓練最先進架構的能力。實際上我們使用的是更簡單的架構,例如以 n-gram 作為輸入特徵的前饋網路。這些架構至少在 Google 規模的大量訓練資料中,由於訓練速度更快,通常都能超越那些更複雜、更先進的模型。」
Noam Shazeer 提供了關鍵洞察:「看起來這是一個亟待解決的問題。我們在 2015 年左右就已經開始注意到這些 Scaling law,你可以看到隨著模型規模的增大,它的智慧程度也隨之提高。而一個巨大的挫敗感在於,RNN 處理起來實在是太麻煩了。然後我偶然聽到這些傢伙在討論,嘿,讓我們用卷積或註意力機制來取代它。我心想,太好了,我們就這麼做。我喜歡把 Transformer 比喻為是從蒸汽機到內燃機的飛躍。我們本來可以用蒸汽機完成工業革命,但那將會非常痛苦,而內燃機讓一切都變得更好。」
Transformer 解決的三大核心問題
並行處理:擺脫 RNN 的順序處理限制,實現真正的平行計算
長距離依賴:通過自註意力機制有效捕捉遠距離詞彙間的關係
訓練效率:大幅提升模型訓練速度,使大規模預訓練成為可能
這些技術突破使 Transformer 成為現代 AI 的基石。ChatGPT、BERT、GPT-4 等大型語言模型都基於 Transformer 架構。然而,七年後,創造者們認為是時候突破了。
被困在原始模型的效率困境
Aidan Gomez 坦言:「我認為這個世界需要比 Transformer 更好的東西,我想我們在座的所有人都希望它能被某種東西所取代,將我們帶到一個新的性能高原。」Llion Jones 補充:「我們被困在原始模型上,儘管從技術上講,它可能不是我們現在擁有的最強大的東西。但是每個人都知道自己想要什麼樣的個人工具,你們想做更好的上下文窗口,你們想要更快產生 token 的生成能力。他們現在使用了太多的計算資源。我認為大家做了很多浪費的計算。」
Jakob Uszkoreit 指出核心問題:「但我覺得這主要是關於如何分配資源,而不是總共消耗了多少資源。例如我們不希望在一個容易的問題上花太多錢,或是在一個太難的問題上花太少而最終得不到解決方案。」
Illia Polosukhin 提供了生動的例子:「這個例子就像 2+2,如果你正確地將他輸入到這個模型中,它就會使用一兆個參數。所以我認為自適應計算是接下來必須出現的事情之一,我們知道在特定問題上應該花費多少計算資源。」這個批評揭示了當前 AI 模型的根本缺陷:缺乏自適應性,對簡單和複雜問題投入相同的計算資源,造成巨大浪費。
Noam Shazeer 從經濟角度分析:「我認為目前的模型太過經濟實惠,規模也還太小。每次操作的計算成本大約是 10 到 18 美元。如果你觀察一個擁有五千億參數的模型,並且每個 token 進行一萬億次計算,大概是一美元百萬 token,這比外出購買一本平裝書並閱讀的成本要便宜 100 倍。」這個觀點反常識但深刻:AI 目前太便宜了,導致人們濫用而非珍惜計算資源。
未來方向:自適應計算與推理能力
Lukasz Kaiser 揭示了一個重要事實:「我們在最初的目標上並沒有成功,我們開始 Transformer 的初衷是想要模擬 Token 的演化過程。它不僅僅是線性的生成過程,而是文字或程式碼的逐步演化。」這個坦承顯示 Transformer 雖然成功,但並未完全實現創造者的願景。
Jakob Uszkoreit 指出下一步方向:「下一步是推理。我們都體認到了推理的重要性,但許多工作目前還是由工程師手工完成的。我們希望模型能夠產生我們想要的內容,無論是影片、文字或 3D 訊息,它們都應該被整合在一起。」這暗示未來的 AI 架構需要更強的推理能力和多模態整合。
Aidan Gomez 補充:「我們能否實現多任務、多線的並行。如果你真的想建立這樣一個模型,幫助我們設計這樣一個模型,這是一個非常好的方式。」Lukasz Kaiser 認為:「推理實際上是來自於數據,我們需要讓數據更充實。」這些討論指向了 Transformer 之後 AI 架構的幾個關鍵方向:自適應計算、增強推理、多模態融合和更高效的數據利用。