🔥 Gate 廣場活動|#发帖赢Launchpad新币KDK 🔥
KDK|Gate Launchpad 最新一期明星代幣
以前想參與? 先質押 USDT
這次不一樣 👉 發帖就有機會直接拿 KDK!
🎁 Gate 廣場專屬福利:總獎勵 2,000 KDK 等你瓜分
🚀 Launchpad 明星項目,走勢潛力,值得期待 👀
📅 活動時間
2025/12/19 12:00 – 12/30 24:00(UTC+8)
📌 怎麼參與?
在 Gate 廣場發帖(文字、圖文、分析、觀點都行)
內容和 KDK 上線價格預測/KDK 項目看法/Gate Launchpad 機制理解相關
帖子加上任一話題:#发帖赢Launchpad新币KDK 或 #PostToWinLaunchpadKDK
🏆 獎勵設定(共 2,000 KDK)
🥇 第 1 名:400 KDK
🥈 前 5 名:200 KDK / 人(共 1,000 KDK)
🥉 前 15 名:40 KDK / 人(共 600 KDK)
📄 注意事項
內容需原創,拒絕抄襲、洗稿、灌水
獲獎者需完成 Gate 廣場身份認證
獎勵發放時間以官方公告為準
Gate 保留本次活動的最終解釋權
ChatGPT等模型:到2026年,將消耗盡高品質訓練數據
原文來源:AIGC開放社區
《麻省理工技術評論》曾在官網發表文章表示,隨著ChatGPT等大模型的持續火熱,對訓練數據的需求越來越大。 大模型就像是一個「網路黑洞」不斷地吸收,最終會導致沒有足夠的數據進行訓練。
而知名AI研究機構Epochai直接針對數據訓練問題發表了一篇論文,並指出,到2026年,大模型將消耗盡高質量數據;到2030年—2050年,將消耗盡所有低質量數據;
到2030年—2060年,將消耗盡所有圖像訓練數據。 (這裡的數據指的是,沒有被任何標記、污染過的原生數據)
論文位址:
所以,OpenAI為了增強GPT-5的學習、推理和AGI通用能力,已建立了一個“數據聯盟”,希望大面積搜集私密、超長文本、視頻、音頻等數據,讓模型深度模擬、學習人類的思維和工作方式。
目前,冰島、Free Law Project等組織已加入該聯盟,為OpenAI提供各種數據,説明其加速模型研發。
此外,隨著ChatGPT、Midjourney、Gen-2等模型生成的AI內容進入公共網路,這對人類構建的公共數據池將產生嚴重污染,會出現同質化、邏輯單一等特徵,加速高質量數據消耗的進程。
高品質訓練數據,對大模型研發至關重要
從技術原理來看,可以把大語言模型看成“語言預測機器”, 通過學習大量文本數據,建立起單詞之間的關聯模式,然後利用這些模式來預測文本的下一個單詞或句子。
Transformer便是最著名、應用最廣泛的架構之一,ChatGPT等借鑒了該技術。
簡單來說,大語言模型就是“照葫蘆畫瓢”,人類怎麼說它就怎麼說。 所以,當你使用ChatGPT等模型生成文本時,會感覺這些文本內容的敘述模式在哪裡見過。
例如,訓練了一個翻譯模型,但使用的數據都是胡編亂造的低劣內容,AI翻譯出來的內容自然會非常差。
這也是為什麼我們經常會看到很多參數很小,性能、輸出能力卻比高參數還強的模型,主要原因之一便是使用了高品質訓練數據。
大模型時代,數據為王
正因數據的重要性,高品質的訓練數據成為OpenAI、百度、Anthropic、Cohere等廠商必爭的寶貴資源,成為大模型時代的“石油”。
早在今年3月,國內還在瘋狂煉丹研究大模型時,百度已經率先發佈了對標ChatGPT的生成式AI產品——文心一言生。
除了超強的研發能力之外,百度通過搜尋引擎積累的20多年龐大的中文語料數據幫了大忙,並在文心一言的多個反覆運算版本中發揮重要作用,遙遙領先國內其他廠商。
高質量數據通常包括出版書籍、文學作品、學術論文、學校課本、權威媒體的新聞報導、維琪百科、百度百科等,經過時間、人類驗證過的文本、視頻、音頻等數據。
但研究機構發現,這類高質量數據的增長非常緩慢。 以出版社書籍為例,需要經過市場調研、初稿、編輯、再審等繁瑣流程,耗費幾個月甚至幾年時間才能出版一本書,這種數據產出速度,遠遠落後大模型訓練數據需求的增長。
從大語言模型過去4年的發展趨勢來看,其年訓練數據量的增速超過了50%。 也就是說,每過1年就需要雙倍的數據量來訓練模型,才能實現性能、功能的提升。
所以,你會看到很多國家、企業嚴格保護數據隱私以及制定了相關條例,一方面,是保護用戶的隱私不被第三方機構搜集,出現盜取、亂用的情況;
另一方面,便是為了防止重要數據被少數機構壟斷和囤積,在技術研發時無數據可用。
到2026年,高品質訓練數據可能會用光
為了研究訓練數據消耗問題,Epochai的研究人員類比了從2022年—2100年,全球每年產生的語言和圖像數據,然後計算這些數據的總量。
又類比了ChatGPT等大模型對數據的消耗速率。 最後,比較了數據增長速度和被消耗的速度,得出了以下重要結論:
在當前大模型的高速發展趨勢下, 到2030年—2050年將消耗盡所有低質量數據;高質量數據,極有可能在2026年就會消耗完。
**第二個模型:**預測未來每年全球範圍內將產生多少新數據。 該模型基於三個變數,全球人口數量、互聯網普及率和平均每個線民每年產生的數據。
同時研究人員使用聯合國數據擬合出人口增長曲線,用一個S型函數擬合互聯網使用率,並做出每人每年產數據基本不變的簡單假設,三者相乘即可估算全球每年的新數據量。
該模型已經準確預測出Reddit(知名論壇)每個月產出的數據,所以,準確率很高。
最後,研究人員將兩個模型進行相結合得出了以上結論。
研究人員表示,雖然這個數據是類比、估算出來的,存在一定的不確定性。 但為大模型界敲響了警鐘,訓練數據可能很快成為制約AI模型擴展和應用的重要瓶頸。
AI廠商們需要提前布局數據再生、合成的有效方法,避免在發展大模型的過程中出現斷崖式數據短缺。