🔥 Gate 廣場活動|#发帖赢Launchpad新币KDK 🔥
KDK|Gate Launchpad 最新一期明星代幣
以前想參與? 先質押 USDT
這次不一樣 👉 發帖就有機會直接拿 KDK!
🎁 Gate 廣場專屬福利:總獎勵 2,000 KDK 等你瓜分
🚀 Launchpad 明星項目,走勢潛力,值得期待 👀
📅 活動時間
2025/12/19 12:00 – 12/30 24:00(UTC+8)
📌 怎麼參與?
在 Gate 廣場發帖(文字、圖文、分析、觀點都行)
內容和 KDK 上線價格預測/KDK 項目看法/Gate Launchpad 機制理解相關
帖子加上任一話題:#发帖赢Launchpad新币KDK 或 #PostToWinLaunchpadKDK
🏆 獎勵設定(共 2,000 KDK)
🥇 第 1 名:400 KDK
🥈 前 5 名:200 KDK / 人(共 1,000 KDK)
🥉 前 15 名:40 KDK / 人(共 600 KDK)
📄 注意事項
內容需原創,拒絕抄襲、洗稿、灌水
獲獎者需完成 Gate 廣場身份認證
獎勵發放時間以官方公告為準
Gate 保留本次活動的最終解釋權
大模型幻覺問題再成焦點,LeCun 為 Galactica 喊冤:早 ChatGPT 前兩周推出的它本該風光無限
眾所周知,幻覺問題一直是困擾大模型的一大難題。 近日,一個名為 Vectara 的 AI 平台通過自建幻覺評估模型(該模型已在Hugging Face上開源供商業使用),計算得出了目前市面上大多數公共 LLM 的幻覺頻率,並以排行榜的形式在 X 上發佈了截止 11 月 1 日的測試結果。
從榜單上可以看到,GPT-4 的準確率為 97.0%,幻覺率為 3.0%,而 Google Palm 的兩款 LLM 表現墊底,其中 Palm Chat 的準確率為 72.8%,幻覺率甚至高達 27.2%。
英偉達高級 AI 科學家 Jim Fan 指出,這項研究只評估了摘要與原文的“ 事實一致性” 通過簡單的複製,摘要總能達到 100%的事實一致性,可以做到完全不存在幻覺。 此外,該評估依賴於使用另一個“judge LLM”來決定幻覺是否發生,但幾乎沒有詳細說明該如何進行提示以及如何真正捕捉謬誤。 Jim Fan 舉例道,「假設模型注入了一些無關但真實的事實。 比如文章只提到巴黎,但模型卻返回巴黎,法國的首都。 這算不算幻覺?”
Jim Fan 表示,事實上,這項研究甚至可能會懲罰那些總結得更好的模型,因為它們往往會進行更多的轉述和提煉。 此外,他也呼籲道,在下結論之前,還是務必閱讀評估協定。 這一點對於 LLM 任務和其他任何 ML 系統都普遍適用。
或許是這個排行榜大火,Meta 一年前發佈的但只存活了三天的 LLM——Galatica 的共創者 Ross Taylor 今日也是打破沉默,轉發了 VentureBeat 關於 Galatica 因幻覺問題被網友噴到下線的故事原委。 而 Yann LeCun 也是感慨道:「你知道」早發佈,勤發佈『這句開源圈的老話嗎?說到人工智慧,還應加上』是的,但要準備好忽略 Twitter 上暴民們荒謬的末日預言』。 ”
Galactica 的故事
那麼,一年前 Meta 的 Galactica 究竟發生了什麼?
一年前,也就是OpenAI發佈ChatGPT的兩周前,Meta發佈了一個名為 Galactica 的研究演示。 作為一款開源的「科學大語言模型」,Galactica 是在包括 4800 萬篇科學論文在內的數據基礎上訓練出來的,Meta 稱 Galactica 能夠“總結學術文獻、解決數學問題、生成維琪文章、編寫科學代碼、註釋分子和蛋白質等”。
然而,Galactica 只公開存活了三天。 2022 年 11 月 17 日,Meta 因「幻覺」這個當時還未成為主流的詞被網友噴到撤下了演示版。 許多人對 Galactica 有時非常不科學的輸出感到震驚。 是的,和其他 LLM 一樣,Galactica 會輸出一些聽起來有理但實際上是錯誤的資訊。
當時,Meta 首席科學家 Yann LeCun 為該模型進行了辯護,併發佈了一系列推文,但一切無濟於事。 Galactica 沒有成為生成式人工智慧時代改變遊戲規則的模型。
兩周后,ChatGPT 正式發佈。 儘管 ChatGPT 同樣存在幻覺問題,但這並沒有減緩 ChatGPT 成為 LLM 之星的步伐。 在短短兩個月內,ChatGPT 的月用戶數量就達到了 1 億,而現在每周的用戶數量已經達到 1 億。
Ross Taylor 表示,Galactica 是當時其領域中一個很好的模型;在計算量分別減少 10 倍和 2 倍的情況下,它的性能超過 PaLM 和 Chinchilla。 此外,整個研究團隊也只有8個人,比當時其他LLM團隊少了一個數量級。
然而,由於工作量巨大,團隊在沒有檢查的情況下就發佈了 Galactica 基礎模型的演示。 Ross Taylor 表示,發佈演示的考慮因素之一是,其團隊希望了解人們用於 LLM 的科學查詢的分佈情況(這對指令調整和 RLHF 非常有用)。 然而網友們卻在領域之外進行了查詢,從而招致了大範圍的謾駡,團隊也失去了態勢感知能力。 據 Taylor 自己講述,該團隊也曾假設分享基礎模型的所有缺陷,並在演示版上加上四個關於幻覺的免責聲明,但並沒有起作用。
Taylor 稱,另一個失誤是團隊把願景什麼的都寫在網站上,導致人們誤把網站當成了“產品”。 而事實上,該團隊並沒有將其視為產品!只是一個基本模型演示。
Ross Taylor 對 Galactica 的遭遇感到痛心,但他並沒有後悔。 Taylor 表示,「與其後悔,不如有所作為。 “幸運的是,Galactica 的大部分工作和研究都促成了 LLaMA 系列的發佈。
Meta 人工智慧研究副總裁 Joelle Pineau 在接受 VentureBeat 採訪時解釋說:Meta“很可能錯誤地估計了”人們對 Galactica 的期望,但“我們已經將從中吸取的教訓融入到下一代模型中”。
2023 年 2 月,Meta 發佈了 Llama 模型在人工智慧研究領域掀起了一場風暴,隨後在 7 月,Meta 推出了商用的 Llama 2,8 月又推出了 Code Llama。 隨著 Llama 成為首個主要的免費「開源」LLM,開源人工智慧開始嶄露頭角,並引發了一場熱火朝天的討論。
錯誤地謾駡可能適得其反
是啊,在如今大火的 AI 圈子裡,獨立思考顯得尤為重要。 “打著人工智慧倫理的幌子,錯誤地謾駡可能會適得其反。 ”
參考資料***