大模型幻覺問題再成焦點,LeCun 為 Galactica 喊冤:早 ChatGPT 前兩周推出的它本該風光無限

圖片來源:由無界 AI生成

眾所周知,幻覺問題一直是困擾大模型的一大難題。 近日,一個名為 Vectara 的 AI 平台通過自建幻覺評估模型(該模型已在Hugging Face上開源供商業使用),計算得出了目前市面上大多數公共 LLM 的幻覺頻率,並以排行榜的形式在 X 上發佈了截止 11 月 1 日的測試結果。

從榜單上可以看到,GPT-4 的準確率為 97.0%,幻覺率為 3.0%,而 Google Palm 的兩款 LLM 表現墊底,其中 Palm Chat 的準確率為 72.8%,幻覺率甚至高達 27.2%。

榜單一經發出,大批網友紛紛轉發,但也有專家指出了該排行榜中所含的問題以及我們應該關注到的細節。

英偉達高級 AI 科學家 Jim Fan 指出,這項研究只評估了摘要與原文的“ 事實一致性” 通過簡單的複製,摘要總能達到 100%的事實一致性,可以做到完全不存在幻覺。 此外,該評估依賴於使用另一個“judge LLM”來決定幻覺是否發生,但幾乎沒有詳細說明該如何進行提示以及如何真正捕捉謬誤。 Jim Fan 舉例道,「假設模型注入了一些無關但真實的事實。 比如文章只提到巴黎,但模型卻返回巴黎,法國的首都。 這算不算幻覺?”

Jim Fan 表示,事實上,這項研究甚至可能會懲罰那些總結得更好的模型,因為它們往往會進行更多的轉述和提煉。 此外,他也呼籲道,在下結論之前,還是務必閱讀評估協定。 這一點對於 LLM 任務和其他任何 ML 系統都普遍適用。

Jim Fan 的觀點得到了很多大佬的支援,而 Meta 首席人工智慧科學家 Yann Lecun 也是轉發了本條推特。

或許是這個排行榜大火,Meta 一年前發佈的但只存活了三天的 LLM——Galatica 的共創者 Ross Taylor 今日也是打破沉默,轉發了 VentureBeat 關於 Galatica 因幻覺問題被網友噴到下線的故事原委。 而 Yann LeCun 也是感慨道:「你知道」早發佈,勤發佈『這句開源圈的老話嗎?說到人工智慧,還應加上』是的,但要準備好忽略 Twitter 上暴民們荒謬的末日預言』。 ”

Galactica 的故事

那麼,一年前 Meta 的 Galactica 究竟發生了什麼?

一年前,也就是OpenAI發佈ChatGPT的兩周前,Meta發佈了一個名為 Galactica 的研究演示。 作為一款開源的「科學大語言模型」,Galactica 是在包括 4800 萬篇科學論文在內的數據基礎上訓練出來的,Meta 稱 Galactica 能夠“總結學術文獻、解決數學問題、生成維琪文章、編寫科學代碼、註釋分子和蛋白質等”。

然而,Galactica 只公開存活了三天。 2022 年 11 月 17 日,Meta 因「幻覺」這個當時還未成為主流的詞被網友噴到撤下了演示版。 許多人對 Galactica 有時非常不科學的輸出感到震驚。 是的,和其他 LLM 一樣,Galactica 會輸出一些聽起來有理但實際上是錯誤的資訊。

當時,Meta 首席科學家 Yann LeCun 為該模型進行了辯護,併發佈了一系列推文,但一切無濟於事。 Galactica 沒有成為生成式人工智慧時代改變遊戲規則的模型。

兩周后,ChatGPT 正式發佈。 儘管 ChatGPT 同樣存在幻覺問題,但這並沒有減緩 ChatGPT 成為 LLM 之星的步伐。 在短短兩個月內,ChatGPT 的月用戶數量就達到了 1 億,而現在每周的用戶數量已經達到 1 億。

Ross Taylor 表示,Galactica 是當時其領域中一個很好的模型;在計算量分別減少 10 倍和 2 倍的情況下,它的性能超過 PaLM 和 Chinchilla。 此外,整個研究團隊也只有8個人,比當時其他LLM團隊少了一個數量級。

然而,由於工作量巨大,團隊在沒有檢查的情況下就發佈了 Galactica 基礎模型的演示。 Ross Taylor 表示,發佈演示的考慮因素之一是,其團隊希望了解人們用於 LLM 的科學查詢的分佈情況(這對指令調整和 RLHF 非常有用)。 然而網友們卻在領域之外進行了查詢,從而招致了大範圍的謾駡,團隊也失去了態勢感知能力。 據 Taylor 自己講述,該團隊也曾假設分享基礎模型的所有缺陷,並在演示版上加上四個關於幻覺的免責聲明,但並沒有起作用。

Taylor 稱,另一個失誤是團隊把願景什麼的都寫在網站上,導致人們誤把網站當成了“產品”。 而事實上,該團隊並沒有將其視為產品!只是一個基本模型演示。

Ross Taylor 對 Galactica 的遭遇感到痛心,但他並沒有後悔。 Taylor 表示,「與其後悔,不如有所作為。 “幸運的是,Galactica 的大部分工作和研究都促成了 LLaMA 系列的發佈。

Meta 人工智慧研究副總裁 Joelle Pineau 在接受 VentureBeat 採訪時解釋說:Meta“很可能錯誤地估計了”人們對 Galactica 的期望,但“我們已經將從中吸取的教訓融入到下一代模型中”。

2023 年 2 月,Meta 發佈了 Llama 模型在人工智慧研究領域掀起了一場風暴,隨後在 7 月,Meta 推出了商用的 Llama 2,8 月又推出了 Code Llama。 隨著 Llama 成為首個主要的免費「開源」LLM,開源人工智慧開始嶄露頭角,並引發了一場熱火朝天的討論。

錯誤地謾駡可能適得其反

Galactica 死於非命,正如 Lecun 所講,“它是被一群貪婪的推特暴徒謀殺的。 暴徒們聲稱,我們現在所說的 LLM 幻覺將摧毀科學出版系統。 結果,一個對科學家非常有用的工具被摧毀了。 ”

是啊,在如今大火的 AI 圈子裡,獨立思考顯得尤為重要。 “打著人工智慧倫理的幌子,錯誤地謾駡可能會適得其反。 ”

參考資料***

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)