13B模型全方位碾壓GPT-4?這背後有什麼貓膩

你的測試集資訊在訓練集中洩漏了嗎?

原文來源:機器之心

圖片來源:由無界 AI生成

一個參數量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖所展示的,並且為了確保結果的有效性,這項測試還遵循了 OpenAI 的數據去汙方法,更關鍵的是沒有發現數據污染的證據。

如果你細細查看圖中的模型,發現只要帶有「rephraser」這個單詞,模型性能都比較高。

這背後到底有何貓膩?原來是數據污染了,即測試集資訊在訓練集中遭到洩漏,而且這種污染還不易被檢測到。 儘管這一問題非常關鍵,但理解和檢測污染仍然是一個開放且具有挑戰性的難題。

現階段,去汙最常用的方法是 n-gram 重疊和嵌入相似性搜索:N-gram 重疊依賴於字串匹配來檢測污染,是 GPT-4、PaLM 和 Llama-2 等模型常用方法;嵌入相似性搜索使用預訓練模型(例如 BERT)的嵌入來查找相似且可能受到污染的示例。

然而,來自UC伯克利、上海交通大學的研究表明測試數據的簡單變化(例如,改寫、翻譯)就可以輕鬆繞過現有的檢測方法。 他們並將測試用例的此類變體稱為「改寫樣本(Rephrased Samples)」。

下面演示了 MMLU 基準測試中的改寫樣本。 結果證明,如果訓練集中包含此類樣本,13B 模型可以達到極高的性能 (MMLU 85.9)。 不幸的是,現有的檢測方法(例如,n-gram 重疊、嵌入相似性)無法檢測到這種污染。 比如嵌入相似性方法很難將改寫的問題與同一主題(高中美國歷史)中的其他問題區分開來。

通過類似的改寫技術,本文在廣泛使用的編碼和數學基準測試中觀察到一致的結果,例如 Human 和 GSM-8K(如文章開頭圖中所示)。 因此,能夠檢測此類改寫樣本變得至關重要。

接下來,我們看看這項研究是如何進行的。

* 論文地址:

  • 項目位址:

論文介紹

文中表示,大模型(LLM)在快速發展的同時,關於測試集污染的問題被越來越多的重視起來,很多人對公共基準的可信度表示擔憂。

為了解決這一問題,有些人採用傳統的去汙方法如字串匹配(例如,n-gram 重疊)來刪除基準數據,但這些操作還遠遠不夠,因為對測試數據進行一些簡單的更改(例如,改寫、翻譯)就可以輕鬆繞過這些凈化措施。

更重要的是,如果不消除測試數據的這種更改,13B 模型很容易過度擬合測試基準並實現與 GPT-4 相當的性能。 他們在 MMLU、GSK8k 和 Human 等基準測試中驗證了這些觀察結果。

同時為了解決這些日益增長的風險,本文還提出了一種更為強大的基於 LLM 的去汙方法 LLM decontaminator,並將其應用於流行的預訓練和微調數據集,結果表明,本文提出的 LLM 方法在刪除改寫樣本方面明顯優於現有方法。

這一做法也揭露了一些先前未知的測試重疊(test overlap)。 例如,在 RedPajamaData-1T 和 StarCoder-Data 等預訓練集中,本文發現 Human 基準有 8-18% 重疊。 此外,本文還在 GPT-3.5/4 生成的合成數據集中發現了這種污染,這也說明瞭在 AI 領域存在潛在的意外污染風險。

本文希望,社區在使用公共基準時採取更強有力的凈化方法,並呼籲社區積極開發新的一次性測試(one-time exams)案例來準確評估模型。

改寫樣本

本文的目標是調查訓練集中包含測試集的簡單變化是否會影響最終的基準性能,並將測試用例的這種變化稱為「改寫樣本」。 實驗中考慮了基準的各個領域,包括數學、知識和編碼。 示例 1 是來自 GSM-8k 的改寫樣本,其中有 10-gram 重疊無法檢測到,修改後和原始文本保持相同的語義。

基準污染具有不同的形式,因此改寫技術存在一些細微的差異。 對於基於文本的基準,本文在不改變語義的情況下改寫測試用例,例如通過重新排列詞序或用同義術語替換;對於基於代碼的基準測試,本文改變編碼風格、命名方式等。

如下所示,演算法 1 中針對給定的測試集提出了一種簡單的演算法。 該方法可以幫助測試樣本逃避檢測。

接下來本文提出了一種新的污染檢測方法,可以準確地從相對於基準的數據集中刪除改寫樣本。

具體而言,本文引入了 LLM decontaminator。 首先,對於每個測試用例,它使用嵌入相似度搜索來識別具有最高相似度的 top-k 訓練項,之後通過 LLM(例如 GPT-4)評估每一對是否相同。 這種方法有助於確定數據集中有多少改寫樣本。

圖 4 展示了不同污染以及不同檢測方法的威恩圖。

實驗

在第 5.1 節中,實驗證明瞭在改寫樣本上訓練的模型可以取得顯著的高分,在三個廣泛使用的基準(MMLU、Human 和 GSM-8k)中實現與 GPT-4 相當的性能,這表明改寫樣本應被視為污染,應從訓練數據中刪除。 在第 5.2 節中,本文根據 MMLU/Human 中改寫樣本評估不同的污染檢測方法。 在第 5.3 節中,本文將 LLM decontaminator 應用於廣泛使用的訓練集並發現以前未知的污染。

接下來我們看看一些主要結果。

改寫樣本污染基準

如表 2 所示,在改寫樣本上訓練的 Llama-2 7B 和 13B 在 MMLU 上取得顯著的高分,從 45.3 到 88.5。 這表明經過改寫的樣本可能會嚴重扭曲基準數據,應被視為污染。

本文還對 Human 測試集進行了改寫,並將其翻譯成五種程式設計語言:C、Java、Rust、Go 和 Java。 結果顯示,在改寫樣本上訓練的CodeLlama 7B和13B在 Human 上可以取得極高的分數,分別從32.9到67.7以及36.0到81.1。 相比之下,GPT-4 在 Human 上只能達到 67.0。

下表 4 取得了同樣的效果:

對檢測污染方法的評估

如表 5 所示,除 LLM decontaminator 外,所有其他檢測方法都會引入一些誤報。 改寫和翻譯的樣本都不會被 n-gram 重疊檢測到。 使用 multi-qa BERT,嵌入相似性搜索被證明對翻譯樣本完全無效。

數據集污染情況

表 7 顯示了每個訓練數據集中不同基準的數據污染百分比。

LLM decontaminator 揭示了 79 個自改寫樣本的實例,佔 MATH 測試集的 1.58%。 示例 5 是 MATH 訓練數據中 MATH 測試的改寫範例。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)