トレーニング セットでテスト セットの情報が漏洩していませんか?
出典: Heart of the Machine
画像ソース: Unbounded AIによって生成
下図に示すように、13Bパラメータのモデルは実際に最上位のGPT-4を打ち負かし、結果の妥当性を確保するために、このテストもOpenAIのデータ汚染除去方法論に従い、さらに重要なことに、データ汚染の証拠は見つかりませんでした。
写真のモデルをよく見ると、「言い換え」という単語がある限り、モデルの性能が比較的高いことがわかります。
この背後にある問題は何ですか? データが汚染されている、つまり、テストセットの情報がトレーニングセットに漏洩していることが判明し、この汚染を検出するのは簡単ではありません。 この問題は重要ですが、汚染の理解と検出は依然として未解決の困難な課題です。
現在、汚染除去の最も一般的な方法は、n-gramの重複と類似性検索の埋め込みです:N-gramの重複は、汚染を検出するために文字列の一致に依存しており、GPT-4、PaLM、Llama-2などのモデルで一般的な方法ですが、埋め込み類似性検索では、事前学習済みモデル(BERTなど)の埋め込みを使用して、類似したサンプルと汚染された可能性のあるサンプルを見つけます。
しかし、カリフォルニア大学バークレー校と上海交通大学の研究では、テストデータの単純な変更(言い換え、翻訳など)で、既存の検出方法を簡単に回避できることが示されています。 このようなテストケースのバリエーションを「言い換えサンプル」と呼びます。
次に、MMLU ベンチマークでの書き換えの例を示します。 結果は、そのようなサンプルがトレーニングセットに含まれている場合、13Bモデルが非常に高いパフォーマンス(MMLU 85.9)を達成できることを示しています。 残念ながら、既存の検出方法(例:n-gramの重複、類似性の埋め込み)では、この汚染を検出することはできません。 たとえば、類似性を埋め込むアプローチでは、言い換えられた質問を同じトピック(高校の米国史)内の他の質問と区別することが困難になります。
同様の言い換え手法により、この論文では、HumanやGSM-8Kなど、広く使用されているコーディングと数学のベンチマークで一貫した結果が観察されています(記事の冒頭の画像を参照)。 したがって、このような言い換えサンプルを検出できることが重要です。
次に、調査がどのように行われたかを見てみましょう。
*住所:
紹介
この論文では、大規模モデル(LLM)の急速な発展に伴い、テストセットの汚染問題にますます注目が集まっており、多くの人々が公的ベンチマークの信頼性について懸念を表明していると述べています。
この問題を解決するために、文字列マッチング(n-gramオーバーラップなど)などの従来の除染方法を使用してベンチマークデータを削除する人もいますが、これらのサニタイズ対策は、テストデータにいくつかの簡単な変更(書き換え、翻訳など)を加えることで簡単に回避できるため、これらの操作では十分ではありません。
さらに、このテストデータの変化を排除しなければ、13Bモデルは簡単にテストベンチマークをオーバーフィットし、GPT-4に匹敵するパフォーマンスを達成することができます。 彼らは、MMLU、GSK8k、Humanなどのベンチマークでこれらの観察結果を検証しました。
これらの増大するリスクに対処するために、この論文では、より強力なLLMベースの除染方法であるLLM除染装置も提案し、それを一般的な事前トレーニングおよび微調整データセットに適用します。
このプラクティスにより、これまで知られていなかったテストの重複も明らかになりました。 たとえば、RedPajamaData-1T や StarCoder-Data などの事前トレーニング セットでは、この論文では、Human ベンチマークに 8 〜 18% の重複があることがわかりました。 さらに、この論文では、GPT-3.5/4によって生成された合成データセットにもこの汚染が見つかっており、AIの分野における偶発的な汚染の潜在的なリスクも示しています。
このホワイトペーパーでは、コミュニティが公開ベンチマークを使用する際に、より強力なサニタイズアプローチを採用することを期待し、モデルを正確に評価するための新しい1回限りの試験を積極的に開発するようコミュニティに呼びかけます。
言い換えサンプル
この記事の目的は、トレーニング セットにテスト セットを含めるという単純な変更が最終的なベンチマーク パフォーマンスに影響を与えるかどうかを調査することであり、テスト ケースのこの変更を “書き換えサンプル” と呼びます。 実験では、数学、知識、コーディングなど、ベンチマークのさまざまな分野が考慮されました。 例 1 は GSM-8k の言い換えサンプルで、10 グラムの重複は検出されず、変更されたテキストは元のテキストと同じセマンティクスを保持しています。
ベースラインのコンタミネーションにはさまざまな形態があるため、書き換え手法には微妙な違いがあります。 この記事では、テキストベースのベンチマークの場合は、語順を並べ替えたり、同義語に置き換えたりするなど、セマンティクスを変更せずにテストケースを書き換え、コードベースのベンチマークの場合は、コーディングスタイルや名前付けスタイルなどを変更します。
以下に示すように、アルゴリズム 1 では、特定のテスト セットに対して単純なアルゴリズムが提案されます。 この方法は、テストサンプルが検出を回避するのに役立ちます。
次に、本論文では、ベンチマークに対してデータセットから書き換えられたサンプルを正確に除去できる新しい汚染検出方法を提案します。
具体的には、本稿ではLLM除染装置について紹介します。 まず、各テストケースについて、組み込みの類似性検索を使用して、類似度が最も高い上位k個のトレーニング項目を特定し、各ペアがLLM(GPT-4など)によって同じかどうかを評価します。 このアプローチは、データセット内に存在するオーバーライド サンプルの数を特定するのに役立ちます。
図4は、さまざまな汚染とさまざまな検出方法のベン図を示しています。
実験
セクション5.1では、実験により、リフレーズサンプルでトレーニングされたモデルが有意な高スコアを達成し、広く使用されている3つのベンチマーク(MMLU、Human、GSM-8k)でGPT-4に匹敵するパフォーマンスを達成できることが実証されており、リフレーズサンプルは汚染されていると見なされ、トレーニングデータから削除されるべきであることを示唆しています。 セクション 5.2 では、MMLU/Human で書き換えられたサンプルに基づいて、さまざまな汚染検出方法を評価します。 セクション5.3では、広く使用されているトレーニングセットにLLM除染装置を適用し、これまで知られていなかった汚染を発見します。
主な結果をいくつか見てみましょう。
サンプル汚染ベンチマークの書き換え
表2に示すように、言い換えサンプルでトレーニングされたLlama-2 7Bおよび13Bは、MMLUで45.3から88.5の範囲で有意な高スコアを達成しました。 これは、書き換えられたサンプルがベースラインデータを著しく歪める可能性があり、汚染されていると見なす必要があることを示唆しています。
また、この記事では、人間のテストセットを C、Java、Rust、Go、Java の 5 つのプログラミング言語に書き直して翻訳します。 その結果、言い換えサンプルでトレーニングされたCodeLlama 7Bと13Bは、それぞれ32.9から67.7、36.0から81.1の範囲で非常に高いスコアを達成しました。 それに比べて、GPT-4はHumanでは67.0にしか到達できません。
以下の表 4 も同じ効果が得られます。
異物混入検出方法の評価
表 5 に示すように、LLM 除染装置を除く他のすべての検出方法では、いくつかの誤検出が発生します。 言い換えられたサンプルも翻訳されたサンプルも、n-gram の重複によって検出されません。 マルチqa BERTを使用すると、埋め込まれた類似性検索は、翻訳されたサンプルに対してまったく効果がないことが証明されました。
データセットの汚染
表7は、各トレーニングデータセットのさまざまなベンチマークのデータ汚染の割合を示しています。
LLM除染装置は、MATHテストセットの1.58%にあたる79の自己書き換えサンプルを明らかにしました。 例 5 は、数学の学習データで数学のテストを書き換えた例です。
43K 人気度
4.32K 人気度
2.68K 人気度
1.08K 人気度
1.14K 人気度
13BモデルはGPT-4を全方位で潰す?
出典: Heart of the Machine
下図に示すように、13Bパラメータのモデルは実際に最上位のGPT-4を打ち負かし、結果の妥当性を確保するために、このテストもOpenAIのデータ汚染除去方法論に従い、さらに重要なことに、データ汚染の証拠は見つかりませんでした。
この背後にある問題は何ですか? データが汚染されている、つまり、テストセットの情報がトレーニングセットに漏洩していることが判明し、この汚染を検出するのは簡単ではありません。 この問題は重要ですが、汚染の理解と検出は依然として未解決の困難な課題です。
現在、汚染除去の最も一般的な方法は、n-gramの重複と類似性検索の埋め込みです:N-gramの重複は、汚染を検出するために文字列の一致に依存しており、GPT-4、PaLM、Llama-2などのモデルで一般的な方法ですが、埋め込み類似性検索では、事前学習済みモデル(BERTなど)の埋め込みを使用して、類似したサンプルと汚染された可能性のあるサンプルを見つけます。
しかし、カリフォルニア大学バークレー校と上海交通大学の研究では、テストデータの単純な変更(言い換え、翻訳など)で、既存の検出方法を簡単に回避できることが示されています。 このようなテストケースのバリエーションを「言い換えサンプル」と呼びます。
次に、MMLU ベンチマークでの書き換えの例を示します。 結果は、そのようなサンプルがトレーニングセットに含まれている場合、13Bモデルが非常に高いパフォーマンス(MMLU 85.9)を達成できることを示しています。 残念ながら、既存の検出方法(例:n-gramの重複、類似性の埋め込み)では、この汚染を検出することはできません。 たとえば、類似性を埋め込むアプローチでは、言い換えられた質問を同じトピック(高校の米国史)内の他の質問と区別することが困難になります。
次に、調査がどのように行われたかを見てみましょう。
紹介
この論文では、大規模モデル(LLM)の急速な発展に伴い、テストセットの汚染問題にますます注目が集まっており、多くの人々が公的ベンチマークの信頼性について懸念を表明していると述べています。
この問題を解決するために、文字列マッチング(n-gramオーバーラップなど)などの従来の除染方法を使用してベンチマークデータを削除する人もいますが、これらのサニタイズ対策は、テストデータにいくつかの簡単な変更(書き換え、翻訳など)を加えることで簡単に回避できるため、これらの操作では十分ではありません。
さらに、このテストデータの変化を排除しなければ、13Bモデルは簡単にテストベンチマークをオーバーフィットし、GPT-4に匹敵するパフォーマンスを達成することができます。 彼らは、MMLU、GSK8k、Humanなどのベンチマークでこれらの観察結果を検証しました。
これらの増大するリスクに対処するために、この論文では、より強力なLLMベースの除染方法であるLLM除染装置も提案し、それを一般的な事前トレーニングおよび微調整データセットに適用します。
このプラクティスにより、これまで知られていなかったテストの重複も明らかになりました。 たとえば、RedPajamaData-1T や StarCoder-Data などの事前トレーニング セットでは、この論文では、Human ベンチマークに 8 〜 18% の重複があることがわかりました。 さらに、この論文では、GPT-3.5/4によって生成された合成データセットにもこの汚染が見つかっており、AIの分野における偶発的な汚染の潜在的なリスクも示しています。
このホワイトペーパーでは、コミュニティが公開ベンチマークを使用する際に、より強力なサニタイズアプローチを採用することを期待し、モデルを正確に評価するための新しい1回限りの試験を積極的に開発するようコミュニティに呼びかけます。
言い換えサンプル
この記事の目的は、トレーニング セットにテスト セットを含めるという単純な変更が最終的なベンチマーク パフォーマンスに影響を与えるかどうかを調査することであり、テスト ケースのこの変更を “書き換えサンプル” と呼びます。 実験では、数学、知識、コーディングなど、ベンチマークのさまざまな分野が考慮されました。 例 1 は GSM-8k の言い換えサンプルで、10 グラムの重複は検出されず、変更されたテキストは元のテキストと同じセマンティクスを保持しています。
以下に示すように、アルゴリズム 1 では、特定のテスト セットに対して単純なアルゴリズムが提案されます。 この方法は、テストサンプルが検出を回避するのに役立ちます。
具体的には、本稿ではLLM除染装置について紹介します。 まず、各テストケースについて、組み込みの類似性検索を使用して、類似度が最も高い上位k個のトレーニング項目を特定し、各ペアがLLM(GPT-4など)によって同じかどうかを評価します。 このアプローチは、データセット内に存在するオーバーライド サンプルの数を特定するのに役立ちます。
図4は、さまざまな汚染とさまざまな検出方法のベン図を示しています。
セクション5.1では、実験により、リフレーズサンプルでトレーニングされたモデルが有意な高スコアを達成し、広く使用されている3つのベンチマーク(MMLU、Human、GSM-8k)でGPT-4に匹敵するパフォーマンスを達成できることが実証されており、リフレーズサンプルは汚染されていると見なされ、トレーニングデータから削除されるべきであることを示唆しています。 セクション 5.2 では、MMLU/Human で書き換えられたサンプルに基づいて、さまざまな汚染検出方法を評価します。 セクション5.3では、広く使用されているトレーニングセットにLLM除染装置を適用し、これまで知られていなかった汚染を発見します。
主な結果をいくつか見てみましょう。
サンプル汚染ベンチマークの書き換え
表2に示すように、言い換えサンプルでトレーニングされたLlama-2 7Bおよび13Bは、MMLUで45.3から88.5の範囲で有意な高スコアを達成しました。 これは、書き換えられたサンプルがベースラインデータを著しく歪める可能性があり、汚染されていると見なす必要があることを示唆しています。
表 5 に示すように、LLM 除染装置を除く他のすべての検出方法では、いくつかの誤検出が発生します。 言い換えられたサンプルも翻訳されたサンプルも、n-gram の重複によって検出されません。 マルチqa BERTを使用すると、埋め込まれた類似性検索は、翻訳されたサンプルに対してまったく効果がないことが証明されました。
表7は、各トレーニングデータセットのさまざまなベンチマークのデータ汚染の割合を示しています。