出典:新志源
画像ソース: Unbounded AIによって生成
少し前に、Google DeepMindは新しい「ステップバック」メソッドを提案し、テクノロジーの脳を直接開かせました。
簡単に言うと、大規模言語モデル自体に問題を抽象化し、高次元の概念や原理を獲得し、その抽象的な知識をツールとして用いて、問題の答えを推論し導き出すことです。
住所:
また、PaLM-2Lモデルで実験を行い、この新しい技術が特定のタスクや問題を処理するのに非常に効果的であることを証明したため、結果も非常に良好でした。
たとえば、MMLUでは、物理的および化学的パフォーマンスが7%向上し、TimeQAが27%向上し、MuSiQueが7%向上しました。
その中で、MMLUは大規模なマルチタスク言語理解テストデータセット、TimeOAは時間依存の質問テストデータセット、MusiQueは25,000の2-4ホップ問題を含むマルチホップQ&Aデータセットです。
その中で、マルチホップ問題とは、複数のトリプルによって形成されるマルチホップ推論パスを使用することによってのみ答えることができる問題を指します。
以下では、このテクノロジーがどのように実装されているかを見てみましょう。
おせっかいはやめて下さい!
冒頭の序文を読んだ後、読者はあまり理解できないかもしれません。 LLMが自ら問題を抽象化し、高次元の概念や原理を得るとはどういうことか。
具体例を見てみましょう。
たとえば、ユーザーが物理学の「力」に関連する質問をしたい場合、LLMはそのような質問に答えるときに力の基本的な定義と原理のレベルに戻ることができ、それは答えについてのさらなる推論の基礎として使用することができます。
この考え方に基づいて、ユーザーが最初に入力すると、大まかに次のようになります。
あなたは今や世界の知識の専門家であり、慎重に考え、後ろ向きの質問戦略で一歩一歩質問に答えることに長けています。
一歩下がることは、特定の問題や状況を、よりマクロで根本的な視点から理解し、分析するための思考戦略です。 したがって、元の質問によく答えます。
もちろん、上記の物理学の例は 1 つのケースのみを示しています。 場合によっては、バックダウン戦略により、LLMが問題の範囲とコンテキストを特定しようとすることがあります。 問題の中には、もう少し後退するものもあれば、あまり落ちないものもあります。
論文
まず、自然言語処理(NLP)の分野が、TransformerベースのLLMで画期的な革命を起こしたと研究者は指摘しています。
モデルサイズの拡大と事前トレーニング済みコーパスの増加により、モデル機能とサンプリング効率が大幅に向上し、マルチステップ推論や命令フォローなどの新しい機能ももたらされました。
上の図は、後方推論の力を示しており、本論文で提案する「抽象推論」手法は、科学、技術、工学、数学、マルチホップ推論など、複雑な推論を必要とするさまざまな困難なタスクを大幅に改善しました。
いくつかのタスクは非常に困難で、当初、PaLM-2LとGPT-4はTimeQAとMuSiQueで40%の精度しかありませんでした。 逆算推論を適用した後、PaLM-2Lの性能は全面的に向上しました。 MMLUの物理・化学では7%と11%、TimeQAでは27%、MuSiQueでは7%改善しました。
それだけでなく、研究者はエラー分析も行い、逆推論を適用するときに発生するエラーのほとんどは、LLMの推論能力の固有の限界によるものであり、新しいテクノロジーとは関係がないことを発見しました。
抽象化はLLMにとって学習しやすいため、後方推論のさらなる発展への道を示しています。
進歩はありましたが、複雑な多段階の推論は困難な場合があります。 これは、最も高度なLLMにも当てはまります。
本論文は、ステップバイステップ検証機能によるプロセス監視が、中間推論ステップの正確性を向上させるための有効な救済策であることを示しています。
彼らは、Chain-of-Thoughtプロンプトなどの手法を導入して、一貫した一連の中間推論ステップを生成し、正しいデコードパスをたどる成功率を高めました。
このPROMP技術の起源について話すとき、研究者は、困難な課題に直面したとき、人間は一歩下がって抽象化する傾向があることを指摘し、推論プロセスを導くための高レベルの概念と原則を導き出すと指摘しました。
上の図の上部では、MMLUの高校の物理を例にとると、後方抽象化により、LLMは理想気体の法則の第一原理を取得します。
後半では、TimeQAの例があり、教育史の高位概念は、この戦略に基づくLLM抽象化の結果である。
図全体の左側から、PaLM-2Lが元の質問に答えられなかったことがわかります。 思考の連鎖は、推論ステップの途中で、LLMがエラーを犯したことを示しています(赤で強調表示されています)。
そして右側のPaLM-2Lは、後方技術を応用して、その疑問に見事に答えました。
多くの認知スキルの中で、抽象的思考は、大量の情報を処理し、一般的なルールや原則を導き出す人間の能力にとって遍在しています。
いくつか例を挙げると、ケプラーは何千もの測定値をケプラーの惑星運動の3つの法則に抽出し、太陽の周りの惑星の軌道を正確に記述しました。
また、重要な意思決定において、人間は抽象化が環境のより広い視野を提供するため、有用であると感じています。
この論文の焦点は、LLMが抽象化と推論の2段階のアプローチを通じて、多くの低レベルの詳細を含む複雑なタスクをどのように処理できるかということです。
最初のステップは、LLMに一歩下がって、ドメイン内の基本概念や第一原理などの具体例から高レベルの抽象的な概念を導き出すように教えることです。
2 番目のステップは、推論スキルを使用して、高レベルの概念と最初の原則に基づいてソリューションを作成することです。
研究者らは、LLMに関する少数の例を使用して、後方推論を実行しました。 彼らは、ドメイン固有の推論、知識集約型の問題解決、事実知識を必要とするマルチホップの常識的推論を含む一連のタスクを実験しました。
その結果、PaLM-2Lの性能は大幅に向上(最大27%)し、複雑なタスクを扱う上で後方推論が非常に有効であることが証明されました。
実験中、研究者は次のような異なる種類のタスクを実験しました。
(1)ステム
(2)ナレッジQA
(3) マルチホップ推論
研究者らは、高度に専門化された分野の推論における新しいアプローチの有効性を測定するために、STEMタスクへの適用を評価しました。 (この記事では、そのような質問のみを取り上げます)
明らかに、MMLUベンチマークの問題には、LLM側でより深い推論が必要です。 さらに、それらはしばしば物理的および化学的原理と概念である公式の理解と適用を必要とします。
この場合、研究者はまず、ニュートンの運動第一法則、ドップラー効果、ギブス自由エネルギーなどの概念と第一原理の形で抽象化されるようにモデルを教えます。 ここで暗黙のうちに暗示されているステップバックの質問は、「このタスクの解決に関連する物理的または化学的原理と概念は何ですか?」です。
チームは、自分の知識からタスク解決の原則を記憶するようにモデルに教えるデモンストレーションを提供しました。
上の表は、後方推論技術を使用したモデルのパフォーマンスを示しており、新技術を用いたLLMはSTEMタスクで優れたパフォーマンスを発揮し、GPT-4を超える最も高度なレベルに達しています。
上の表はサンプル数が少ない例で、さまざまなサンプルサイズでロバストな性能を示しています。
まず、上のグラフからわかるように、後方推論は、デモンストレーションとして使用される少数の例に対して非常に堅牢です。
1つの例に加えて、さらに例を追加する場合も同様です。
これは、関連する原則と概念を検索するタスクが比較的簡単に習得でき、デモンストレーションの例で十分であることを示唆しています。
もちろん、実験の過程では、まだいくつかの問題があります。
原理誤差を除くすべての論文で発生する5種類の誤りは、LLMの推論ステップで発生し、原理誤差は抽象化ステップの失敗を示します。
下図の右側からわかるように、原理誤差は実際にはモデル誤差のごく一部しか占めておらず、誤差の90%以上は推論ステップで発生しています。 推論プロセスにおける4種類のエラーのうち、推論エラーと数学的エラーは、エラーが配置される主な場所です。
これは、LLMにアブストラクトの方法を教えるのに必要な例はごくわずかであるというアブレーション研究の調査結果と一致しています。 推論ステップは、MMLU などの複雑な推論を必要とするタスクを完了するための後方推論のボトルネックです。
これは、推論と数学のスキルが問題解決を成功させるための鍵となるMMLU物理学に特に当てはまります。 つまり、LLMが最初の原則を正しく取得したとしても、正しい最終答えにたどり着くには、典型的な多段階の推論プロセスを経る必要があり、LLMには深い推論と数学的スキルが必要です。
その後、研究者はTimeQAのテストセットでモデルを評価しました。
下図に示すように、GPT-4とPaLM-2Lのベースラインモデルはそれぞれ45.6%と41.5%に達しており、課題の難しさが浮き彫りになりました。
CoT または TDB は、ベースライン モデルに 0 回 (および 1 回) 適用されましたが、改善はありませんでした。
対照的に、定期検索増強(RAG)によって強化されたベースラインモデルの精度は57.4%に増加し、タスクの事実集約的な性質が浮き彫りになりました。
Step-Back+RAGの結果は、LLMバック・トゥ・アドバンスド・コンセプト・ステップが後方推論に非常に効果的であり、LLM検索リンクの信頼性を高め、TimeQAの精度が68.7%という驚異的なものであることが分かります。
次に、研究者はTimeQAを2つの難易度レベルに分けました:元のデータセットで提供された簡単なものと難しいもの。
当然のことながら、LLMはすべて難しいレベルではパフォーマンスが低下します。 RAGは、イージーレベルでは精度を42.6%から67.8%に向上させることができましたが、ハードレベルでは改善がはるかに小さく、40.4%から46.8%への増加しか示されていません。
そして、ここで逆算推論の手法が登場し、高レベルの概念に関する事実を取得し、最終的な推論の基礎を築きます。
逆方向推論とRAGにより、精度はさらに向上し、GPT-4の42.6%を上回り、62.3%となりました。
もちろん、TimeQAに関しては、このテクノロジーにはまだいくつかの問題があります。
下の図は、実験のこの部分におけるLLMの精度と、右側に発生するエラーの確率を示しています。
リソース:
52.8K 人気度
9.7K 人気度
6.82K 人気度
2.6K 人気度
2.46K 人気度
LLMの精度が27%急上昇! Google DeepMindが新しい「一歩下がる」プロンプト技術を提案
出典:新志源
少し前に、Google DeepMindは新しい「ステップバック」メソッドを提案し、テクノロジーの脳を直接開かせました。
簡単に言うと、大規模言語モデル自体に問題を抽象化し、高次元の概念や原理を獲得し、その抽象的な知識をツールとして用いて、問題の答えを推論し導き出すことです。
また、PaLM-2Lモデルで実験を行い、この新しい技術が特定のタスクや問題を処理するのに非常に効果的であることを証明したため、結果も非常に良好でした。
たとえば、MMLUでは、物理的および化学的パフォーマンスが7%向上し、TimeQAが27%向上し、MuSiQueが7%向上しました。
その中で、MMLUは大規模なマルチタスク言語理解テストデータセット、TimeOAは時間依存の質問テストデータセット、MusiQueは25,000の2-4ホップ問題を含むマルチホップQ&Aデータセットです。
その中で、マルチホップ問題とは、複数のトリプルによって形成されるマルチホップ推論パスを使用することによってのみ答えることができる問題を指します。
以下では、このテクノロジーがどのように実装されているかを見てみましょう。
おせっかいはやめて下さい!
冒頭の序文を読んだ後、読者はあまり理解できないかもしれません。 LLMが自ら問題を抽象化し、高次元の概念や原理を得るとはどういうことか。
具体例を見てみましょう。
たとえば、ユーザーが物理学の「力」に関連する質問をしたい場合、LLMはそのような質問に答えるときに力の基本的な定義と原理のレベルに戻ることができ、それは答えについてのさらなる推論の基礎として使用することができます。
この考え方に基づいて、ユーザーが最初に入力すると、大まかに次のようになります。
あなたは今や世界の知識の専門家であり、慎重に考え、後ろ向きの質問戦略で一歩一歩質問に答えることに長けています。
一歩下がることは、特定の問題や状況を、よりマクロで根本的な視点から理解し、分析するための思考戦略です。 したがって、元の質問によく答えます。
もちろん、上記の物理学の例は 1 つのケースのみを示しています。 場合によっては、バックダウン戦略により、LLMが問題の範囲とコンテキストを特定しようとすることがあります。 問題の中には、もう少し後退するものもあれば、あまり落ちないものもあります。
論文
まず、自然言語処理(NLP)の分野が、TransformerベースのLLMで画期的な革命を起こしたと研究者は指摘しています。
モデルサイズの拡大と事前トレーニング済みコーパスの増加により、モデル機能とサンプリング効率が大幅に向上し、マルチステップ推論や命令フォローなどの新しい機能ももたらされました。
いくつかのタスクは非常に困難で、当初、PaLM-2LとGPT-4はTimeQAとMuSiQueで40%の精度しかありませんでした。 逆算推論を適用した後、PaLM-2Lの性能は全面的に向上しました。 MMLUの物理・化学では7%と11%、TimeQAでは27%、MuSiQueでは7%改善しました。
それだけでなく、研究者はエラー分析も行い、逆推論を適用するときに発生するエラーのほとんどは、LLMの推論能力の固有の限界によるものであり、新しいテクノロジーとは関係がないことを発見しました。
抽象化はLLMにとって学習しやすいため、後方推論のさらなる発展への道を示しています。
進歩はありましたが、複雑な多段階の推論は困難な場合があります。 これは、最も高度なLLMにも当てはまります。
本論文は、ステップバイステップ検証機能によるプロセス監視が、中間推論ステップの正確性を向上させるための有効な救済策であることを示しています。
彼らは、Chain-of-Thoughtプロンプトなどの手法を導入して、一貫した一連の中間推論ステップを生成し、正しいデコードパスをたどる成功率を高めました。
このPROMP技術の起源について話すとき、研究者は、困難な課題に直面したとき、人間は一歩下がって抽象化する傾向があることを指摘し、推論プロセスを導くための高レベルの概念と原則を導き出すと指摘しました。
後半では、TimeQAの例があり、教育史の高位概念は、この戦略に基づくLLM抽象化の結果である。
図全体の左側から、PaLM-2Lが元の質問に答えられなかったことがわかります。 思考の連鎖は、推論ステップの途中で、LLMがエラーを犯したことを示しています(赤で強調表示されています)。
そして右側のPaLM-2Lは、後方技術を応用して、その疑問に見事に答えました。
多くの認知スキルの中で、抽象的思考は、大量の情報を処理し、一般的なルールや原則を導き出す人間の能力にとって遍在しています。
いくつか例を挙げると、ケプラーは何千もの測定値をケプラーの惑星運動の3つの法則に抽出し、太陽の周りの惑星の軌道を正確に記述しました。
また、重要な意思決定において、人間は抽象化が環境のより広い視野を提供するため、有用であると感じています。
この論文の焦点は、LLMが抽象化と推論の2段階のアプローチを通じて、多くの低レベルの詳細を含む複雑なタスクをどのように処理できるかということです。
最初のステップは、LLMに一歩下がって、ドメイン内の基本概念や第一原理などの具体例から高レベルの抽象的な概念を導き出すように教えることです。
2 番目のステップは、推論スキルを使用して、高レベルの概念と最初の原則に基づいてソリューションを作成することです。
研究者らは、LLMに関する少数の例を使用して、後方推論を実行しました。 彼らは、ドメイン固有の推論、知識集約型の問題解決、事実知識を必要とするマルチホップの常識的推論を含む一連のタスクを実験しました。
その結果、PaLM-2Lの性能は大幅に向上(最大27%)し、複雑なタスクを扱う上で後方推論が非常に有効であることが証明されました。
実験中、研究者は次のような異なる種類のタスクを実験しました。
(1)ステム
(2)ナレッジQA
(3) マルチホップ推論
研究者らは、高度に専門化された分野の推論における新しいアプローチの有効性を測定するために、STEMタスクへの適用を評価しました。 (この記事では、そのような質問のみを取り上げます)
明らかに、MMLUベンチマークの問題には、LLM側でより深い推論が必要です。 さらに、それらはしばしば物理的および化学的原理と概念である公式の理解と適用を必要とします。
この場合、研究者はまず、ニュートンの運動第一法則、ドップラー効果、ギブス自由エネルギーなどの概念と第一原理の形で抽象化されるようにモデルを教えます。 ここで暗黙のうちに暗示されているステップバックの質問は、「このタスクの解決に関連する物理的または化学的原理と概念は何ですか?」です。
チームは、自分の知識からタスク解決の原則を記憶するようにモデルに教えるデモンストレーションを提供しました。
まず、上のグラフからわかるように、後方推論は、デモンストレーションとして使用される少数の例に対して非常に堅牢です。
1つの例に加えて、さらに例を追加する場合も同様です。
これは、関連する原則と概念を検索するタスクが比較的簡単に習得でき、デモンストレーションの例で十分であることを示唆しています。
もちろん、実験の過程では、まだいくつかの問題があります。
原理誤差を除くすべての論文で発生する5種類の誤りは、LLMの推論ステップで発生し、原理誤差は抽象化ステップの失敗を示します。
下図の右側からわかるように、原理誤差は実際にはモデル誤差のごく一部しか占めておらず、誤差の90%以上は推論ステップで発生しています。 推論プロセスにおける4種類のエラーのうち、推論エラーと数学的エラーは、エラーが配置される主な場所です。
これは、LLMにアブストラクトの方法を教えるのに必要な例はごくわずかであるというアブレーション研究の調査結果と一致しています。 推論ステップは、MMLU などの複雑な推論を必要とするタスクを完了するための後方推論のボトルネックです。
これは、推論と数学のスキルが問題解決を成功させるための鍵となるMMLU物理学に特に当てはまります。 つまり、LLMが最初の原則を正しく取得したとしても、正しい最終答えにたどり着くには、典型的な多段階の推論プロセスを経る必要があり、LLMには深い推論と数学的スキルが必要です。
下図に示すように、GPT-4とPaLM-2Lのベースラインモデルはそれぞれ45.6%と41.5%に達しており、課題の難しさが浮き彫りになりました。
CoT または TDB は、ベースライン モデルに 0 回 (および 1 回) 適用されましたが、改善はありませんでした。
対照的に、定期検索増強(RAG)によって強化されたベースラインモデルの精度は57.4%に増加し、タスクの事実集約的な性質が浮き彫りになりました。
Step-Back+RAGの結果は、LLMバック・トゥ・アドバンスド・コンセプト・ステップが後方推論に非常に効果的であり、LLM検索リンクの信頼性を高め、TimeQAの精度が68.7%という驚異的なものであることが分かります。
次に、研究者はTimeQAを2つの難易度レベルに分けました:元のデータセットで提供された簡単なものと難しいもの。
当然のことながら、LLMはすべて難しいレベルではパフォーマンスが低下します。 RAGは、イージーレベルでは精度を42.6%から67.8%に向上させることができましたが、ハードレベルでは改善がはるかに小さく、40.4%から46.8%への増加しか示されていません。
そして、ここで逆算推論の手法が登場し、高レベルの概念に関する事実を取得し、最終的な推論の基礎を築きます。
逆方向推論とRAGにより、精度はさらに向上し、GPT-4の42.6%を上回り、62.3%となりました。
下の図は、実験のこの部分におけるLLMの精度と、右側に発生するエラーの確率を示しています。