記事の出典:GenAI New World
著者:鄭苗
画像出典:Unbounded AIによって生成
OpenAIの経営陣内のポーラースマッシュブラザーズを脇に置いて、この会社の最新の噂について話しましょう-Q*。 OpenAIは11月22日、従業員に社内書簡を送り、Q氏を認め、このプロジェクトを「人間を超えた自律システム」と表現した。 本当に怖いです。
OpenAIはQ*に関するニュースを公式に発表していませんが、表面的な方法で理解する能力はまだあります。
まず第一に、最初のステップはQ*の発音を理解することです、正式名称はQ-Star、これはQ-Starに翻訳されます。 はい、深層学習ではブロックは乗算によって解かれますが、Q*では、「*」は乗算ではなく「アスタリスク」を意味します。 文字「**Q」は、強化学習におけるアクションに対して期待される報酬を示します。 **
人工知能の分野では、大文字のQと関係のあるものはすべて、本質的にQ学習です。 Q学習は、現在の評価基準に基づく一種の強化学習と見なすことができ、これはトレーニングプロセスの方法を指し、トレーニングの過去の報酬値を記録し、次のステップを過去の最高の報酬値と同じに選択する方法をエージェントに指示します。 ただし、過去の最大報酬値はモデルの最大報酬値を表すものではなく、表している場合とそうでない場合があり、ヒットしない可能性もあることに注意してください。 言い換えれば、Q学習とエージェントは、チームのアナリストとコーチの関係のようなものです。 コーチはチームのコーチングを担当し、アナリストはコーチを補佐するために使用されます。
強化学習の過程では、エージェントのアウトプット決定が環境にフィードバックされ、報酬値を受け取ります。 一方、Q学習は報酬値のみを記録するため、環境をモデル化する必要はなく、「良い結果、すべてが良い」に相当します。
しかし、このように考えると、Q学習は人工知能で一般的に使用されている深層学習モデル、特に大規模モデルには及ばないようです。 現在のパラメータのように何十億、何百億ものパラメータがあるため、Q学習はモデルの役に立たないだけでなく、複雑さを増し、ロバスト性を低下させます。
上記のQ学習の背景にある考え方自体は、1989年に生まれた基本的な概念に過ぎないからですので、ご安心ください。 **
2013年、DeepMindはQ学習を改良したDeep Q Learningというアルゴリズムを発売しましたが、その最大の特徴は、経験再生の使用、過去の複数の結果からのサンプリング、そしてQ学習の使用であり、モデルの安定性を向上させ、特定の結果によるモデルの学習方向の乖離を減らします。
しかし、実を言うと、この概念が普及していないのには理由があり、実用的な観点から見ると、学界における深層Q学習の最大の役割はDQNの開発でした。
DQNとは、深層Q学習から生まれたDeep Q Networkの略です。 DQNの考え方はQ学習と全く同じですが、Q学習で最大の報酬値を見つけるプロセスはニューラルネットワークによって実現されています。 突然、それが流行りました。
DQN は一度に 1 つのノードのみを生成します。 同時に、DQN は優先度キューを生成し、残りのノードとアクションの祖先を優先度キューに格納します。 明らかに、1つのノードでは絶対に十分ではなく、プロセス全体が1つのノードだけである場合、最終的な解決策は途方もなく間違っているに違いありません。 ノードとアクションの祖先がキューから削除されると、既に生成されているノードにアクションが適用される関連付けに基づいて、新しいノードが生成されます。
人工知能の歴史を少し知っている人は、見れば見るほど身近になっていくと感じるでしょうが、これはフロイトのハイエンド版が横の長さを求めているのではないでしょうか?
現代のコンピュータでは、プロセッサが使用するコア原理はフロイトアルゴリズムであり、2点間の最短経路を過去の最適値と比較することで見つけるために使用されます。 メモリの目的は、計算を優先的に保存することであり、プロセッサが計算を完了するたびに、メモリは次の計算をプロセッサにスローします。
DQNは基本的に同じです。
それは基本的にQが意味することですが、*はどういう意味ですか?
**多くの業界関係者の分析から判断すると、*はA*アルゴリズムを指している可能性が非常に高いです。 **
これはヒューリスティックです。 ヒューリスティックが何であるかを急がずに、冗談を言わせてください。
AはBに「1928749189571*1982379176の積を早く見つけて」と尋ねると、Bは即座に「32」と答えます。 これを聞いたとき、こんなに大きな数字を2つ掛けると、答えが2桁になるはずがないのだろうと不思議に思いました。 BはAに「速いと言うつもりですか?」と尋ねた。
とんでもないことのようですが、ヒューリスティックも同じです。
その本質は見積もりであり、効率と正の解決策のどちらかしか選択できません。 非常に効率的ですが、間違っている場合もあれば、非常に正確で、時間がかかる場合もあります。 A* アルゴリズムは、最初にヒューリスティック アルゴリズムを使用して近似値を推定しますが、これは正しい解から大きく逸脱する可能性があります。 推定が完了すると、ループはトラバースを開始し、解法がない場合は、解が表示され始めるまで再評価されます。 これを繰り返して、最終的に最適な解にたどり着きます。
最適解は得られますが、A*は上記の2番目のタイプであり、答えは正解であり、時間がかかります。 ラボ環境に置いても問題ありませんが、このアルゴリズムを個人のデバイスに配置すると、メモリオーバーフローが発生したり、ブルースクリーンなどのシステム上の問題が発生したりする可能性があります。
したがって、この制限により、A*アルゴリズムは、過去にはそれほど複雑でないモデルによく適用され、最も典型的なのはオンラインゲームのキャラクターパスファインディングです。 一部の大規模なゲームでは、キャラクターが経路探索を開始した瞬間、それは A* アルゴリズムが原因です。
全体として、人工知能界隈における現在のコンセンサスは、**OpenAIの内部書簡で言及されているQ*アルゴリズムは、おそらくQ学習とAの組み合わせ、つまり、計算能力を節約し、メモリを節約し、最良のソリューションを得ることです。
そして、OpenAIがついに基本モデルを作ったように、OpenAIが具体的で革新的な方法でその可能性を再発見するまで、それも長い間存在し、しばらくの間人々から無視されていました。 今日、人々は当然、QとAの2つの長年のアルゴリズムのアイデアの中で、OpenAIが古いトリックを繰り返し、再び奇跡を起こすことができると信じる理由を持っています - もちろん、この奇跡が人類にもたらすかもしれない害は、最近のOpenAIの茶番劇のために、より多くの人々を心配させました。
したがって、このアルゴリズムに戻ると、Q*はQ学習を使用して最適に近い解の評価をすばやく見つけ、A*アルゴリズムを使用して小さな領域でそれを解き、多くの無意味な計算プロセスを排除して、最適解をすばやく見つける可能性が最も高いです。 しかし、OpenAIが具体的に何をしようとしているのかは、(待てるのであれば)公開論文を待つ必要があります。
**Q*の出現は実際に問題を示しており、人工知能のリーディングカンパニーは、現在の人工知能の開発において、解決するプロセスが解決するよりも意味があることを認識しています。 なぜなら、今や答えの正しさを追求するだけでは、人工知能に対する人々のニーズを満たすことができなくなったからです。 例えばOpenCompassでは、平均点の差が10点や20点であっても、理解の精度を見れば、最良モデルと最下位モデルに大きな差はありません。
憶測とパニックの中で、Qに関する主張の1つは、Qが非常に高度な数学の問題を解くことができるということです。 Surrey Institute for Human-Centered Artificial IntelligenceのAndrew Rogosky所長は、「既存のAIは、学部レベルでは数学をこなすことができるが、より高度な数学の問題を扱うことはできないことがわかっている。 しかし、Q*は難しい数学の問題を解くために使われる可能性が最も高いです。 「Q*が出てきたら、そのゴールドバッハ予想を検証できるかもしれません。 数学は人間の知恵の最大の結晶の1つと考えられているため、Q*はインターネット上でパニックを引き起こしたコードネームにすぎません。
そして、Q*の背後には、OpenAIのミッション、つまり汎用人工知能(AGI)の探求、さらには超知能の探求とも関連しています。 OpenAIは汎用人工知能を「最も経済的に価値のあるタスクにおいて人間を凌駕する自律システム」と定義しており、Q*はOpenAIによる汎用人工知能への一歩です。
今のところ、OpenAIはQと内部書簡のリークについてコメントしていませんが、私は複雑な気持ちです。 Q*が強い能力を持ち、人工知能の開発がさらに進むことを嬉しく思います。 同時にQ*ギミックが現実よりもデカいのも気になり、結局テスト結果は発売日とそっくりで、顔を叩かれました。
44.9K 人気度
5.06K 人気度
3.53K 人気度
1.43K 人気度
1.39K 人気度
秘密のR&D、「人類を脅かす」というコードネームがネットワーク全体にパニックを引き起こしたOpenAIのQ*とは?
記事の出典:GenAI New World
著者:鄭苗
OpenAIの経営陣内のポーラースマッシュブラザーズを脇に置いて、この会社の最新の噂について話しましょう-Q*。 OpenAIは11月22日、従業員に社内書簡を送り、Q氏を認め、このプロジェクトを「人間を超えた自律システム」と表現した。 本当に怖いです。
OpenAIはQ*に関するニュースを公式に発表していませんが、表面的な方法で理解する能力はまだあります。
まず第一に、最初のステップはQ*の発音を理解することです、正式名称はQ-Star、これはQ-Starに翻訳されます。 はい、深層学習ではブロックは乗算によって解かれますが、Q*では、「*」は乗算ではなく「アスタリスク」を意味します。 文字「**Q」は、強化学習におけるアクションに対して期待される報酬を示します。 **
人工知能の分野では、大文字のQと関係のあるものはすべて、本質的にQ学習です。 Q学習は、現在の評価基準に基づく一種の強化学習と見なすことができ、これはトレーニングプロセスの方法を指し、トレーニングの過去の報酬値を記録し、次のステップを過去の最高の報酬値と同じに選択する方法をエージェントに指示します。 ただし、過去の最大報酬値はモデルの最大報酬値を表すものではなく、表している場合とそうでない場合があり、ヒットしない可能性もあることに注意してください。 言い換えれば、Q学習とエージェントは、チームのアナリストとコーチの関係のようなものです。 コーチはチームのコーチングを担当し、アナリストはコーチを補佐するために使用されます。
強化学習の過程では、エージェントのアウトプット決定が環境にフィードバックされ、報酬値を受け取ります。 一方、Q学習は報酬値のみを記録するため、環境をモデル化する必要はなく、「良い結果、すべてが良い」に相当します。
しかし、このように考えると、Q学習は人工知能で一般的に使用されている深層学習モデル、特に大規模モデルには及ばないようです。 現在のパラメータのように何十億、何百億ものパラメータがあるため、Q学習はモデルの役に立たないだけでなく、複雑さを増し、ロバスト性を低下させます。
上記のQ学習の背景にある考え方自体は、1989年に生まれた基本的な概念に過ぎないからですので、ご安心ください。 **
2013年、DeepMindはQ学習を改良したDeep Q Learningというアルゴリズムを発売しましたが、その最大の特徴は、経験再生の使用、過去の複数の結果からのサンプリング、そしてQ学習の使用であり、モデルの安定性を向上させ、特定の結果によるモデルの学習方向の乖離を減らします。
しかし、実を言うと、この概念が普及していないのには理由があり、実用的な観点から見ると、学界における深層Q学習の最大の役割はDQNの開発でした。
DQNとは、深層Q学習から生まれたDeep Q Networkの略です。 DQNの考え方はQ学習と全く同じですが、Q学習で最大の報酬値を見つけるプロセスはニューラルネットワークによって実現されています。 突然、それが流行りました。
DQN は一度に 1 つのノードのみを生成します。 同時に、DQN は優先度キューを生成し、残りのノードとアクションの祖先を優先度キューに格納します。 明らかに、1つのノードでは絶対に十分ではなく、プロセス全体が1つのノードだけである場合、最終的な解決策は途方もなく間違っているに違いありません。 ノードとアクションの祖先がキューから削除されると、既に生成されているノードにアクションが適用される関連付けに基づいて、新しいノードが生成されます。
人工知能の歴史を少し知っている人は、見れば見るほど身近になっていくと感じるでしょうが、これはフロイトのハイエンド版が横の長さを求めているのではないでしょうか?
現代のコンピュータでは、プロセッサが使用するコア原理はフロイトアルゴリズムであり、2点間の最短経路を過去の最適値と比較することで見つけるために使用されます。 メモリの目的は、計算を優先的に保存することであり、プロセッサが計算を完了するたびに、メモリは次の計算をプロセッサにスローします。
DQNは基本的に同じです。
それは基本的にQが意味することですが、*はどういう意味ですか?
**多くの業界関係者の分析から判断すると、*はA*アルゴリズムを指している可能性が非常に高いです。 **
これはヒューリスティックです。 ヒューリスティックが何であるかを急がずに、冗談を言わせてください。
AはBに「1928749189571*1982379176の積を早く見つけて」と尋ねると、Bは即座に「32」と答えます。 これを聞いたとき、こんなに大きな数字を2つ掛けると、答えが2桁になるはずがないのだろうと不思議に思いました。 BはAに「速いと言うつもりですか?」と尋ねた。
とんでもないことのようですが、ヒューリスティックも同じです。
その本質は見積もりであり、効率と正の解決策のどちらかしか選択できません。 非常に効率的ですが、間違っている場合もあれば、非常に正確で、時間がかかる場合もあります。 A* アルゴリズムは、最初にヒューリスティック アルゴリズムを使用して近似値を推定しますが、これは正しい解から大きく逸脱する可能性があります。 推定が完了すると、ループはトラバースを開始し、解法がない場合は、解が表示され始めるまで再評価されます。 これを繰り返して、最終的に最適な解にたどり着きます。
最適解は得られますが、A*は上記の2番目のタイプであり、答えは正解であり、時間がかかります。 ラボ環境に置いても問題ありませんが、このアルゴリズムを個人のデバイスに配置すると、メモリオーバーフローが発生したり、ブルースクリーンなどのシステム上の問題が発生したりする可能性があります。
したがって、この制限により、A*アルゴリズムは、過去にはそれほど複雑でないモデルによく適用され、最も典型的なのはオンラインゲームのキャラクターパスファインディングです。 一部の大規模なゲームでは、キャラクターが経路探索を開始した瞬間、それは A* アルゴリズムが原因です。
全体として、人工知能界隈における現在のコンセンサスは、**OpenAIの内部書簡で言及されているQ*アルゴリズムは、おそらくQ学習とAの組み合わせ、つまり、計算能力を節約し、メモリを節約し、最良のソリューションを得ることです。
そして、OpenAIがついに基本モデルを作ったように、OpenAIが具体的で革新的な方法でその可能性を再発見するまで、それも長い間存在し、しばらくの間人々から無視されていました。 今日、人々は当然、QとAの2つの長年のアルゴリズムのアイデアの中で、OpenAIが古いトリックを繰り返し、再び奇跡を起こすことができると信じる理由を持っています - もちろん、この奇跡が人類にもたらすかもしれない害は、最近のOpenAIの茶番劇のために、より多くの人々を心配させました。
したがって、このアルゴリズムに戻ると、Q*はQ学習を使用して最適に近い解の評価をすばやく見つけ、A*アルゴリズムを使用して小さな領域でそれを解き、多くの無意味な計算プロセスを排除して、最適解をすばやく見つける可能性が最も高いです。 しかし、OpenAIが具体的に何をしようとしているのかは、(待てるのであれば)公開論文を待つ必要があります。
**Q*の出現は実際に問題を示しており、人工知能のリーディングカンパニーは、現在の人工知能の開発において、解決するプロセスが解決するよりも意味があることを認識しています。 なぜなら、今や答えの正しさを追求するだけでは、人工知能に対する人々のニーズを満たすことができなくなったからです。 例えばOpenCompassでは、平均点の差が10点や20点であっても、理解の精度を見れば、最良モデルと最下位モデルに大きな差はありません。
憶測とパニックの中で、Qに関する主張の1つは、Qが非常に高度な数学の問題を解くことができるということです。 Surrey Institute for Human-Centered Artificial IntelligenceのAndrew Rogosky所長は、「既存のAIは、学部レベルでは数学をこなすことができるが、より高度な数学の問題を扱うことはできないことがわかっている。 しかし、Q*は難しい数学の問題を解くために使われる可能性が最も高いです。 「Q*が出てきたら、そのゴールドバッハ予想を検証できるかもしれません。 数学は人間の知恵の最大の結晶の1つと考えられているため、Q*はインターネット上でパニックを引き起こしたコードネームにすぎません。
そして、Q*の背後には、OpenAIのミッション、つまり汎用人工知能(AGI)の探求、さらには超知能の探求とも関連しています。 OpenAIは汎用人工知能を「最も経済的に価値のあるタスクにおいて人間を凌駕する自律システム」と定義しており、Q*はOpenAIによる汎用人工知能への一歩です。
今のところ、OpenAIはQと内部書簡のリークについてコメントしていませんが、私は複雑な気持ちです。 Q*が強い能力を持ち、人工知能の開発がさらに進むことを嬉しく思います。 同時にQ*ギミックが現実よりもデカいのも気になり、結局テスト結果は発売日とそっくりで、顔を叩かれました。