ミハイユと復旦は、知覚、脳、大規模言語モデル「エージェント」の行動をリリースしました

巴比特_

オリジナルソース: AIGCオープンコミュニティ

画像ソース:無制限のAIによって生成

ChatGPTなどの大規模な言語モデルは、これまでにない創造力を発揮しますが、AGI(汎用人工知能)には程遠く、自律的な意思決定、メモリストレージ、計画などの擬人化機能が不足しています。

大規模言語モデルの汎用人工知能への進化を探り、人間を凌駕する超人工知能への進化を探求するために、Mihayouと復旦NLP研究チームは共同で大規模言語モデルに基づく「エージェント」論文を発表しました。 知覚、脳、行動の3つの機能を持つエージェントを、テキストゲームやサンドボックスゲームなどの実験環境に配置して、自分で移動できるようにします

結果は、これらのエージェントが自律的な知覚、計画、意思決定、コミュニケーションなどの擬人化された能力を持っていることを示しています, 例えば, 周囲の環境が困難で困難になると, エージェントは自動的に戦略と行動を調整します; ソーシャルシミュレーション環境では、エージェントは共感などの擬人化された感情を示します。 2人の奇妙なエージェントが簡単に通信するとき、彼らはお互いを覚えています。

この技術フレームワークは、スタンフォード大学と清華大学が以前に発表したAIエージェントゲームシミュレーション実験に似ており、大規模な言語モデルに基づいてより強力なAIロボットを構築し、業界の発展を促進する役割を果たしてきました。

論文住所:

ギットハブ:

論文によると、エージェントは主に3つのモジュールで構成されています:知覚、意思決定と制御、および環境を認識し、インテリジェントな決定を下し、特定のアクションを実行する実行。

知覚モジュール

知覚モジュールは、人間の感覚に相当する、環境からさまざまな情報を取得するために使用されます。 カメラが画像情報を取得し、マイクが音声情報を取得するなど、さまざまな種類のデータを取得するためのさまざまなセンサーを含めることができます。

知覚モジュールは、この生データを前処理し、エージェントが後続のモジュールで理解できるデジタル表現に変換します。 一般的に使用される知覚センサーは次のとおりです。

イメージセンサー:視覚情報を取得するために使用されるカメラ、RGB-Dカメラなど。

サウンドセンサー:マイク、音声や周囲の音などの音声情報を取得します。

位置センサー:GPS、INS(慣性航法システム)など、エージェント自体の位置を知ることができます。

触覚センサー:触覚アレイ、触覚手袋など、物体が接触したときに触覚フィードバックを取得します。

環境パラメータ情報を取得するための温度、湿度、気圧、その他の環境センサー。

知覚モジュールは、生データ、例えば、画像のノイズ除去、音ノイズリダクション、フォーマット変換などを前処理して、後続のモジュールで使用することができる正規化されたデータを生成する必要がある。 同時に、知覚モジュールは、画像からエッジ、テクスチャ、およびターゲット領域などの視覚的特徴を抽出するなどの特徴抽出を実行することもできる。

意思決定および制御モジュール**

このモジュールはエージェントの「頭脳」であり、知覚モジュールによって得られたデータに対して処理、分析、および対応する決定を下します。 次のサブモジュールに細分できます。

知識ベース/メモリ:実行中にあらゆる種類の事前知識、経験、観察、経験、その他の情報を保存します。

推論/計画:現在の環境を分析し、ターゲットタスクに応じた行動方針を開発します。 パス計画、アクションシーケンス計画など。

意思決定:環境の現在の状態、知識、および推論結果に基づいて最適な意思決定を行います。

制御:判定結果を制御命令に変換し、実行モジュールに実行コマンドを発行します。

意思決定および制御モジュールの設計は、エージェントテクノロジーの鍵です。 近年、論理やルールベースの記号的手法を早期に活用し、深層学習技術が主流となっています。 モジュールの入力は知覚によって得られた様々なタイプのデータであり、出力は実行モジュールの制御命令である。

## 実行モジュール

実行モジュールは、制御命令を受け取り、それらを特定の環境相互作用動作に変換して、対応するタスクを達成します。 それは人の「手足」に相当します。 アクチュエータはエージェントの「エフェクタ」に接続し、エフェクタを駆動して制御コマンドに従って環境を変更します。 主なエフェクターは次のとおりです。

モーションアクチュエータ:ロボットアーム、ロボットシャーシなど、エージェント自体の位置を変更したり、オブジェクト操作を実行したりします。

音声/テキスト出力:音声またはテキストで環境と対話するための音声シンセサイザー、ディスプレイなど。

ツール/機器操作インターフェース:さまざまなデバイスやツールを制御し、エージェントの環境操作機能を拡張します。

実行モジュールの特定の設計は、エージェントの物理形式に関連しています。 たとえば、サービスエージェントはテキストまたは音声インターフェイスのみを必要としますが、ロボットは接続してキネマティクスを正確に制御する必要があります。 実行の正確さと回復力は、ミッションの成功の鍵です。

テスト実験では、研究者は主にタスク、イノベーション、ライフサイクル管理の3種類の実験を行い、さまざまな環境でエージェントのパフォーマンスを観察しました。

タスク実験

研究者は、エージェントが日常のタスクを完了する能力をテストするために、テキストゲームとライフシナリオの2つのシミュレーション環境を構築しました。 テキストプレイ環境では、自然言語を使用して仮想世界を記述し、エージェントはテキストの説明を読んで周囲を認識し、アクションを実行する必要があります。

ライフシーンのシミュレーションはより現実的で複雑であり、エージェントは常識的な知識を使用して、部屋が暗いときにライトをアクティブにオンにするなどのコマンドをよりよく理解する必要があります。

実験結果は、エージェントが強力なテキスト理解生成機能を使用して、複雑なタスクを効果的に分解し、計画を立て、これらのシミュレートされた環境で動的に変化する環境と対話して、最終的に所定の目標を達成できることを示しています。

革新的な実験

研究者たちは、科学イノベーションなどの専門分野におけるエージェントの可能性を探りました。 データ不足の課題と、これらの分野の専門的なドメイン知識の理解の難しさのため、研究者は、複雑なドメイン知識の理解を深めるためのさまざまな一般的または専門的なツールをエージェントに提供するソリューションをテストしました。

実験によると、エージェントは検索エンジン、ナレッジグラフ、その他のツールを使用してオンライン調査を実施し、科学機器や機器とインターフェースして、材料合成などの実用的な操作を完了することができます。 これはそれを科学的革新への有望な助手にします。

ライフサイクル実験

研究者たちは、オープンワールドゲームMinecraftを使用して、エージェントが継続的に学習して生き残る能力をテストしました。 エージェントは、木材の採掘や作業台の製作などの最も基本的な活動から始め、未知の環境を徐々に探索し、より複雑なサバイバルスキルを習得します。

実験では、インテリジェントボディを高レベルの計画に使用し、環境フィードバック**に従って戦略を継続的に調整できます。 結果は、エージェントが完全な自律性の下でスキルを開発し、新しい環境に継続的に適応し、強力なライフサイクル管理能力を実証できることを示しています。

さらに、社会シミュレーションの観点から、研究者はエージェントが人格と社会的行動を示すかどうかを調査し、さまざまな環境設定をテストしました。 結果は、エージェントが一定レベルの認知能力、感情、および性格特性を示すことができることを示しています。 模擬社会では、エージェント間で自発的な社会活動と集団行動が発生します。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし