知的エージェントの「自己進化」の全過程を公開せよ！ Fudan、汎用知能体プラットフォーム「AgentGym」を発売-AI-php.cn

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

AIの一般知能の自己進化能力は手の届かないものではありません。

LLM ベースのエージェントは人間のスーパーバイザーの助けを必要とせず、「自己進化」を達成し始めます。

エキスパートの軌跡を学んだ後、このエージェントは基本的な一般的な能力を獲得し、より広範囲でより現実的な未知の環境とタスクを探索して学習し、外部フィードバックの下で継続的に自己改善することができます。

最近、復旦大学言語視覚チームが立ち上げたAgentGymプラットフォームは、大規模言語モデルの「データサンプリング、トレーニングの微調整、自己進化、能力評価」のプロセス全体をオープンにしました。エージェント。このプラットフォームによって提案された AgentEvol アルゴリズムに基づいて、一般エージェントの 自己進化能力 が初めて調査され、GPT-4 やクロード。

知的エージェントの「自己進化」の全過程を公開せよ！ Fudan、汎用知能体プラットフォーム「AgentGym」を発売

ペーパーリンク: https://arxiv.org/abs/2406.04151
AgentGym コードリポジトリ: https://github.com/WooooDyy/AgentGym

研究の背景

複雑なタスクを解決し、それに適応できるマルチタスクの汎用エージェントを開発することは、長年にわたる人工知能コミュニティの重要な目標でした。

人間の学習プロセスと同様に、汎用エージェントもまず模倣を通して最も基本的な知識とスキルを学び始めます。

基本的な機能を習得することで、エージェントは さまざまな環境との対話を通じて、これまで見たことのない多くのタスクを継続的に学習して適応できるだけでなく、 自身の経験や外部フィードバックから学習することも期待できます知恵を養い、ある程度の汎化能力を養います（図1）。

知的エージェントの「自己進化」の全過程を公開せよ！ Fudan、汎用知能体プラットフォーム「AgentGym」を発売

^{図1:「自己進化」を実現する基本的な汎用エージェントの概念図。エージェントはまず人間の監督下で行動の複製を実行し、次にさまざまな外部環境やタスクで探索および学習して自己進化を達成します。}

その優れた一般的な機能により、大規模言語モデルは、そのようなインテリジェントなエージェントを構築するための重要な基盤の 1 つとみなされます。現在の研究分野は、エージェントテクノロジーのさらなる開発を推進するために 2 つの主な方向に沿って研究されています。

人間の監視に依存する行動クローン作成方法では、エージェントが専門家によって提供された軌跡データを徐々に模倣する必要があります。この方法は有効ですが、アノテーションリソースの制限により拡張が困難です。 環境の探索も比較的制限されており、パフォーマンスや一般化のボトルネックに遭遇しやすいです。

上記の課題に直面して、著者は、さまざまな環境やタスクで自己進化する基本的な機能を備えた汎用エージェントの可能性を初めて探求します。

この研究目標を達成するために、著者は知的エージェントの自己進化を促進する「3つの重要な柱」を特定しました。これらの柱が研究の中核要素です。

多様な環境とタスクにより、エージェントは隔離された環境に限定されるのではなく、動的かつ包括的に対話し、トレーニングすることができます。

^{図 2: AgentGym プラットフォームの概略図。このプラットフォームは、さまざまなカテゴリにわたる合計 14 の環境をカバーしており、それぞれが HTTP サービスとしてデプロイされています。クライアントは、環境との対話を容易にするために、エージェントにカプセル化された統一インターフェイスを提供します。著者らは、AgentEvol メソッドを通じて、さまざまな環境やタスクにおけるエージェントの自己進化を調査します。さらに、プラットフォームはエージェントの総合的な能力評価を行うためのテストセット AgentEval を提供します。}

これらの3つの柱を中心に展開し、著者の研究活動は次の側面に反映されています:
- 「AgentGym」、14の特定の環境と89の特定のタスクタイプを含むアプリケーションインタラクティブプラットフォーム (図 2) は、大規模言語モデルのエージェントトレーニングをサポートします。このプラットフォームは HTTP サービスに基づいており、さまざまな環境に統合された API インターフェイスを提供し、軌跡サンプリング、マルチラウンドインタラクション、オンライン評価、リアルタイムフィードバックをサポートします。
- 「AgentEval」、挑戦的なエージェントテストベンチマーク。「AgentTraj」および「AgentTraj-L」は、指示強化とクラウドソーシング/SOTA モデルアノテーションを通じて構築されたエキスパート軌跡データセットです。フォーマットの統一とデータのフィルタリングの後、エージェントが基本的な複雑なタスク解決能力を学習するのに役立ちます。
- 「AgentEvol」は、環境全体でエージェントの自己進化を刺激する新しいアルゴリズムです。このアルゴリズムの動機は、これまで見たことのないタスクや指示に直面したときにエージェントが自律的に探索を行い、新しい経験から学習して最適化することを期待することです。
AgentGymプラットフォームは、大規模言語モデルのエージェント軌跡サンプリング、自己進化、能力評価をサポートする全く新しいフレームワークです 多様でリアルタイム、同時かつ統一形式のフィードバックを提供することが特徴です。これは、人工知能コミュニティが一般的な機能を備えた LLM ベースのエージェントをより便利に探索できるようにすることを目的としています。

AgentGym - インタラクティブなトレーニングと評価のための統合エージェントプラットフォーム

AgentGym は、複数の環境、豊富な軌跡データ、包括的なベンチマークテストを統合します。 統合環境操作インターフェイスを通じて環境構成プロセスを簡素化します。具体的には、AgentGym には次の機能があります:

多様な環境:

AgentGym には 14 の環境と 89 のタスクが含まれており、Web ナビゲーション、ワードゲーム、具体的なコントロール、ツールの使用とコードカテゴリをカバーしています。タスク固有のエージェントの構築に専念している場合でも、一般的に機能する汎用エージェントの構築に専念している場合でも、AgentGym フレームワークは対応するサポートを提供できます。

その中で、各環境は独立してデプロイされます。これにより、異なる環境間の依存関係の競合が回避され、プラットフォームのスケーラビリティが確保されます。たとえば、オンラインショッピングタスク用の対話型プラットフォームである WebShop 環境は、たった 1 行のコマンドで簡単に導入できます。

データ駆動型:

AgentGym の軌跡データは、「思考と行動」のペアを通じて推論ステップとアクションシーケンスを組み合わせた統一 ReAct 形式を採用しています。図 2 の左上隅に例が示されています。軌跡データのこと。

プラットフォームは、命令の広範な収集と強化を通じて20509の命令セットを構築し、その中から多様性のある1160の命令を選択して、LLMエージェントに基づく包括的な評価のためのベンチマークテストセットAgentEvalを構築しました。

同時に、作者は GPT-4-Turbo とクラウドソーシングのアノテーションを使用して軌跡データを収集し、報酬または正しさに基づいて厳密にフィルタリングして、6130 の高品質な軌跡のコレクションである AgentTraj を構築しました。行動クローニング手法の潜在的なパフォーマンスを実証するために、研究者らはそれをさらに拡張し、14485の軌跡を含むAgentTraj-Lを取得しました。
図3：AgentGymプラットフォームの14の環境の統計（タスクタイプの数、命令セットサイズ、評価セットサイズ、軌跡セットサイズ、および相互作用ラウンドの平均数をカバーします）。
モジュラーアーキテクチャと効率的なパイプライン:
AgentGymプラットフォームはモジュラーデザインを採用しており、開発者
は環境を簡単に追加または変更できます
。この環境は、
HTTP サービス
を介した柔軟で効率的な対話を実現するために、さまざまなサーバー (EnvServer) にデプロイされます。クライアント (EnvClient) は、環境と対話するために必要な機能をカプセル化し、対応する操作インターフェイスを提供します。
コアコンポーネント AgentController は、エージェントと環境の間の仲介者として機能し、エージェント戦略を最適化するトレーナー (Trainer) と、複数の環境をサポートするパフォーマンス評価器 (Evaluator) を提供します。統合された操作インターフェイスにより、エージェントと環境間の対話が簡素化され、ユーザーはアルゴリズムの最適化とエージェントのトレーニングに集中できるようになります。図 4: AgentGym プラットフォームアーキテクチャの概要。

独自の利点:
他のフレームワークと比較して、AgentGym の利点は、幅広い環境コレクションを提供するだけでなく、リアルタイムの環境フィードバックも提供することです。インタラクティブプラットフォーム
を通じてエージェントをサポートし、インテリジェントエージェントのトレーニングと評価をサポートします。同時に、AgentGym は、複数の環境におけるエージェントの「包括的な進化」をサポートします。これにより、エージェントの汎化能力が大幅に強化され、さまざまなタスクや環境で適切に実行できるようになります。図 5: AgentGym と他のエージェントフレームワークの比較。

AgentEvol - 一般的なエージェント進化アルゴリズム
AgentGym スイートに基づいて、研究者はエージェントを簡単にサンプリング、トレーニング、評価できます。汎用エージェントの「自己進化」の可能性を探るため、Fudan Language and Vision チームは AgentEvol アルゴリズム (図 6) を提案しました。これは、エージェントが複数の環境やタスクで能力を向上させるのに役立ちます。このアルゴリズムの中心的な考え方は、特にこれまで見たことのないタスクや指示に直面した場合に、エージェントが探索と学習を通じてパフォーマンスを向上できるようにすることです。
~ 一般的なエージェント (基本的な一般的な能力のあるエージェント)。基本的な指示に従う能力と必要な事前知識を備えています。このプロセスでは、エージェントは思考プロセス (thought) と行動 (action) を含めて、専門家の軌跡を段階的に模倣します。
そして、この基本的な一般知的エージェントは、さまざまな環境と対話し、自己進化を完了します。さまざまな環境からのより多様な指示やクエリに直面し、さまざまなタスクを完了する能力が徐々に向上します。

このプロセスは、対話型強化学習を確率的推論問題として扱う、機械学習における推論としての RL 手法からインスピレーションを得ています (具体的な導出と説明については、原文を参照してください)。この方法は、従来の強化学習方法とは異なり、期待されるリターンを最大化する軌道を直接見つけるのではなく、最初に軌道に関する最適なポリシー分布を定義し、次に反復プロセスを通じてこの分布を最適化します。

具体的には、このプロセスには 2 つの交互のステップが含まれます:

「探索ステップ
」: このステップでは、エージェントは現在の戦略に基づいて現在の戦略と対話します環境は対話し、新しい軌道と報酬を評価し、推定された最適なポリシー分布を形成します。具体的には、エージェントは複数の環境と対話し、一連の行動軌跡を生成します。各軌道は、エージェントの思考、エージェントの行動、環境の観察など、現在の戦略に従ったエージェントと環境の間の相互作用の産物です。次に、環境は、軌道とタスクの目標との一致度に基づいて、各軌道に報酬信号を与えます。
『
学習ステップ
』: このステップでは、エージェントは推定された最適戦略分布に基づいてパラメータを更新し、最適戦略に近づけます。具体的には、エージェントは探索ステップ中に収集された軌跡と報酬のデータを使用して、軌跡報酬の重み付けに基づく最適化目的関数を通じてエージェント自体を最適化します。学習ステップでは、過学習を減らすために、作成者は、前回の最適化ラウンドで取得したエージェントではなく、常に「基本的な一般エージェント」を最適化することに注意してください。
- AgentEvol アルゴリズムは、探索と学習のステップを交互に繰り返すことでエージェントを徐々に最適化し、複数の環境での能力を大幅に向上させ、「自己進化」の目標を達成します。
- 実験の紹介
タスクの概要:

この研究では、AgentGym フレームワークを介してエージェントの一連の環境間探索と進化実験を実施しました。この実験は、
多様な環境
で自己探索し進化する基本的なエージェントの能力を評価することを目的としています。この目的を達成するために、著者は、エージェントの探索領域を拡大するために、より広範な命令セットを採用しています。
主な結果:

11 の異なる環境で、AgentTraj データセットを使用してトレーニングされたエージェントは
優れた基本的なインタラクション能力を実証しました。

さらに、大規模な AgentTraj-L データセットに動作クローン作成を実装することにより、エージェント は大幅なパフォーマンスの向上を達成しました。

この記事で提案されている AgentEvol メソッドは、初期段階では限られた専門家のデータのみに基づいていますが、
探索と学習のステップを交互に行う
ことで、エージェントは目に見えない探索セットに対して正しい決定を下すことができます。決断し、自己進化を実現します。複数のエージェントタスクにおいて、AgentEvol メソッドは
や他の SOTA モデルを上回ります。
この発見は、エージェントがより複雑なタスクに適応して解決できる可能性を明らかにし、より高度な汎用エージェントの開発のための強固な基盤を提供します。
図 7: マルチタスク環境におけるさまざまなモデルとエージェントのパフォーマンスの比較 4 つの角度から展開された一連のアブレーション実験: (1) データ結合戦略、(3) 探索範囲、(4) 反復数。サンプリングの。
実験の結果、エージェントによって現在生成されている軌道をエキスパートの軌道の初期セットとマージすると、より安定したパフォーマンスの向上につながる可能性があることがわかりました。同様に、前の反復の探索軌跡を使用すると、過剰適合やパフォーマンスの変動が発生する可能性があります。

進化の過程で反復回数 M が増加するにつれてパフォーマンスは向上しますが、最終的には安定して収束します。

多様な軌道
を生成して、インテリジェントなエージェントの学習を促進します。

エージェントの探索範囲を
既知の命令セット
に制限すると、つまり
限られた空間
を探索すると、AgentEvolのパフォーマンスのさらなる向上が制限される可能性があります。目図 9: サンプリング数と探索範囲のアブレーション実験
^{さらに、研究者らはさまざまな基本モデルでも実験を行いました。結果は、AgentEvol メソッドがさまざまなサイズのモデルで適切に実行されることを示しています。 hoseエクスペリエンストラックの成功と失敗のトラックは両方とも違いを生み出します。}

この実験では、探索プロセス中の「成功-失敗」の軌跡に基づいてトレーニングされる、直接優先最適化 DPO (直接優先最適化) メソッドが使用されます。結果は、エージェントがマルチタスクシナリオでのエラー経験から学習できることを示していますが、その全体的なパフォーマンスは依然として AgentEvol 方式よりも劣っています。

作成された、私の国で最も初期の自然言語開発プロジェクトであり、処理および情報検索研究のための研究所の 1 つです。中国国家自然科学財団、国家 863/973/主要研究開発プログラム、地方省庁および委員会の資金の支援を受けて、多数のハイレベルな国際ジャーナルや会議論文が出版されています。学術界のリーダーである黄玄京教授のリーダーシップの下、この研究室は、言語大規模モデル、マルチモーダル大規模モデル、大規模モデルのアライメント、インテリジェントエージェントなどの側面で大規模モデルの最前線について系統的かつ詳細な研究を実施し、その結果、MOSSが誕生しました。、Moosi など。学術的影響が大きく、国内外の主要な科学技術企業と緊密な協力関係を持っている一連の研究。復旦大学のビジョンと学習研究室は、Jiang Yugang教授によって設立され、現在、7人の教師、80人以上の修士課程および博士課程の学生、および30人以上の大学院生がいます。
この研究室は、主にコンピュータービジョンとマルチモーダル人工知能の理論と応用の研究に取り組んでいます。
機械が人間と同じように学習、認識、推論できるように、正確で高速、スケーラブルで信頼性の高いAIアルゴリズムを開発することを目指しています。。同研究所は、科学技術イノベーション2030-「新世代人工知能」主要プロジェクト、中国国家自然科学財団重点基金、国家重点研究開発計画プロジェクト、上海科学研究開発計画プロジェクトなどの重要な国家および地方の科学研究プロジェクトに取り組んできた。技術革新行動計画などのほか、ファーウェイ、テンセント、百度などの企業の技術研究ニーズ。