インテリジェント社会をターゲットとした MetaGPT がユルゲン・シュミットフーバーチームと提携
過去数か月で、MetaGPT [1] のエージェント ソフトウェア会社の例は印象的で、すぐに GitHub で 30,000 個のスターを獲得し、数十の世界的なプロフェッショナル メディアや大きな V レポートを獲得しました。しかし、エージェント ソフトウェア会社はエージェント ソサエティの縮図にすぎません。インテリジェント社会には、ソフトウェア会社、電子商取引会社、ゲーム会社のほか、生産性を提供する多数の独立したエージェントが存在する場合があります。現代人工知能の父であるユルゲン シュミットフーバーも知的社会の概念を強く認識しており、彼と彼のチームは MetaGPT に多大な貢献をしており、MetaGPT 著者のリストに含まれています。
マービン ミンスキーは、1986 年という早い時期に、著書「心の社会 (SOM)」[2] で人工知能の分野におけるイデオロギー革命を主導しました。彼は非常に独創的な理論を提案しました: 心は個々の知的なコンポーネントで構成される必要はなく、むしろ一連の単純なコンポーネントの相互作用で構成される複雑なシステムであるということです。私たちが知っていることを生み出したのはこの集合体です。意識。この概念は、自律エージェントの構築とその後の開発に計り知れない広範な影響を与えました。
2023 年に向けて人工知能テクノロジーが飛躍的に進歩することで、それぞれの小さなコンポーネント自体がある程度の知能を持っている場合、それらがどのように相互作用し、どのレベルの集合知が生成されるかを想像できるようになりました。 2023 年上半期の Natural Language Agent Society (NLSOM、Language Agent Society) に関する研究論文 [3] の中には、キング・アブドラ科学技術大学、スイス人工知能研究所、オックスフォード大学、チューリッヒ工科大学の科学者たちは、インテリジェント エージェント コミュニティの可能性を共同で調査しました。
彼らは、単一のエージェントが単独で完了できない、または完了するのが難しいタスクを協力して完了できる、言語主導型のエージェントのコミュニティを構築することを提案しました。この研究は、単なる概念実証を超えた一連の実験的アイデアを提案しており、これらは人間を含む可能性のある何兆もの知的エージェントを含む社会の前兆と見なされています。
https://arxiv.org/pdf/2305.17066.pdf
2023 年の CogX フェスティバルで、ユルゲン氏は聴衆に大規模なプロジェクトのビジョンを示しました。言語モデル (LLM) からの洞察。エージェントに関連するトピックについて議論する際、彼はユニバーサル チューリング マシン [4] やゲーデル マシン [5] など、自己改善システムを構築するさまざまな方法について言及しました。同氏は、現在の大規模言語モデルは、さまざまなモデルを接続するためのインターフェースとして汎用記号言語 (自然言語やプログラミング コードなど) を使用することで、新しい考え方を提供していると指摘しました。これらのモデルは他の言語モデルと通信して、自然言語心の社会 (NLSOM) パラダイムを構築できます。
ユルゲン・シュミットフーバー教授は、スイス人工知能研究所 (IDSIA) の科学ディレクターであり、キング・アブドラ科学技術大学 (AI イニシアチブ、KAUST) の人工知能センターの所長でもあります。 )。彼の研究は、強化学習 (強化学習)、メタ学習 (メタ学習)、ニューラル ネットワーク (ニューラル ネットワーク) などの重要な人工知能の方向性に大きな影響を与えています。
これまでのところ、シュミットフーバー教授の Google Scholar での引用数は 210,000 件で、そのうち、共同発明者である長短期記憶 (LSTM) の論文は 90,000 回引用されています。 15 歳のとき、彼は引退するために、より賢く自己改善が可能な人工知能を開発したいと考えていました。 DeepMind を設立した 4 人のうち 2 人、および最初の AI 博士課程の採用者は、ユルゲン シュミットフーバーの研究室の出身でした。
ユルゲンが思い描く社会では、すべてのコミュニケーションが透明で、簡単に解釈できます。彼は、問題が与えられたとき、この自然言語精神社会が協力して問題を解決するという「マインドストーム」という概念について言及しました。
このプロセスでは、社会の構成員それぞれが異なる考えや視点を持っている可能性があり、それらの異なる考えを収集し、統合して集合的な意思決定を行います。
この方法は、単一のエージェントでは効果的に解決できない問題を解決するのに特に適しています。ユルゲン氏はさらに、このような問題は、Python 言語を使用して特定のプログラミング問題を解決するなど、プログラミングの性質のものである可能性があると説明しました。この相乗効果により、インテリジェントエージェント社会の集合知が個人の能力を超えた解決策を達成できるようになります。
MetaGPT プロジェクトのこの繰り返しでは、ユルゲンから直接指導を受け、彼のチームはコーディング、執筆、エンジニアリングにおいて多大なサポートも提供しました。
次に、この記事では、読者がその詳細をより深く理解できるように、MetaGPT 論文の更新された内容を詳細に分析します。
1. ペーパーとフレームワークの更新
ペーパー セクション 3.1 の更新: MetaGPT フレームワークにおける役割特化設計と役割分業の概念を説明し、役割を説明します。 MetaGPT における単一エージェントの行動パターンと SOP に基づく組織化。
論文セクション 3.2 更新: 構造化通信インターフェイス設計やパブリッシュ/サブスクライブ メカニズムなど、MetaGPT フレームワークの通信メカニズムを紹介します。
この文書のセクション 3.3 を更新: 実行可能なフィードバック メカニズムが導入されました。これは、コード実行中の継続的な反復と自己修正のためのメカニズムです。
図 2. 通信プロトコルの例 (左) と、オンザフライ実行可能フィードバックによる反復プログラミングの例 (右)。左: エージェントは共有メッセージ プールを使用して構造化メッセージを公開します。また、設定に基づいて関連メッセージを購読することもできます。右の図: 初期コードを生成した後、エンジニア エージェントはコードを実行し、操作中にエラーが報告されるかどうかを確認できます。エラーが発生した場合、エージェントは実行結果を確認し、PRD、システム設計、コードファイルと比較してコードを書き換えて最適化します。
1.1. エージェント通信プロトコル
現在、ほとんどのマルチエージェントエージェントは自然言語に基づく対話を通じてコラボレーションを完了しますが、これは特定のタスクを解決するのには適していません。
制約や特定の要件のない自然言語出力は、情報コンテンツの歪みや意味論的な焦点の変化につながる可能性があります。
したがって、構造化されたコミュニケーション コンテンツとインターフェイス フォームは、エージェントがタスクの要件を迅速かつ正確に理解するのに役立ち、情報コンテンツの保持を最大限に高めることにも役立ちます。人間の SOP のさまざまなポジションの役割要件を参照して、対応するポジションの人間の専門家と一致する出力仕様を役割ごとに設定し、エージェントに元の自然言語情報をより構造化された表現に変換するよう要求します (図に示すように)。データ構造、API設計、シーケンス図など。
図 3 MetaGPT ソフトウェア開発プロセス図は、構造化された SOP がより良い結果をもたらすことを示しています。より詳細なデモについては、付録 Bを参照してください。
その後の実験では、ソフトウェアのこの複雑なタスクを実行するために、MetaGPT と ChatDev (チャット形式の通信およびコラボレーション メカニズムを使用) の実際のソリューション効果を比較しました。結果はその構造を示しており、特殊な通信インターフェイス設計はインテリジェント エージェントのコラボレーションに大きな効果をもたらします。
パブリッシュ/サブスクライブ メカニズム
マルチエージェントの通信プロセスにおいて、1v1 のシングルポイント通信方式のみに依存すると、通信が複雑になるだけではありません。効率が低いため、開発コストも大幅に増加します。したがって、[パブリッシュ-サブスクライブ] メッセージング メカニズムを通じて、フレームワーク内に共有メッセージ プールと関心ベースのサブスクリプションを実装しました。
具体的には、この環境は、エージェントが他のエージェントにいちいち問い合わせることなく、そこから情報を直接取得できる共有メッセージ プールを提供します。同時に、エージェントは自身の興味/関心のある行動に基づいてメッセージをフィルタリングしてフィルタリングできるため、メッセージ/メモリの過負荷が軽減されます。図 3 に示すように、アーキテクトは主にプロダクト マネージャーの PRD ドキュメント出力に注意を払いますが、テスト エンジニアのドキュメントにはあまり注意を払いません。
1.2. 実行可能な反復フィードバックの設計
デバッグと実行のフィードバックは、日常のプログラミング タスクにおいて重要な役割を果たします。ただし、既存の手法には自己修正メカニズムが欠けていることが多く、コードのレビューとレビュー メカニズムを通じてのみコードの実現可能性評価が行われます。コード生成時の LLM の幻覚問題をさらに軽減するために、コードを反復的に改善するための実行可能なフィードバック メカニズムを導入します。コード実行テスト結果の自動フィードバックにより、コードの実現可能性評価・判断が行われ、LLMによる自己反復・最適化が促進されます。図 2 に示すように、エンジニアはコードの実行結果に基づいてコードを継続的に更新し、テストが合格するか最大 N 回の再試行後に終了するまで繰り返しテストできます。
2. 実験の更新
実験部分では、マルチエージェント フレームワークを SOP に導入する効果に関する探索的実験と、SOP によってもたらされるコードを追加しました。実行可能な反復フィードバック品質改善実験。データセット上:
- コード品質への影響評価: HumanEval と MBPP という 2 つの公開ベンチマーク データ セットを使用します。
1) HumanEval には 164 の手書きプログラミング タスクが含まれています。これらのタスクには、機能仕様、説明、リファレンス コード、テストが含まれます。
2) MBPP には 427 の Python タスクが含まれています。これらのタスクは、中心的な概念と標準ライブラリの機能をカバーし、命令、リファレンス コード、自動テストが含まれます。 - 私たちは、より困難なソフトウェア開発タスク用のベンチマーク データセットである SoftwareDev を提案します。私たちの SoftwareDev データセットは、それぞれに独自のタスク プロンプトを持つ 70 の代表的なソフトウェア開発タスク インスタンスを収集します (論文の表 5 を参照)。これらのタスクの範囲は、ミニゲーム、画像処理アルゴリズム、データの視覚化など、多岐にわたります (論文の図 5 を参照)。これらは、実際の開発タスクのための強力なテスト プラットフォームを提供します。以前のデータセットとは異なり、SoftwareDev はエンジニアリングの側面に焦点を当てています。比較では、評価対象となる 7 つの代表的なタスクをランダムに選択しました。
2.1. 実行可能な反復フィードバック設計
図 4 は、MetaGPT が HumanEval ベンチマークと MBPP ベンチマークの両方で良好なパフォーマンスを示していることを示しています. これまでのすべての方法を上回るパフォーマンスを発揮します。 MetaGPT (ベース モデルとして GPT-4 を使用) の場合、HumanEval ベンチマークの Pass@1 は GPT-4 と比較して大幅に向上します。これら 2 つの公開ベンチマークでは 85.9% と 87.7% を達成しました (実験コストを考慮して、一部のモデルの数値結果は Dong et al. (2023) によって提供された結果を直接使用しています。[6])。
2.2. ソフトウェア開発タスクのデータセットと評価指標
SoftwareDev では、ビルド プロジェクトの実際の使いやすさを優先し、手動評価 (A、E) または統計分析 (B、C、D) を通じてパフォーマンスを評価します。視覚的な例を通じて MetaGPT を実証します。独立したソフトウェア (論文の図 5)。追加の実験と分析は、この論文の付録 C にあります。
(A) 実行可能性: この指標は、生成されたコードを 1 (失敗/機能しない) から 4 (欠陥なし) で評価します。 1 は機能しないことを意味し、2 は機能するが完璧ではないことを意味し、3 はほぼ完璧であることを意味し、4 は欠陥がないことを意味します。
(B) コスト: ここでのコスト評価には、(1) プロジェクトの実行時間、(2) トークンの消費、および (3) 実際のコストが含まれます。
(C) コード統計: (1) コード ファイルの数、(2) ファイルごとのコードの平均行数、および (3) コードの合計行数が含まれます。
(D) 生産効率: 基本的な定義は、トークンの使用量をコードの行数で割ったもの、つまりコードの各行で消費されるトークンであり、値が小さいほどコードの生産性が高くなります。効率。
(E) 手動リビジョン コスト: コードがスムーズに実行されることを保証するために必要なリビジョン ラウンドの数で定量化されます。これは、デバッグや依存関係やその他のリビジョンのインポートなどの手動介入の頻度を表します。
2.3、SOP 対 ChatChain
特定のタスクを解決するシナリオで、複数のタスクに対する SOP の効果を調査するために、 -エージェントのコラボレーション オープンソース作業でのソフトウェア開発タスクをサポートするエージェント フレームワークである ChatDev を実験的な比較対象として選択しました。 ChatDevは、ChatChainの役割分担とソフトウェア開発のウォーターフォールフローに基づいたエージェント組織とコラボレーションのためのフレームワークです。比較のために SoftwareDev から 7 つのタスクを選択し、上記の関連指標を比較して違いを示しました。
この論文の表 1 に示すように、MetaGPT は、困難な SoftwareDev データセットのほぼすべての指標で ChatDev を上回っています。
例: MetaGPT の実行可能性スコアは 3.75 で、これは 4 (完璧) に非常に近いです。さらに、ChatDev よりも所要時間が大幅に短くなります (503 秒)。
コード統計と手動修正コストの点でも、ChatDev よりも大幅に優れています。 MetaGPT はより多くのトークン (ChatDev の 19,292 と比較して 24,613 または 31,255) を必要としますが、コード行を生成するのに必要なトークンは 126.5/124.3 のみです。比較すると、ChatDev は 248.9 トークンを使用します。
これらの結果は、マルチエージェントのコラボレーションにおける SOP の利点を強調しています。
#3. 謝辞
KAUST AI Center 事務局長の Sarah Salhi、ポスドク研究員の Wang Yuhui、博士に感謝します。学生の Wang Wenyi がこの件に関してこの論文は提案と支援を提供します。
[1] https://arxiv.org/pdf/2308.00352.pdf
[2] https://en.wikipedia.org/wiki/Society_of_Mind
[3] https://arxiv.org/pdf/2305.17066.pdf
[4] https://en.wikipedia.org/wiki/Universal_Turing_machine
[5] https://en.wikipedia.org/wiki/Gödel_machine
[6] https://arxiv. org/abs/2304.07590
以上がインテリジェント社会をターゲットとした MetaGPT がユルゲン・シュミットフーバーチームと提携の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

Machine Power Report 編集者: Yang Wen AI ビデオ サークルの王になれるのは誰ですか?アメリカのテレビシリーズ「ゲーム・オブ・スローンズ」に「鉄の玉座」というものがあります。伝説によれば、それは最高の権威を象徴する敵が捨てた数千の剣を溶かした巨大なドラゴン「黒死病」によって作られたとされています。この鉄の椅子に座るために、主要な家族は争いと争いを始めました。 Sora の登場以来、AI ビデオ界では活発な「ゲーム オブ スローンズ」が立ち上がっています。このゲームの主なプレーヤーには、国内の Kuaishou Keling、ByteDream だけでなく、海の向こうの RunwayGen-3 や Luma も含まれます。およびZhimo。今日は、誰が AI ビデオサークルの「鉄の玉座」に座る資格があるかを評価して確認します。 -1- ヴィンセントビデオ
