目次
CICERO の構築方法
自然で目的のある対話を生み出す
弱点
Diplomacy」で人間と AI のインタラクションのサンドボックスを前進させましょう" >「Diplomacy」で人間と AI のインタラクションのサンドボックスを前進させましょう
今後の方向性
ホームページ テクノロジー周辺機器 AI 味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

Apr 11, 2023 pm 11:25 PM
ai エージェント

ゲームは長い間、AI の進歩の実験場であり、チェスのグランドマスター、ガルリー カスパロフに対するディープ ブルーの勝利から、AlphaGo の人間を超えた囲碁の達人、そしてポーカーで最高のプレイヤーを破る Pluribus に至るまで。しかし、本当に役立つ全能のエージェントは、ボード ゲームをプレイしてチェスの駒を動かすだけではできません。こう思わずにはいられません。言語を使用して人々と交渉し、説得し、人間と同じように戦略的目標を達成するために協力できる、より効果的で柔軟なエージェントを構築できないでしょうか?

ゲームの歴史の中でも古典的な卓上ゲーム「ディプロマシー」がありますが、初めてこのゲームを見た多くの人は、そのマップ形式のボードに衝撃を受けるでしょう。それを複雑な戦争ゲームとして考えてください。実際にはそうではありません。これは、味方を獲得するために言語を動員する必要があるゲームです。意思決定と交渉が必要です。プレイヤー間で多くのコミュニケーションが必要です。ゲームに勝つための鍵は、人々の間の相互作用にあります。 。

メタはこのゲームへの挑戦を開始しました。彼らが構築した知的エージェント CICERO は、外交において人間のレベルに達した最初の AI になりました。 CICERO はオンライン バージョンの webDiplomacy.net でこれを実証しました。そこでは、CICERO は平均して人間のプレイヤーの 2 倍以上のスコアを獲得し、複数のゲームをプレイした参加者の上位 10% にランクされました。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です


  • 論文アドレス: https://www.science.org/doi/10.1126/ science.ade9097
  • ホームページアドレス: https://ai.facebook.com/research/cicero/diplomacy/

このゲームではプレイヤーが他者の動機や視点を理解し、複雑な計画を立て、戦略を調整し、それに基づいて自然言語を使用して他者と合意に達する必要があるため、10 年間、外交は AI の分野で克服できない課題とみなされてきました。 、他者を説得してパートナーシップや同盟を形成するなど。これらはエージェントにとって依然として困難であり、CICERO は自然言語を使用して外交関係者と交渉するのに依然として非常に効果的です。

チェスや囲碁とは異なり、外交は駒ではなく人間に関するゲームです。エージェントが対戦相手がブラフをしているのか、それとも実際に妨害行為をしているのかを見分けることができなければ、すぐにゲームに負けてしまいます。同様に、エージェントが人間のようにコミュニケーションをとったり、共感を示したり、他者との関係を構築したり、ゲームについて話したりすることができない場合、協力してくれる他のプレイヤーは見つかりません。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

Meta の研究では、戦略的推論 (AlphaGo、Pluribus など) と自然言語処理 (GPT-3、BlenderBot 3、LaMDA、OPT など) を組み合わせています。 -175B)を組み合わせました。たとえば、ゲームの後半で CICERO は特定のプレイヤーのサポートが必要になると推測し、そのプレイヤーの支持を得る戦略を立てます。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

CICERO の構築方法

CICERO の中核は、制御可能な対話モデルと戦略的推論エンジンです。ゲームのあらゆる時点で、CICERO はゲームボードとその会話履歴を調べ、他のプレイヤーが行う可能性のある行動をモデル化します。次に、言語モデルを制御し、その計画を他のプレーヤーに伝え、他のプレーヤーとうまく調整できる合理的なアクションを提案するための計画が作成されます。

制御可能な対話

制御可能な対話モデルを構築するために、Meta は制御可能な対話モデルから開始します。 27 億のパラメータ: 私たちは BART のような言語モデルから開始し、インターネットからのテキストで事前トレーニングし、webDiplomacy.net 上の 40,000 以上の人間のゲームで微調整しました。

#実装プロセスは主に次のステップに分かれています:

#ステップ 1: ボードの状態と現在のダイアログに基づいて、CICEROそれぞれの人が決定を下します 最初の予測を与えるもの。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

ステップ 2: CICERO は、最初の予測を繰り返し改善し、改善された予測を使用して、CICERO 自身とそのパートナーに対する意図を形成します。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

#ステップ 3: 理事会の状態、対話、意図に基づいて複数の候補メッセージを生成します。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

ステップ 4: 候補メッセージをフィルタリングし、価値を最大化し、お互いの意図が一貫していることを確認します。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

研究者らは、対話の品質をさらに向上させるために、訓練された分類器を使用して対話を区別するなど、いくつかのフィルタリング メカニズムを使用しました。人間とモデル ダイアログが意味をなしていること、現在のゲーム状態や以前の情報と一致していること、戦略的に健全であることを保証するために生成されたテキスト。

会話を意識した戦略と計画

協力を伴うゲームでは、エージェントは現実の人間をシミュレートする方法を学ぶ必要があります人間を、エージェントが何をすべきかを指示する機械として扱うのではなく、実際に人生で何をするのか。したがって、メタは、CICERO が策定した計画が他の関係者との対話と一致することを望んでいます。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

ヒューマン モデリングの古典的な方法は、ラベル付きデータ (過去のゲームの人間プレイヤーなど) を使用する教師あり学習です。アクション データベース) を使用してエージェントをトレーニングします。ただし、過去の会話に基づいてアクションを選択する教師あり学習のみに依存すると、エージェントが比較的弱く、簡単に悪用されてしまいます。たとえば、プレイヤーはエージェントに「軍隊をパリから移動させることに合意できてうれしいです!」と言うことができます。同様の情報は合意に達した場合にのみトレーニング データに表示されるため、エージェントは実際に軍隊を移動させる可能性があります。たとえそれが明らかに戦略上の間違いであったとしても、パリから。

この問題を解決するために、CICERO は反復計画アルゴリズムを実行して、会話の一貫性と合理性のバランスをとります。エージェントはまず、他のプレイヤーとの会話に基づいて現在のターンの各プレイヤーの戦略を予測し、また他のプレイヤーがエージェントの戦略をどのように考えるかを予測します。次に、「piKL」と呼ばれる計画アルゴリズムを実行します。これは、他のプレイヤーが予測した戦略を考慮して、より高い期待値を持つ新しい戦略を選択しようとすることで、これらの予測を繰り返し改善するとともに、新しい予測を元の戦略に近づけようとします。予測。研究者らは、piKL が純粋な教師あり学習よりも人間のゲームをより適切にシミュレートし、エージェントに優れた戦略をもたらすことができることを発見しました。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

自然で目的のある対話を生み出す

外交においては、プレイヤー同士がどのように会話するかは、駒をどのように動かすかよりもさらに重要です。 CICERO は、他のプレイヤーと戦略を立てる際に、明確かつ説得力のあるコミュニケーションをとることができます。たとえば、あるデモでは、CICERO は 1 人のプレイヤーにボードの特定の部分を直ちにサポートするよう求め、一方で別のプレイヤーにはゲームの後半で同盟を検討するよう圧力をかけました。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

交換では、CICERO は 3 人の異なるプレイヤーにアクションを提案することで戦略を実行しようとします。 2 番目の会話では、エージェントは他のプレイヤーに、協力する必要がある理由と、それが双方にどのような利益をもたらすかを伝えることができます。この 3 回目の対話では、CICERO は情報を募り、将来の行動に向けた基礎を築いています。

弱点

CICERO は、その目標を損なう一貫性のない対話を行う場合があることを認識しなければなりません。以下の例では、CICERO はオーストリアを演じていますが、エージェントはイタリアにヴェネツィアに移動するよう求めており、最初のメッセージと矛盾しています。

味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人です

Diplomacy」で人間と AI のインタラクションのサンドボックスを前進させましょう

両方の協力 競争も伴うゲームにおける目標指向の対話システムの出現は、AI を人間の意図や目標に合わせる上で重要な社会的および技術的課題を引き起こします。外交は、この問題を研究するのに特に興味深い環境を提供します。ゲームをプレイするには、相反する目標と格闘し、これらの複雑な目標を自然言語に翻訳する必要があるからです。簡単な例として、プレイヤーは味方との関係を維持するために短期的な利益を犠牲にすることを選択するかもしれません。なぜなら、その味方が次のターンでより有利な立場に立つのに役立つかもしれないからです。

Meta はこの作業で大幅な進歩を遂げましたが、言語モデルと具体的な意図を強力に組み合わせる能力、およびそれらの意図を決定する技術的 (および規範的) 課題は依然として重要です。質問。 Meta は、CICERO コードをオープンソース化することで、AI 研究者が責任ある方法でこの研究を継続できることを期待しています。同チームは、「ゼロショット分類に会話モデルを使用することで、この新しい分野で有害な情報を検出して削除するための早期の措置を講じました。『ディプロマシー』が人間とAIの相互作用を前進させるための安全なサンドボックスとして機能することを期待しています」と述べた。研究。 》

今後の方向性

CICERO は現在、外交ゲームしかプレイできませんが、この成果の背後にあるテクノロジーは多くの現実世界のアプリケーションに関連しています。たとえば、計画と RL を通じて自然言語生成を制御することで、人間と AI 主導のエージェントとの間のコミュニケーションの障壁を軽減できます。

たとえば、今日の AI アシスタントは、天気を教えるなどの単純な質問に答えるのが得意ですが、新しいスキルを教えるという目的で長期間の会話を続けることができたらどうなるでしょうか。 ?

また、NPC が人間のように計画を立て、会話できるビデオ ゲームを想像してみてください。プレイヤーの動機を理解し、それに応じて対話を調整することで、城を襲撃するというクエストを完了することができます。

これらの「夢」は、将来、現実になるかもしれません。

以上が味方を獲得し、人々の心を理解する、最新のメタエージェントは交渉の達人ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

mysqlはjsonを返すことができますか mysqlはjsonを返すことができますか Apr 08, 2025 pm 03:09 PM

MySQLはJSONデータを返すことができます。 json_extract関数はフィールド値を抽出します。複雑なクエリについては、Where句を使用してJSONデータをフィルタリングすることを検討できますが、そのパフォーマンスへの影響に注意してください。 JSONに対するMySQLのサポートは絶えず増加しており、最新バージョンと機能に注意を払うことをお勧めします。

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

MySQLの主な鍵はヌルにすることができます MySQLの主な鍵はヌルにすることができます Apr 08, 2025 pm 03:03 PM

MySQLプライマリキーは、データベース内の各行を一意に識別するキー属性であるため、空にすることはできません。主キーが空になる可能性がある場合、レコードを一意に識別することはできません。これにより、データの混乱が発生します。一次キーとして自己挿入整数列またはUUIDを使用する場合、効率やスペース占有などの要因を考慮し、適切なソリューションを選択する必要があります。

See all articles