AI に王を倒す方法を学習させて何になるのでしょうか?
11 月 28 日、NeurIPS 2022 が正式に開幕しました。
NeurIPS は、世界で最も権威のある人工知能イベントの 1 つとして、毎年年末にコンピューター サイエンスの分野で注目を集めています。 NeurIPS に受け入れられた論文は、現在の神経科学および人工知能研究の最高レベルを表しており、業界トレンドの変化も反映しています。
興味深いのは、今年の「出場者」が研究の中で特に「ゲーム」を好んでいるようだということです。
たとえば、Minecraft ゲーム環境をベースにした Li Feifei チームの MineDojo は、最優秀データセット賞とベンチマーク論文賞を受賞しました。ゲームのオープン性を利用して、研究者は MineDojo のさまざまなタイプのタスクを通じてエージェントをトレーニングすることができ、それによって AI により一般的な機能を与えることができます。
そして、厳格な入場率により、同様にゲーム分野に含まれる別の論文も多くのゲーマーに関連する可能性があります。
結局のところ、キング オブ キングスをプレイしたことがない人はいないでしょうか?
論文「アリーナ: 競争強化学習のための一般化環境」
アドレス: https://openreview.net/pdf?id=7e6W6LEOBg3
研究者らは記事の中で、MOBA に基づいたゲームを提案しました。ゲーム「キング・オブ・キングス「グローリー」」のテスト環境。目的は実際には MineDojo と似ており、AI をトレーニングすることです。
MOBA ゲーム環境はなぜこれほど人気があるのでしょうか?
DeepMind が AlphaGo を発表して以来、高度な自由度と高度な複雑性を備えたシミュレート環境としてのゲームは、長い間、AI の研究と実験にとって重要な選択肢となってきました。
ただし、無制限のタスクから継続的に学習できる人間と比較して、複雑さの低いゲームで訓練されたエージェントは、その能力を特定のタスクに一般化することができません。簡単に言えば、これらの AI はチェスをプレイするか、古代の Atari ゲームをプレイすることしかできません。
より「汎用」できる AI を開発するために、学術研究の焦点はボードゲームから、非完全情報ゲームを含むより複雑なゲームへと徐々に移行しています。 (ポーカーなど) および戦略ゲーム (MOBA や RTS ゲームなど)。
同時に、リー・フェイフェイのチームが受賞論文で述べているように、エージェントがより多くのタスクに汎用化できるようにするには、トレーニング環境が十分な機能を提供する必要があります。タスク 。
DeepMind は、AlphaGo とその派生バージョン AlphaZero を利用して、囲碁界の無敵のプレイヤー全員を破りましたが、すぐにこのことに気づきました。
#2016 年、DeepMind は Blizzard と提携して、空間複雑度 10 の 1685 乗の「StarCraft II」をベースにした「StarCraft II 学習環境」を立ち上げました。 SC2LE) は、エージェントのアクションと報酬の仕様、およびゲーム エンジンと通信するためのオープンソース Python インターフェイスを研究者に提供します。
中国にも優れた資格を備えた「AI訓練場」がある——
有名な MOBA ゲームでは、「Honor of Kings」におけるプレイヤーのアクション状態空間は 10 の 20,000 乗にも及び、囲碁や他のゲームよりもはるかに大きく、ゲーム内の原子の総数をも超えています。宇宙全体(10の80乗)。
DeepMind と同様に、テンセントの AI ラボも「Honor of Kings」と提携し、AI 研究により適した「Honor of Kings AI オープン研究環境」を共同開発しました。
現在、「Glory of Kings AI オープン研究環境」には、1v1 の戦闘環境とベースライン アルゴリズム モデルが含まれており、20 人のミラー戦闘タスクをサポートしています。ヒーロー、および非ミラーバトルミッション。
具体的には、「Glory of Kings AI オープン研究環境」は、双方のヒーローの選択だけを考慮した場合、20×20=400 の戦闘サブタスクをサポートできます。召喚士のスキルも含めるとシードクエストは40,000個にもなります。
「Glory of Kings AI オープンリサーチ環境」でエージェントが受け入れる一般化の課題を誰もがよりよく理解できるように、論文内の 2 つのテストを使用して検証できます。
まず、レベルが入門レベルの「ゴールド」のビヘイビアツリー AI (BT) を作成します。反対は、強化学習アルゴリズムによって訓練されたエージェント (RL) です。
最初の実験では、貂蝉 (RL) と貂蝉 (BT) のみが戦うことを許可され、その後、訓練された RL (貂蝉) がさまざまなヒーローに挑戦するために使用されました ( BT)。
98 ラウンドのテスト後の結果を次の図に示します。
対戦相手のヒーローが変わると、同じトレーニングのパフォーマンスが変化します。戦略は急激に低下します。対戦相手のヒーローが変わるとテスト環境とトレーニング環境が異なるため、既存の方法で学習した戦略は汎用性に欠けます。
#図 1 対戦相手を超えた一般化の課題
2 番目のこの内容実験では、貂蝉(RL)と貂蝉(BT)のみが戦うことを許可され、その後、訓練されたRLモデルを使用して他のヒーローを制御し、貂蝉(BT)に挑戦しました。
98 回のテストの結果は次のとおりです。
モデルが操作するターゲットが貂蝉から他のヒーローに変更された場合、同じ トレーニング戦略のパフォーマンスが急激に低下します。対象となるヒーローが変わると、その行動の意味が訓練環境での貂蝉の行動とは異なってくるからである。
#図 2 クロスターゲット汎化チャレンジ
この結果の原因理由は非常に単純で、ヒーローにはそれぞれ独自の操作スキルがあり、訓練を受けたばかりのエージェントは新しいヒーローを手に入れても使い方が分からず、見て見ぬふりをするしかないからです。人間のプレイヤーも同様で、中盤で「ランダムにキル」できるプレイヤーは、ジャングルに変更すると良い KDA を達成できない可能性があります。
これが実際に最初に提起した問題に戻ることは、難しくありません。単純な環境で「汎用」AI をトレーニングするのは困難です。複雑性の高い MOBA ゲームは、モデルの一般化をテストするのに便利な環境を提供するだけです。
もちろん、ゲームを直接 AI の訓練に使用することはできないため、特別に最適化された「訓練場」が登場しました。
したがって、研究者は、「StarCraft II 学習環境」や「Glory of Kings AI オープン研究環境」などの環境で独自のモデルをテストおよびトレーニングできます。
国内の研究者は適切なプラットフォーム リソースにどのようにアクセスしますか?
DeepMind の開発は、Google の強力なサポートと切り離すことができません。 Li Feifei 氏のチームが提案する MineDojo は、トップ大学であるスタンフォード大学のリソースを活用しているだけでなく、NVIDIA からの強力なサポートも受けています。
現在の国内の人工知能産業は、特に研究開発リソースの不足に直面している一般企業や大学にとって、インフラストラクチャレベルでまだ十分に強固ではありません。
テンセントは、より多くの研究者が参加できるように、今年11月21日に「Honor of Kings AIオープン研究環境」を正式に一般公開しました。
ユーザーは、Enlightenment Platform の公式 Web サイトでアカウントを登録し、情報を送信し、プラットフォームのレビューに合格するだけで、無料でダウンロードできます。
ウェブサイトのリンク: https://aiarena.tencent.com/aiarena/zh/open-gamecore
学者やアルゴリズム開発者の研究をより適切にサポートするために、Enlightenment プラットフォームは「Honor of Kings AI オープン研究環境」をカプセル化して使いやすくするだけでなく、標準コードとトレーニング フレームワーク。
次に、Enlightenment Platform で AI トレーニング プロジェクトを開始する方法について「浅い」体験をしてみましょう。
AI に「Honor of Kings」を「プレイ」してもらいたいので、最初にしなければならないことは、主人公を制御するために使用される「インテリジェント エージェント」を作成することです。
少し複雑に思えますか?しかし、「Glory of Kings AIオープン研究環境」では、これが実は非常にシンプルなのです。
まず、gamecore サーバーを起動します:
cd gamecoregamecore-server.exe server --server-address :23432
hok_env パッケージをインストールします:
git clone https://github.com/tencent-ailab/hok_env.gitcd hok_env/hok_env/pip install -e .
そして、テスト スクリプトを実行します:
cd hok_env/hok_env/hok/unit_test/python test_env.py
これで、hok をインポートし、hok.HoK1v1.load_game を呼び出して環境を作成できます:
import hok env = HoK1v1.load_game(runtime_id=0, game_log_path="./game_log", gamecore_path="~/.hok", config_path="config.dat",config_dicts=[{"hero":"diaochan", "skill":"rage"} for _ in range(2)])
以下, 環境をリセットすることで、エージェントから最初の観測結果を取得します。
obs, reward, done, infos = env.reset()
obs は、環境観測に対するエージェントの応答を記述する NumPy 配列のリストです。
reward は、環境から受け取る即時報酬を記述する浮動小数点スカラーのリストです。
done は、ゲームの状態を説明するブール値のリストです。
infos変数は、長さがエージェントの数である辞書のタプルです。
その後、時間がなくなるかエージェントが強制終了されるまで、環境内で操作を実行します。
ここでは、env.step メソッドを使用するだけです。
done = False while not done: action = env.get_random_action() obs, reward, done, state = env.step(action)
「StarCraft II 学習環境」と同様に、視覚化ツールを使用して「Glory of Kings AI オープン 研究環境」でエージェントのリプレイを表示することもできます。
この時点で、最初のエージェントが作成されました。
次に、「彼女」をドラッグしてさまざまなトレーニングを実行できます。
# そう言えば、「Glory of Kings AI オープン研究環境」が単なる研究環境ではないことは、誰もが理解するのに難しくないでしょう。トレーニング環境 AI 環境により、使い慣れた操作と豊富なドキュメントを通じてプロセス全体がシンプルかつ理解しやすくなります。
これにより、AI分野への参入に興味のあるより多くの人が気軽に始められるようになります。
ゲーム AI、他にはどのような可能性がありますか?
これを見ると、実はまだ答えられていない疑問があります。企業主導の研究プラットフォームとして、なぜテンセント啓蒙プラットフォームは大規模に公開することを選んだのでしょうか?
今年 8 月、成都人工知能産業生態同盟とシンクタンク Yuqian Consultants が共同で国内初のゲーム AI レポートを発表しました。この報告書から、ゲームが人工知能の開発を促進するための重要なポイントの 1 つであることがわかります。具体的には、ゲームは 3 つの側面で AI の応用を向上させることができます。
第一に、このゲームは AI の優れたトレーニングおよびテストの場です。
- 迅速な反復: 実際のコストをかけずに、ゲームを自由に操作したり、試行したり、作成したりすることができます。同時に、明らかな報酬メカニズムがあり、アルゴリズムの有効性。
- 豊富なタスク: さまざまな困難と複雑さを備えた多くの種類のゲームがあり、人工知能はそれらに対処するために複雑な戦略を採用する必要があります。さまざまな種類のゲームを克服することは、アルゴリズム レベルの向上を反映します。
- 明確な成功または失敗の基準: ゲームスコアを通じて人工知能の能力を調整し、人工知能のさらなる最適化を促進します。
第二に、ゲームは AI のさまざまな能力を訓練し、さまざまなアプリケーションにつながる可能性があります。
たとえば、チェス ゲームは AI をトレーニングして順序を決定し、長期的な推論能力を獲得します。カード ゲームは AI をトレーニングして動的に適応し、適応性を獲得します。リアルタイム ストラテジー ゲームは AI をトレーニングして、マシンのメモリ機能、長期計画機能、マルチエージェントのコラボレーション機能、およびアクションの一貫性。
さらに、このゲームは環境上の制約を打ち破り、賢明な意思決定を促進することもできます。
たとえば、ゲームでは、仮想シミュレーションのリアルタイム レンダリングと仮想シミュレーション情報の同期を促進し、仮想シミュレーション インタラクティブ端末をアップグレードできます。
啓発プラットフォームは、アルゴリズム、コンピューティング能力、複雑なシナリオなどの点で Tencent AI Lab と King of Glory の利点を活用しています。それが開かれれば、ゲームと AI 開発の間に効果的な協力の橋を築き、大学の学問分野の構築、競争組織、業界の人材育成を結び付けることができます。人材プールが十分であれば、雨後の筍のように科学研究の進歩や商業応用が生まれます。
過去 2 年間、Kaiwu プラットフォームは産学、研究の分野で多くのレイアウト対策を講じてきました。「Kaiwu マルチエージェント強化学習コンペティション」を開催しました。青北を含むTOP2人材が集結 名門大学を含むトップチームが参加し、大学科学教育コンソーシアムを結成 北京大学情報科学部が人気選択科目「ゲームAIのアルゴリズム」開講放課後の宿題は、Honor of Kings 1V1 環境で実験を行うことでした...
将来を楽しみにしています。 「Enlightenment」プラットフォームはAI業界のさまざまな分野に広がり、プラットフォームの上流と下流の生態系の満開を実現します。
以上がAI に王を倒す方法を学習させて何になるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Debian Systemsでは、Readdir関数はディレクトリコンテンツを読み取るために使用されますが、それが戻る順序は事前に定義されていません。ディレクトリ内のファイルを並べ替えるには、最初にすべてのファイルを読み取り、QSORT関数を使用してソートする必要があります。次のコードは、debianシステムにreaddirとqsortを使用してディレクトリファイルを並べ替える方法を示しています。

Debian Systemsでは、Directoryコンテンツを読み取るためにReadDirシステム呼び出しが使用されます。パフォーマンスが良くない場合は、次の最適化戦略を試してください。ディレクトリファイルの数を簡素化します。大きなディレクトリをできる限り複数の小さなディレクトリに分割し、Readdirコールごとに処理されたアイテムの数を減らします。ディレクトリコンテンツのキャッシュを有効にする:キャッシュメカニズムを構築し、定期的にキャッシュを更新するか、ディレクトリコンテンツが変更されたときに、頻繁な呼び出しをreaddirに削減します。メモリキャッシュ(memcachedやredisなど)またはローカルキャッシュ(ファイルやデータベースなど)を考慮することができます。効率的なデータ構造を採用する:ディレクトリトラバーサルを自分で実装する場合、より効率的なデータ構造(線形検索の代わりにハッシュテーブルなど)を選択してディレクトリ情報を保存およびアクセスする

DebianシステムのReadDir関数は、ディレクトリコンテンツの読み取りに使用されるシステムコールであり、Cプログラミングでよく使用されます。この記事では、ReadDirを他のツールと統合して機能を強化する方法について説明します。方法1:C言語プログラムを最初にパイプラインと組み合わせて、cプログラムを作成してreaddir関数を呼び出して結果をinclude#include#include inctargc、char*argv []){dir*dir; structdireant*entry; if(argc!= 2){(argc!= 2){

この記事では、Debian SystemsでiPtablesまたはUFWを使用してファイアウォールルールを構成し、Syslogを使用してファイアウォールアクティビティを記録する方法について説明します。方法1:Iptablesiptablesの使用は、Debian Systemの強力なコマンドラインファイアウォールツールです。既存のルールを表示する:次のコマンドを使用して現在のiPtablesルールを表示します。Sudoiptables-L-N-vでは特定のIPアクセスを許可します。たとえば、IPアドレス192.168.1.100がポート80にアクセスできるようにします:sudoiptables-input-ptcp - dport80-s192.166

Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします(まだインストールされていない場合):sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール:sudoiptables-l configuration

このガイドでは、Debian SystemsでSyslogの使用方法を学ぶように導きます。 Syslogは、ロギングシステムとアプリケーションログメッセージのLinuxシステムの重要なサービスです。管理者がシステムアクティビティを監視および分析して、問題を迅速に特定および解決するのに役立ちます。 1. syslogの基本的な知識Syslogのコア関数には以下が含まれます。複数のログ出力形式とターゲットの場所(ファイルやネットワークなど)をサポートします。リアルタイムのログ表示およびフィルタリング機能を提供します。 2。syslog(rsyslogを使用)をインストールして構成するDebianシステムは、デフォルトでrsyslogを使用します。次のコマンドでインストールできます:sudoaptupdatesud

この記事では、DebianシステムのApachewebサーバーのロギングレベルを調整する方法について説明します。構成ファイルを変更することにより、Apacheによって記録されたログ情報の冗長レベルを制御できます。方法1:メイン構成ファイルを変更して、構成ファイルを見つけます。Apache2.xの構成ファイルは、通常/etc/apache2/ディレクトリにあります。ファイル名は、インストール方法に応じて、apache2.confまたはhttpd.confである場合があります。構成ファイルの編集:テキストエディターを使用してルートアクセス許可を使用して構成ファイルを開く(nanoなど):sudonano/etc/apache2/apache2.conf

Debian Systemsでは、OpenSSLは暗号化、復号化、証明書管理のための重要なライブラリです。中間の攻撃(MITM)を防ぐために、以下の測定値をとることができます。HTTPSを使用する:すべてのネットワーク要求がHTTPの代わりにHTTPSプロトコルを使用していることを確認してください。 HTTPSは、TLS(Transport Layer Security Protocol)を使用して通信データを暗号化し、送信中にデータが盗まれたり改ざんされたりしないようにします。サーバー証明書の確認:クライアントのサーバー証明書を手動で確認して、信頼できることを確認します。サーバーは、urlsessionのデリゲート方法を介して手動で検証できます
