私たちはよく「行動する前によく考えて」、蓄積された経験を最大限に活用するように教えられますが、この言葉は AI にもインスピレーションを与えました。
従来の意思決定AIモデルは、忘却効果の存在により効果的に経験を蓄積することができませんでしたが、中国主導の研究によりAIの記憶方法が変わりました。
新しい記憶方法は人間の脳を模倣し、AI の経験蓄積効率を効果的に向上させ、それによって AI のゲーム パフォーマンスを 29.9% 向上させます。
研究チームは、ミラ ケベック AI 研究所とマイクロソフト モントリオール研究所のそれぞれ 6 名で構成されており、そのうち 4 名は中国人です。
彼らは、その結果をメモリ付き意思決定変換器 (DT-Mem) と名付けました。
従来の意思決定モデルと比較して、DT-Mem は適用範囲が広く、モデル運用の効率も高くなります。
アプリケーションの効果に加えて、DT-Mem のトレーニング時間も最小 200 時間から 50 時間に短縮されました。
同時に、チームは、DT-Mem がトレーニングされていない新しいシナリオに適応できるようにする微調整方法も提案しました。
微調整されたモデルは、これまで学習していないゲームでも優れたパフォーマンスを発揮します。
従来の意思決定モデルは LLM に基づいて設計されており、暗黙的メモリを使用しており、そのパフォーマンスはデータと計算に依存します。
暗黙記憶は意図的に記憶されるのではなく無意識に生成されるため、意識的に思い出すことはできません。
もっと簡単に言うと、関連するコンテンツは明らかにそこに保存されていますが、モデルはその存在を知りません。
この暗黙記憶の特性が従来のモデルにおける忘却現象を決定づけ、作業効率の低下につながります。
忘却現象は、問題を解決するための新しい方法を学習した後、古い問題と新しい問題が同じタイプであっても、モデルが古い内容を忘れてしまう可能性があるという点で現れます。
人間の脳は 分散記憶ストレージ 方式を採用しており、記憶内容は脳の複数の異なる領域に分散して保存されます。
このアプローチは、複数のスキルを効果的に管理および整理するのに役立ち、それによって忘れる現象を軽減します。
これに触発されて、研究チームは、さまざまな下流タスクのための情報を保存、混合、取得するための内部作業記憶モジュールを提案しました。
具体的には、DT-Mem は、トランスフォーマー、メモリ モジュール、および多層認識 (MLP) モジュールの 3 つの部分で構成されます。
DT-Mem の Transformer は GPT-2 のアーキテクチャを模倣していますが、アテンション メカニズムの後のフィードフォワード層を削除しています。
同時に、GPT-2 の MLP モジュールは DT-Mem の一部として独立したコンポーネントに分割されます。
この 2 つの中間として、研究チームは中間情報を保存および処理するための作業記憶モジュールを導入しました。
この構造は、メモリを使用してさまざまなアルゴリズムを推論するニューラル チューリング マシンからインスピレーションを得ています。
メモリ モジュールは、Transformer によって出力された情報を分析し、その保存場所と、それを既存の情報と統合する方法を決定します。
さらに、このモジュールでは、この情報が将来の意思決定プロセスでどのように使用されるかについても検討します。
#これらのタスクは、大まかに 5 つのステップで完了します。まず、メモリ モジュールがランダム マトリックスとして初期化されます。 次に入力情報の並べ替えですが、このステップでは情報を Transformer に渡すのではなく、タプルの形式で同じ空間に格納します。 その後、保存場所を決定する必要があります。人間は通常、関連する情報を同じ場所に保存しますが、DT-Mem もこの原則に基づいています。 最後の 2 つのステップであるメモリの更新と取得は、メモリ モジュールの中核であり、DT-Mem 全体の最も重要なリンクです。 メモリの更新とは、タスクのニーズに合わせて情報を適時に更新できるように、既存の情報を編集および置換することを意味します。 このステップでは、DT-Mem は消去ベクトルと書き込みベクトルを計算し、それらを既存のデータと混合する方法を決定します。 メモリの検索とは、既存の情報にアクセスして回復することであり、意思決定が必要な場合に関連する有用な情報をタイムリーに取得することです。 実際に使用する前に、DT-Mem は事前トレーニング プロセスを通過する必要があります。 DT-Mem の微調整に関しても、チームは新しい手法を提案しました。 DT-Mem はタスクに基づいてラベル付けされたデータを使用するため、この種の微調整は DT-Mem が新しいタスクに適応するのに役立ちます。 このプロセスは、低ランク適応 (LoRA) に基づいており、既存のマトリックスに低ランク要素を追加します。 トレーニング時間は最大 32 分の 1 に短縮されますDT-Mem の意思決定能力をテストするために、研究チームは次のことを行いました。それはいくつかのゲームゲームをプレイします。 全部で 5 つのゲームがあり、すべて Atari からのものです。 同時に、チームはリファレンスとして従来モデル M[ulti-game]DT のパフォーマンスもテストしました。結果として、DT-Mem の 4 試合の最高成績はすべて MDT よりも優れていました。
具体的には、DT-Mem は MDT と比較して DQN 正規化スコアを 29.9% 改善します。
ただし、DT-Mem のパラメータ量は 20M に過ぎず、MDT (200M パラメータ) の 10% に過ぎません。
これほどのパフォーマンスは大したものと言っても過言ではありません。
DT-Mem は、優れたパフォーマンスに加えて、トレーニング効率も MDT を上回ります。
MDT の 13M パラメータ バージョンのトレーニングには 200 時間かかりますが、20M DT-Mem のトレーニングには 50 時間しかかかりません。
200M バージョンと比較すると、トレーニング時間は 32 倍短縮されますが、パフォーマンスはさらに優れています。
#チームが提案した微調整方法のテスト結果は、この微調整により DT-Mem の適応能力が向上することも示しています。未知のシナリオ。
以下の表のテストに使用されたゲームは MDT に知られているため、MDT のパフォーマンスはこのラウンドの測定の基礎として使用されないことに注意してください。
チームは、ゲームのプレイに加えて、Meta-World ML45 ベンチマークを使用して DT-Mem のテストも行いました。
今回参考にしたのはH[yper]DTとP[romot]DTです。
結果は、微調整を行わないモデルでは、DT-Mem スコアが HDT より 8 パーセント ポイント高いことを示しています。
ここでテストした HDT には 69K のパラメータしかありませんが、230 万のパラメータを持つ事前トレーニング済みモデルに依存しているため、実際のパラメータ数は DT-Mem の 10 倍以上であることに注意してください ( 147K).倍。
紙のアドレス: https://arxiv.org/ abs/2305.16338
以上がAIが人間の脳の記憶モデルを模倣し、ゲームスコアが29.9%急上昇の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。