私たちはよく「行動する前によく考えて」、蓄積された経験を最大限に活用するように教えられますが、この言葉は AI にもインスピレーションを与えました。
従来の意思決定AIモデルは、忘却効果の存在により効果的に経験を蓄積することができませんでしたが、中国主導の研究によりAIの記憶方法が変わりました。
新しい記憶方法は人間の脳を模倣し、AI の経験蓄積効率を効果的に向上させ、それによって AI のゲーム パフォーマンスを 29.9% 向上させます。
研究チームは、ミラ ケベック AI 研究所とマイクロソフト モントリオール研究所のそれぞれ 6 名で構成されており、そのうち 4 名は中国人です。
彼らは、その結果をメモリ付き意思決定変換器 (DT-Mem) と名付けました。
従来の意思決定モデルと比較して、DT-Mem は適用範囲が広く、モデル運用の効率も高くなります。
アプリケーションの効果に加えて、DT-Mem のトレーニング時間も最小 200 時間から 50 時間に短縮されました。
同時に、チームは、DT-Mem がトレーニングされていない新しいシナリオに適応できるようにする微調整方法も提案しました。
微調整されたモデルは、これまで学習していないゲームでも優れたパフォーマンスを発揮します。
従来の意思決定モデルは LLM に基づいて設計されており、暗黙的メモリを使用しており、そのパフォーマンスはデータと計算に依存します。
暗黙記憶は意図的に記憶されるのではなく無意識に生成されるため、意識的に思い出すことはできません。
もっと簡単に言うと、関連するコンテンツは明らかにそこに保存されていますが、モデルはその存在を知りません。
この暗黙記憶の特性が従来のモデルにおける忘却現象を決定づけ、作業効率の低下につながります。
忘却現象は、問題を解決するための新しい方法を学習した後、古い問題と新しい問題が同じタイプであっても、モデルが古い内容を忘れてしまう可能性があるという点で現れます。
人間の脳は 分散記憶ストレージ 方式を採用しており、記憶内容は脳の複数の異なる領域に分散して保存されます。
このアプローチは、複数のスキルを効果的に管理および整理するのに役立ち、それによって忘れる現象を軽減します。
これに触発されて、研究チームは、さまざまな下流タスクのための情報を保存、混合、取得するための内部作業記憶モジュールを提案しました。
具体的には、DT-Mem は、トランスフォーマー、メモリ モジュール、および多層認識 (MLP) モジュールの 3 つの部分で構成されます。
DT-Mem の Transformer は GPT-2 のアーキテクチャを模倣していますが、アテンション メカニズムの後のフィードフォワード層を削除しています。
同時に、GPT-2 の MLP モジュールは DT-Mem の一部として独立したコンポーネントに分割されます。
この 2 つの中間として、研究チームは中間情報を保存および処理するための作業記憶モジュールを導入しました。
この構造は、メモリを使用してさまざまなアルゴリズムを推論するニューラル チューリング マシンからインスピレーションを得ています。
メモリ モジュールは、Transformer によって出力された情報を分析し、その保存場所と、それを既存の情報と統合する方法を決定します。
さらに、このモジュールでは、この情報が将来の意思決定プロセスでどのように使用されるかについても検討します。
結果として、DT-Mem の 4 試合の最高成績はすべて MDT よりも優れていました。
具体的には、DT-Mem は MDT と比較して DQN 正規化スコアを 29.9% 改善します。
ただし、DT-Mem のパラメータ量は 20M に過ぎず、MDT (200M パラメータ) の 10% に過ぎません。
これほどのパフォーマンスは大したものと言っても過言ではありません。
DT-Mem は、優れたパフォーマンスに加えて、トレーニング効率も MDT を上回ります。
MDT の 13M パラメータ バージョンのトレーニングには 200 時間かかりますが、20M DT-Mem のトレーニングには 50 時間しかかかりません。
200M バージョンと比較すると、トレーニング時間は 32 倍短縮されますが、パフォーマンスはさらに優れています。
#チームが提案した微調整方法のテスト結果は、この微調整により DT-Mem の適応能力が向上することも示しています。未知のシナリオ。
以下の表のテストに使用されたゲームは MDT に知られているため、MDT のパフォーマンスはこのラウンドの測定の基礎として使用されないことに注意してください。
チームは、ゲームのプレイに加えて、Meta-World ML45 ベンチマークを使用して DT-Mem のテストも行いました。
今回参考にしたのはH[yper]DTとP[romot]DTです。
結果は、微調整を行わないモデルでは、DT-Mem スコアが HDT より 8 パーセント ポイント高いことを示しています。
ここでテストした HDT には 69K のパラメータしかありませんが、230 万のパラメータを持つ事前トレーニング済みモデルに依存しているため、実際のパラメータ数は DT-Mem の 10 倍以上であることに注意してください ( 147K).倍。
紙のアドレス: https://arxiv.org/ abs/2305.16338
以上がAIが人間の脳の記憶モデルを模倣し、ゲームスコアが29.9%急上昇の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。