第11回表現学習国際会議(ICLR)は、5月1日から5日までルワンダの首都キガリでオフラインで開催される予定です。最近、ICLR は NetEase Fuxi による合計 3 件の論文を含む論文受理結果を発表しました。これら 3 件の論文のうち、1 件は口頭発表論文、残りの 2 件はスポットライト発表論文に選ばれました。これらの論文の内容には、強化学習や自然言語処理など多くの分野が含まれています。今回選ばれた論文は、これらの研究方向における NetEase Fuxi チームの重要な成果であり、学術界における彼らの評価と顕著な貢献でもあります。
実験により、KLD は異常点に対してより敏感である一方、TCD は堅牢であることが示されています。
TVD の推定のバランスをとるために、TaiLr ターゲットを導入します。 TaiLr は、モデルの確率が低い実際のデータ サンプルの重みを軽減することでこの目標を達成し、必要に応じてペナルティの強度を調整できます。実験では、私たちの方法が多様性を維持しながら縮退シーケンスの過大評価を軽減し、幅広いテキスト生成タスクの生成品質を向上させることを示しています。
しかし、これまでの研究では、環境の探索を通じてさまざまなスキルを備えた戦略を事前トレーニングすることに焦点を当てていることがよくありましたが、多様な探索の事前トレーニング方法によって下流タスクのパフォーマンス向上を確実に行うことは困難です。トレーニング前の消費量が増えるほど、「不一致」の問題によりパフォーマンスが低下する可能性もあります。そこで、NetEase Fuxi と天津大学深層強化学習研究所チームは、モデルベースの RL パラダイムを導入する EUCLID フレームワークを提案しました。これは、長期の事前トレーニングを通じて正確な動的モデルの恩恵を受け、下流のタスクへの迅速な適応とより高いサンプリング効率を実現します。微調整フェーズでは、EUCLID はポリシーに基づく計画に事前トレーニングされた動的モデルを使用します。この設定により、不一致の問題によって引き起こされるパフォーマンスのショックを排除し、単調なパフォーマンスの向上を得ることができます。
実験結果は、NECSA がすべての実験環境で最高のスコアを達成し、最先端のレベルに達したことを示しています。
NECSA は強化学習アルゴリズムに簡単に統合でき、高い汎用性を備えています。典型的なアプリケーション シナリオの 1 つは、ゲーム競技ロボットのトレーニングです。 NECSA は、状態分析に基づいた新しいアイデアを提供します。これは、学習効果を高めることができ、特に複雑で高次元のゲーム状態表現に適しています。 NECSA を通じて、ロボットの競争レベルと擬人化をより適切かつ迅速に最適化し、優れたモデルの解釈可能性を提供できます。今後、NetEase Fuxi は複数のゲームシナリオで NECSA 方式の実用化を推進していきます。
「総変動距離下での言語生成モデルの調整」に対する重要な研究貢献に対して、清華大学の黄 Minlie 教授のチームに特別に感謝します。彼らの研究活動は、言語生成モデルのカスタマイズに重要な貢献をし、自然言語処理テクノロジーを改善するための新しいアイデアと方法を提供しました。 同時に、「EUCLID: 多選択ダイナミクスモデルを使用した効率的な教師なし強化学習に向けて」に重要な研究貢献をしていただいた天津大学深層強化学習研究室に感謝いたします。彼らの研究活動は教師なし強化学習の分野に焦点を当てており、効率的な多肢選択動的モデルを提案し、強化学習アルゴリズムの開発に重要な貢献をしています。 さらに、「状態抽象化による神経エピソード制御」への重要な研究貢献をいただいた九州大学盤古研究室にも感謝いたします。彼らの研究活動はニューロンのメモリ制御と状態の抽象化に焦点を当てており、インテリジェント システムの開発と応用に新しいアイデアと技術サポートを提供する新しいニューロン制御方法を提案しています。 これらの研究チームの貢献は学術界で重要であるだけでなく、実用化にも潜在的な影響を及ぼします。 NetEase Fuxi は、国内トップのゲームおよび汎エンターテインメント AI 研究および応用機関として、AI テクノロジーと製品を世界の人々に開放することに尽力しています。さまざまな分野での人工知能技術の応用を促進する複数のパートナー。これまでに 200 社を超える顧客が NetEase Fuxi のサービスを選択しており、通話数は毎日数億件を超えています。
以上がNetEase Fuxi は、強化学習や自然言語処理などの分野をカバーする 3 つの論文を ICLR 2023 に選出しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。