網易伏羲在ICLR 2023中有3篇論文入選，涵蓋了強化學習、自然語言處理等領域-人工智慧-PHP中文網

網易伏羲在ICLR 2023中有3篇論文入選，涵蓋了強化學習、自然語言處理等領域

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2024-01-22 20:57:06

轉載

915 人瀏覽過

第十一屆國際表徵學習會議（ICLR）預計於5月1日至5日在盧安達首都基加利線下舉辦。最近，ICLR公佈了論文接收結果，其中包括了網易伏羲共3篇論文的入選。這三篇論文中，有一篇被選為口頭報告論文（oral presentation paper），另外兩篇則被選為聚光燈報告論文（spotlight presentation paper）。這些論文的內容涉及強化學習和自然語言處理等多個領域。這次的論文入選為網易伏羲團隊在這些研究方向上的重要成果，也是他們在學術界的認可和傑出貢獻。

實驗顯示KLD對於異常點是更敏感的，TCD是穩健的。

為了平衡TVD的估計，我們引入了TaiLr目標。 TaiLr透過降低低模型機率的真實資料樣本的權重來實現這一目標，並且可以根據需要調整懲罰強度。實驗證明，我們的方法在保持多樣性的同時，減輕了對退化序列的高估，並提高了廣泛的文本生成任務的生成品質。

但過往的工作往往專注於透過探索環境預訓練出一個具有不同技能的策略，而僅僅透過多樣化探索的預訓練方式難以保證下游任務的表現提升，甚至可能導致預訓練消耗越大，表現越低的「不匹配」問題。因此，網易伏羲和天津大學深度強化學習實驗室團隊提出了EUCLID框架，引入了基於模型的RL範式，透過長時間的預訓練，從精確的動態模型中獲益，以實現快速的下游任務適應和更高的採樣效率。在微調階段，EUCLID利用預先訓練的動態模型進行策略引導的規劃，這樣的設定可以消除不匹配問題所造成的效能震盪，並獲得單調的效能提升。

實驗結果表明，NECSA在所有的實驗環境中都拿到了最高的分數，達到了state-of-the-art水平。

NECSA可以方便地整合到強化學習演算法中，具有很強的通用性。其中一個典型應用場景是遊戲競技機器人的訓練。 NECSA提供了一種基於狀態分析的新思路，可以增強學習效果，特別適用於複雜且高維度的遊戲狀態表徵。透過NECSA，可以更好更快地優化機器人的競技水平和擬人性，並提供良好的模型可解釋性。未來，網易伏羲將在多個遊戲場景中推動NECSA方法的實際應用落地。

特別感謝清華大學黃民烈教授團隊對《Tailoring Language Generation Models under Total Variation Distance》的重要研究貢獻。他們的研究工作在語言生成模型的客製化方面做出了重要貢獻，為改進自然語言處理技術提供了新的想法和方法。同時，感謝天津大學深度強化學習實驗室對《EUCLID:Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model》的重要研究貢獻。他們的研究工作聚焦於無監督強化學習領域，提出了一個高效率的多重選擇動力模型，為強化學習演算法的發展做出了重要貢獻。此外，也要感謝九州大學Pangu實驗室對《Neural Episodic Control with State Abstraction》的重要研究貢獻。他們的研究工作專注於神經元記憶控制與狀態抽象，提出了一種新穎的神經元控制方法，為智慧系統的發展和應用提供了新的思路和技術支援。這些研究團隊的貢獻不僅在學術界具有重要意義，也對實際應用有潛在影響。我們對他們的傑出工作表示衷心的感謝，並期待他們在各自領域繼

作為國內頂尖的遊戲與泛娛樂AI研究和應用機構，網易伏羲致力於將AI技術和產品開放給更多合作夥伴，以推動人工智慧技術在各個領域的應用。至今，已有超過200家客戶選擇了網易伏羲的服務，每天的呼叫量已經超過數億次。

以上是網易伏羲在ICLR 2023中有3篇論文入選，涵蓋了強化學習、自然語言處理等領域的詳細內容。更多資訊請關注PHP中文網其他相關文章！