RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。-AI-php.cn

ホームページ

テクノロジー周辺機器

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

王林

Oct 27, 2023 pm 03:13 PM

理論 dalle

最新の研究で、UW と Meta の研究者は、AlphaGo で使用されるモンテカルロツリー検索 (MCTS) アルゴリズムを、近接ポリシー最適化 (PPO) でトレーニングされた RLHF 言語モデルに基づく新しいデコードアルゴリズムを提案しました。モデルによって生成されるテキストの品質が大幅に向上します。

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

PPO-MCTS アルゴリズムは、いくつかの候補シーケンスを探索および評価することにより、より良い復号化戦略を探索します。 PPO-MCTS によって生成されたテキストは、タスクの要件をより適切に満たすことができます。

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

紙のリンク: https://arxiv.org/pdf/2309.15028.pdf

一般ユーザーに公開GPT-4/Claude/LLaMA-2-chat などの LLM は、ユーザーの好みに合わせて RLHF を使用することがよくあります。 PPO は、上記のモデルで RLHF を実行するために選択されるアルゴリズムとなっていますが、モデルを展開する場合、多くの場合、単純なデコードアルゴリズム (top-p サンプリングなど) を使用してこれらのモデルからテキストを生成します。

この記事の著者は、PPO モデルからデコードするためにモンテカルロツリー検索アルゴリズム (MCTS) のバリアントを使用することを提案し、そのメソッドを PPO-MCTS と名付けました。この方法は、最適なシーケンスの検索をガイドする値モデルに依存しています。 PPO 自体はアクター批判アルゴリズムであるため、トレーニング中に副産物として価値モデルを生成します。

PPO-MCTS は、MCTS 検索をガイドするためにこの価値モデルを使用することを提案しており、その有用性は理論的および実験的観点を通じて検証されています。著者らは、RLHF を使用してモデルをトレーニングし、価値モデルを保存し、オープンソース化する研究者やエンジニアに呼びかけています。

PPO-MCTS デコードアルゴリズム

トークンを生成するために、PPO-MCTS は数ラウンドのシミュレーションを実行し、徐々に検索ツリーを構築します。ツリーのノードは生成されたテキストプレフィックス (元のプロンプトを含む) を表し、ツリーのエッジは新しく生成されたトークンを表します。 PPO-MCTS はツリー上の一連の統計値を維持します: 各ノードについては訪問数 RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。と平均値を維持し、各エッジについては Q 値を維持します。

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

#5 ラウンドのシミュレーションの終了時の検索ツリー。エッジ上の数字は、そのエッジへの訪問数を表します。

ツリーの構築は、現在のプロンプトを表すルートノードから始まります。シミュレーションの各ラウンドには、次の 4 つのステップが含まれます:

1. 未探索のノードを 選択します。ルートノードから開始して、次の PUCT 式に従ってエッジを選択し、未探索のノードに到達するまで下に進みます:

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

この式は、高い Q 値と低い訪問数を優先します。サブツリーを作成することで、探索と活用のバランスをより適切に保つことができます。

2. 前のステップで選択したノード を展開し、PPO ポリシーモデルを通じて次のトークンの事前確率を計算します。 RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

Evaluate このノードの値。このステップでは、PPO の価値モデルを推論に使用します。このノードとその子エッジの変数は次のように初期化されます:

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

Backtrack と統計値を更新します。木の上で。新しく探索したノードから開始して、ルートノードまで上方向に戻り、パス上の次の変数を更新します:

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

シミュレーションの各ラウンドの 4 つのステップ: 選択、拡張、評価、およびバックトラック。右下は、シミュレーションの最初のラウンド後の検索ツリーです。

シミュレーションを数回繰り返した後、ルートノードのサブエッジへの訪問数を使用して次のトークンが決定されます。訪問数が多いトークンほど、生成される確率が高くなります (温度パラメーター)テキストの多様性を制御するためにここに追加できます。性別)。新しいトークンのプロンプトは、次の段階で検索ツリーのルートノードとして追加されます。生成が完了するまでこのプロセスを繰り返します。

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

シミュレーションの 2、3、4、5 ラウンド後の検索ツリー。

従来のモンテカルロ木検索と比較した場合、PPO-MCTS の革新性は次のとおりです:

1. select ステップの PUCT で、Q 値を使用します。元のバージョンの平均値 RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。の代わりにを使用します。これは、PPO には、ポリシーモデルのパラメーターを信頼区間内に維持するために、各トークンの報酬 RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。にアクション固有の KL 正則化項が含まれているためです。 Q 値を使用すると、デコード時にこの正則化項を正しく考慮できます:

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

2. evaluation

ステップで、新しいエッジの子エッジの Q探索されたノードは次のようになります。値はノードの評価値に初期化されます (MCTS の元のバージョンのようなゼロ初期化ではなく)。この変更により、PPO-MCTS が完全に悪用される問題が解決されます。

3. 未定義のモデル動作を避けるために、[EOS] トークンサブツリー内のノードの探索を無効にします。

テキスト生成実験

この記事では、次の 4 つのテキスト生成タスクに関する実験を実施します。すなわち、テキストのセンチメントの制御 (センチメントステアリング)、テキストの毒性の低減 (毒性リダクション)、質問応答のための知識の内省、および一般的な人間の好みの調整 (役立つチャットボットと無害なチャットボット)。

この記事では、主に PPO-MCTS と次のベースライン手法を比較しています: (1) トップ-p サンプリングを使用して PPO ポリシーモデル (図の「PPO」) からテキストを生成; (2) に基づいてof 1 best-of-n サンプリングを追加します (図の「PPO best-of-n」)。

この記事では、各タスクにおける各メソッドの目標満足率とテキストの流暢さを評価します。

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

左: テキストの感情を制御、右: テキストの毒性を軽減します。

PPO-MCTS は、テキストの感情を制御する際に、テキストの流暢さを損なうことなく、PPO ベースラインよりも 30 パーセント高い目標達成率を達成し、手動評価での勝率も 20 パーセント高くなりました。ポイント。テキストの毒性を軽減する場合、この方法で生成されたテキストの平均毒性は PPO ベースラインより 34% 低くなり、手動評価での勝率も 30% 高くなります。どちらのタスクでも、best-of-n サンプリングを使用してもテキストの品質は効果的に向上しないことにも注意してください。

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

左: 質問応答のための知識の内省、右: 人間の普遍的な好みの調整。

質問応答のためのナレッジイントロスペクションでは、PPO-MCTS は PPO ベースラインよりも 12% 効果的なナレッジを生成します。一般的な人間の嗜好の調整では、HH-RLHF データセットを使用して有用かつ無害な対話モデルを構築し、手動評価における PPO ベースラインよりも 5 パーセント高い勝率を達成しました。

最後に、この記事は、PPO-MCTS アルゴリズムの分析とアブレーション実験を通じて、このアルゴリズムの利点を裏付ける次の結論を導き出します。

価値モデルPPO によってトレーニングされた報酬モデルは、検索の誘導においてより効果的です。
PPO によってトレーニングされた戦略モデルと価値モデルの場合、MCTS は効果的なヒューリスティック検索手法であり、その効果は他の一部の検索アルゴリズム (段階的値デコードなど) よりも優れています。
PPO-MCTS は、報酬を増やす他の方法 (より多くの反復で PPO を使用するなど) よりも報酬と流暢性のトレードオフが優れています。 ###

要約すると、この記事は、PPO とモンテカルロツリー検索 (MCTS) を組み合わせることにより、検索をガイドする際の価値モデルの有効性を示し、モデル展開フェーズでのより正確な方法の使用について説明します。複数ステップのヒューリスティック検索は、より高品質のテキストを生成する実現可能な方法です。

その他の方法と実験の詳細については、元の論文を参照してください。 DALLE-3 によって生成されたカバー画像。

以上がRLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7554

CakePHP チュートリアル

1382

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データセットと比較して、「DefectSpectrum」データセットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープンモデルが開発されています。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラルネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ～ 20% に相当します。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? Aug 22, 2024 pm 04:37 PM

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビンシン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージデータを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データセットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データセットがありますが、これらのデータセットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか？ MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージビジョンモデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバーニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

最適な分子を自動的に特定し、合成コストを削減する MIT は、分子設計の意思決定アルゴリズムフレームワークを開発します。 Jun 22, 2024 am 06:43 AM

編集者 | 創薬の合理化における Ziluo AI の利用は爆発的に増加しています。新薬の開発に必要な特性を備えている可能性のある候補分子を数十億個スクリーニングします。材料の価格からエラーのリスクまで、考慮すべき変数が非常に多いため、たとえ科学者が AI を使用したとしても、最適な候補分子の合成コストを秤量することは簡単な作業ではありません。ここで、MIT の研究者は、最適な分子候補を自動的に特定する定量的意思決定アルゴリズムフレームワークである SPARROW を開発しました。これにより、合成コストを最小限に抑えながら、候補が望ましい特性を持つ可能性を最大限に高めることができます。このアルゴリズムは、これらの分子を合成するために必要な材料と実験手順も決定しました。 SPARROW では、複数の候補分子が入手可能な場合が多いため、分子のバッチを一度に合成するコストが考慮されます。

See all articles

RLHF と AlphaGo コア テクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

RLHF と AlphaGo コアテクノロジーの強力な組み合わせである UW/Meta は、テキスト生成機能を新たなレベルに引き上げます。