Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える-AI-php.cn

" >特定のタスクの微調整

#回答のサンプリング" >#回答のサンプリング

" >自己評価学習

ホームページ

テクノロジー周辺機器

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 23, 2024 pm 05:21 PM

データ電車

大型モデルの「錯覚」問題は間もなく解決されるでしょうか?

ウィスコンシン大学マディソン校の研究者と Google は最近、大規模モデルの出力を自己評価できる ASPIRE システムを立ち上げました。

ユーザーは、モデルによって生成された結果のスコアが低いことを確認すると、その応答が幻想である可能性があることに気づくでしょう。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える

システムがスコアに基づいて出力をさらにフィルタリングできる場合、たとえばスコアが低い場合、大規模なモデルは次のようなものを生成できます。幻覚の問題を最大限に改善できる可能性があるこの質問には、私は答えることができません。」

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える

論文アドレス: https://aclanthology.org/2023.findings-emnlp.345.pdf

ASPIRE を使用すると、LLM は答えとその答えの信頼スコアを出力できます。

研究者らの実験結果は、ASPIRE が CoQA ベンチマークなどのさまざまな QA データセットに対して従来の選択的予測手法を大幅に上回るパフォーマンスを示していることを示しています。

LLM は質問に答えるだけでなく、その回答を評価することもできます。

選択的予測のベンチマークテストでは、研究者は ASPIRE システムを通じてモデルのスケールの 10 倍を超える結果を達成しました。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える

#教科書の後ろで生徒に自分の答えを確認させるようなものです。少し信憑性がありませんが、よく考えてみると、 , 皆さん質問を完了すると、確かに回答の満足度のスコアが表示されます。

これは ASPIRE の本質であり、次の 3 つのフェーズが含まれます:

(1) 特定のタスクの調整

(2) 解答サンプリング、

(3) 自己評価学習。

研究者の目には、ASPIRE は単なるフレームワークではなく、LLM の信頼性を包括的に向上させ、幻覚を軽減する明るい未来を表しています。

LLM が意思決定プロセスにおいて信頼できるパートナーになれれば。

選択的予測を行う能力を継続的に最適化することで、人間は大規模モデルの可能性を完全に実現することに一歩近づきます。

研究者たちは、ASPIRE を使用して次世代 LLM の進化を開始し、それによってより信頼性が高く自己認識型の人工知能を作成したいと考えています。

ASPIRE の仕組み

特定のタスクの微調整

ASPIRE は、LLM をフリーズしながら、タスク固有の微調整を実行して適応パラメーターをトレーニングします。 Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える生成タスク用のトレーニングデータセットが与えられると、事前トレーニングされた LLM を微調整して予測パフォーマンスを向上させます。

この目的のために、パラメータ効率の高い微調整技術 (ソフトキューワード微調整や LoRA など) を使用して、タスクに関する事前トレーニング済み LLM を微調整できます。、少数のターゲットで効率的に取得できるため、強力な汎化タスクデータ。

具体的には、LLM パラメータ (θ) が固定され、微調整のために適応パラメータ

が追加されます。 Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える標準的な LLM トレーニング損失 (クロスエントロピーなど) を最小限に抑えるために θ (p) のみを更新します。

この種の微調整により、予測精度が向上するだけでなく、シーケンスが正しく出力される可能性も高まるため、選択的予測のパフォーマンスを向上させることができます。

#回答のサンプリング

## 特定のタスク向けに調整された後、ASPIRE は LLM を使用して学習 Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超えるさまざまな回答を生成するトレーニングの質問ごとに、自己評価学習用のデータセットを作成します。

研究者の目標は、高い確率で出力シーケンスを生成することです。彼らは、復号化アルゴリズムとしてビーム検索を使用して、尤度の高い出力シーケンスを生成し、生成された出力シーケンスが正しいかどうかを判断するために Rouge-L メトリックを使用しました。

自己評価学習

各クエリの可能性の高い出力をサンプリングした後、ASPIRE は自己評価を追加しますパラメータ Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超えるを調整し、自己評価を学習するためにのみを微調整します。

出力シーケンスの生成は θ と Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超えるのみに依存するため、θ と学習されたをフリーズすると次のようになります。自己評価を学習する際の LLM の予測動作の変更を回避しました。

研究者らは、適応された LLM が自ら正解と不正解を区別できるように Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超えるを最適化しました。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える

このフレームワークでは、パラメータ有効な微調整メソッドを使用して Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超えると ## をトレーニングできます。 #。

この研究では、研究者らは、「ソフトキュー」を学習して凍結された言語モデルを調整するためのシンプルかつ効果的なメカニズムであるソフトキューファインチューニングを使用しました。これにより、特定の下流タスクをより効率的に実行できます。従来の個別のテキストプロンプトよりも優れています。

このアプローチの背後にある核心は、自己評価を効果的に刺激する手がかりを開発できれば、目標を絞ったトレーニング目標と組み合わせたソフトな手がかりを微調整することで発見できるはずであるという認識です。チップ。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える

と Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超えるをトレーニングした後、研究者はビーム検索によって解読しました。クエリの予測 (ビーム検索デコード)。 Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える

研究者らは、回答を生成する可能性と学習した自己評価スコア (つまり、クエリに対する予測が正しい可能性) を組み合わせた選択スコアを定義します。選択的な予測を行います。

結果

ASPIRE の効果を実証するために、研究者らは 3 つの質問と回答に対してさまざまなオープン事前トレーニング済みトランスフォーマー (OPT) モデルを使用しました。データセット (CoQA、TriviaQA、SQuAD) で評価します。

ソフトキューを使用してトレーニングを調整することにより、 Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える研究者らは、LLM の精度が大幅に向上することを観察しました。

たとえば、ASPIRE を使用した OPT-2.7B モデルは、CoQA および SQuAD データセットを使用して事前トレーニングされた大規模な OPT-30B モデルよりも優れたパフォーマンスを示しました。

これらの結果は、適切な調整を行うことで、より小さな LLM が状況によってはより大きなモデルの精度に匹敵する、またはそれを超える可能性があることを示唆しています。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える

固定モデル予測の選択スコアの計算を詳しく調べると、ASPIRE はすべてのデータセット (ランダムな確率) でベースライン手法よりも高い AUROC スコアを達成しました。選択された正しい出力シーケンスは、ランダムに選択された誤った出力シーケンスよりも高い選択スコアを持ちます)。

たとえば、CoQA ベンチマークでは、ASPIRE はベースラインと比較して AUROC を 51.3% から 80.3% に改善します。

TriviaQA データセットの評価から、興味深いパターンが明らかになりました。

事前トレーニング済み OPT-30B モデルはより高いベースライン精度を示しますが、従来の自己評価方法 (自己評価および P(True)) を適用する場合の選択性別予測のパフォーマンス大幅には改善されていません。

対照的に、はるかに小型の OPT-2.7B モデルは、ASPIRE で強化された後、この点で他のモデルよりも優れた性能を発揮しました。

この違いは重要な問題を反映しています。従来の自己評価手法を利用する大規模な LLM は、小規模な ASPIRE 拡張モデルほど選択的予測において効果的ではない可能性があります。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超える

研究者による ASPIRE での実験の旅は、LLM の状況における重要な変化を浮き彫りにしています。言語モデルの能力がすべてではなく、最終的なものではありません。そのパフォーマンスのすべてを。

代わりに、ポリシーの調整によってモデルの有効性を大幅に向上させることができ、小規模なモデルでもより正確で信頼性の高い予測が可能になります。

したがって、ASPIRE は、LLM が自身の答えの確実性を賢明に判断し、選択的予測タスクにおいて他の LLM のサイズを 10 倍大幅に上回る可能性を示しています。

以上がGoogle の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリュームモデルの 10 倍を超えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7409

Java チュートリアル

1631

CakePHP チュートリアル

1358

Laravel チュートリアル

1268

PHP チュートリアル

1218

Related knowledge

ddrescue を使用して Linux 上のデータを回復する Mar 20, 2024 pm 01:37 PM

DDREASE は、ハードドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージデバイスなどのファイルデバイスまたはブロックデバイスからデータを回復するためのツールです。あるブロックデバイスから別のブロックデバイスにデータをコピーし、破損したデータブロックを残して正常なデータブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

Kuaishou バージョンの Sora「Ke Ling」がテスト用に公開されています。120 秒以上のビデオを生成し、物理学をより深く理解し、複雑な動きを正確にモデル化できます。 Jun 11, 2024 am 09:51 AM

何？ズートピアは国産AIによって実現するのか？ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

アメリカ空軍が初のAI戦闘機を公開し注目を集める！大臣はプロセス全体を通じて干渉することなく個人的にテストを実施し、10万行のコードが21回にわたってテストされました。 May 07, 2024 pm 05:00 PM

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機（VISTA）で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランクケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

See all articles