ホームページ テクノロジー周辺機器 AI LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

Oct 25, 2023 pm 02:13 PM
ai モデル

「自己回帰 LLM はすでに人間レベルの AI に近づいていると考えている人、または人間レベルの AI に到達するには単純にスケールアップする必要があると考えている人は、必ずこれを読んでください。AR-LLM の推論は非常に限られており、計画能力、この問題を解決するには、計画能力を大きくし、より多くのデータでトレーニングすることでは解決できません。」

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

長い間、図Spirit Award の受賞者である Yann LeCun は LLM の「質問者」であり、自己回帰モデルは LLM モデルの GPT シリーズが依存する学習パラダイムです。彼は自己回帰と LLM に対する批判を何度も公に表明しており、次のような多くの金言を生み出しています。自己回帰モデルを使用します。"

"自己回帰生成モデルは最悪です!"

"LLM は世界を非常に表面的に理解しています。 "

# LeCun が最近再び叫んだのは、新しくリリースされた 2 つの論文です:

## 「Can LLM」文献が示唆しているように、そのソリューションを本当に自己批判 (そして反復的に改善) していますか? 私たちのグループからの 2 つの新しい論文、reason (https://arxiv.org/abs/2310.12397) と planing (https://arxiv.org/abs/2310.08118) ) これらの主張を調査する (そして異議を唱える) という使命があります。」 LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

参照 さて、GPT-4 の検証および自己批判機能を調査するこれら 2 つの論文のテーマは、多くの人々の共感を呼びました。 。

論文の著者らは、LLM が (言語形式であれコード形式であれ) 優れた「アイデア生成器」であると信じていると述べましたが、彼ら自身の計画/推論を保証することはできません能力。したがって、これらは LLM-Modulo 環境 (ループ内に信頼できる推論者または人間の専門家がいる環境) で使用するのが最適です。自己批判には検証が必要であり、検証は推論の一形態です (したがって、LLM の自己批判能力に関するあらゆる主張には驚かれます)。

同時に、疑問の声もあります。「畳み込みネットワークの推論能力はより制限されていますが、だからといって AlphaZero の成果が現れるのを妨げるものではありません。推論プロセスと確立 (RL) フィードバック ループ。モデル機能により、非常に深い推論 (研究レベルの数学など) が可能になると思います。」

これに関して、LeCun 氏のアイデアは次のとおりです。「AlphaZero は計画を「本当に」実行します。これは、畳み込みネットワークを使用して適切なアクションを見つけ出し、別の畳み込みネットワークを使用して位置を評価するモンテカルロ ツリー検索によって行われます。ツリーの探索に費やす時間は無限になる可能性がありますが、それはすべて推論と計画です。 "LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

将来的には、自己回帰 LLM に推論機能と計画機能があるかどうかというテーマが最終決定されない可能性があります。

次に、これら 2 つの新しい論文が何について述べているかを見てみましょう。

論文 1: GPT-4 はそれが間違っていることを知らない: 推論問題に対する反復プロンプトの分析

最初の論文は、GPT-4 を含む最先端の LLM の自己批判能力について研究者の間で疑問を引き起こしました。

論文アドレス: https://arxiv.org/pdf/2310.12397.pdfLeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

接続論文の紹介を見てみましょう。

大規模言語モデル (LLM) の推論機能については、人々の間で常にかなりの意見の相違がありました。当初、研究者らは、モデルの規模が拡大するにつれて、LLM の推論機能が自動的に現れるだろうと楽観視していました。しかし、失敗が増えるにつれ、期待は薄れていきました。その後、研究者は一般に、LLM には反復的な方法で LLM ソリューションを自己批判し、改善する能力があると信じており、この見解は広く普及しました。

しかし、これは本当にそうなのでしょうか?

アリゾナ州立大学の研究者らは、新しい研究で LLM の推論能力を調査しました。具体的には、最も有名な NP 完全問題の 1 つであるグラフの色付け問題における反復プロンプトの有効性に焦点を当てました。

研究では、(i) LLM はグラフの色付けインスタンスを解決するのが苦手 (ii) LLM は解決策を検証するのが得意ではないため、反復モードでは効果がないことが示されています。したがって、この論文の結果は、最先端の LLM の自己批判的な機能について疑問を引き起こします。

この論文では、いくつかの実験結果を示しています。たとえば、ダイレクト モードでは、LLM はグラフの色付けインスタンスを解決するのが非常に苦手です。さらに、この研究では、LLM が検証するのが苦手であることも判明しました。ソリューション。さらに悪いことに、システムは正しい色を認識できず、間違った色が表示されてしまいます。

次の図はグラフの色付け問題の評価です。この設定では、GPT-4 は独立した自己クリティカル モードで色を推測できます。自己クリティカル ループの外側には、外部音声バリデータがあります。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

その結果、GPT4 の色の推測精度は 20% 未満であり、さらに驚くべきことに、自己批判モードの精度が低いことがわかりました (下の画像)。列 2) の精度が最も低くなります。この論文では、外部の音声検証者が推測した色について証明可能な正しい批判を提供した場合に、GPT-4 がその解決策を改善するかどうかという関連する問題も検討します。この場合、リバースヒンティングによりパフォーマンスが大幅に向上します。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

GPT-4 が誤って有効な色を推測したとしても、その自己批判により違反が存在しないという幻覚を引き起こす可能性があります。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

#最後に、グラフの色付けの問題について、著者が要約を示します。

  • 自己批判 GPT-4 は検証能力が低いため、実際に LLM のパフォーマンスに悪影響を及ぼします;
  • 外部バリデーターからのフィードバックにより、LLM のパフォーマンスが大幅に向上します。

論文 2: 大規模な言語モデルは、自身の計画を自己批判することで本当に改善できるのか?

「自分自身の計画を自己批判することで、大規模言語モデルは本当に改善できるのか?」という論文で、研究チームは、計画のコンテキストで自己検証/批判する LLM の能力を調査しました。

この論文では、特に古典的な計画問題の文脈において、LLM が自身の出力を批評する能力についての体系的な研究を提供します。最近の研究は、特に反復設定における LLM の自己批判的な可能性について楽観的ですが、この研究は別の視点を示唆しています。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

論文アドレス: https://arxiv.org/abs/2310.08118

予想外 ただし、結果は、自己批判により、特に外部検証者や LLM 検証者を備えたシステムと比較して、計画生成のパフォーマンスが低下することを示しています。 LLM は大量のエラー メッセージを生成する可能性があるため、システムの信頼性が損なわれます。

古典的な AI 計画ドメイン Blocksworld に関する研究者らの実証的評価は、LLM の自己批判的機能が問題の計画には効果的ではないことを浮き彫りにしました。バリデーターは大量のエラーを生成する可能性があり、特に計画の正確さが重要な領域では、システム全体の信頼性に悪影響を及ぼします。

興味深いことに、フィードバックの性質 (バイナリ フィードバックまたは詳細フィードバック) は、プラン生成のパフォーマンスに大きな影響を与えません。これは、中心的な問題は、問題ではなく LLM のバイナリ検証機能にあることを示唆しています。フィードバックの粒度。

以下の図に示すように、この調査の評価アーキテクチャには、ジェネレーター LLM とベリファイアー LLM の 2 つの LLM が含まれています。特定のインスタンスについて、生成者 LLM は候補計画を生成する責任を負い、検証者 LLM はその正しさを判断します。計画が間違っていると判明した場合、バリデーターはエラーの理由を示すフィードバックを提供します。次に、このフィードバックはジェネレーター LLM に転送され、ジェネレーター LLM に新しい候補プランを生成するよう促します。この研究のすべての実験では、GPT-4 をデフォルトの LLM として使用しました。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

この研究では、Blocksworld でのいくつかの計画生成方法を実験し、比較します。具体的には、この研究ではさまざまな方法を評価するために 100 個のランダムなインスタンスを生成しました。最終的な LLM 計画の正確性を現実的に評価するために、この研究では外部バリデーター VAL を採用しています。

表 1 に示すように、LLM LLM バックプロンプト方式は、精度の点で非バックプロンプト方式よりわずかに優れています。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

100 個のインスタンスのうち、バリデーターは 61 個 (61%) を正確に識別しました。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

#以下の表は、フィードバックなしを含む、さまざまなレベルのフィードバックを受け取ったときの LLM のパフォーマンスを示しています。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

以上がLeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

C言語でchar配列の使用方法 C言語でchar配列の使用方法 Apr 03, 2025 pm 03:24 PM

Char Arrayは文字シーケンスをC言語で保存し、char array_name [size]として宣言されます。アクセス要素はサブスクリプト演算子に渡され、要素は文字列のエンドポイントを表すnullターミネーター「\ 0」で終了します。 C言語は、strlen()、strcpy()、strcat()、strcmp()など、さまざまな文字列操作関数を提供します。

Cスイッチステートメントでデフォルトに起因するエラーを避けてください Cスイッチステートメントでデフォルトに起因するエラーを避けてください Apr 03, 2025 pm 03:45 PM

Cスイッチステートメントでデフォルトに起因するエラーを回避するための戦略:定数の代わりに列挙を使用し、ケースステートメントの値を列挙の有効なメンバーに制限します。最後のケースステートメントでフォールスルーを使用して、プログラムが以下のコードを引き続き実行できるようにします。フォールスルーなしのスイッチステートメントの場合、エラー処理のためのデフォルトステートメントを常に追加するか、デフォルトの動作を提供します。

C言語合計の機能は何ですか? C言語合計の機能は何ですか? Apr 03, 2025 pm 02:21 PM

C言語に組み込みの合計機能はないため、自分で書く必要があります。合計は、配列を通過して要素を蓄積することで達成できます。ループバージョン:合計は、ループとアレイの長さを使用して計算されます。ポインターバージョン:ポインターを使用してアレイ要素を指し示し、効率的な合計が自己概要ポインターを通じて達成されます。アレイバージョンを動的に割り当てます:[アレイ]を動的に割り当ててメモリを自分で管理し、メモリの漏れを防ぐために割り当てられたメモリが解放されます。

Cの!xの結果を逆転させる方法は? Cの!xの結果を逆転させる方法は? Apr 03, 2025 pm 01:57 PM

C言語では、!! xを使用できますが、2つのブール変換のみを使用し、xを直接使用する方が簡潔で効率的です。

c言語の優先順位は何ですか!x? c言語の優先順位は何ですか!x? Apr 03, 2025 pm 02:06 PM

論理非操作者(!)には、括弧の横に優先順位があります。つまり、表現では、他のほとんどの演算子に先行します。優先順位を理解するには、暗記の暗記だけでなく、さらに重要なことに、複雑な表現での検出不可能なエラーを避けるために、その背後にある論理と潜在的な落とし穴を理解する必要があります。ブラケットを追加すると、表現の意図を明確にし、コードの明確さと保守性を向上させ、予期しない動作を防ぐことができます。

Cで理解する方法!x? Cで理解する方法!x? Apr 03, 2025 pm 02:33 PM

!X理解!Xは、C言語の論理的な非操作者です。 Xの値をブーリングします。つまり、虚偽の真の変化、trueへの誤った変更です。ただし、Cの真実と虚偽はブール型ではなく数値で表されていることに注意してください。非ゼロは真であると見なされ、0のみが偽と見なされます。したがって、!xは正の数と同じ負の数を扱い、真実と見なされます。

スイッチケースステートメントのデフォルトの重要性(C言語) スイッチケースステートメントのデフォルトの重要性(C言語) Apr 03, 2025 pm 03:57 PM

デフォルトステートメントは、変数値がケースステートメントと一致しない場合にコードブロックが実行されることを保証するデフォルトの処理パスを提供するため、スイッチケースステートメントで重要です。これにより、予期しない動作やエラーが防止され、コードの堅牢性が向上します。

C言語のユーザー識別子に対するExternキーワードの影響は何ですか? C言語のユーザー識別子に対するExternキーワードの影響は何ですか? Apr 03, 2025 pm 01:00 PM

Externキーワードは、外部変数と関数を宣言するためにC言語で使用されます。これは、変数または関数が他の場所で定義されていることをコンパイラに伝え、リンク段階で定義を探すようコンパイラに指示します。 Externが外部変数を宣言すると、メモリスペースは割り当てられず、その定義は他のファイルで実行されます。 Externが外部関数を宣言する場合、機能の実装は含まれておらず、その実装も他のファイルで実行されます。外部キーワードの使用は通常、ヘッダーファイルと組み合わされます。これは、コード管理を助長し、繰り返しの宣言を回避します。 Externがマルチファイルのコンピレーションと命令の対立の取り扱いを理解することは非常に重要であり、リンクプロセスで重要な役割を果たしています。

See all articles