ホームページ テクノロジー周辺機器 AI LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

Oct 25, 2023 pm 02:13 PM
ai モデル

「自己回帰 LLM はすでに人間レベルの AI に近づいていると考えている人、または人間レベルの AI に到達するには単純にスケールアップする必要があると考えている人は、必ずこれを読んでください。AR-LLM の推論は非常に限られており、計画能力、この問題を解決するには、計画能力を大きくし、より多くのデータでトレーニングすることでは解決できません。」

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

長い間、図Spirit Award の受賞者である Yann LeCun は LLM の「質問者」であり、自己回帰モデルは LLM モデルの GPT シリーズが依存する学習パラダイムです。彼は自己回帰と LLM に対する批判を何度も公に表明しており、次のような多くの金言を生み出しています。自己回帰モデルを使用します。"

"自己回帰生成モデルは最悪です!"

"LLM は世界を非常に表面的に理解しています。 "

# LeCun が最近再び叫んだのは、新しくリリースされた 2 つの論文です:

## 「Can LLM」文献が示唆しているように、そのソリューションを本当に自己批判 (そして反復的に改善) していますか? 私たちのグループからの 2 つの新しい論文、reason (https://arxiv.org/abs/2310.12397) と planing (https://arxiv.org/abs/2310.08118) ) これらの主張を調査する (そして異議を唱える) という使命があります。」 LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

参照 さて、GPT-4 の検証および自己批判機能を調査するこれら 2 つの論文のテーマは、多くの人々の共感を呼びました。 。

論文の著者らは、LLM が (言語形式であれコード形式であれ) 優れた「アイデア生成器」であると信じていると述べましたが、彼ら自身の計画/推論を保証することはできません能力。したがって、これらは LLM-Modulo 環境 (ループ内に信頼できる推論者または人間の専門家がいる環境) で使用するのが最適です。自己批判には検証が必要であり、検証は推論の一形態です (したがって、LLM の自己批判能力に関するあらゆる主張には驚かれます)。

同時に、疑問の声もあります。「畳み込みネットワークの推論能力はより制限されていますが、だからといって AlphaZero の成果が現れるのを妨げるものではありません。推論プロセスと確立 (RL) フィードバック ループ。モデル機能により、非常に深い推論 (研究レベルの数学など) が可能になると思います。」

これに関して、LeCun 氏のアイデアは次のとおりです。「AlphaZero は計画を「本当に」実行します。これは、畳み込みネットワークを使用して適切なアクションを見つけ出し、別の畳み込みネットワークを使用して位置を評価するモンテカルロ ツリー検索によって行われます。ツリーの探索に費やす時間は無限になる可能性がありますが、それはすべて推論と計画です。 "LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

将来的には、自己回帰 LLM に推論機能と計画機能があるかどうかというテーマが最終決定されない可能性があります。

次に、これら 2 つの新しい論文が何について述べているかを見てみましょう。

論文 1: GPT-4 はそれが間違っていることを知らない: 推論問題に対する反復プロンプトの分析

最初の論文は、GPT-4 を含む最先端の LLM の自己批判能力について研究者の間で疑問を引き起こしました。

論文アドレス: https://arxiv.org/pdf/2310.12397.pdfLeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

接続論文の紹介を見てみましょう。

大規模言語モデル (LLM) の推論機能については、人々の間で常にかなりの意見の相違がありました。当初、研究者らは、モデルの規模が拡大するにつれて、LLM の推論機能が自動的に現れるだろうと楽観視していました。しかし、失敗が増えるにつれ、期待は薄れていきました。その後、研究者は一般に、LLM には反復的な方法で LLM ソリューションを自己批判し、改善する能力があると信じており、この見解は広く普及しました。

しかし、これは本当にそうなのでしょうか?

アリゾナ州立大学の研究者らは、新しい研究で LLM の推論能力を調査しました。具体的には、最も有名な NP 完全問題の 1 つであるグラフの色付け問題における反復プロンプトの有効性に焦点を当てました。

研究では、(i) LLM はグラフの色付けインスタンスを解決するのが苦手 (ii) LLM は解決策を検証するのが得意ではないため、反復モードでは効果がないことが示されています。したがって、この論文の結果は、最先端の LLM の自己批判的な機能について疑問を引き起こします。

この論文では、いくつかの実験結果を示しています。たとえば、ダイレクト モードでは、LLM はグラフの色付けインスタンスを解決するのが非常に苦手です。さらに、この研究では、LLM が検証するのが苦手であることも判明しました。ソリューション。さらに悪いことに、システムは正しい色を認識できず、間違った色が表示されてしまいます。

次の図はグラフの色付け問題の評価です。この設定では、GPT-4 は独立した自己クリティカル モードで色を推測できます。自己クリティカル ループの外側には、外部音声バリデータがあります。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

その結果、GPT4 の色の推測精度は 20% 未満であり、さらに驚くべきことに、自己批判モードの精度が低いことがわかりました (下の画像)。列 2) の精度が最も低くなります。この論文では、外部の音声検証者が推測した色について証明可能な正しい批判を提供した場合に、GPT-4 がその解決策を改善するかどうかという関連する問題も検討します。この場合、リバースヒンティングによりパフォーマンスが大幅に向上します。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

GPT-4 が誤って有効な色を推測したとしても、その自己批判により違反が存在しないという幻覚を引き起こす可能性があります。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

#最後に、グラフの色付けの問題について、著者が要約を示します。

  • 自己批判 GPT-4 は検証能力が低いため、実際に LLM のパフォーマンスに悪影響を及ぼします;
  • 外部バリデーターからのフィードバックにより、LLM のパフォーマンスが大幅に向上します。

論文 2: 大規模な言語モデルは、自身の計画を自己批判することで本当に改善できるのか?

「自分自身の計画を自己批判することで、大規模言語モデルは本当に改善できるのか?」という論文で、研究チームは、計画のコンテキストで自己検証/批判する LLM の能力を調査しました。

この論文では、特に古典的な計画問題の文脈において、LLM が自身の出力を批評する能力についての体系的な研究を提供します。最近の研究は、特に反復設定における LLM の自己批判的な可能性について楽観的ですが、この研究は別の視点を示唆しています。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

論文アドレス: https://arxiv.org/abs/2310.08118

予想外 ただし、結果は、自己批判により、特に外部検証者や LLM 検証者を備えたシステムと比較して、計画生成のパフォーマンスが低下することを示しています。 LLM は大量のエラー メッセージを生成する可能性があるため、システムの信頼性が損なわれます。

古典的な AI 計画ドメイン Blocksworld に関する研究者らの実証的評価は、LLM の自己批判的機能が問題の計画には効果的ではないことを浮き彫りにしました。バリデーターは大量のエラーを生成する可能性があり、特に計画の正確さが重要な領域では、システム全体の信頼性に悪影響を及ぼします。

興味深いことに、フィードバックの性質 (バイナリ フィードバックまたは詳細フィードバック) は、プラン生成のパフォーマンスに大きな影響を与えません。これは、中心的な問題は、問題ではなく LLM のバイナリ検証機能にあることを示唆しています。フィードバックの粒度。

以下の図に示すように、この調査の評価アーキテクチャには、ジェネレーター LLM とベリファイアー LLM の 2 つの LLM が含まれています。特定のインスタンスについて、生成者 LLM は候補計画を生成する責任を負い、検証者 LLM はその正しさを判断します。計画が間違っていると判明した場合、バリデーターはエラーの理由を示すフィードバックを提供します。次に、このフィードバックはジェネレーター LLM に転送され、ジェネレーター LLM に新しい候補プランを生成するよう促します。この研究のすべての実験では、GPT-4 をデフォルトの LLM として使用しました。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

この研究では、Blocksworld でのいくつかの計画生成方法を実験し、比較します。具体的には、この研究ではさまざまな方法を評価するために 100 個のランダムなインスタンスを生成しました。最終的な LLM 計画の正確性を現実的に評価するために、この研究では外部バリデーター VAL を採用しています。

表 1 に示すように、LLM LLM バックプロンプト方式は、精度の点で非バックプロンプト方式よりわずかに優れています。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

100 個のインスタンスのうち、バリデーターは 61 個 (61%) を正確に識別しました。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

#以下の表は、フィードバックなしを含む、さまざまなレベルのフィードバックを受け取ったときの LLM のパフォーマンスを示しています。

LeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られている

以上がLeCun 氏は再び自己回帰 LLM の悪口を言った: 2 つの論文で証明されているように、GPT-4 の推論能力は非常に限られているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Apr 21, 2025 am 10:45 AM

Binanceは、グローバルデジタルアセット取引エコシステムの大君主であり、その特性には次のものが含まれます。1。1日の平均取引量は1,500億ドルを超え、500の取引ペアをサポートし、主流の通貨の98%をカバーしています。 2。イノベーションマトリックスは、デリバティブ市場、Web3レイアウト、教育システムをカバーしています。 3.技術的な利点は、1秒あたり140万のトランザクションのピーク処理量を伴うミリ秒のマッチングエンジンです。 4.コンプライアンスの進捗状況は、15か国のライセンスを保持し、ヨーロッパと米国で準拠した事業体を確立します。

WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏​​しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか? WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

通貨サークルでのレバレッジされた交換のランキングは 通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換:1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です 「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です Apr 21, 2025 pm 02:48 PM

暗号通貨市場での突入は投資家の間でパニックを引き起こし、Dogecoin(Doge)は最も困難なヒット分野の1つになりました。その価格は急激に下落し、分散財務財務(DEFI)(TVL)の総価値が激しく減少しました。 「ブラックマンデー」の販売波が暗号通貨市場を席巻し、ドゲコインが最初にヒットしました。そのdefitVLは2023レベルに低下し、通貨価格は過去1か月で23.78%下落しました。 DogecoinのDefitVLは、主にSOSO値指数が26.37%減少したため、272万ドルの安値に低下しました。退屈なDAOやThorchainなどの他の主要なDefiプラットフォームも、それぞれ24.04%と20減少しました。

なぜ仮想通貨価格の上昇または下落があるのですか?なぜ仮想通貨価格の上昇または下落があるのですか? なぜ仮想通貨価格の上昇または下落があるのですか?なぜ仮想通貨価格の上昇または下落があるのですか? Apr 21, 2025 am 08:57 AM

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao(Kernel)Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか? BNBホルダーはそれからどのような利点を得ることができますか?心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain(ACI)の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative(ACI)の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

See all articles