現在、GPT-4 や PaLM などの巨大なニューラル ネットワーク モデルが登場し、驚くべき少数サンプル学習能力を実証しています。
簡単なプロンプトを与えるだけで、テキスト推論を実行し、物語を書き、質問に答え、プログラムを作成できます...
中国アカデミーの研究者理学部とイェール大学は、「類推的思考」を通じてLLMの推論能力を強化することを目的とした「思考伝播」と呼ばれる新しいフレームワークを提案しました。 #論文アドレス: https://arxiv.org/abs/2310.03965
「思考コミュニケーション」は、人間の認知、つまり、新しい問題に遭遇したとき、私たちはしばしばすでに解決した同様の問題と比較して、戦略を導き出します。
したがって、このアプローチの鍵は、入力の問題を解決する前に、入力に関連する「類似した」問題を調査することです。
最後に、ソリューションはそのまま使用することも、有益な計画のために洞察を抽出することもできます。
「思考コミュニケーション」が LLM の論理機能の固有の制限に対する新しいアイデアを提案し、大規模なモデルが人間と同じように「アナロジー」を使用して問題を解決できるようにすることは予見できます。
LLM の多段階推論、人間に負ける
LLM はプロンプトに基づく基本的な推論が得意であることは明らかですが、複雑な多段階の問題に対処しますが、最適化や計画など、依然として難しい場合があります。
大規模モデルがこれを達成できないのは、その固有の制限によるものです。
LLM の知識はすべてトレーニング データ モデルから得られるためです。 、言語や概念を真に理解することができません。したがって、統計モデルとしては、複雑な組み合わせによる一般化を実行することが困難です。
#LLM には体系的な推論能力が欠けており、人間のように段階的に推論して困難な問題を解決することができません。これが最も重要なことです
さらに、大規模なモデルの推論は局所的で近視眼的なものであるため、LLM が最適な解決策を見つけて、長い時間スケールにわたって推論の一貫性を維持することは困難です
要約すると、数学的証明、戦略計画、論理的推論における大規模モデルに存在する問題は、主に 2 つの中心的な要因に起因すると考えられます:
- 以前の経験からの洞察を再利用できない。
#人間は、新たな問題を解決するために、実践から再利用可能な知識と直感を蓄積します。対照的に、LLM は各問題に「ゼロから」アプローチし、以前のソリューションを借用しません。 #マルチステップ推論における複合エラーとは、マルチステップ推論中に発生するエラーを指します
人間は自分自身の推論の連鎖を監視し、必要に応じて最初のステップを変更します。ただし、推論の初期段階で LLM が犯した間違いは、その後の推論を間違った方向に導くため、さらに増幅されます。グローバルな最適化や長期計画の複雑な課題。
# 研究者らは、この問題に対する新しい解決策、つまり思考コミュニケーションを提案しました。
TP フレームワークThunderbolical Thinking により、LLM は人間のように推論することができます
研究者の意見では、0 からの推論では同様の問題を解決するために洞察を再利用できず、中間推論段階でエラーの蓄積が発生します。
そして、「Thought Spread」では、入力問題に関連する同様の問題を調査し、同様の問題の解決策からインスピレーションを得ることができます。
下の図は、「Thought Propagation」(TP) と他の代表的な技術との比較を示しています。入力問題の場合、p、IO、CoT、および ToT はすべて、解に到達するために最初から推論する必要があります。 s
具体的には、TP には 3 つの段階が含まれます。 :
#1. 同様の質問をする: LLM は、プロンプトを通じて入力された質問と類似した一連の類似した質問を生成します。これにより、モデルが関連する可能性のある過去の経験を取得できるようになります。
2. 同様の問題を解決する: LLM に、CoT などの既存のプロンプト テクノロジを通じて同様の問題をそれぞれ解決させます。
3. 解決策の要約: 2 つの異なる方法があります - 類推解決策に基づいて、入力問題の新しい解決策を直接推測します解決策: 類似の解決策を入力された問題と比較することにより、高レベルの計画または戦略を導き出します。
このようにして、大規模なモデルは以前の経験とヒューリスティックを活用することができ、その最初の推論を類推的な解決策とクロスチェックして、それらの解決策をさらに改良することができます
「思考の伝播」はモデルとは何の関係もなく、単一の問題解決ステップは任意のプロンプト手法に基づいて実行できることは言及する価値があります。
独自性この方法の特徴は、LLM の類推的思考を刺激し、それによって複雑な推論プロセスを導くことです。
##「思考の伝播」により LLM をより人間らしくすることができ、実際の結果がすべてを物語るはずです。 。
中国科学院とイェール大学の研究者は、次の 3 つのタスクについて評価を実施しました:
- 最短経路推論: グラフ内のノード間の最適なパスを見つけるには、グローバルな計画と検索が必要です。単純なグラフであっても、標準的な手法は失敗します。
- クリエイティブ ライティング: 一貫したクリエイティブなストーリーを作成することは、終わりのない課題です。高レベルのアウトライン プロンプトが与えられると、LLM は一貫性やロジックを失うことがよくあります。
#- LLM エージェントの計画: テキスト環境と対話する LLM エージェントは、長期的な戦略に苦労しています。彼らの計画はしばしば「逸脱」したり、サイクルに陥ったりします。 #最短経路推論
(a) のグラフは非常に単純ですが、推論は 0 から始まるため、これらの方法では、LLM が次善の解決策 (b、c) を見つけるか、中間ノード (d) を繰り返し訪問することしかできません。
次は、TP と ToT
# の使用を組み合わせた例です。中間推論ステップ、ToT (b) (a) の問題は解決できません。同様の問題の解決策に基づいて、TP (c) は最初の次善の解決策を改良し、最終的に最適な解決策を見つけます。
ベースラインと比較して、最短パス タスクを処理する TP のパフォーマンスは 12% 大幅に向上し、最適かつ効果的な最短パスが生成されます。
さらに、オンライン書き換え (OLR) の最低値により、生成された有効パス (TP) は、ベースラインと比較して最適パスに最も近くなります
##さらに、研究者らは、最短パス タスクにおける TP 層の複雑さとパフォーマンスに関するさらなる研究も実施しました。
この設定では、レイヤー 1 TP のトークン コストは ToT と同様になります。ただし、レイヤー 1 TP は、最適な最短パスを見つけるという点で非常に競争力のあるパフォーマンスを達成しています。さらに、レイヤー 0 TP (IO) と比較して、レイヤー 1 TP のパフォーマンス向上も非常に顕著です。図 5(a) は、レイヤー 2 TP のトークン コストの増加を示しています。 以下の表 2 は、GPT-3.5 および GPT-3.5 の TP とベースラインを示しています。 4でのパフォーマンス。一貫性の点では、TP はベースラインを上回っています。さらに、ユーザー調査では、TP により人間の創造的な文章の好みが 13% 増加しました。 3 番目のタスク評価では、研究者は ALFWorld ゲーム スイートを使用しました。 134 の環境で LLM エージェントの計画タスクをインスタンス化します。 TP は、LLM エージェント計画におけるタスク完了率を 15% 増加させます。これは、同様のタスクを完了するときに計画を成功させるための反射型 TP の優位性を示しています。 上記の実験結果によると、「思考の伝播」はさまざまな推論タスクに適用でき、これらすべてのタスクで良好に機能します 「思考伝播」モデルは、複雑な LLM 推論のための新しいテクノロジーを提供します。 類推的思考は人間の問題解決能力の特徴であり、より効率的な検索やエラー修正など、一連の体系的な利点をもたらす可能性があります。 同様の状況では、LLM は、類推的な思考を促すことで、再利用可能な知識の欠如や連鎖的なローカル エラーなど、LLM 自体の弱点をより適切に克服することもできます。 ただし、これらの発見にはいくつかの制限があります。有用な類推質問を生成し、推論経路を簡潔に保つことは簡単ではありません。さらに、より長く連鎖した類推パスは長くなり、従うのが困難になる可能性があります。同時に、複数ステップの推論チェーンを制御および調整することも非常に困難な作業です。 しかし、「思考の伝播」は推論の欠陥を創造的に解決することで、興味深い解決策を提供してくれます。 LLM.メソッドの。 さらなる開発により、類推的思考により LLM の推論能力がさらに強力になる可能性があります。これは、大規模な言語モデルで人間の推論に近づけるという目標を達成するための道筋も示しています 著者紹介 Ran He(然) の上級メンバーでもあります。彼は以前に大連理工大学で学士号と修士号を取得し、中国科学院オートメーション研究所で博士号を取得しています。 2009 年 # 彼の研究の方向性は、生体認証アルゴリズム (顔認識と合成、虹彩認識、人物の再識別)、表現学習 (弱い/自己監視または転送を使用した事前トレーニング ネットワーク) です。学習)、および生成学習(生成モデル、画像生成、画像翻訳)。 彼は、IEEE TPAMI、IEEE TIP、IEEE TIFS、IEEE TNN、IEEE TCSVT などの有名な国際ジャーナルを含む、国際ジャーナルや会議で 200 以上の論文を発表しています。 CVPR、ICCV、ECCV、NeurIPS およびその他のトップ国際会議で活躍 彼は IEEE TIP、IEEE TBIOM、およびパターン認識の編集委員会のメンバーであり、CVPR も務めています。 ECCV、NeurIPS、ICML、ICPR、IJCAI 国際会議の地域議長 Yu Junchi は、中国科学院オートメーション研究所の博士課程 4 年生です。彼の指導教員は Heran 教授です。 彼は以前、Tencent でインターンをしていました。人工知能研究所では、Tingyang Xu 博士、Yu Rong 博士、Yatao Bian 博士、Junzhou Huang 教授と協力しました。現在、彼はイェール大学のコンピューター サイエンス学部の交換留学生で、レックス イン教授の下で勉強しています。 彼の目標は、優れた解釈性と移植性を備えた信頼できるグラフを開発することです。 TwGL) メソッドを開発し、生化学におけるその応用を探るクリエイティブ ライティング
LLM エージェント プランニング
LLM 推論を強化する鍵
彼は、中国科学院オートメーション研究所および中国科学院大学の国立パターン認識研究所の教授です。彼は IAPR フェローであり、IEEE
以上がGPT-4 の人間らしい推論能力が大幅に向上しました。中国科学院が提唱した「思考コミュニケーション」、アナログ思考はCoTを超えてすぐに応用可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。