古来より、道具の使用は人間と他の種との大きな違いとみなされ、また知性の基本的な現れともみなされてきました。今日、人工知能はもはやツールの単純な使用に限定されず、問題に基づいて解決策を見つけるための独自のツールを創造的に構築することができています。これは、思考の面では現在の大型モデルがより高次の抽象的な思考と認識を習得し、それを具体的な思考と分けて問題を一緒に解決できるようになったということを意味し、能力の面ではツール作成の登場も意味する。モデルは「学習」を通じて変革し、知っていることを利用して未来への無限の可能性を「創造」することができました。
大規模モデルはこれらの分野で大きな成功を収めていますが、最新のリアルタイム情報を認識または応答できないことや大規模データの難しさなど、依然として多くの欠点があります。計算精度が高く、質問文が論理的に複雑な場合などに不安定な推論能力を実現します。これらの欠点に対応して、研究者は、モデルの機能を強化するために計算機、質疑応答システム、Wikipedia、その他の外部知識ソースを導入するなど、外部リソースを利用する機能を現在のモデル アーキテクチャに導入する取り組みを開始しました。この一連の研究は、モデル
ツール学習能力の基礎を築きました。 ただし、現在の研究で利用されている外部ツールの
数は依然として限られています一方、潜在的な新しいタスクの種類はほぼ無限にあります。したがって、新しいタイプの問題に直面した場合、問題の解決に適した既存のツールを見つけるのは困難です。さらに、効果的な悪用可能なツールが提供されている場合でも、モデルにはツールキットのドキュメントで広範な検索、照合、および問題固有の計画が必要です。これにより、モデルに多くの認知負荷がかかり、高い学習コストが必要になります。 そこで、研究チームは、ツール作成(ツール作成)
という新しい研究パラダイムを提案しました。これは単に大規模なモデルを使用してツールを使用する機能ではなく、新しいツール作成モジュールが追加され、モデルがツールを作成し、モデルが直面する問題の解決策を見つけることができるようになります。大規模なモデルを利用してツールを作成すると、特定の API の制限を超えて、ツールの遍在性、再利用性、多様性が高まります。ツール作成モジュールの設計では、大規模なモデルの認知負荷を軽減し、抽象的な推論 (一般化可能で汎用的なツールの作成) と具体的な推論 (ツールの実装の詳細とツールの使用方法の文書に基づく) を分離することもできます。 意思決定能力 。同時に、このフレームワークのモデルはツール作成の媒体としてコードを使用するため、モデルはエラーに対してより敏感になり、ツールの作成および使用時の問題に基づいて
バックトラックおよび修正することができます。
#ツール作成パラダイムは、ツールの使用よりも柔軟であり、さまざまなシナリオへの適応性が高くなりますCREATOR Research Framework
大規模なモデルを用いて問題を解決するためのツールを作成するためのフレームワークであり、CREATOR は主に以下の 4 つの段階に分かれています。
#大規模モデルを使用したツールの作成と意思決定のためのプロセス フレームワーク
大規模モデルは、まず問題に基づいて必要なツールとそれに関連する命令を作成します。その後、問題の内容とツール情報が同時に大規模モデルに返されて、決定が行われます。この問題の解決策とこれらのツールの使用方法。その後、モデルは実行に基づいてツールと意思決定を適応させて、問題によりよく適合し、答えを探します。
ツール作成フレームワーク全体は、大規模モデルのさまざまな思考能力を柔軟に使用します。抽象的な思考推論で問題の重要な情報を抽出し、具体的な思考推論でそれに基づいて意思決定を行います。タスクの実行計画 と、問題に基づいて解決策を探す 自己修復推論 です。これらの機能を分離することで、大規模モデルが通常の推論チェーン (思考連鎖、CoT) の混乱によって引き起こされる障害を回避し、タスクに対する大規模モデルの適応性とパフォーマンスを効果的に向上させることができます。
CREATOR 実験評価著者は、CREATOR フレームワークと現在一般的な推論連鎖法 (CoT)、プログラム推論連鎖法 (Program-of-Thought、PoT) を比較します。 ) と作成なしの簡単なツールの使用を比較しました。同時に、フレームワークにおける抽象的推論と具体的推論の分離の有効性を検証するために、CREATORフレームワークの作成フェーズと意思決定フェーズを統合したTool Create - Wholeをベースラインとして導入しました。 1. 推論機能を切り離す必要はもうありません。
Creation Challenge Dataset の問題、標準ツール、意思決定の例
#MATH データ セットに対する CREATOR フレームワークのパフォーマンスは、他の推論方法や単純なツール アプリケーションよりも優れていますデータ セットの選択に関して、著者は主な検証として MATH および TabMWP データ セットを選択しました。前者には米国の数学コンテストでの難しい数学問題が含まれ、後者には問題を豊富なデータ テーブルと組み合わせて、両方ともモデルの問題推論と解決能力をさまざまなシナリオでテストします。さらに、著者は、既存のツールやコード パッケージでは問題を直接解決できない、新しく構築された作成チャレンジ データ セットも導入し、ツールを作成するモデルの能力をテストしました。
#TabMWP データセットでもCreation Challenge に対する CREATOR フレームワークの効果も非常に強力です
実験結果から判断すると、CREATOR フレームワークの推論結果はすべてのベースラインよりも大幅に優れており、特に標準的な推論手法やプログラム推論手法と比較して、より良い結果が得られています。同時に、抽象的な推論機能と具体的な推論機能を分離することで、モデルの精度を効果的に向上できることも実験で証明されています。 Creation Challenge テスト セットでは、作成者はさらに、どのツールを作成するかについてのヒントがある場合、モデルが問題を解決する能力がより強力になることも検証しました。したがって、 プロンプトと思考の分離も、ツール作成において重要な影響要因となっています。
#タスクの難易度に対するさまざまな方法の精度統計
#修正フェーズの参加により効果が向上します
さらに、著者はタスクの難易度に対するさまざまな方法の変化曲線や、修正段階の参加ラウンド数と大規模モデルの改善との関係も検証しました。効果。その結果、CREATOR フレームワークは困難な問題に直面しても優れた堅牢性を維持できることがわかり、修正フェーズに参加することで CREATOR フレームワークだけでなく、PoT 推論方法 さえも大幅に改善できることがわかりました。実験における補正ステージ導入の合理性と有効性を確認します。 ツール作成のその他の利点
著者は 300 の質問を設計し、それらを 3 つのグループからなる 100 のグループに分けました。各グループの 3 つの質問はシナリオが異なりますが、すべて同じ核となる知識 (Core Knowledge)、つまり類似した質問を含んでいます。著者は、1 つの問題に対して作成されたツールを一連の問題のすべてのシナリオで使用することで効果的に解決し、精度を向上できるかどうかを検証しました。
#大規模モデル用に作成されたツールは他の問題に移行でき、効果的に精度を向上させることができます
実験統計によれば、モデルによって作成された適切で使用可能なツールを他の同様の問題シナリオに移行すると、問題解決の精度が効果的に向上することがわかります。これは、大規模なモデルで作成されたツールは再利用性が高く、同様の問題に対する汎用性も高いことを示しています。
さらに、著者は大規模なモデルを使用したツール作成の 3 つの側面も示しています。 既存のツールをカプセル化してさまざまな目的を達成し、さまざまなツールを組み合わせて目的の機能を達成する 、および
は階層ツールを作成します。これらの 3 つの次元は、低位から高位まで、現在の大規模モデル ツールの機能を示しています。また、これらの機能は、大規模モデルがさまざまなシナリオにより効率的に適応するのにも役立ちます。
#大規模モデル向けツール作成の 3 つの側面
概要CREATOR フレームワークは、ツールの作成を通じて、大規模なモデルの抽象化と具体的な思考能力の分離を実現します。これは、ツール学習後のモデル能力の限界を探索する上でのもう 1 つの大きな進歩です。今後さらに多くの研究がこれに基づいて行われ、ツールの使用と作成におけるモデルの可能性が証明および強化され、私たちにさらなる驚きをもたらしてくれると私は信じています。
Qian Cheng は清華大学の学部 3 年生で、THUNLP 研究室のメンバーであり、指導者は Liu Zhiyuan です。現在の研究の方向性には、大規模モデルの事前トレーニング、大規模モデルの効率的な微調整、ツール学習が含まれます。彼は清華大学の傑出した総合コンピューティング奨学金を受賞し、EMNLP や ACL などの国際会議で共著者として論文を発表しました。
個人ホームページ: https://qiancheng0.github.io/
以上がCREATORはLLMの「自己進化」を実現するためのツールを作り、活用するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。