コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

ホームページ > テクノロジー周辺機器 > AI > 中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

王林

リリース： 2023-06-05 13:22:29

転載

944 人が閲覧しました

大規模なモデル機能が登場していますが、パラメーターのスケールが大きいほど良いのでしょうか?

ただし、10B 未満のモデルでも GPT-3.5 と同等のパフォーマンスを達成できると主張する研究者が増えています。

#これは本当にそうなのでしょうか?

GPT-4 をリリースした OpenAI のブログで次のように言及されました:

カジュアルな会話では、GPT-3.5 と GPT-4違いは非常に微妙かもしれません。タスクの複雑さが十分なしきい値に達すると、違いが現れます。GPT-4 は GPT-3.5 よりも信頼性が高く、創造性が高く、より微妙な指示を処理できます。

Google の開発者も PaLM モデルについて同様の観察を行い、大規模モデルの思考連鎖推論能力が小規模モデルよりも大幅に強力であることを発見しました。

これらの観察結果は、複雑なタスクを実行する能力が大規模モデルの機能を具体化するための鍵であることを示しています。

古いことわざのように、モデルもプログラマーも同じです。「くだらないことを言うのはやめて、推論を見せてください。」

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

エディンバラ大学、ワシントン大学、アレン AI 研究所の研究者らは、複雑な推論能力は、大規模モデルの鍵将来のよりインテリジェントなツールに向けたさらなる開発の基礎。

基本的なテキスト要約能力、大規模なモデルの実行はまさに「的外れで鶏を殺す」ようなものです。

これらの基本的な能力の評価は、将来の大型モデルの開発を検討する上ではやや専門的ではないように思えます。

#論文アドレス: https://arxiv.org/pdf/2305.17306.pdf

大規模モデルの推論が最も優れているのはどの企業ですか能力??

だからこそ、研究者たちは、困難な推論タスクにおけるモデルのパフォーマンスを測定するために、複雑な推論タスクリストである思考連鎖ハブを作成しました。

テスト項目には、数学 (GSM8K))、科学 (MATH、定理 QA)、記号 (BBH)、知識 (MMLU、C-Eval)、およびコーディング (HumanEval) が含まれます。

これらのテストプロジェクトまたはデータセットはすべて、大規模モデルの複雑な推論機能を目的としています。誰もが正確に回答できる単純なタスクなどというものはありません。

研究者は今でも、モデルの推論能力を評価するために思考連鎖プロンプト (COT プロンプト) 手法を使用しています。

推論能力のテストでは、研究者は最終的な解答のパフォーマンスのみを測定基準として使用し、途中の推論ステップは判断の基礎として使用されません。

下の図に示すように、さまざまな推論タスクにおける現在の主流モデルのパフォーマンスが示されています。

#テスト結果: モデルが大きいほど推論能力が強化される中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

研究者の研究GPT、Claude、PaLM、LLaMA、T5 モデルファミリなどの現在の人気モデルに焦点を当てます。具体的には、次のとおりです。

OpenAI GPT には、GPT-4 (現在最強)、GPT3.5-Turbo が含まれます(高速ですが、強力ではありません)、text-davinci-003、text-davinci-002、および code-davinci-002 (Turbo より前の重要なバージョン)。

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始 Anthropic Claude には、claude-v1.3 (低速ですが高機能) と claude-instant-v1.0 (より高速ですが、能力は低くなります）。

Google PaLM (PaLM、PaLM-2、およびそれらの命令調整バージョン (FLan-PaLM および Flan-UPaLM) を含む)、強力なベースおよび命令調整モデル。

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

Meta LLaMA (7B、13B、33B、65B バリアントを含む) は、重要なオープンソースの基本モデルです。

GPT-4 は、GSM8K および MMLU 上の他のすべてのモデルよりも大幅に優れていますが、GPT シリーズに匹敵するのは Claude だけです。

FlanT5 11B や LLaMA 7B などの小型モデルは大幅に遅れています。

研究者らは実験を通じて、モデルのパフォーマンスは通常、スケールに関連しており、ほぼ対数線形の傾向があることを発見しました。

パラメータースケールを開示しないモデルは、一般にスケール情報を開示するモデルよりもパフォーマンスが優れています。

LLaMA-65B 推論機能は ChatGPT に近いです

さらに研究者らは、オープンソースコミュニティは規模に関する「堀」をまだ調査する必要があるかもしれないと指摘しました。さらなる改善のためのRLHF。

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

この論文の筆頭著者であるフー・ヤオ氏は次のように結論付けています:

#1.オープンソースとクローズドギャップの明らかな違い。

2. 上位の主流モデルのほとんどは RLHF

3. LLaMA-65B は code-davinci-002 に非常に近いです, GPT -3.5 基本モデル

4. 上記を踏まえると、最も有望な方向性は 「LLaMA 65B で RLHF を行う」です。

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

このプロジェクトについて、著者は将来のさらなる最適化について説明します:

将来的には、より厳選された推論データセット、特に常識的な推論と数学の定理を測定するデータセットが追加される予定です。

および外部 API を呼び出す機能。

さらに重要なのは、Vicuna7 やその他のオープンソースモデルなど、LLaMA に基づく命令微調整モデルなど、より多くの言語モデルを含める必要があることです。

Cohere 8 などの API を介して、PaLM-2 などのモデルの機能にアクセスすることもできます。

つまり、著者は、このプロジェクトが、オープンソースの大規模言語モデルの開発を評価および指導するための公共の福祉施設として大きな役割を果たすことができると信じています。

以上が中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル：

モデル評価

前の記事：黄色いアヒル徳英（02250.HK）：左手で「トレンディゲーム」に参加し、右手で「AI」を抱き、黄色い小さなアヒル徳英の成長の可能性を明らかにする次の記事：「成都製」無人航空機が神舟15号の凱旋を護衛

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

公式アカウントのキャッシュの更新の難しさ：バージョンの更新後のユーザーエクスペリエンスに影響を与える古いキャッシュを回避する方法は？

2025-03-04 13:24:15
フォーク

2025-02-28 14:39:11
大規模な言語モデルのトレーニング：TRPOからGRPOまで

2025-02-26 04:41:08
オープンソースLLMSをホストする経済学

2025-02-26 03:15:10
マシンが先を考えるとき：戦略的AIの台頭

2025-02-26 03:06:12
ChatGptの進化を理解する：パート3- Codexとinstantgptからの洞察

2025-02-26 02:58:10
LLMにスパース自動エンコーダーを備えた特徴回路の定式化

2025-02-26 01:46:08
コンテキスト学習の背後にある数学

2025-02-26 00:03:10
履歴書からAIとLLMを使用したカバーレターまで、PythonとRimelit

2025-02-25 23:59:12
reftは必要なすべてですか？

2025-02-25 19:49:12

最新の問題

JavaScript ネイティブ参照型

から 1970-01-01 08:00:00

0

0

0

TypeScript 型からの Nuxt `defineProps`

から 1970-01-01 08:00:00

0

0

0

JavaScript - タイムスタンプを日付型形式に変換する方法

から 1970-01-01 08:00:00

0

0

0

Null値の型チェック

から 1970-01-01 08:00:00

0

0

0

TypeScriptで条件に基づいて型関数を定義する出力方法

から 1970-01-01 08:00:00

0

0

0

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート