目次
実験では、20 の異なるデータセットを使用して ChatGPT と GPT-3.5 を評価し、7 種類のタスクをカバーします。
ホームページ テクノロジー周辺機器 AI ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

Apr 13, 2023 pm 09:25 PM
chatgpt 試験を受ける

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

論文リンク: https://arxiv.org/pdf/2302.06476.pdf

大規模言語モデル (LLM) は、さまざまな自然言語処理 (NLP) タスクを解決できることが証明されており、特定の下流タスクについては、トレーニング データに依存せず、適切なプロンプトのヘルプ。コマンドに応じて新しいタスクを実行するこの機能は、一般的な人工知能への重要なステップと見なすことができます。

現在の LLM は場合によっては良好なパフォーマンスを実現しますが、それでもゼロショット学習ではさまざまなエラーが発生する傾向があります。さらに、プロンプトの形式も大きな影響を与える可能性があります。たとえば、「ステップバイステップで考えてみましょう」をプロンプトに追加すると、モデルのパフォーマンスが 大幅に向上する可能性があります。これらの制限は、現在の LLM が真の汎用言語システムではないことを示しています。 最近、OpenAI がリリースした ChatGPT LLM が NLP コミュニティで大きな注目を集めています。 ChatGPT は、GPT-3.5 シリーズのモデルを「ヒューマン フィードバックによる強化学習 (RLHF)」によってトレーニングすることによって作成されました。 RLHF は主に、教師あり学習を使用した言語モデルのトレーニング、比較データの収集と人間の好みに基づく報酬モデルのトレーニング、強化学習を使用した報酬モデルに対する言語モデルの最適化の 3 つのステップで構成されます。 RLHF トレーニングにより、ChatGPT は人間の入力に対する高品質な応答の生成、不適切な質問の拒否、その後の会話に基づく以前のエラーの自己修正など、さまざまな側面で優れた機能を備えていることが観察されました。

ChatGPT は強力な会話機能を示していますが、ChatGPT が既存の LLM と比較して優れたゼロショット汎化機能を実現しているかどうかは、NLP コミュニティではまだ不明です。この研究ギャップを埋めるために、研究者らは、7 つの代表的なタスク カテゴリをカバーする多数の NLP データセットで ChatGPT のゼロショット学習機能を評価することで、ChatGPT のゼロショット学習機能を体系的に研究しました。これらのタスクには、推論、自然言語推論、質問応答 (読解)、対話、要約、固有表現認識、感情分析が含まれます。研究者らは、広範な実験の助けを借りて、次の質問に答えることを目的としました:

#ChatGPT は NLP タスク用の汎用ソルバーですか? ChatGPT はどのようなタイプのタスクでうまく機能しますか?
  • ChatGPT が一部のタスクで他のモデルに遅れをとっている場合、その理由は何でしょうか?
  • これらの質問に答えるために、著者らは実験に基づいて ChatGPT と最先端の GPT-3.5 モデル (text-davinci-003) のパフォーマンスを比較しました。結果。さらに、FLAN、T0、PaLM などの最近の研究のゼロショット、微調整、または少数ショットの微調整結果も報告します。

主な結論

著者らは、自分たちの知る限り、これが初めてのことであると述べています。 ChatGPT についてコメントしました。ChatGPT の予備的な概要を提供することを目的として、さまざまな NLP タスクのゼロショット機能が研究されています。彼らの主な発見は次のとおりです:

  • ChatGPT はジェネラリスト モデルとして複数のタスクを実行する能力を示していますが、一般に、特定のタスク用に微調整されたモデルよりもパフォーマンスが悪くなります (図 1 およびセクション 4.3 を参照)。
  • ChatGPT の優れた推論能力は、算術推論タスクで実験的に確認されています (セクション 4.2.1)。ただし、ChatGPT は一般に、たとえば不確実な応答を生成することからわかるように、常識的、記号的、論理的推論タスクでは GPT-3.5 よりもパフォーマンスが悪くなります (セクション 4.2.2)。
  • ChatGPT は、次のような推論能力を重視する自然言語推論タスク (セクション 4.2.3) および質問応答 (読解) タスク (セクション 4.2.4) において GPT-3.5 よりも優れています。テキストペア間の論理関係を決定します。具体的には、ChatGPT は、事実と一致するテキストの処理に優れています (つまり、非含意よりも含意の分類に優れています)。
  • ChatGPT は、会話タスクに関して GPT-3.5 よりも優れています (セクション 4.2.5)。
  • サマリー タスクに関しては、ChatGPT は長いサマリーを生成し、GPT-3.5 よりもパフォーマンスが悪くなります。ただし、ゼロショット ディレクティブでダイジェスト長を明示的に制限すると、ダイジェストの品質が低下し、パフォーマンスが低下します (セクション 4.2.6)。
  • ChatGPT と GPT-3.5 はジェネラリスト モデルとして有望であるにもかかわらず、シーケンス アノテーション (セクション 4.2.7) などの特定のタスクで課題に直面しています。
  • ChatGPT の感情分析機能は GPT-3.5 (セクション 4.2.8) に近いものです。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

#方法

前述したように、この研究はこれこの論文では主に、さまざまなタスクの下で ChatGPT と GPT-3.5 (textdavinci-003) のゼロショット学習パフォーマンスを比較しています。具体的には、タスクの指示 P とテスト問題 X を入力として受け取り、モデルは f で表され、テスト問題を解くためのターゲット テキスト Y = f (P, X) を生成します。さまざまなタスクの指示と入力形式を図 2 および 3 に示します。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

# 6 つのタスク (感情分析、自然言語推論、固有表現認識、質問、および回答、ダイアログ、概要)コマンドと入力形式。説明書は青い文字で書かれています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

推論タスクの説明。 たとえば、モデルが感情分析タスクを実行するとき、タスク命令 P はテキストに含まれる感情を肯定的または否定的にマークし、出力される回答は正または負です。モデルが命令 P と入力コンテンツ X (そのコンテンツは、かなりの力と信頼性を備えた驚くべき叙情的な作品です) を読み取ると、モデルは Y プラスを出力することが期待されると判断されます。

上記の 1 段階プロンプト法とは異なり、この研究では 2 段階プロンプト (Kojima et al. によって提案) を使用してゼロショット CoT を完了します。

第一段階では「ステップバイステップで考えてみましょう」を採用し、命令P_1でモデル生成Rの基本原理を導き出します。

2 番目のステージでは、最初のステップで生成された基本原理 R に加えて、元の入力 X と命令 P_1 を新しい入力として使用して、モデルが最終的な答えを生成するようにガイドします。

その後、新しい命令 P_2 をトリガー文として使用して答えを抽出します。すべてのタスクの指示は、Brown、Ouyang、Zhang らの研究から引用またはインスピレーションを得たものです。最後に注意すべき点は、ChatGPT に新しいクエリを作成するたびに、前の例の影響を避けるために事前に会話をクリアする必要があることです。

実験

実験では、20 の異なるデータセットを使用して ChatGPT と GPT-3.5 を評価し、7 種類のタスクをカバーします。

算術推論

6 つの算術推論データセットに対する CoT なしまたは CoT ありの ChatGPT および GPT-3.5 の精度を表 2 に示します。 CoT を使用しない実験では、ChatGPT は 5 つのデータセットで GPT-3.5 を上回り、強力な算術推論機能を実証しました。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

# 図 4 は、GPT-3.5 が間違った答えを与えるケースを示しています。写真の左側で、「ウェンディはビデオ ゲームをしていて、ライフが 43 個あります。ゲームの難しい部分で、彼女は 8 個のライフを失いました。次のレベルでさらに 39 個のライフを獲得した場合、彼女は何個のライフを得るでしょうか」と尋ねます。 ?」ChatGPT が正しい答えを返しました。しかし、GPT-3.5 は間違った答えを生成しました。 CoT を使用すると、ChatGPT は GPT-3.5 よりもはるかに優れたパフォーマンスを発揮することがわかります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

常識、記号、論理的推論

表 3 は、常識的、記号的、論理的推論データ セットに対する ChatGPT と一般的な LLM の精度を示しています。次のようなことがわかります。 まず、CoT を使用しても、常識的な推論タスクで常に優れたパフォーマンスが得られるとは限りません。これには、より詳細な背景知識が必要になる場合があります。第二に、算術推論とは異なり、ChatGPT は多くの場合 GPT-3.5 よりもパフォーマンスが悪く、GPT-3.5 の方がより強力な対応機能を備えていることを示しています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

理由を分析するために、図 5 に ChatGPT のいくつかの失敗例を示します。 ChatGPT が未定義の応答を簡単に生成し、パフォーマンスの低下につながることがわかります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

自然言語推論

表 4 は、2 つの自然言語推論タスク、RTE と CB に関するさまざまなモデルの結果を示しています。ゼロショット設定では、ChatGPT が GPT-3.5、FLAN、T0、PaLM よりも優れたパフォーマンスを達成できることがわかります。これは、ChatGPT が NLP 推論タスクにおけるゼロショット パフォーマンスに優れていることを証明しています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

Q&A

#表 6 は、BoolQ データセット上のさまざまなモデルの精度を報告しています。ChatGPT は GPT-3.5 よりも優れています。これは、ChatGPT が推論タスクをより適切に処理できることを示しています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

対話

表 8 は、MuTual データセット (マルチラウンド会話推論) における ChatGPT および GPT-3.5 の精度を示しています。予想通り、ChatGPT は GPT-3.5 よりも大幅に優れています。

図 6 は具体的な例であり、ChatGPT が特定のコンテキストに対してより効果的に推論できることがわかります。これにより、ChatGPT の超推論機能が改めて確認されました。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。概要の生成

表 9 は、SAMSum データセット上の ChatGPT および GPT-3.5 の ROUGE スコアを示していますが、驚くべきことに、ChatGPT はすべての指標において GPT-3.5 よりも劣っています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

固有表現の認識

表 10 は、CoNLL03 での ChatGPT および GPT-3.5 のゼロショット パフォーマンスを報告します。 ChatGPT と GPT-3.5 の全体的なパフォーマンスは非常に似ていることがわかります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

# 感情分析

表 11 は、センチメント分析データ セット SST2 のさまざまなモデルの精度を比較しています。驚くべきことに、ChatGPT のパフォーマンスは GPT-3.5 よりも約 1% 劣ります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

#詳細については、元の論文を参照してください。

以上がChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ChatGPT では、無料ユーザーが 1 日あたりの制限付きで DALL-E 3 を使用して画像を生成できるようになりました ChatGPT では、無料ユーザーが 1 日あたりの制限付きで DALL-E 3 を使用して画像を生成できるようになりました Aug 09, 2024 pm 09:37 PM

DALL-E 3は、前モデルより大幅に改良されたモデルとして2023年9月に正式導入されました。これは、複雑な詳細を含む画像を作成できる、これまでで最高の AI 画像ジェネレーターの 1 つと考えられています。ただし、発売当初は対象外でした

ChatGPT と Python の完璧な組み合わせ: インテリジェントな顧客サービス チャットボットの作成 ChatGPT と Python の完璧な組み合わせ: インテリジェントな顧客サービス チャットボットの作成 Oct 27, 2023 pm 06:00 PM

ChatGPT と Python の完璧な組み合わせ: インテリジェント カスタマー サービス チャットボットの作成 はじめに: 今日の情報化時代において、インテリジェント カスタマー サービス システムは企業と顧客の間の重要なコミュニケーション ツールとなっています。より良い顧客サービス体験を提供するために、多くの企業が顧客相談や質問応答などのタスクを完了するためにチャットボットに注目し始めています。この記事では、OpenAI の強力なモデル ChatGPT と Python 言語を使用して、インテリジェントな顧客サービス チャットボットを作成し、顧客サービスを向上させる方法を紹介します。

携帯電話にchatgptをインストールする方法 携帯電話にchatgptをインストールする方法 Mar 05, 2024 pm 02:31 PM

インストール手順: 1. ChatGTP ソフトウェアを ChatGTP 公式 Web サイトまたはモバイル ストアからダウンロードします; 2. それを開いた後、設定インターフェイスで言語を中国語を選択します; 3. ゲーム インターフェイスでヒューマン マシン ゲームを選択し、中国スペクトル; 4 . 起動後、チャット ウィンドウにコマンドを入力してソフトウェアを操作します。

ChatGPT と Java を使用してインテリジェントなチャットボットを開発する方法 ChatGPT と Java を使用してインテリジェントなチャットボットを開発する方法 Oct 28, 2023 am 08:54 AM

この記事では、ChatGPT と Java を使用してインテリジェントなチャットボットを開発する方法を紹介し、いくつかの具体的なコード例を示します。 ChatGPT は、OpenAI によって開発された生成事前トレーニング トランスフォーマーの最新バージョンです。これは、自然言語を理解し、人間のようなテキストを生成できるニューラル ネットワーク ベースの人工知能テクノロジーです。 ChatGPT を使用すると、適応型チャットを簡単に作成できます

中国でもchatgptは使えますか? 中国でもchatgptは使えますか? Mar 05, 2024 pm 03:05 PM

chatgpt は中国でも使用できますが、香港やマカオでも登録できません。ユーザーが登録したい場合は、外国の携帯電話番号を使用して登録できます。登録プロセス中にネットワーク環境を切り替える必要があることに注意してください。外国のIP。

ChatGPTとPythonを使ってユーザー意図認識機能を実装する方法 ChatGPTとPythonを使ってユーザー意図認識機能を実装する方法 Oct 27, 2023 am 09:04 AM

ChatGPT と Python を使用してユーザー意図認識機能を実装する方法 はじめに: 今日のデジタル時代において、人工知能技術はさまざまな分野で徐々に不可欠な部分になりました。その中で、自然言語処理 (Natural Language Processing、NLP) テクノロジーの開発により、機械が人間の言語を理解して処理できるようになります。 ChatGPT (Chat-GeneratingPretrainedTransformer) は、

ChatGPT PHP を使用してインテリジェントな顧客サービス ロボットを構築する方法 ChatGPT PHP を使用してインテリジェントな顧客サービス ロボットを構築する方法 Oct 28, 2023 am 09:34 AM

ChatGPTPHP を使用してインテリジェントな顧客サービス ロボットを構築する方法 はじめに: 人工知能技術の発展に伴い、顧客サービスの分野でロボットの使用が増えています。 ChatGPTPHP を使用してインテリジェントな顧客サービス ロボットを構築すると、企業はより効率的でパーソナライズされた顧客サービスを提供できるようになります。この記事では、ChatGPTPHP を使用してインテリジェントな顧客サービス ロボットを構築する方法を紹介し、具体的なコード例を示します。 1. ChatGPTPHP をインストールし、ChatGPTPHP を使用してインテリジェントな顧客サービス ロボットを構築します。

ChatGPT と Java を使用して AI ベースの音声アシスタントを開発する方法 ChatGPT と Java を使用して AI ベースの音声アシスタントを開発する方法 Oct 27, 2023 pm 06:09 PM

ChatGPT と Java を使用して人工知能ベースの音声アシスタントを開発する方法 人工知能 (Artificial Intelligence、略して AI) の急速な発展により、さまざまな分野が参入しており、その中でも音声アシスタントは人気のあるアプリケーションの 1 つです。この記事では、ChatGPT と Java を使用して人工知能ベースの音声アシスタントを開発する方法を紹介します。 ChatGPT は、AI 研究機関である OpenAI によって開発された、自然言語による対話のためのオープンソース プロジェクトです。

See all articles