目次
レビュアー
結果
ホームページ テクノロジー周辺機器 AI ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

May 22, 2023 pm 02:28 PM
ai モデル

大規模言語モデル (LLM) は世界中で普及しつつあり、その重要なアプリケーションの 1 つはチャットであ​​り、質疑応答、顧客サービス、その他多くの側面で使用されています。ただし、チャットボットは評価が難しいことで知られています。正確にどのような状況でこれらのモデルが最適に使用されるかはまだ明らかではありません。したがって、LLM の評価は非常に重要です。

以前、Marco Tulio Ribeiro という名前の Medium ブロガーが、Vicuna-13B、MPT-7b-Chat、ChatGPT 3.5 test## でいくつかの複雑なタスクを実行しました。 #。結果は、Vicuna が多くのタスクで ChatGPT (3.5) に代わる実行可能な代替手段である一方、MPT はまだ現実世界で使用する準備ができていないことを示しています。

最近、CMU 准教授の Graham Neubig は、7 つの既存のチャットボットの詳細な評価を実施し、自動比較のためのオープンソース ツールを作成し、最終的に評価レポートを作成しました。


ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

このレポートでは、評価者がいくつかのチャットボットの予備評価と比較の結果を示します。最近のすべてのオープンソース モデルと API ベースのモデルの現状を人々が理解しやすくするため。

具体的には、レビュー担当者は、LLM を評価するための新しいオープンソース ツールキット Zeno Build を作成しました。このツールキットは、(1) Hugging Face またはオンライン API を介してオープンソース LLM を使用するための統合インターフェイス、(2) Zeno を使用して結果を閲覧および分析するためのオンライン インターフェイス、および (3) Critique を使用したテキストの SOTA 評価用のメトリクスを組み合わせています。


ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

参加する具体的な結果: https://zeno-ml-chatbot-report。 hf .space/

評価結果の概要は次のとおりです:

  • レビュー担当者は 7 つの言語モデルを評価しました。 : GPT- 2. LLaMa、Alpaca、Vicuna、MPT-Chat、Cohere Command および ChatGPT (gpt-3.5-turbo);
  • これらのモデルは、人間のような画像に基づいています。顧客サービス データ セットに基づいて作成された の応答性では、長いコンテキスト ウィンドウを持つチャット調整モデルを使用することが重要です。
  • 会話の最初の数ターンでは、プロンプトが表示されます。プロジェクトは、モデル会話のパフォーマンスを向上させるのに非常に役立ちますが、マルチコンテキストの後半のラウンドでは、より多くのプロジェクトが存在する場合、その効果はそれほど明白ではありません;
  • 強力なモデルであってもChatGPT と同様に、幻覚や詳細情報の探索の失敗、重複したコンテンツの提供など、多くの明らかな問題があります。
  • レビューの詳細は以下の通りです。
  • 設定
モデルの概要

レビュアー

使用した DSTC11 Customerサービス データセット。 DSTC11 は、Dialogue Systems Technology Challenge のデータセットで、コメント投稿の主観的な知識を活用することで、より有益で魅力的なタスク指向の会話をサポートすることを目的としています。

DSTC11 データ セットには、マルチターン ダイアログ、マルチドメイン ダイアログなどの複数のサブタスクが含まれています。たとえば、サブタスクの 1 つは映画レビューに基づくマルチターン ダイアログで、ユーザーとシステム間の対話は、ユーザーが自分の好みに合った映画を見つけられるように設計されています。 彼らは次の 7 モデルをテストしました

:

  • GPT-2: 2019 年の古典的な言語モデル。査読者は、言語モデリングの最近の進歩がより良いチャット モデルの構築にどの程度影響を与えるかを確認するためのベースラインとしてこれを含めました。
  • LLaMa: もともと直接言語モデリング目標を使用して Meta AI によってトレーニングされた言語モデル。テストではモデルの 7B バージョンが使用され、次のオープン ソース モデルも同じスケール バージョンを使用します;
  • Alpaca: LLaMa に基づくモデルですが、命令チューニングが施されています。
  • Vicuna: LLaMa に基づいたモデルで、チャットボットベースのアプリケーションにさらに明示的に適合されています;
  • MPT-Chat: 何かに基づいたモデルVicuna の方法で最初からトレーニングされたモデルに似ており、より商用ライセンスが付いています;
  • Cohere コマンド: Cohere によって起動された API ベースのモデルで、コマンド準拠のために微調整されています。
  • ChatGPT (gpt-3.5-turbo): OpenAI によって開発された、標準 API ベースのチャット モデル。

すべてのモデルについて、レビュー担当者はデフォルトのパラメータ設定を使用しました。これらには、温度 0.3、過去 4 回の会話ターンのコンテキスト ウィンドウ、および「あなたは人々と雑談する任務を負ったチャットボットです。」という標準プロンプトが含​​まれます。

評価指標

評価者は、その出力が人間のカスタマー サービスの応答にどの程度似ているかに基づいて、これらのモデルを評価します。これは、Critique ツールボックスによって提供される指標を使用して行われます:

  • #chrf: 文字列の重複を測定します;
  • BERTScore: 2 つの談話間の埋め込みの重複の度合いを測定します;
  • UniEval Coherence: 出力が前のチャット ターンとどの程度一貫しているかを予測します。

また、チャットボットが冗長であるかどうかを測定するために、出力の長さを人間のゴールドスタンダードの応答の長さで割った長さの比率も測定しました。

さらなる分析

結果をさらに詳しく調べるために、レビュー担当者は Zeno の分析インターフェイスを使用しました。レポート ジェネレーターは、会話内の位置 (開始、初期、中間、後半) と人間の応答のゴールドスタンダードの長さ (短、中、長) に基づいて例をセグメント化し、エクスプローラー インターフェイスを使用して、不適切な例を自動的にスコアリングして表示します。各モデルのどこに問題があるのか​​をよりよく理解できます。

結果

モデルの全体的なパフォーマンスはどれくらいですか?

これらすべての指標によると、gpt-3.5-turbo が明らかに勝者であり、Vicuna がオープンソースの勝者であり、GPT-2 と LLaMa はあまり優れていないことがわかります。チャットで直接 トレーニングの重要性。

ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

これらのランキングは、人による A/B テストを使用してモデルを比較する lmsys チャット アリーナのランキングともほぼ一致していますが、Zeno Build の結果は得られました。人間による採点なしで。

出力の長さに関しては、gpt3.5-turbo の出力は他のモデルに比べて非常に冗長であり、チャット方向にチューニングされたモデルは一般に冗長な出力が得られるようです。


ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

#ゴールドスタンダード応答長の精度

次に、レビュー担当者は Zeno レポート UI を使用してさらに詳しく調べます。まず、人間の応答の長さごとに精度を測定しました。彼らは回答を短い (35 文字以下)、中程度 (36 ~ 70 文字)、長い (71 文字以上) の 3 つのカテゴリに分類し、それぞれの精度を個別に評価しました。

gpt-3.5-turbo と Vicuna は長い対話ラウンドでも精度を維持しますが、他のモデルは精度の低下に悩まされます。

ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

#次の質問は、コンテキスト ウィンドウのサイズがどの程度重要かということです。査読者は Vicuna を使った実験を実施し、コンテキスト ウィンドウは 1 ~ 4 個の以前の談話の範囲でした。コンテキスト ウィンドウを増やすと、モデルのパフォーマンスが向上しました。これは、より大きなコンテキスト ウィンドウが重要であることを示しています。


ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

結果は、会話の中盤以降の部分では長いコンテキストが特に重要であることを示しています。これらの立場 返信のテンプレートはそれほど多くなく、以前に話された内容に依存します。


ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

#ゴールドスタンダードのより短い出力を生成しようとすると (おそらくあいまいさが多くなるため)、さらに多くの出力を生成する必要があります。コンテキストは特に重要です。


ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

#プロンプトはどの程度重要ですか?

レビュー担当者は 5 つの異なるプロンプトを試しました。そのうち 4 つは汎用的なもので、もう 1 つは保険分野の顧客サービス チャット タスクに特化して調整されたものです。

  • スタンダード: 「あなたはチャットボットであり、人々とチャットする責任があります。」
  • フレンドリー: 「あなたは親切です、フレンドリーなチャットボット、あなたの仕事です」快適な方法で人々とチャットすることです。」
  • 礼儀正しい: 「あなたは非常に礼儀正しいチャットボットです。非常に形式的に話し、答えを間違えないようにしてください。」
  • シニカル: 「あなたは非常に暗い世界観を持つシニカルなチャットボットで、通常、考えられる問題をすべて指摘するのが好きです。」
  • 特別な保険業界: 「あなたはリバータウン保険ヘルプ デスクのスタッフ メンバーで、主に保険金請求の問題の解決を支援しています。」

通常、これらのプロンプトを使用すると、レビュー担当者は、プロンプトの違いによる大きな違いは検出できませんでしたが、「皮肉な」チャットボットの方がわずかに悪く、オーダーメイドの「保険」チャットボットのほうが全体的にわずかに優れていました。


ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

プロンプトの違いによる違いは、対話の最初のターンで特に顕著であり、次のことがわかります。プロンプトは、他に利用できるコンテキストがほとんどない場合に最も重要です。

ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

発見されたエラーと考えられる緩和策

最後に、レビュー担当者は Zeno の探索 UI を使用して、gpt-3.5 -turbo の検索結果を渡そうとしました。考えられるエラー。具体的には、低 chrf (


ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

#プローブの障害

実際に必要なときに、モデルがより多くの情報をプローブ (検出) できない場合があります。たとえば、モデルは数字の処理においてまだ完全ではありません (電話番号は 11 桁でなければならず、数字の長さは 11 桁でなければなりません)。モデルは答えと一致しません。一致します)。これは、プロンプトを変更して、モデルに特定の情報の必要な長さを思い出させることで軽減できます。

ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

#重複したコンテンツ

同じコンテンツが複数回繰り返される場合があります。 , たとえば、ここではチャットボットが「ありがとう」を 2 回言いました。

ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

理にかなっているが、人間的なやり方ではない答え

場合によっては、この反応は合理的であり、人間の反応とは異なる場合があります。


ラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価

#上記が評価結果です。最後に、査読者は、このレポートが研究者にとって役立つことを願っています。引き続き他のモデル、データセット、プロンプト、またはその他のハイパーパラメーター設定を試したい場合は、zeno-build リポジトリのチャットボットの例にジャンプして試すことができます。

以上がラマ、アルパカ、ビキューナ、ChatGPT の違いは何ですか? 7 つの大規模 ChatGPT モデルの評価の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

C言語関数の返品値の種類は何ですか? C言語関数の返品値のタイプの概要? C言語関数の返品値の種類は何ですか? C言語関数の返品値のタイプの概要? Apr 03, 2025 pm 11:18 PM

c言語関数の返品値タイプには、int、float、double、char、void、およびポインタータイプが含まれます。 intは整数を返すために使用され、フロートとダブルはフロートを返すために使用され、charは文字を返します。 voidとは、関数が値を返さないことを意味します。ポインタータイプはメモリアドレスを返し、メモリの漏れを避けるように注意してください。構造またはコンソーシアムは、複数の関連データを返すことができます。

C言語は0から始まります C言語は0から始まります Apr 03, 2025 pm 08:24 PM

C言語学習を始めるのは少し難しいかもしれませんが、正しい方法を習得した後、基本をすばやくマスターして徐々にマスターします。このガイドでは、基本から高度なトピックまで、C言語のコアコンセプトを学ぶために段階的にガイドします。ディレクトリC言語の基本とデータ型ユーザー入力条件式省略略語スイッチステートメントC言語配列ネストされたループC言語関数構造ポインターC言語の基本とデータ型Cプログラムは標準構造に従い、複数のデータ型を使用して変数を定義します。基本的なプログラム構造は次のとおりです。#includeintmain(){printf( "hello、world!"); ret

C言語関数の概念 C言語関数の概念 Apr 03, 2025 pm 10:09 PM

C言語関数は再利用可能なコードブロックです。彼らは入力を受け取り、操作を実行し、結果を返すことができます。これにより、再利用性が改善され、複雑さが軽減されます。関数の内部メカニズムには、パラメーターの渡し、関数の実行、および戻り値が含まれます。プロセス全体には、関数インラインなどの最適化が含まれます。単一の責任、少数のパラメーター、命名仕様、エラー処理の原則に従って、優れた関数が書かれています。関数と組み合わせたポインターは、外部変数値の変更など、より強力な関数を実現できます。関数ポインターは機能をパラメーターまたはストアアドレスとして渡し、機能への動的呼び出しを実装するために使用されます。機能機能とテクニックを理解することは、効率的で保守可能で、理解しやすいCプログラムを書くための鍵です。

Cプログラマー&#の未定義の行動ガイド Cプログラマー&#の未定義の行動ガイド Apr 03, 2025 pm 07:57 PM

Cプログラミングで未定義の動作を調査する:詳細なガイドこの記事では、Cプログラミングの未定義の動作に関する電子書籍を紹介します。これは、Cプログラミングの最も困難であまり知られていない側面のいくつかをカバーする合計12の章です。この本は、C言語の入門的な教科書ではありませんが、C言語プログラミングに精通している読者を対象としており、未定義の行動のさまざまな状況と潜在的な結果を探ります。著者Dmitrysviridkin、編集者アンドレイ・カーポフ。 6か月間の慎重な準備の後、この電子書籍はついに読者と会いました。印刷バージョンも将来発売されます。この本はもともと11の章を含めることが計画されていましたが、作成プロセス中にコンテンツは継続的に豊かになり、最終的に12の章に拡張されました。

c-subscript 3 subscript 5 c-subscript 3 subscript 5アルゴリズムチュートリアルを計算する方法 c-subscript 3 subscript 5 c-subscript 3 subscript 5アルゴリズムチュートリアルを計算する方法 Apr 03, 2025 pm 10:33 PM

C35の計算は、本質的に組み合わせ数学であり、5つの要素のうち3つから選択された組み合わせの数を表します。計算式はC53 = 5です! /(3! * 2!)。これは、ループで直接計算して効率を向上させ、オーバーフローを避けることができます。さらに、組み合わせの性質を理解し、効率的な計算方法をマスターすることは、確率統計、暗号化、アルゴリズム設計などの分野で多くの問題を解決するために重要です。

ユニークな共有ライブラリの問題 ユニークな共有ライブラリの問題 Apr 03, 2025 pm 08:00 PM

問題の説明最近、自己構築されたC言語共有ライブラリをローカルプロジェクトにリンクしようとしたときにリンクエラーが発生し、リンクエラーが発生し、「未定義の参照」を促しました。エラーメッセージは次のとおりです。/bin/ld:/tmp/cchb7mj8.o:infunction`sdl_main':main.c :(。

エクササイズC:簡単な電話帳申請書の構築 エクササイズC:簡単な電話帳申請書の構築 Apr 03, 2025 pm 08:15 PM

C言語プログラミングを学ぶための最良の方法の1つは、それを練習することです。この記事では、最近完了したプロジェクト、つまり簡単な電話帳アプリケーションを一歩踏み出します。このアプリは、Cのファイル処理と基本的なデータ管理を実証しているため、連絡先を追加、表示、削除できます。以下は完全なコードです。#include#include //関数宣言voidaddcontact(charname []、charnumber []); voidviewcontacts(); voiddeletecontact(c

cでオブジェクト指向?ゼロからインターフェイスを実装します cでオブジェクト指向?ゼロからインターフェイスを実装します Apr 03, 2025 pm 08:21 PM

この記事では、C言語でのオブジェクト指向プログラミングでインターフェイスの概念をシミュレートする方法について説明します。車両価格の計算を例として取り、それぞれJavaとC言語で実装し、2つの言語の違いを比較し、C。javaの実装でインターフェイスの基本関数を実装する方法を示します。サンプルコードは次のとおりです。InterfaceVehicle{intprice();} classCarimplementsVehicle {privateFinalIntSpeed; publi

See all articles