生成 AI モデルビッグ PK——GPT-4、Claude 2.1、および Claude 3.0 Opus-AI-php.cn

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

AIGC について詳しく知りたい場合は、

51CTO AI をご覧ください。(生成) システムの新しい評価が毎日公開されており、その多くはフレームワークの検索フェーズに焦点を当てています。問題中。ただし、生成的な側面、つまりモデルがこの取得した情報をどのように合成して表現するかという側面も、実際には同様に重要である可能性があります。多くの実際的な応用例は、システムがコンテキストからデータを返す必要があるだけでなく、この情報をより複雑な応答に変換する必要があることを証明しています。

この目的のために、GPT-4、Claude 2.1、および Claude 3 Opus の 3 つのモデルの生成機能を評価および比較するためにいくつかの実験を実施しました。この記事では、研究方法、結果、その過程で遭遇したこれらのモデルのニュアンスについて詳しく説明し、生成 AI を使用して構築する人にとってこれらのモデルがなぜ重要であるかを説明します。

興味のある読者が上記の実験結果を再現したい場合は、実験に必要なものはすべて GitHub リポジトリ (https://github.com/Arize-ai/LLMTest_NeedleInAHaystack) にあります。

追記

初期の調査結果では、Claude が GPT-4 よりも優れていることが示唆されましたが、その後のテストでは、戦略的プロンプトエンジニアリング技術の出現により、GPT-4 がより広範囲の評価パフォーマンスを上回ることが示されました。つまり、RAG システムの固有のモデル動作と迅速なエンジニアリングにはまだ多くの問題が残っています。

プロンプトテンプレートに「説明してから質問に答えてください」を追加するだけで、GPT-4 のパフォーマンスが大幅に (2 倍以上) 向上しました。 LLM が答えを言うと、アイデアをさらに発展させるのに役立つことは明らかです。解釈を通じて、モデルは埋め込み/アテンション空間で正しい答えを再実行することが可能です。

図1: 著者が作成した図

検索拡張生成システムでは、検索部分は最も関連性の高い情報を特定して取得する責任を負いますが、それは世代ですこれらの生データを取得し、それを一貫した意味のある文脈に応じた応答に変換するフェーズ。生成ステップのタスクは、取得した情報を合成し、ギャップを埋め、理解しやすくユーザーのクエリに関連する方法で表示することです。生成ステップのタスクは、取得した情報を合成し、ギャップを埋め、理解しやすくユーザーのクエリに関連する方法で表示することです。生成フェーズでは、関連情報を完全かつ理解しやすく解釈するために、空白の情報が埋められます。同時に、ユーザーは必要に応じて、関連する方法で提示された情報を照会できます。生成段階の処理を通じて、空白の情報を埋めることにより、最終的に生成される結果はより完全で理解しやすくなります。これにより、関連情報を理解し、クエリを実行する方法が提供され、ユーザーがより深く探索および調査できるようになります。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus 多くの実世界のアプリケーションでは、RAG システムの価値は、特定の事実や情報を見つける能力だけでなく、より広範なフレームワーク内で情報を統合し、文脈化する能力にもあります。生成フェーズにより、RAG システムは単純なファクト検索を超えて、真にインテリジェントで適応的な応答を提供できるようになります。

テスト #1: 日付マッピング

私たちが実行した最初のテストは、ランダムに取得した 2 つの数値 (1 つは月を表し、もう 1 つは日を表します) から日付文字列を生成することで構成されていました。モデルのタスクは次のとおりです:

乱数 #1 を取得する

最後の桁を分離し、1 ずつ増分する

結果に基づいて日付文字列の月を生成する

乱数 #2 を取得する
生成する乱数 2 からの日付文字列
の日付たとえば、乱数 4827143 と 17 は 4 月 17 日を表します。
図は、異なる長さ、異なる深さのコンテキスト内に配置されています。モデルは当初、このタスクを達成するのにかなり苦労しました。

図 2: 初期テスト結果

どちらのモデルもパフォーマンスは低かったですが、最初のテストでは Claude 2.1 が GPT-4 を大幅に上回り、成功率はほぼ 4 倍でした。ここで、詳細で説明的な回答を提供するクロードのモデルの冗長な性質が明らかな利点を与えているように見え、GPT-4 の元の簡潔な回答と比較してより正確な結果が得られます。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus これらの予期せぬ実験結果に刺激されて、私たちは実験に新しい変数を導入しました。私たちは GPT-4 に「説明してから質問に答えてください」と指示し、クロードモデルによって自然に出力されるものと同様の、より詳細な応答を促すプロンプトを作成しました。したがって、この小さな調整の影響は広範囲に及びます。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

図 3: ターゲットを絞ったプロンプト結果の初期テスト

GPT-4 モデルのパフォーマンスが大幅に向上し、その後のテストで完璧な結果を達成しました。クロードモデルの結果も改善されました。

この実験は、言語モデルが生成タスクを処理する方法の違いを強調するだけでなく、ヒントエンジニアリングが言語モデルのパフォーマンスに与える潜在的な影響も示しています。 Claude の強みは冗長性であるようですが、これは GPT-4 で再現可能な戦略であることが判明し、モデルが推論を処理および提示する方法が生成タスクの精度に大きく影響する可能性があることを示唆しています。全体として、私たちのすべての実験において、一見小さな「自分自身を説明してください」という文も含めて、モデルのパフォーマンスを向上させる役割を果たしました。

さらなるテストと結果

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

図 4: 生成を評価するための 4 つのさらなるテスト

取得した情報を合成してさまざまな形式に変換するための主流モデルを評価するために、さらに 4 つのテストを実施しました。能力:

文字列連結: テキストの断片を一貫した文字列に結合して、モデルの基本的なテキスト操作スキルをテストします。
通貨形式: 数値を通貨に形式化し、四捨五入し、変化率を計算して、モデルの精度と数値データを処理する能力を評価します。
日付マッピング: 数値表現を月名と日に変換するには、ハイブリッド検索とコンテキストの理解が必要です。
モジュラー演算: 複素数演算を実行して、モデルの数学的生成機能をテストします。

予想通り、各モデルは文字列連結で強力なパフォーマンスを示しました。これは、テキスト操作が言語モデルの基本的な強みであるというこれまでの理解を繰り返しています。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

図 5: 通貨書式設定テストの結果

通貨書式設定テストに関しては、Claude 3 と GPT-4 はほぼ完璧に実行されました。 Claude 2.1 のパフォーマンスは一般的に悪いです。精度はマークの長さによってあまり変わりませんが、ポインタがコンテキストウィンドウの先頭に近づくにつれて一般に低くなります。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

図 6: Haystack Web サイトからの公式テスト結果

1 世代のテストで優れた結果を達成したにもかかわらず、検索のみの実験では Claude 3 の精度が低下しました。理論的には、単に数値を取得することも、数値を操作するよりも簡単であるはずです。そのため、パフォーマンスの低下は驚くべきことであり、この領域についてはさらにテストする予定です。どちらかといえば、この直観に反するドロップは、RAG で開発する際には取得と生成の両方をテストする必要があるという考えをさらに裏付けるものにすぎません。

結論

さまざまな生成タスクをテストすることにより、Claude と GPT-4 の両方のモデルは文字列操作などの簡単なタスクには優れていますが、より複雑なシナリオでは長所と短所が明らかになることがわかりました (https:/ /arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/)。 LLM は依然として数学が苦手です。もう 1 つの重要な結果は、「自己説明型」ヒントの導入によって GPT-4 のパフォーマンスが大幅に向上し、モデルにヒントを与える方法とその推論を明確にして正確な結果を得る方法の重要性が強調されたことです。結果。

これらの発見は、LLM の評価に対してより広範な意味を持ちます。詳細な Claude と、当初はあまり詳細ではなかった GPT-4 のようなモデルを比較すると、RAG 評価 (https://arize.com/blog-course/rag-evaluation/) の基準が、以前に重点を置いていたものだけを超えたものでなければならないことが明らかになります。これが正しいセックスです。モデルの応答が冗長であるため、知覚されるパフォーマンスに大きな影響を与える可能性のある変数が導入されます。この微妙な違いは、将来のモデル評価では、モデルの機能をよりよく理解し、より公平な比較を保証するために、平均応答長を注目すべき要素として考慮する必要があることを示唆している可能性があります。