AIGC について詳しく知りたい場合は、
51CTO AI をご覧ください。(生成) システムの新しい評価が毎日公開されており、その多くはフレームワークの検索フェーズに焦点を当てています。問題中。ただし、生成的な側面、つまりモデルがこの取得した情報をどのように合成して表現するかという側面も、実際には同様に重要である可能性があります。多くの実際的な応用例は、システムがコンテキストからデータを返す必要があるだけでなく、この情報をより複雑な応答に変換する必要があることを証明しています。
この目的のために、GPT-4、Claude 2.1、および Claude 3 Opus の 3 つのモデルの生成機能を評価および比較するためにいくつかの実験を実施しました。この記事では、研究方法、結果、その過程で遭遇したこれらのモデルのニュアンスについて詳しく説明し、生成 AI を使用して構築する人にとってこれらのモデルがなぜ重要であるかを説明します。
追記
初期の調査結果では、Claude が GPT-4 よりも優れていることが示唆されましたが、その後のテストでは、戦略的プロンプト エンジニアリング技術の出現により、GPT-4 がより広範囲の評価パフォーマンスを上回ることが示されました。つまり、RAG システムの固有のモデル動作と迅速なエンジニアリングにはまだ多くの問題が残っています。 プロンプト テンプレートに「説明してから質問に答えてください」を追加するだけで、GPT-4 のパフォーマンスが大幅に (2 倍以上) 向上しました。 LLM が答えを言うと、アイデアをさらに発展させるのに役立つことは明らかです。解釈を通じて、モデルは埋め込み/アテンション空間で正しい答えを再実行することが可能です。多くの実世界のアプリケーションでは、RAG システムの価値は、特定の事実や情報を見つける能力だけでなく、より広範なフレームワーク内で情報を統合し、文脈化する能力にもあります。生成フェーズにより、RAG システムは単純なファクト検索を超えて、真にインテリジェントで適応的な応答を提供できるようになります。
テスト #1: 日付マッピング
私たちが実行した最初のテストは、ランダムに取得した 2 つの数値 (1 つは月を表し、もう 1 つは日を表します) から日付文字列を生成することで構成されていました。モデルのタスクは次のとおりです:
乱数 #1 を取得する 最後の桁を分離し、1 ずつ増分する 結果に基づいて日付文字列の月を生成するこれらの予期せぬ実験結果に刺激されて、私たちは実験に新しい変数を導入しました。私たちは GPT-4 に「説明してから質問に答えてください」と指示し、クロード モデルによって自然に出力されるものと同様の、より詳細な応答を促すプロンプトを作成しました。したがって、この小さな調整の影響は広範囲に及びます。
図 3: ターゲットを絞ったプロンプト結果の初期テスト
GPT-4 モデルのパフォーマンスが大幅に向上し、その後のテストで完璧な結果を達成しました。クロード モデルの結果も改善されました。
この実験は、言語モデルが生成タスクを処理する方法の違いを強調するだけでなく、ヒント エンジニアリングが言語モデルのパフォーマンスに与える潜在的な影響も示しています。 Claude の強みは冗長性であるようですが、これは GPT-4 で再現可能な戦略であることが判明し、モデルが推論を処理および提示する方法が生成タスクの精度に大きく影響する可能性があることを示唆しています。全体として、私たちのすべての実験において、一見小さな「自分自身を説明してください」という文も含めて、モデルのパフォーマンスを向上させる役割を果たしました。
図 4: 生成を評価するための 4 つのさらなるテスト
取得した情報を合成してさまざまな形式に変換するための主流モデルを評価するために、さらに 4 つのテストを実施しました。 能力:
予想通り、各モデルは文字列連結で強力なパフォーマンスを示しました。これは、テキスト操作が言語モデルの基本的な強みであるというこれまでの理解を繰り返しています。
図 5: 通貨書式設定テストの結果
通貨書式設定テストに関しては、Claude 3 と GPT-4 はほぼ完璧に実行されました。 Claude 2.1 のパフォーマンスは一般的に悪いです。精度はマークの長さによってあまり変わりませんが、ポインタがコンテキスト ウィンドウの先頭に近づくにつれて一般に低くなります。
図 6: Haystack Web サイトからの公式テスト結果
1 世代のテストで優れた結果を達成したにもかかわらず、検索のみの実験では Claude 3 の精度が低下しました。理論的には、単に数値を取得することも、数値を操作するよりも簡単であるはずです。そのため、パフォーマンスの低下は驚くべきことであり、この領域についてはさらにテストする予定です。どちらかといえば、この直観に反するドロップは、RAG で開発する際には取得と生成の両方をテストする必要があるという考えをさらに裏付けるものにすぎません。
さまざまな生成タスクをテストすることにより、Claude と GPT-4 の両方のモデルは文字列操作などの簡単なタスクには優れていますが、より複雑なシナリオでは長所と短所が明らかになることがわかりました (https:/ /arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/)。 LLM は依然として数学が苦手です。もう 1 つの重要な結果は、「自己説明型」ヒントの導入によって GPT-4 のパフォーマンスが大幅に向上し、モデルにヒントを与える方法とその推論を明確にして正確な結果を得る方法の重要性が強調されたことです。結果。
これらの発見は、LLM の評価に対してより広範な意味を持ちます。詳細な Claude と、当初はあまり詳細ではなかった GPT-4 のようなモデルを比較すると、RAG 評価 (https://arize.com/blog-course/rag-evaluation/) の基準が、以前に重点を置いていたものだけを超えたものでなければならないことが明らかになります。これが正しいセックスです。モデルの応答が冗長であるため、知覚されるパフォーマンスに大きな影響を与える可能性のある変数が導入されます。この微妙な違いは、将来のモデル評価では、モデルの機能をよりよく理解し、より公平な比較を保証するために、平均応答長を注目すべき要素として考慮する必要があることを示唆している可能性があります。
Zhu Xianzhong 氏、51CTO コミュニティ編集者、51CTO エキスパートブロガー、講師、濰坊の大学のコンピューター教師、フリーランスプログラミング業界のベテラン。
原題: Tips for Getting the Generation Part Right in Retrieval Augmented Generation、著者: Aparna Dhinakaran
リンク:
nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented -世代-7deaa26f28dc。
AIGC について詳しくは、こちらをご覧ください:
51CTO AI.x コミュニティ
https://www.51cto.com/aigc/
以上が生成 AI モデル ビッグ PK——GPT-4、Claude 2.1、および Claude 3.0 Opusの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。