ここ数か月で、検索された世代(RAG)は、大規模な言語モデルと外部の知識を組み合わせるための強力な手法として人気が急上昇しています。ただし、適切なRAGパイプライン(インデックス化、埋め込みモデル、チャンキング方法、質問回答アプローチ)を選択することは困難です。数え切れないほどの構成があれば、どのパイプラインがデータとユースケースに最適であるかを確認するにはどうすればよいですか?それがAutoragが入ってくる場所です
学習目標データサイエンスブログの一部として公開されました。 目次autoragとは何ですか?autoragがラグパイプラインを最適化する方法autorag
複数のレトリバータイプ
(例えば、ベクトルベース、キーワード、ハイブリッド)をテストします。さまざまなチャンクサイズを探索し、戦略をオーバーラップします。
一意のデータとニーズに合わせて最適化されたパイプラインでパフォーマンスを向上させます。
:オープンソースプロジェクトとして、AutoragはPRS、発行レポート、および機能の提案を歓迎します。
ステップ2:PDFファイルを解析します
下にスクロールして、「1.PDFファイルのパース」(スクリーンショット#2)。
をchunkします 「2」に移動します。 raw.parquet」(スクリーンショット#3)をchunkします。
前の手順を使用した場合、「以前のraw.parquetを使用」を選択してファイルを自動的に読み込むことができます。それ以外の場合は、[アップロード]をクリックして、自分の.Parquetファイルを持ち込みます。
文:文の境界でテキストを分割します。
チャンキングは、検索方法が効率的に処理できる管理可能なピースにテキストを分割します。コンテキストと関連性のバランスをとるので、ぼろきシステムがトークンの制限を超えたり、トピックの焦点を希釈したりしないようにします。
例のオプションには、GPT-4O-MINIまたはGPT-4O(インターフェイスが追加のモデルをリストする可能性があります)が含まれます。 選択されたモデルは、質問と回答の品質とスタイルを決定します。
Openaiモデルへのバッチサイズ:
「qa creation
」をクリックします。テキストボックスにステータスの更新が表示されます。自動的に作成されたQ&Aデータセットを取得します。 コスト警告:Q&Aデータの生成は、使用料が発生するOpenai APIを呼び出します。大型バッチを実行する予定がある場合は、Openai請求ページで使用法を監視してください。
ステップ5:QAデータセットの使用 今:
corpus.parquet(あなたのチャンクされたドキュメントデータ)
qa.parquet(自動的に生成されたQ&Aペア)
自動的に生成されたQAデータセットをカスタマイズする場合(質問の編集、特定のトピックのフィルタリング、ドメイン固有のガイドラインの追加)Autoragはデータ作成スタジオを提供します。 「データ作成スタジオウェイトリストに参加する」をクリックして、インターフェイスにウェイトリストに直接サインアップしてください。
結論キーテイクアウト
以上がAutORAG:オープンソースAutomlでRAGパイプラインを最適化しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。