Unterziehen Sie das RAG-System einer umfassenden „physischen Untersuchung' mit dem Open-Source-Diagnosetool RAGChecker von Amazon-KI-php.cn

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Insgesamt ca. 90 Veröffentlichungen. Zu den Forschungsgebieten gehören grundlegende Theorien des Deep Learning, der Verarbeitung natürlicher Sprache, der Computer Vision, des maschinellen Lernens von Graphen, des Hochleistungsrechnens, intelligenter Empfehlungssysteme, der Betrugserkennung und Risikokontrolle, der Konstruktion von Wissensgraphen und intelligenter Entscheidungssysteme. Das Institut übernahm die Führung bei der Erforschung und Entwicklung der weltweit führenden Deep Graph Learning-Bibliothek, der Deep Graph Library (DGL), die die Vorteile von Deep Learning und der Darstellung von Graphenstrukturen vereint und viele wichtige Anwendungsbereiche betrifft.

Die Retrieval-Augmented Generation (RAG)-Technologie revolutioniert den Bereich der KI-Anwendungen. Durch die nahtlose Integration von externer Wissensdatenbank und LLM-internem Wissen verbessert sie die Genauigkeit und Zuverlässigkeit von KI-Systemen erheblich. Da RAG-Systeme jedoch in verschiedenen Branchen weit verbreitet sind, stehen ihre Bewertung und Optimierung vor erheblichen Herausforderungen. Bestehende Bewertungsmethoden, ob traditionelle End-to-End-Metriken oder die Bewertung eines einzelnen Moduls, können die Komplexität und tatsächliche Leistung von RAG-Systemen nur schwer vollständig widerspiegeln. Insbesondere können sie nur einen endgültigen Ergebnisbericht vorlegen, der nur die Leistung des RAG-Systems widerspiegelt.

Menschen müssen zur Untersuchung ins Krankenhaus gehen, wenn sie krank sind. Wie kann man es also diagnostizieren?

Kürzlich hat das Amazon Shanghai Artificial Intelligence Research Institute ein Diagnosetool namens
RAGChecker

eingeführt, um

feinkörnige, umfassende und zuverlässige

Diagnoseberichte für das RAG-System bereitzustellen und die Leistung weiter zu verbessern,

verfügbare Richtung bereitzustellen Betrieb
. In diesem Artikel wird dieses RAG-„Mikroskop“ ausführlich vorgestellt, um zu sehen, wie es Entwicklern helfen kann, intelligentere und zuverlässigere RAG-Systeme zu erstellen.

Papier: https://arxiv.org/pdf/2408.08067

Unterziehen Sie das RAG-System einer umfassenden „physischen Untersuchung mit dem Open-Source-Diagnosetool RAGChecker von Amazon Projektadresse: https://github.com/amazon-science/RAGChecker

RAGCheck ähm: UMFASSENDE DIAGNOSEWERKZEUGE FÜR DAS RAG-SYSTEM

Stellen Sie sich vor, wie es wäre, wenn wir eine umfassende „physische Untersuchung“ des RAG-Systems durchführen könnten? RAGChecker ist dafür gemacht. Es bewertet nicht nur die Gesamtleistung des Systems, sondern bietet auch eine detaillierte Analyse der Leistung der beiden Kernmodule Abruf und Generierung.

Zu den Hauptfunktionen von RAGChecker gehören:

Unterziehen Sie das RAG-System einer umfassenden „physischen Untersuchung mit dem Open-Source-Diagnosetool RAGChecker von Amazon

Feingranulare Auswertung: RAGChecker verwendet eine Implikationsprüfung auf Anspruchsebene anstelle einer einfachen Auswertung auf Antwortebene. Dieser Ansatz ermöglicht eine detailliertere und differenziertere Analyse der Systemleistung und liefert tiefgreifende Erkenntnisse.

Umfassendes Indikatorensystem: Dieses Framework bietet eine Reihe von Indikatoren, die alle Aspekte der RAG-Systemleistung abdecken, einschließlich Treue, Kontextnutzung, Geräuschempfindlichkeit und Halluzination.

Nachgewiesene Gültigkeit: Zuverlässigkeitstests zeigen, dass die Bewertungsergebnisse von RAGChecker stark mit dem menschlichen Urteilsvermögen korrelieren und andere bestehende Bewertungsmetriken übertreffen. Dies stellt die Glaubwürdigkeit und Praxistauglichkeit der Bewertungsergebnisse sicher.
Umsetzbare Erkenntnisse: Die von RAGChecker bereitgestellten Diagnosemetriken bieten klare Richtungsanweisungen zur Verbesserung Ihres RAG-Systems. Diese Erkenntnisse können Forschern und Praktikern dabei helfen, effektivere und zuverlässigere KI-Anwendungen zu entwickeln.
Die Kernindikatoren von RAGChecker

Das Indikatorensystem von RAGChecker kann anhand der folgenden Abbildung intuitiv verstanden werden:

これらの指標は 3 つの主要なカテゴリに分類されます:

1. 全体的な指標:

精度: モデルの回答における正しいステートメントの割合
標準回答におけるステートメントの割合模範解答に含まれています
F1 スコア (F1 スコア): 適合率と再現率の調和平均であり、バランスの取れたパフォーマンス測定値を提供します

2. 取得モジュールのメトリクス:

: 取得されたすべてのブロックのうち、少なくとも 1 つの標準回答ステートメントを含むブロックの割合
Claim Recall: 取得されたブロックによってカバーされる標準回答ステートメントの割合

3. 生成モジュールのメトリクス:

コンテキスト利用率: 生成モジュールが取得ブロックから取得した関連情報をどの程度効果的に利用して、正しいステートメントを生成しているかを評価します。このメトリクスは、システムが取得した情報をどの程度効率的に利用しているかを反映します。
ノイズ感度: 生成モジュールが応答に検索ブロックからの誤った情報を含める傾向の尺度。このメトリクスは、無関係な情報または誤った情報に対してシステムがどの程度敏感であるかを特定するのに役立ちます。
Hallucination: モデルが検索ブロックにも標準回答にも含まれていない情報を生成する頻度を測定します。これは、モデルが何もないところから情報を「作り上げる」状況を捉えているようなもので、モデルの信頼性を評価するための重要な指標となります。
自己知識: モデルが検索ブロックから情報を取得せずに質問に正しく回答する頻度を評価します。これは、必要に応じてモデル自体の組み込み知識を活用できるモデルの機能を反映しています。
忠実度: 生成モジュールの応答が取得ブロックによって提供される情報とどの程度一貫しているかを測定します。このメトリックは、システムが特定の情報に準拠しているかどうかを反映します。

これらの指標は RAG システムの「身体検査レポート」のようなもので、開発者がシステムの健全性を包括的に理解し、改善の余地がある領域を特定するのに役立ちます。

RAGChecker の使用を開始します

RAGChecker を試してみたい開発者にとって、開始プロセスは非常に簡単です。すぐに始めるための手順は次のとおりです:

1. 環境セットアップ: まず、RAGChecker とその依存関係をインストールします:

pip install ragcheckerpython -m spacy download en_core_web_sm

Nach dem Login kopieren

2. RAG システムの出力を準備します。特定の JSON 形式。クエリ、標準回答、模範回答、検索のコンテキストが含まれます。データ形式は次のようになります:

{ "results": [ { "query_id": "< 查询 ID>", "query": "< 输入查询 >", "gt_answer": "< 标准答案 >", "response": "<RAG 系统生成的回答 >", "retrieved_context": [ { "doc_id": "< 文档 ID>", "text": "< 检索块的内容 >" }, ... ] }, ... ]   }

Nach dem Login kopieren

3. 評価を実行します:

コマンドラインを使用します:

ragchecker-cli \--input_path=examples/checking_inputs.json \--output_path=examples/checking_outputs.json

Nach dem Login kopieren

または Python コードを使用します:

from ragchecker import RAGResults, RAGCheckerfrom ragchecker.metrics import all_metrics# 从 JSON 初始化 RAGResultswith open ("examples/checking_inputs.json") as fp:rag_results = RAGResults.from_json (fp.read ())# 设置评估器evaluator = RAGChecker ()# 评估结果evaluator.evaluate (rag_results, all_metrics)print (rag_results)

Nach dem Login kopieren

4. 分析結果: RAGChecker は、RAG システムのあらゆる側面のパフォーマンスを理解するのに役立つ評価指標を表示するファイルを json 形式で出力します。

出力結果の形式は以下のとおりです:

Unterziehen Sie das RAG-System einer umfassenden „physischen Untersuchung mit dem Open-Source-Diagnosetool RAGChecker von Amazon

これらの指標を分析することで、開発者は RAG システムのさまざまな側面を的を絞った方法で最適化できます。例:

クレーム再現率が低い場合は、取得戦略を改善する必要があることを示している可能性があります。これは、システムが十分な関連情報を取得していない可能性があり、取得アルゴリズムを最適化するか、知識ベースを拡張する必要があることを意味します。
高いノイズ感度は、取得されたコンテキストから関連情報と無関係または誤った詳細をより適切に区別するために、生成モジュールの推論機能を向上させる必要があることを示します。これには、モデルのトレーニング方法を改善したり、コンテキストを理解する能力を強化したりする必要がある場合があります。
幻覚スコアが高い場合は、生成モジュールと取得したコンテキストをより適切に統合する必要があることを示している可能性があります。これには、モデルが取得した情報を活用する方法を改善したり、事実に対する忠実度を高めたりすることが含まれる場合があります。
コンテキストの利用と自己知識の間のバランスは、検索情報の利用とモデル固有の知識の間のトレードオフを最適化するのに役立ちます。これには、モデルが検索情報にどの程度依存するかを調整したり、複数の情報ソースを活用する機能を改善したりすることが含まれる場合があります。

このように、RAGChecker は詳細なパフォーマンス評価を提供するだけでなく、RAG システムの特定の最適化方向についての明確なガイダンスも提供します。

LlamaIndex での RAGChecker の使用

RAGChecker は LlamaIndex と統合され、LlamaIndex で構築された RAG アプリケーションに強力な評価ツールを提供します。 LlamaIndex プロジェクトで RAGChecker を使用する方法を知りたい場合は、LlamaIndex ドキュメントの RAGChecker の統合に関するセクションを参照してください。

結論

RAGChecker は、RAG システムの評価と最適化のための新しいツールを提供します。これは開発者に RAG システムを深く理解し、正確に最適化するのに役立つ「顕微鏡」を提供します。あなたが RAG テクノロジーを研究している学者であっても、よりスマートな AI アプリケーションの開発に取り組んでいるエンジニアであっても、RAGChecker はあなたの不可欠な右腕アシスタントとなるでしょう。読者は https://github.com/amazon-science/RAGChecker にアクセスして詳細情報を確認したり、プロジェクトの開発に参加したりできます。

Das obige ist der detaillierte Inhalt vonUnterziehen Sie das RAG-System einer umfassenden „physischen Untersuchung' mit dem Open-Source-Diagnosetool RAGChecker von Amazon. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!