>最近幾個月,檢索型發電一代(RAG)在普及中廣受歡迎,作為一種將大型語言模型與外部知識相結合的強大技術。但是,選擇合適的抹布管道(索引,嵌入模型,塊方法,問答方法)可能會令人生畏。使用無數可能的配置,您如何確定哪種管道最適合您的數據和用例?那就是Autorag進來的地方。
學習目標
- 了解自動架的基本原理及其如何自動化抹布管道優化。
- >了解Autorag如何系統地評估數據的不同抹布配置。 >
>探索Autorag的關鍵功能,包括數據創建,管道實驗和部署。 -
逐步進行設置和使用Autorag。
- >發現如何使用Autorag的自動化工作流程部署表現最佳的RAG管道。
-
>本文是> > data Science Blogathon的一部分。
目錄的目錄
>什麼是Autorag? autorag
結論
- 常見問題
-
什麼是autorag? -
autorag是一種開源,自動化的機器學習(AUTOML)工具,專注於RAG。它可以系統地測試並評估自己數據集上不同的RAG管道組件,以確定哪種配置最適合您的用例。通過自動運行實驗(以及處理數據創建,塊,QA數據集生成和管道部署之類的任務),Autorag可以節省您的時間和麻煩。 - >
為什麼Autorag?
-
>許多抹布管道和模塊:有許多可能的方法來配置抹布系統 - 不同的文本大小,嵌入式,提示模板,檢索器模塊等。
>
- 耗時的實驗:手動測試自己數據上的每個管道都很麻煩。大多數人從不這樣做,這意味著他們可能會錯過更好的性能或更快的推斷。
為您的數據量身定制的
> - :通用基準可能無法反映管線在唯一的語料庫上的性能。 Autorag通過讓您根據自己的數據得出的真實或合成QA對來消除猜測。
鍵功能
>
數據創建:autorag允許您從自己的原始文檔,PDF文件或其他文本源創建抹布評估數據。只需上傳您的文件,將它們解析到RAW.PARQUET,將它們切成corpus.parquet,然後自動生成QA數據集。 - >
優化
:Autorag自動運行實驗(超參數調諧,管道選擇等),以發現數據最佳的抹布管道。它測量了與您的QA數據集的準確性,相關性和事實正確性之類的指標,以確定表現最高的設置。 -
>部署
:確定了最佳管道後,Autorag便直接使部署。單個YAML配置可以將最佳管道部署在燒瓶服務器或您選擇的其他環境中。 -
>用Gradio在擁抱面孔的空間上構建
> Autorag的用戶友好界面是使用Gradio構建的,很容易嘗試擁抱面部空間。交互式GUI意味著您不需要深厚的技術專業知識即可運行這些實驗 - 只需按照上傳數據,選擇參數並生成結果的步驟。 >
>自動型如何優化抹布管道
>手持QA數據集,Autorag可以自動:>
測試多個獵犬類型(例如,基於向量的基於矢量,關鍵字,混合)。
>
- >探索不同的塊尺寸和重疊策略。
- >評估嵌入模型(例如,OpenAi嵌入,擁抱的臉型變壓器)。
- >調音提示模板查看哪個產生最準確或相關的答案。
>使用精確匹配,F1分數或自定義域特異性指標等指標來衡量QA數據集的性能。
-
實驗完成後,您將擁有:
- >>排名的管道配置列表按性能指標排序。
-
>清晰的見解模塊或參數在其中為您的數據帶來最佳結果。
- 自動生成的最佳管道您可以直接從Autorag部署。
部署最佳的抹布管道
>準備上線時,Autorag精確部署:>
單元配置:生成一個描述您的管道組件的YAML文件(reteriever,嵌入式,生成器模型等)。
在燒瓶服務器上運行- > :在本地或基於雲的燒瓶應用程序上託管您的最佳管道,以便於與現有軟件堆棧進行簡化集成。 >
gradio/hugging face空間- :或者,在 > no-fuss,互動demo 的gradio接口上部署在擁抱面積上。
- >
為什麼使用Autorag?
>讓我們現在看看為什麼您應該嘗試Autorag:
通過讓Autorag處理評估多個抹布配置的繁重提升,請節省時間。
通過針對您的唯一數據和需求進行優化的管道,提高性能。
- >無縫集成
在擁抱面孔的gradio上進行快速演示或生產部署。
- >開源和社區驅動,因此您可以自定義或擴展以符合您的確切要求。 >
- autorag已經在github上流行了 - 加入社區,看看該工具如何徹底改變您的抹布工作流程。
入門
-
>>在GitHub上查看Autorag:
探索源代碼,文檔和社區示例。
嘗試在擁抱面積空間時嘗試Autorag演示:一個基於gradio的演示可以供您上傳文件,創建QA數據並嘗試使用不同的管道配置進行實驗。 >
以上是Autorag:使用開源Automl優化抹布管道的詳細內容。更多資訊請關注PHP中文網其他相關文章!