>最近几个月,检索型发电一代(RAG)在普及中广受欢迎,作为一种将大型语言模型与外部知识相结合的强大技术。但是,选择合适的抹布管道(索引,嵌入模型,块方法,问答方法)可能会令人生畏。使用无数可能的配置,您如何确定哪种管道最适合您的数据和用例?那就是Autorag进来的地方。
学习目标
- 了解自动架的基本原理及其如何自动化抹布管道优化。
- >了解Autorag如何系统地评估数据的不同抹布配置。>
>探索Autorag的关键功能,包括数据创建,管道实验和部署。-
逐步进行设置和使用Autorag。
- >发现如何使用Autorag的自动化工作流程部署表现最佳的RAG管道。
-
>本文是> > data Science Blogathon的一部分。
目录的目录
>什么是Autorag? autorag
结论
- 常见问题
-
什么是autorag?-
autorag是一种开源,自动化的机器学习(AUTOML)工具,专注于RAG。它可以系统地测试并评估自己数据集上不同的RAG管道组件,以确定哪种配置最适合您的用例。通过自动运行实验(以及处理数据创建,块,QA数据集生成和管道部署之类的任务),Autorag可以节省您的时间和麻烦。- >
为什么Autorag?
-
>许多抹布管道和模块:有许多可能的方法来配置抹布系统 - 不同的文本大小,嵌入式,提示模板,检索器模块等。
>
- 耗时的实验:手动测试自己数据上的每个管道都很麻烦。大多数人从不这样做,这意味着他们可能会错过更好的性能或更快的推断。
为您的数据量身定制的
> - :通用基准可能无法反映管线在唯一的语料库上的性能。 Autorag通过让您根据自己的数据得出的真实或合成QA对来消除猜测。
键功能
>
数据创建:autorag允许您从自己的原始文档,PDF文件或其他文本源创建抹布评估数据。只需上传您的文件,将它们解析到RAW.PARQUET,将它们切成corpus.parquet,然后自动生成QA数据集。- >
优化
:Autorag自动运行实验(超参数调谐,管道选择等),以发现数据最佳的抹布管道。它测量了与您的QA数据集的准确性,相关性和事实正确性之类的指标,以确定表现最高的设置。-
>部署
:确定了最佳管道后,Autorag便直接使部署。单个YAML配置可以将最佳管道部署在烧瓶服务器或您选择的其他环境中。-
>用Gradio在拥抱面孔的空间上构建
> Autorag的用户友好界面是使用Gradio构建的,很容易尝试拥抱面部空间。交互式GUI意味着您不需要深厚的技术专业知识即可运行这些实验 - 只需按照上传数据,选择参数并生成结果的步骤。>
>自动型如何优化抹布管道
>手持QA数据集,Autorag可以自动:>
测试多个猎犬类型(例如,基于向量的基于矢量,关键字,混合)。
>
- >探索不同的块尺寸和重叠策略。
- >评估嵌入模型(例如,OpenAi嵌入,拥抱的脸型变压器)。
- >调音提示模板查看哪个产生最准确或相关的答案。
>使用精确匹配,F1分数或自定义域特异性指标等指标来衡量QA数据集的性能。
-
实验完成后,您将拥有:
- >>排名的管道配置列表按性能指标排序。
-
>清晰的见解模块或参数在其中为您的数据带来最佳结果。
- 自动生成的最佳管道您可以直接从Autorag部署。
部署最佳的抹布管道
>准备上线时,Autorag精确部署:>
单元配置:生成一个描述您的管道组件的YAML文件(reteriever,嵌入式,生成器模型等)。
在烧瓶服务器上运行- > :在本地或基于云的烧瓶应用程序上托管您的最佳管道,以便于与现有软件堆栈进行简化集成。>
gradio/hugging face空间- :或者,在 > no-fuss,互动demo 的gradio接口上部署在拥抱面积上。
- >
为什么使用Autorag?
>让我们现在看看为什么您应该尝试Autorag:
通过让Autorag处理评估多个抹布配置的繁重提升,请节省时间。
通过针对您的唯一数据和需求进行优化的管道,提高性能。
- >无缝集成
在拥抱面孔的gradio上进行快速演示或生产部署。
- >开源和社区驱动,因此您可以自定义或扩展以符合您的确切要求。>
- autorag已经在github上流行了 - 加入社区,看看该工具如何彻底改变您的抹布工作流程。
入门
-
>>在GitHub上查看Autorag:
探索源代码,文档和社区示例。
尝试在拥抱面积空间时尝试Autorag演示:一个基于gradio的演示可以供您上传文件,创建QA数据并尝试使用不同的管道配置进行实验。>
以上是Autorag:使用开源Automl优化抹布管道的详细内容。更多信息请关注PHP中文网其他相关文章!