目录
学习目标
解决剪贴模型限制:
>步骤2:设置OpenAI API键并导入库
步骤4:从PDF
步骤5:保存提取的数据
步骤6:块文本数据
>步骤7:加载名词嵌入模型
步骤8:生成嵌入
>步骤9:将文本嵌入在qdrant
>步骤10:将图像嵌入在qdrant
>步骤11:创建一个多模式猎犬
步骤12:用兰链构建多模式抹布
查询模型
首页 科技周边 人工智能 用假嵌入增强破布系统

用假嵌入增强破布系统

Mar 03, 2025 pm 06:08 PM

>多模式检索仪(RAG)系统正在通过整合多种数据类型(TEXT,图像,音频和视频)来彻底改变AI,从而获得更多细微差别和上下文感知的响应。 这超过了传统的抹布,这仅关注文本。 一个关键的进步是通讯嵌入,为视觉和文本数据创建了一个统一的空间,从而实现了无缝的跨模式交互。 高级模型会生成高质量的嵌入,改善信息检索并弥合不同内容形式之间的差距,最终丰富用户体验。

学习目标

  • 掌握了多模式抹布的基本原理及其优势比传统抹布。
  • 了解嵌入统一文本和图像嵌入空间中的作用。
  • 比较剪辑模型的somic视觉嵌入,分析性能基准。
  • >使用somic Vision和Text Embeddings在Python中实现多模式的RAG系统。
  • 学习从PDF中提取和处理多模式检索的文本和视觉数据。

*本文是*** 数据科学blogathon的一部分。

目录的

>

    什么是多模式的抹布?
  • nive vision嵌入
  • >杂志嵌入的性能基准
  • python实施多模式抹布,带有通知嵌入
    • >步骤1:安装必要的库
    • >步骤2:设置OpenAI API键并导入库
    • >
    • 步骤3:从PDF
    • 中提取图像
    • 步骤4:从PDF
    • 提取文本
    • 步骤5:保存提取的文本和图像
    • 步骤6:块文本数据
    • >步骤7:加载名词嵌入模型
    • 步骤8:生成嵌入
    • >步骤9:将文本嵌入在qdrant
    • 中存储
    • >步骤10:将图像嵌入在qdrant
    • >步骤11:创建一个多模式猎犬
    • 步骤12:用兰链构建多模式抹布
  • 查询模型
  • 结论
  • 常见问题
什么是多模式的抹布?

>多模式抹布代表了一个显着的AI进步,这是通过合并多种数据类型来基于传统抹布的。与主要处理文本的传统系统不同,多模式抹布处理并同时集成了多个数据表格。这导致了更全面的理解和背景感知的反应。

键多模式抹布组件:

  • >数据摄入:来自各种来源的数据是使用专用处理器摄入的,确保验证,清洁和归一化。
  • >
  • >向量表示:>使用神经网络(例如,图像的剪辑,文本的剪辑,bert for Text)来处理统一的矢量嵌入,保留语义关系。
  • > 使用索引技术(HNSW,FAISS),将> >向量数据库存储:
  • 嵌入嵌入在优化的矢量数据库(例如qdrant)中,以有效检索。 查询处理:
  • >传入查询被分析,转换为与存储数据相同的向量空间,并用于识别相关模态并生成用于搜索的嵌入。
  • nive vision嵌入

解决剪贴模型限制:

>

>剪辑以零拍功能出色时,其文本编码在图像检索之外的任务中表现不佳(如MTEB基准测试所示)。 Nimic Embed Vision通过将其视觉编码器与嵌入式文本潜在空间保持一致来解决这一点。

媒体嵌入视觉与提名嵌入文本一起训练,冻结文本编码器并在图像文本对上训练视觉编码器。这样可以确保最佳的结果和与名词嵌入文本嵌入的向后兼容性。

>

>杂志嵌入的性能基准Enhancing RAG Systems with Nomic Embeddings

剪辑模型虽然在零拍功能方面令人印象深刻,但在语义相似性(MTEB基准)等单峰任务中显示出弱点。通用嵌入视觉通过将其视觉编码器与名词嵌入文本潜在空间保持一致,从而克服了这一点,从而在图像,文本和多模式任务(Imagenet Zero-Shot,MTEB,MTEB,DataComp Benchmarks)中产生了强大的性能。

python实施多模式抹布,带有通知嵌入

本教程构建了一个多模式抹布系统,从包含文本和图像的PDF检索信息(使用带有T4 GPU的Google Colab)。

>步骤1:安装库Enhancing RAG Systems with Nomic Embeddings

安装必要的Python库:OpenAI,QDRANT,Transformers,Torch,Pymupdf等

>步骤2:设置OpenAI API键并导入库

>

>设置OpenAI API密钥并导入所需的库(Pymupdf,PIL,Langchain,OpenAI等)。 (为简短而省略了代码。)

步骤3:从PDF

中提取图像

>使用pymupdf从PDF提取图像,然后将其保存到目录中。 (为简短而省略了代码。)

步骤4:从PDF

提取文本

>使用pymupdf从每个PDF页面中提取文本。 (为简短而省略了代码。)

步骤5:保存提取的数据

>保存提取的图像和文本。 (为简短而省略了代码。)

步骤6:块文本数据

>使用Langchain'sRecursiveCharacterTextSplitter将提取的文本分为较小的块。 (为简短而省略了代码。)

>步骤7:加载名词嵌入模型

>使用拥抱面孔的变形金刚加载Nomic的文本和视觉嵌入模型。 (为简短而省略了代码。)

步骤8:生成嵌入

生成文本和图像嵌入。 (为简短而省略了代码。)

>步骤9:将文本嵌入在qdrant

中存储

>将文本嵌入在QDrant集合中。 (为简短而省略了代码。)

>步骤10:将图像嵌入在qdrant

>将图像嵌入在单独的QDrant集合中。 (为简短而省略了代码。)

>步骤11:创建一个多模式猎犬

>创建一个函数,以根据查询检索相关的文本和图像嵌入。 (为简短而省略了代码。)

步骤12:用兰链构建多模式抹布

>使用Langchain处理被检索的数据并使用语言模型(例如GPT-4)生成响应。 (为简短而省略了代码。)

查询模型

>示例查询演示了系统从PDF中从文本和图像中检索信息的能力。 (示例查询和输出省略了,但在原始中存在。

结论

钥匙要点

多模式抹布整合了多种数据类型,以更全面地理解。 nive vision嵌入统一视觉和文本数据以改进信息检索。

该系统使用专门的处理,向量表示和存储以进行有效检索。
    nimic嵌入视力克服了剪辑在单峰任务中的局限性。
  • 常见问题
  • (为简洁而省略了常见问题,但以原始形式存在。)
  • >

    注意:为简短而省略了代码片段,但核心功能和步骤仍然准确地描述了。 原始输入包含广泛的代码;包括所有这些都会使这一响应过长。 请参阅原始输入以进行完整的代码实现。

    >

以上是用假嵌入增强破布系统的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1653
14
CakePHP 教程
1413
52
Laravel 教程
1304
25
PHP教程
1251
29
C# 教程
1224
24
开始使用Meta Llama 3.2 -Analytics Vidhya 开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

10个生成AI编码扩展,在VS代码中,您必须探索 10个生成AI编码扩展,在VS代码中,您必须探索 Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

AV字节:Meta' llama 3.2,Google的双子座1.5等 AV字节:Meta' llama 3.2,Google的双子座1.5等 Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

向员工出售AI策略:Shopify首席执行官的宣言 向员工出售AI策略:Shopify首席执行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? Apr 13, 2025 am 10:18 AM

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

视觉语言模型(VLMS)的综合指南 视觉语言模型(VLMS)的综合指南 Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

阅读AI索引2025:AI是您的朋友,敌人还是副驾驶? 阅读AI索引2025:AI是您的朋友,敌人还是副驾驶? Apr 11, 2025 pm 12:13 PM

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它:认知(了解正在发生的事情)、欣赏(看到好处)、接纳(面对挑战)和责任(弄清我们的责任)。 认知:人工智能无处不在,并且发展迅速 我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进,在数学和复杂思维测试中取得了优异的成绩,而就在一年前,它们还在这些测试中惨败。想象一下,人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年

See all articles