首页 科技周边 人工智能 Jina Embeddings V2:处理长文件很容易

Jina Embeddings V2:处理长文件很容易

Mar 09, 2025 am 10:01 AM

jina嵌入式V2:革命性的长期文本嵌入

当前的文本嵌入模型(例如BERT)受到512 token处理限制的限制,从而阻碍了他们的冗长文档的性能。 这种限制通常会导致背景损失和不准确的理解。 Jina Embeddings V2通过支持8192代币,保留关键环境并显着提高所处理信息在广泛文本中的准确性和相关性,从而超过了这一限制。这代表了处理复杂文本数据的重大进步。

关键学习点

    在处理长文档时,了解传统模型等传统模型的局限性。
  • >学习Jina嵌入式V2如何通过其8192 token的容量和高级体系结构来克服这些限制。
  • 探索Jina Embeddings V2的创新特征,包括Alibi,Glu及其三阶段训练方法。
  • 在法律研究,内容管理和生成AI中发现现实世界的应用
  • >在使用拥抱的面部图书馆将Jina Embeddings V2整合到项目中的实用经验。
  • >本文是数据科学博客马拉松的一部分。
> 目录的

嵌入长文档的挑战

建筑创新和培训方法

性能评估
  • 现实世界应用
  • 模型比较
  • 使用Jina Embeddings v2与拥抱的脸
  • 结论
  • 常见问题
  • 嵌入长文档的挑战
  • >
  • 处理长文件在自然语言处理(NLP)中提出了重大挑战。传统方法在细分市场中处理文本,导致上下文截断和碎片嵌入,这些嵌入方式歪曲了原始文档。这将导致:

增加的计算需求

更高的内存消耗

降低了需要全面了解文本的任务的性能
    Jina Embeddings V2通过将令牌限制提高到 8192
  • ,无需过度细分并维护文档的语义完整性。
  • 建筑创新和培训方法
  • Jina Embeddings V2通过最先进的创新增强了Bert的功能:
    • >带有线性偏见(alibi)的注意:
    • 封闭式线性单元(GLU): glu,以提高变压器效率而闻名,用于进料层中。 Geglu和Reglu等变体用于根据模型大小来优化性能。 >
    • 优化培训: Jina Embeddings V2采用三阶段训练过程:
    • >预读:
        >使用蒙版语言建模(MLM)在巨大的清洁爬行语料库(C4)上进行训练。
      • > 与文本对进行微调:对语义上相似的文本对的嵌入。
      • 硬性负面微调:
      • 通过纳入挑战性的分心示例来改善排名和检索。
      • >记忆效率训练:
      • 混合精度训练和激活检查点等技术可确保对较大批量尺寸的可伸缩性,对于对比度学习至关重要。
      • 在软玛克斯操作之前,m
    • ,使其计算多样化。 该模型使用编码器变体,其中所有令牌彼此参与,与语言建模中使用的因果变体不同。

    绩效评估Jina Embeddings v2: Handling Long Documents Made Easy

    Jina Embeddings V2在各种基准测试中实现最新性能,包括大量的文本嵌入基准(MTEB)和新的长期数据集。 关键结果包括:

    分类:

    亚马逊极性和有毒对话分类等任务中的最高准确性。

    Jina Embeddings v2: Handling Long Documents Made Easy

    群集:

    在分组相关文本(PatentClustering和WikicitiesClustering)中优于竞争者。

      检索:
    • >在诸如nordationqa之类的任务中擅长,其中完整的文档上下文至关重要。>
    • 长文档处理:
    • 即使使用8192 token序列也保持MLM精度。
    • 此图表比较跨检索和聚类任务的嵌入模型性能。

      >现实世界应用程序

      • >法律和学术研究:是搜索和分析法律文件和学术论文的理想选择。
      • 内容管理系统:
      • 有效的标记,聚类和大型文档存储库的检索。
      • >生成ai:
      • >增强了AI生成的摘要和及时的基于及时的模型。 >电子商务:
      • >改进产品搜索和推荐系统。
      • >
      • 模型比较

      Jina Embeddings V2不仅在处理长序列方面,而且在与OpenAI的Text-ex-embedding-dada-002等专有模型竞争中脱颖而出。 它的开源性质可确保可访问性。

      使用jina嵌入式v2与拥抱的脸

      步骤1:安装

      >步骤2:使用jina嵌入与变压器

      !pip install transformers
      !pip install -U sentence-transformers
      登录后复制

      输出:

      import torch
      from transformers import AutoModel
      from numpy.linalg import norm
      
      cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b))
      
      model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True)
      
      embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?'])
      
      print(cos_sim(embeddings, embeddings))
      登录后复制

      处理长序列: Jina Embeddings v2: Handling Long Documents Made Easy

      >步骤3:使用jina嵌入与句子转换器

      embeddings = model.encode(['Very long ... document'], max_length=2048)
      登录后复制
      (提供了使用

      库的类似代码,以及设置的说明。)>

      sentence_transformers max_seq_length

      结论

      Jina Embeddings v2: Handling Long Documents Made Easy Jina Embeddings V2是NLP的重大进步,有效地解决了处理长文件的局限性。 它的功能改善了现有的工作流,并解锁了使用长形式文本的新可能性。

      键外观(原始结论中总结了关键点)>

      >常见问题

      (汇总了常见问题的答案)

      注意:图像以其原始格式和位置保留。

以上是Jina Embeddings V2:处理长文件很容易的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

开始使用Meta Llama 3.2 -Analytics Vidhya 开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

10个生成AI编码扩展,在VS代码中,您必须探索 10个生成AI编码扩展,在VS代码中,您必须探索 Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

AV字节:Meta' llama 3.2,Google的双子座1.5等 AV字节:Meta' llama 3.2,Google的双子座1.5等 Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

向员工出售AI策略:Shopify首席执行官的宣言 向员工出售AI策略:Shopify首席执行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

视觉语言模型(VLMS)的综合指南 视觉语言模型(VLMS)的综合指南 Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? Apr 13, 2025 am 10:18 AM

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

阅读AI索引2025:AI是您的朋友,敌人还是副驾驶? 阅读AI索引2025:AI是您的朋友,敌人还是副驾驶? Apr 11, 2025 pm 12:13 PM

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它:认知(了解正在发生的事情)、欣赏(看到好处)、接纳(面对挑战)和责任(弄清我们的责任)。 认知:人工智能无处不在,并且发展迅速 我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进,在数学和复杂思维测试中取得了优异的成绩,而就在一年前,它们还在这些测试中惨败。想象一下,人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

See all articles