Jina Embeddings V2：处理长文件很容易-人工智能-PHP中文网

首页

科技周边

人工智能

Jina Embeddings V2：处理长文件很容易

William Shakespeare

Mar 09, 2025 am 10:01 AM

jina嵌入式V2：革命性的长期文本嵌入

当前的文本嵌入模型（例如BERT）受到512 token处理限制的限制，从而阻碍了他们的冗长文档的性能。这种限制通常会导致背景损失和不准确的理解。 Jina Embeddings V2通过支持8192代币，保留关键环境并显着提高所处理信息在广泛文本中的准确性和相关性，从而超过了这一限制。这代表了处理复杂文本数据的重大进步。

关键学习点

>学习Jina嵌入式V2如何通过其8192 token的容量和高级体系结构来克服这些限制。

探索Jina Embeddings V2的创新特征，包括Alibi，Glu及其三阶段训练方法。

在法律研究，内容管理和生成AI中发现现实世界的应用

>在使用拥抱的面部图书馆将Jina Embeddings V2整合到项目中的实用经验。

>本文是数据科学博客马拉松的一部分。

> 目录的

表

嵌入长文档的挑战

建筑创新和培训方法

性能评估

现实世界应用
模型比较
使用Jina Embeddings v2与拥抱的脸
结论
常见问题
嵌入长文档的挑战
>

增加的计算需求

更高的内存消耗

降低了需要全面了解文本的任务的性能

8192

，无需过度细分并维护文档的语义完整性。

建筑创新和培训方法

Jina Embeddings V2通过最先进的创新增强了Bert的功能：

>带有线性偏见（alibi）的注意：
封闭式线性单元（GLU）： glu，以提高变压器效率而闻名，用于进料层中。 Geglu和Reglu等变体用于根据模型大小来优化性能。 >

Jina Embeddings V2采用三阶段训练过程：

>预读：

> 与文本对进行微调：对语义上相似的文本对的嵌入。
通过纳入挑战性的分心示例来改善排名和检索。
混合精度训练和激活检查点等技术可确保对较大批量尺寸的可伸缩性，对于对比度学习至关重要。

，使其计算多样化。该模型使用编码器变体，其中所有令牌彼此参与，与语言建模中使用的因果变体不同。

绩效评估 Jina Embeddings v2: Handling Long Documents Made Easy

Jina Embeddings V2在各种基准测试中实现最新性能，包括大量的文本嵌入基准（MTEB）和新的长期数据集。关键结果包括：

分类：

亚马逊极性和有毒对话分类等任务中的最高准确性。

Jina Embeddings v2: Handling Long Documents Made Easy

群集：

在分组相关文本（PatentClustering和WikicitiesClustering）中优于竞争者。

>在诸如nordationqa之类的任务中擅长，其中完整的文档上下文至关重要。>
即使使用8192 token序列也保持MLM精度。
此图表比较跨检索和聚类任务的嵌入模型性能。
>现实世界应用程序
- >法律和学术研究：是搜索和分析法律文件和学术论文的理想选择。
- 有效的标记，聚类和大型文档存储库的检索。
- >增强了AI生成的摘要和及时的基于及时的模型。 >电子商务：
- >
Jina Embeddings V2不仅在处理长序列方面，而且在与OpenAI的Text-ex-embedding-dada-002等专有模型竞争中脱颖而出。它的开源性质可确保可访问性。
使用jina嵌入式v2与拥抱的脸

步骤1：安装

>步骤2：使用jina嵌入与变压器
```
!pip install transformers
!pip install -U sentence-transformers
```
登录后复制
输出：
```
import torch
from transformers import AutoModel
from numpy.linalg import norm

cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b))

model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True)

embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?'])

print(cos_sim(embeddings, embeddings))
```
登录后复制
处理长序列：

>步骤3：使用jina嵌入与句子转换器
```
embeddings = model.encode(['Very long ... document'], max_length=2048)
```
登录后复制
（提供了使用
库的类似代码，以及设置的说明。）>

sentence_transformers max_seq_length
结论
Jina Embeddings V2是NLP的重大进步，有效地解决了处理长文件的局限性。它的功能改善了现有的工作流，并解锁了使用长形式文本的新可能性。

键外观（原始结论中总结了关键点）>

>常见问题
（汇总了常见问题的答案）

注意：图像以其原始格式和位置保留。

以上是Jina Embeddings V2：处理长文件很容易的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7930

Java教程

1652

CakePHP 教程

1411

Laravel 教程

1303

PHP教程

1250

显示更多

Related knowledge

开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2：多模式和移动AI的飞跃 Meta最近公布了Llama 3.2，这是AI的重大进步，具有强大的视觉功能和针对移动设备优化的轻量级文本模型。以成功为基础

10个生成AI编码扩展，在VS代码中，您必须探索 Apr 13, 2025 am 01:14 AM

嘿，编码忍者！您当天计划哪些与编码有关的任务？在您进一步研究此博客之前，我希望您考虑所有与编码相关的困境，这是将其列出的。完毕？ - 让＆＃8217

AV字节：Meta＆＃039; llama 3.2，Google的双子座1.5等 Apr 11, 2025 pm 12:01 PM

本周的AI景观：进步，道德考虑和监管辩论的旋风。 OpenAI，Google，Meta和Microsoft等主要参与者已经释放了一系列更新，从开创性的新车型到LE的关键转变

向员工出售AI策略：Shopify首席执行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。这不是短暂的趋势。这是整合到P中的新操作范式

视觉语言模型（VLMS）的综合指南 Apr 12, 2025 am 11:58 AM

介绍想象一下，穿过美术馆，周围是生动的绘画和雕塑。现在，如果您可以向每一部分提出一个问题并获得有意义的答案，该怎么办？您可能会问：“您在讲什么故事？

GPT-4O vs OpenAI O1：新的Openai模型值得炒作吗？ Apr 13, 2025 am 10:18 AM

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力，使其可以通过问题进行思考

阅读AI索引2025：AI是您的朋友，敌人还是副驾驶？ Apr 11, 2025 pm 12:13 PM

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它：认知（了解正在发生的事情）、欣赏（看到好处）、接纳（面对挑战）和责任（弄清我们的责任）。认知：人工智能无处不在，并且发展迅速我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进，在数学和复杂思维测试中取得了优异的成绩，而就在一年前，它们还在这些测试中惨败。想象一下，人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年

如何在SQL中添加列？ - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表语句：动态地将列添加到数据库在数据管理中，SQL的适应性至关重要。需要即时调整数据库结构吗？ Alter表语句是您的解决方案。本指南的详细信息添加了Colu

See all articles

Jina Embeddings V2：处理长文件很容易

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题