目录
关键学习目标
首页 科技周边 人工智能 使用顶点AI探索嵌入模型

使用顶点AI探索嵌入模型

Mar 11, 2025 am 09:46 AM

向量嵌入对于许多先进的AI应用程序(包括语义搜索和异常检测)至关重要。本文提供了对嵌入的基本理解,重点是句子嵌入和矢量表示。我们将探索实用技术,例如均值合并和余弦相似性,使用BERT深入研究双重编码器的体系结构,并使用顶点AI在异常检测中检查其应用程序,以进行欺诈检测和内容调节等任务。

关键学习目标

  • 掌握向量嵌入在表示连续矢量空间内表示单词,句子和其他数据类型中的作用。
  • 了解令牌化以及象征性嵌入如何有助于句子级嵌入。
  • 学习使用顶点AI部署嵌入模型的关键概念和最佳实践,以应对现实世界中的AI挑战。
  • 通过整合增强分析和决策的嵌入模型来发现如何使用顶点AI优化和扩展应用程序。
  • 获得实践经验培训双重编码器模型,定义其架构和培训过程。
  • 使用隔离林之类的方法实施异常检测,以基于嵌入相似性来识别异常值。

*本文是***数据科学博客马拉松的一部分。

目录

  • 了解顶点嵌入
  • 解释了句子嵌入
  • 句子嵌入中的余弦相似性
  • 培训双重编码器模型
  • 提问的双重编码器
  • 双重编码器培训过程
  • 利用顶点AI的嵌入
  • 堆栈溢出的数据集创建
  • 生成文本嵌入
  • 批处理嵌入生成
  • 异常识别
  • 隔离森林以进行离群值检测
  • 结论
  • 常见问题

了解顶点嵌入

向量嵌入代表定义空间内的单词或句子。这些矢量的接近表示相似性。近距向量表示更大的语义相似性。虽然最初主要用于NLP,但它们的应用程序扩展到图像,视频,音频和图形。剪辑是一种突出的多模式学习模型,同时生成图像和文本嵌入。

向量嵌入的关键应用包括:

  • 在输入令牌转换后,LLMS将它们用作令牌嵌入。
  • 语义搜索采用它们来找到查询最相关的答案。
  • 在检索增强发电(RAG)中,句子嵌入有助于检索相关信息块。
  • 建议系统使用它们来表示产品并识别相关项目。

让我们检查一下抹布管道中的句子嵌入的重要性。

使用顶点AI探索嵌入模型

上图中的检索引擎标识了与用户查询有关的数据库信息。基于变压器的跨编码器可以将查询与所有信息进行比较,从而对相关性进行分类。但是,这很慢。矢量数据库通过存储嵌入并使用相似性搜索提供更快的替代方法,尽管精度可能略低。

了解句子嵌入

句子嵌入是通过将数学操作应用于令牌嵌入而创建的,这通常是由Bert或GPT等预训练的模型生成的。以下代码证明了Bert生成的令牌嵌入的平均汇总以创建句子嵌入:

 model_name =“ ./models/bert-base-uncased”
tokenizer = berttokenizer.from_pretaining(model_name)
型号= bertmodel.from_pretrataining(model_name)

def get_sentence_embedding(句子):
    encoded_input = tokenizer(句子,padding = true,truncation = true,return_tensors ='pt')
    activation_mask = encoded_input ['activation_mask']  

    使用Torch.no_grad():
        输出=模型(** encoded_input)

    token_embeddings = output.last_hidden_​​state
    input_mask_expanded = activation_mask.unsqueeze(-1).expand(token_embeddings.size())。float()


    ston_embedding = torch.sum(token_embeddings * input_mask_expanded,1) / torch.clamp(input_mask_expanded.sum(1),min = 1e-9)

    return stone_embedding.flatten()。tolist()
登录后复制

该代码加载了BERT模型,并定义了使用平均池化计算句子嵌入的函数。

骨骼嵌入的余弦相似性

余弦相似性衡量两个向量之间的相似性,使其适合比较句子嵌入。以下代码实现了余弦的相似性和可视化:

 def cosine_similarity_matrix(功能):
    norms = np.linalg.norm(特征,轴= 1,keepdims = true)
    归一化=功能 /规范
    samelity_matrix = np.inner(归一化_features,normolized_features)
    Rounded_similarity_matrix = np.Round(Sameity_matrix,4)
    返回rounded_simarility_matrix

def plot_simarlity(标签,功能,旋转):
    sim = cosine_similarity_matrix(功能)
    sns.set_theme(font_scale = 1.2)
    g = sns.heatmap(sim,xticklabels =标签,yticklabels =标签,vmin = 0,vmax = 1,cmap =“ ylorrd”)
    g.set_xticklabels(标签,旋转=旋转)
    g.set_title(“语义文本相似性”)
    返回g

消息= [
    # 技术
    “我更喜欢使用MacBook进行工作。”
    “ AI是否接管人类工作?”
    “我的笔记本电脑电池排出太快了。”

    # 运动的
    “你昨晚看过世界杯决赛吗?”
    “勒布朗·詹姆斯是一位令人难以置信的篮球运动员。”
    “我喜欢在周末参加马拉松比赛。”

    # 旅行
    “巴黎是一个美丽的城市。”
    “夏天最好的旅行场所是什么?”
    “我喜欢在瑞士阿尔卑斯山远足。”

    # 娱乐
    “最新的漫威电影很棒!”
    “你听泰勒·斯威夫特的歌吗?”
    “我对我最喜欢的系列的整个赛季进行了狂欢。”

这是给出的
嵌入= []
对于消息中的t:
    EMB = get_sentence_embedding(t)
    embeddings.append(EMB)

plot_simurility(消息,嵌入,90)
登录后复制

该代码定义句子,生成嵌入,并绘制显示其余弦相似性的热图。结果可能会表现出出乎意料的高相似性,激发了对诸如双重编码器之类的更准确方法的探索。

(其余部分以类似的方式继续进行,在维护核心信息并保留图像位置和格式的同时,对原始文本进行解释和重组。)

以上是使用顶点AI探索嵌入模型的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

最佳AI艺术生成器(免费付款)创意项目 最佳AI艺术生成器(免费付款)创意项目 Apr 02, 2025 pm 06:10 PM

本文回顾了AI最高的艺术生成器,讨论了他们的功能,对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值,并建议使用Dall-E 2进行高质量的可定制艺术。

开始使用Meta Llama 3.2 -Analytics Vidhya 开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

最佳AI聊天机器人比较(Chatgpt,Gemini,Claude&更多) 最佳AI聊天机器人比较(Chatgpt,Gemini,Claude&更多) Apr 02, 2025 pm 06:09 PM

本文比较了诸如Chatgpt,Gemini和Claude之类的顶级AI聊天机器人,重点介绍了其独特功能,自定义选项以及自然语言处理和可靠性的性能。

Chatgpt 4 o可用吗? Chatgpt 4 o可用吗? Mar 28, 2025 pm 05:29 PM

Chatgpt 4当前可用并广泛使用,与诸如ChatGpt 3.5(例如ChatGpt 3.5)相比,在理解上下文和产生连贯的响应方面取得了重大改进。未来的发展可能包括更多个性化的间

顶级AI写作助理来增强您的内容创建 顶级AI写作助理来增强您的内容创建 Apr 02, 2025 pm 06:11 PM

文章讨论了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的写作助手,重点介绍了其独特的内容创建功能。它认为Jasper在SEO优化方面表现出色,而AI工具有助于保持音调的组成

构建AI代理的前7个代理抹布系统 构建AI代理的前7个代理抹布系统 Mar 31, 2025 pm 04:25 PM

2024年见证了从简单地使用LLM进行内容生成的转变,转变为了解其内部工作。 这种探索导致了AI代理的发现 - 自主系统处理任务和最少人工干预的决策。 Buildin

向员工出售AI策略:Shopify首席执行官的宣言 向员工出售AI策略:Shopify首席执行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

选择最佳的AI语音生成器:评论的顶级选项 选择最佳的AI语音生成器:评论的顶级选项 Apr 02, 2025 pm 06:12 PM

本文评论了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高级AI语音生成器,重点介绍其功能,语音质量和满足不同需求的适用性。

See all articles