首页 科技周边 人工智能 使用OpenAI API利用文本嵌入:实用指南

使用OpenAI API利用文本嵌入:实用指南

Mar 11, 2025 am 09:19 AM

文本嵌入是自然语言处理(NLP)的基石,提供了文本的数值表示,其中单词或短语成为真实数字的密集向量。这使机器可以理解语义含义和单词之间的关系,从而显着提高其处理人类语言的能力。

这些嵌入对于文本分类,信息检索和语义相似性检测等任务至关重要。 Openai推荐了ADA V2模型来创建它们,从而利用GPT系列的强度来捕获文本中的上下文含义和关联。

在继续之前,假定对OpenAI的API和openai Python软件包的熟悉程度(请参阅“使用Python中的OpenAI API使用GPT-3.5和GPT-4”以获取指导。了解聚类,尤其是K-均值,也很有帮助(请参阅“与Scikit-Learn在Python中介绍K-Means聚类的简介”)。

文本嵌入的应用:

文本嵌入在许多领域中找到应用程序,包括:

  • 文本分类:建立精确的模型,以进行情感分析或主题标识。
  • 信息检索:检索与特定查询相关的信息,模仿搜索引擎功能。
  • 语义相似性检测:识别和量化文本片段之间的语义相似性。
  • 建议系统:通过了解文本交互中的用户偏好来增强建议质量。
  • 文本生成:生成更连贯和上下文相关的文本。
  • 机器翻译:通过捕获跨语义语义含义来改善机器翻译质量。

设置和安装:

需要以下python软件包: osopenaiscipy.spatial.distancesklearn.cluster.KMeansumap.UMAP 。使用:

 PIP安装-U Openai Scipy Plotly-Express Scikit-Learn Umap-learn
登录后复制

导入所需的库:

导入操作系统
进口Openai
从scipy.Spatial进口距离
导入plotly.extress为px
来自Sklearn.Cluster Import Kmeans
来自UMAP进口UMAP
登录后复制

配置您的OpenAI API密钥:

 openai.api_key =”<your_api_key_here> “</your_api_key_here>
登录后复制

(请记住要替换<your_api_key_here></your_api_key_here>使用您的实际钥匙。)

生成嵌入:

该辅助功能使用text-embedding-ada-002模型生成嵌入:

 def get_embedding(text_to_embed):
    响应= openai.embedding.create(
        型号=“ text-embedding-ada-002”,
        输入= [text_to_embed]
    )
    嵌入=响应[“数据”] [0] [“嵌入”]
    返回嵌入
登录后复制

数据集和分析:

此示例使用Amazon乐器评论数据集(可在Kaggle或作者的GitHub上找到)。为了提高效率,使用了100个评论的样本。

导入大熊猫作为pd

data_url =“ https://raw.githubusercontent.com/keitazoumana/experimentation-data/main/main/musical_instruments_reviews.csv”
评论_df = pd.read_csv(data_url)[['eviewText']]
评论_df =评论_df.sample(100)
评论_df [“嵌入”] = eview_df [“评论Text”]。astype(str).apply(get_embedding)
评论_df.Reset_index(drop = true,inplace = true)
登录后复制

语义相似性:

使用scipy.spatial.distance.pdist()计算的欧几里得距离测量了回顾嵌入之间的相似性。较小的距离表示更大的相似性。

聚类分析(K-均值):

K-均值聚类小组类似评论。在这里,使用了三个集群:

 kmeans = kmeans(n_clusters = 3)
kmeanss.fit(review_df [“嵌入”]。tolist())
登录后复制

减少维度(UMAP):

UMAP将嵌入维度降低至两个以进行可视化:

还原= umap()
embeddings_2d = reducer.fit_transform(eview_df [“ embedding”]。tolist())
登录后复制

可视化:

一个散点图可视化簇:

无花果= px.scatter(x = embeddings_2d [:,0],y = embeddings_2d [:,1],color = kmeans.labels_)
图show() 
登录后复制

使用OpenAI API利用文本嵌入:实用指南

进一步探索:

要进行高级学习,请探索微调GPT-3和OpenAI API备忘单上的数据扫描资源。

代码示例以更简洁和有组织的方式提出,以提高可读性和理解。根据要求包含图像。

以上是使用OpenAI API利用文本嵌入:实用指南的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

最佳AI艺术生成器(免费付款)创意项目 最佳AI艺术生成器(免费付款)创意项目 Apr 02, 2025 pm 06:10 PM

本文回顾了AI最高的艺术生成器,讨论了他们的功能,对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值,并建议使用Dall-E 2进行高质量的可定制艺术。

开始使用Meta Llama 3.2 -Analytics Vidhya 开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

最佳AI聊天机器人比较(Chatgpt,Gemini,Claude&amp;更多) 最佳AI聊天机器人比较(Chatgpt,Gemini,Claude&amp;更多) Apr 02, 2025 pm 06:09 PM

本文比较了诸如Chatgpt,Gemini和Claude之类的顶级AI聊天机器人,重点介绍了其独特功能,自定义选项以及自然语言处理和可靠性的性能。

Chatgpt 4 o可用吗? Chatgpt 4 o可用吗? Mar 28, 2025 pm 05:29 PM

Chatgpt 4当前可用并广泛使用,与诸如ChatGpt 3.5(例如ChatGpt 3.5)相比,在理解上下文和产生连贯的响应方面取得了重大改进。未来的发展可能包括更多个性化的间

顶级AI写作助理来增强您的内容创建 顶级AI写作助理来增强您的内容创建 Apr 02, 2025 pm 06:11 PM

文章讨论了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的写作助手,重点介绍了其独特的内容创建功能。它认为Jasper在SEO优化方面表现出色,而AI工具有助于保持音调的组成

构建AI代理的前7个代理抹布系统 构建AI代理的前7个代理抹布系统 Mar 31, 2025 pm 04:25 PM

2024年见证了从简单地使用LLM进行内容生成的转变,转变为了解其内部工作。 这种探索导致了AI代理的发现 - 自主系统处理任务和最少人工干预的决策。 Buildin

选择最佳的AI语音生成器:评论的顶级选项 选择最佳的AI语音生成器:评论的顶级选项 Apr 02, 2025 pm 06:12 PM

本文评论了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高级AI语音生成器,重点介绍其功能,语音质量和满足不同需求的适用性。

AV字节:Meta&#039; llama 3.2,Google的双子座1.5等 AV字节:Meta&#039; llama 3.2,Google的双子座1.5等 Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

See all articles