使用OpenAI API利用文本嵌入:實用指南
文本嵌入是自然語言處理(NLP)的基石,提供了文本的數值表示,其中單詞或短語成為真實數字的密集向量。這使機器可以理解語義含義和單詞之間的關係,從而顯著提高其處理人類語言的能力。
這些嵌入對於文本分類,信息檢索和語義相似性檢測等任務至關重要。 Openai推薦了ADA V2模型來創建它們,從而利用GPT系列的強度來捕獲文本中的上下文含義和關聯。
在繼續之前,假定對OpenAI的API和openai
Python軟件包的熟悉程度(請參閱“使用Python中的OpenAI API使用GPT-3.5和GPT-4”以獲取指導。了解聚類,尤其是K-均值,也很有幫助(請參閱“與Scikit-Learn在Python中介紹K-Means聚類的簡介”)。
文本嵌入的應用:
文本嵌入在許多領域中找到應用程序,包括:
- 文本分類:建立精確的模型,以進行情感分析或主題標識。
- 信息檢索:檢索與特定查詢相關的信息,模仿搜索引擎功能。
- 語義相似性檢測:識別和量化文本片段之間的語義相似性。
- 建議系統:通過了解文本交互中的用戶偏好來增強建議質量。
- 文本生成:生成更連貫和上下文相關的文本。
- 機器翻譯:通過捕獲跨語義語義含義來改善機器翻譯質量。
設置和安裝:
需要以下python軟件包: os
, openai
, scipy.spatial.distance
, sklearn.cluster.KMeans
和umap.UMAP
。使用:
PIP安裝-U Openai Scipy Plotly-Express Scikit-Learn Umap-learn
導入所需的庫:
導入操作系統 進口Openai 從scipy.Spatial進口距離 導入plotly.extress為px 來自Sklearn.Cluster Import Kmeans 來自UMAP進口UMAP
配置您的OpenAI API密鑰:
openai.api_key =”<your_api_key_here> “</your_api_key_here>
(請記住要替換<your_api_key_here></your_api_key_here>
使用您的實際鑰匙。)
生成嵌入:
該輔助功能使用text-embedding-ada-002
模型生成嵌入:
def get_embedding(text_to_embed): 響應= openai.embedding.create( 型號=“ text-embedding-ada-002”, 輸入= [text_to_embed] ) 嵌入=響應[“數據”] [0] [“嵌入”] 返回嵌入
數據集和分析:
此示例使用Amazon樂器評論數據集(可在Kaggle或作者的GitHub上找到)。為了提高效率,使用了100個評論的樣本。
導入大熊貓作為pd data_url =“ https://raw.githubusercontent.com/keitazoumana/experimentation-data/main/main/musical_instruments_reviews.csv” 評論_df = pd.read_csv(data_url)[['eviewText']] 評論_df =評論_df.sample(100) 評論_df [“嵌入”] = eview_df [“評論Text”]。astype(str).apply(get_embedding) 評論_df.Reset_index(drop = true,inplace = true)
語義相似性:
使用scipy.spatial.distance.pdist()
計算的歐幾里得距離測量了回顧嵌入之間的相似性。較小的距離表示更大的相似性。
聚類分析(K-均值):
K-均值聚類小組類似評論。在這裡,使用了三個集群:
kmeans = kmeans(n_clusters = 3) kmeanss.fit(review_df [“嵌入”]。tolist())
減少維度(UMAP):
UMAP將嵌入維度降低至兩個以進行可視化:
還原= umap() embeddings_2d = reducer.fit_transform(eview_df [“ embedding”]。tolist())
可視化:
一個散點圖可視化簇:
無花果= px.scatter(x = embeddings_2d [:,0],y = embeddings_2d [:,1],color = kmeans.labels_) 圖show()
進一步探索:
要進行高級學習,請探索微調GPT-3和OpenAI API備忘單上的數據掃描資源。
代碼示例以更簡潔和有組織的方式提出,以提高可讀性和理解。根據要求包含圖像。
以上是使用OpenAI API利用文本嵌入:實用指南的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年
