Memanfaatkan Embeddings Teks dengan API Terbuka: Panduan Praktikal-AI-php.cn

Memanfaatkan Embeddings Teks dengan API Terbuka: Panduan Praktikal

Lisa Kudrow

Lepaskan： 2025-03-11 09:19:11

asal

229 orang telah melayarinya

Embeddings teks adalah asas pemprosesan bahasa semulajadi (NLP), memberikan perwakilan berangka teks di mana perkataan atau frasa menjadi vektor padat nombor sebenar. Ini membolehkan mesin memahami makna dan hubungan semantik antara kata -kata, meningkatkan keupayaan mereka untuk memproses bahasa manusia.

Embeddings ini penting untuk tugas -tugas seperti klasifikasi teks, pengambilan maklumat, dan pengesanan kesamaan semantik. OpenAI mengesyorkan model ADA V2 untuk menciptakannya, memanfaatkan kekuatan siri GPT dalam menangkap makna dan persatuan kontekstual dalam teks.

Sebelum meneruskan, kebiasaan dengan API OpenAI dan OpenAI Python Pakej diandaikan (lihat " Memahami kluster, terutamanya k-means, juga membantu (berunding "Pengenalan kepada K-means clustering dengan scikit-learn dalam python").

atau pengenalan topik.

Pengambilan maklumat: Mendapatkan maklumat yang berkaitan dengan pertanyaan tertentu, meniru fungsi enjin carian.

Interaksi. os , openai , scipy.spatial.distance , sklearn.cluster.kmeans , dan umap.umap . Pasangnya dengan menggunakan:

 Pip Install -u Openai Scipy Plotly-Express ScIKit-Learn Umap-Learn

Salin selepas log masuk

Import perpustakaan yang diperlukan:

Openai API Key:

 openai.api_key = "<your_api_key_here>" </your_api_key_here>

Salin selepas log masuk

(ingat untuk menggantikan dengan kunci sebenar anda. model teks-embeddddddddddddddding-ADA-ADA-ADA- 002 untuk menghasilkan embeddings: def get_embeddddding (teks_to_embed): response = openai.embeddddding.create (model = "teks-embeddddddddddddddddd-ada-ada-002" Embedding
Dataset dan analisis:

Contoh ini menggunakan dataset Kajian Alat Muzik Amazon (tersedia di Kaggle atau github pengarang). Untuk kecekapan, sampel 100 ulasan digunakan.

Pandas import sebagai pd data_url = "https://raw.githubusercontent.com/keitazoana/experimentation-data/main/musical_instruments_Reviews.csv" review_df = pd.cd. = review_df.sample (100) review_df ["embedding"] = review_df ["reviewText"]. astype (str) .apply (get_embedding) review_df.reset_index (drop = true, inplace = true) <code> scipy.spatial.distance.pdist () </code>, mengukur persamaan antara embeddings kajian. Jarak yang lebih kecil menunjukkan persamaan yang lebih besar. Analisis cluster (k-means): Kumpulan kluster K-Means yang sama. Di sini, tiga kelompok digunakan: <pre class="brush:php;toolbar:false"> kmeans = kmeans (n_clusters = 3) kmeans.fit (review_df ["embedding"]. = Umap () embeddings_2d = reducer.fit_transform (review_df ["embedding"]. Tolist ())
Salin selepas log masuk

Visualisasi:

y=embeddings_2d[:, 1], color=kmeans.labels_) fig.show()

Penjelajahan lanjut: Imej dimasukkan seperti yang diminta.

Atas ialah kandungan terperinci Memanfaatkan Embeddings Teks dengan API Terbuka: Panduan Praktikal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!