Embeddings teks adalah asas pemprosesan bahasa semulajadi (NLP), memberikan perwakilan berangka teks di mana perkataan atau frasa menjadi vektor padat nombor sebenar. Ini membolehkan mesin memahami makna dan hubungan semantik antara kata -kata, meningkatkan keupayaan mereka untuk memproses bahasa manusia.
Embeddings ini penting untuk tugas -tugas seperti klasifikasi teks, pengambilan maklumat, dan pengesanan kesamaan semantik. OpenAI mengesyorkan model ADA V2 untuk menciptakannya, memanfaatkan kekuatan siri GPT dalam menangkap makna dan persatuan kontekstual dalam teks.
Sebelum meneruskan, kebiasaan dengan API OpenAI dan OpenAI
Python Pakej diandaikan (lihat " Memahami kluster, terutamanya k-means, juga membantu (berunding "Pengenalan kepada K-means clustering dengan scikit-learn dalam python").
atau pengenalan topik.
os
, openai
, scipy.spatial.distance
, sklearn.cluster.kmeans
, dan umap.umap
. Pasangnya dengan menggunakan: Pip Install -u Openai Scipy Plotly-Express ScIKit-Learn Umap-Learn
Import perpustakaan yang diperlukan:
Openai API Key:openai.api_key = "<your_api_key_here>" </your_api_key_here>
Dataset dan analisis:
Contoh ini menggunakan dataset Kajian Alat Muzik Amazon (tersedia di Kaggle atau github pengarang). Untuk kecekapan, sampel 100 ulasan digunakan.
Pandas import sebagai pd data_url = "https://raw.githubusercontent.com/keitazoana/experimentation-data/main/musical_instruments_Reviews.csv" review_df = pd.cd. = review_df.sample (100) review_df ["embedding"] = review_df ["reviewText"]. astype (str) .apply (get_embedding) review_df.reset_index (drop = true, inplace = true) <code> scipy.spatial.distance.pdist () </code>, mengukur persamaan antara embeddings kajian. Jarak yang lebih kecil menunjukkan persamaan yang lebih besar. <p> <strong> Analisis cluster (k-means): </strong> </p> <p> Kumpulan kluster K-Means yang sama. Di sini, tiga kelompok digunakan: </p> <pre class="brush:php;toolbar:false"> kmeans = kmeans (n_clusters = 3) kmeans.fit (review_df ["embedding"]. = Umap () embeddings_2d = reducer.fit_transform (review_df ["embedding"]. Tolist ())
Visualisasi:
y=embeddings_2d[:, 1], color=kmeans.labels_) fig.show()
Penjelajahan lanjut: Imej dimasukkan seperti yang diminta.
Atas ialah kandungan terperinci Memanfaatkan Embeddings Teks dengan API Terbuka: Panduan Praktikal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!