Rumah > Peranti teknologi > AI > Memanfaatkan Embeddings Teks dengan API Terbuka: Panduan Praktikal

Memanfaatkan Embeddings Teks dengan API Terbuka: Panduan Praktikal

Lisa Kudrow
Lepaskan: 2025-03-11 09:19:11
asal
229 orang telah melayarinya

Embeddings teks adalah asas pemprosesan bahasa semulajadi (NLP), memberikan perwakilan berangka teks di mana perkataan atau frasa menjadi vektor padat nombor sebenar. Ini membolehkan mesin memahami makna dan hubungan semantik antara kata -kata, meningkatkan keupayaan mereka untuk memproses bahasa manusia.

Embeddings ini penting untuk tugas -tugas seperti klasifikasi teks, pengambilan maklumat, dan pengesanan kesamaan semantik. OpenAI mengesyorkan model ADA V2 untuk menciptakannya, memanfaatkan kekuatan siri GPT dalam menangkap makna dan persatuan kontekstual dalam teks.

Sebelum meneruskan, kebiasaan dengan API OpenAI dan OpenAI Python Pakej diandaikan (lihat " Memahami kluster, terutamanya k-means, juga membantu (berunding "Pengenalan kepada K-means clustering dengan scikit-learn dalam python").

atau pengenalan topik.

  • Pengambilan maklumat: Mendapatkan maklumat yang berkaitan dengan pertanyaan tertentu, meniru fungsi enjin carian.
  • Interaksi. os , openai , scipy.spatial.distance , sklearn.cluster.kmeans , dan umap.umap . Pasangnya dengan menggunakan:
     Pip Install -u Openai Scipy Plotly-Express ScIKit-Learn Umap-Learn 
    Salin selepas log masuk

    Import perpustakaan yang diperlukan:

    Openai API Key:
     openai.api_key = "<your_api_key_here>" </your_api_key_here>
    Salin selepas log masuk
    (ingat untuk menggantikan dengan kunci sebenar anda. model teks-embeddddddddddddddding-ADA-ADA-ADA- 002 untuk menghasilkan embeddings: def get_embeddddding (teks_to_embed): response = openai.embeddddding.create (model = "teks-embeddddddddddddddddd-ada-ada-002" Embedding

    Dataset dan analisis:

    Contoh ini menggunakan dataset Kajian Alat Muzik Amazon (tersedia di Kaggle atau github pengarang). Untuk kecekapan, sampel 100 ulasan digunakan.

     Pandas import sebagai pd data_url = "https://raw.githubusercontent.com/keitazoana/experimentation-data/main/musical_instruments_Reviews.csv" review_df = pd.cd. = review_df.sample (100) review_df ["embedding"] = review_df ["reviewText"]. astype (str) .apply (get_embedding) review_df.reset_index (drop = true, inplace = true) <code> scipy.spatial.distance.pdist () </code>, mengukur persamaan antara embeddings kajian. Jarak yang lebih kecil menunjukkan persamaan yang lebih besar.  <p> <strong> Analisis cluster (k-means): </strong> </p> <p> Kumpulan kluster K-Means yang sama. Di sini, tiga kelompok digunakan: </p> <pre class="brush:php;toolbar:false"> kmeans = kmeans (n_clusters = 3) kmeans.fit (review_df ["embedding"]. = Umap () embeddings_2d = reducer.fit_transform (review_df ["embedding"]. Tolist ()) 
    Salin selepas log masuk

    Visualisasi:

    y=embeddings_2d[:, 1], color=kmeans.labels_) fig.show()

    Leveraging Text Embeddings with the OpenAI API: A Practical Guide

    Penjelajahan lanjut: Imej dimasukkan seperti yang diminta.

    Atas ialah kandungan terperinci Memanfaatkan Embeddings Teks dengan API Terbuka: Panduan Praktikal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

    Kenyataan Laman Web ini
    Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
    Artikel terbaru oleh pengarang
    Tutorial Popular
    Lagi>
    Muat turun terkini
    Lagi>
    kesan web
    Kod sumber laman web
    Bahan laman web
    Templat hujung hadapan