Les incorporations de texte sont une pierre angulaire du traitement du langage naturel (NLP), fournissant des représentations numériques du texte où les mots ou les phrases deviennent des vecteurs denses de nombres réels. Cela permet aux machines de comprendre le sens sémantique et les relations entre les mots, améliorant considérablement leur capacité à traiter le langage humain.
Ces intérêts sont essentiels pour les tâches comme la classification du texte, la recherche d'informations et la détection de similitude sémantique. OpenAI recommande le modèle ADA V2 pour les créer, en tirant parti de la force de la série GPT en capturant la signification contextuelle et les associations dans le texte.
Avant de procéder, la familiarité avec l'API d'Openai et le package Openai
Python est supposé (voir "Utilisation de GPT-3.5 et GPT-4 via l'API OpenAI dans Python" pour l'orientation). La compréhension du clustering, en particulier les K-means, est également utile (consultez "Introduction à K-means clustering with Scikit-Learn in Python").
Applications de trouver des applications de texte:
Embeddings text Identification.
openai
, scipy.spatial.distance
, sklearn.cluster.kmeans
, et umap.umap
. Installez-les en utilisant: pip install -u openai scipy trotly-express scikit-learn umap-learn Pre> <p> Importer les bibliothèques requises: </p> <pre class="brush:php;toolbar:false"> Importer OS Importer Openai à partir de scipy.spatial Import Distance Importer Plotly.express Clé: <pre class="brush:php;toolbar:false"> openai.api_key = "<your_api_key_here>" </your_api_key_here>
(n'oubliez pas de remplacer code>
Text-Embedding-ADA-002
Modèle pour générer des intégres:
def get_emedding (text_to_embed): réponse = openai.embedding.create (modèle = "text-embedding-ada-002", entrée = [text_to_embed]) Embelling = Response ["Data"] [0] ["" a effacé "] Erembedd <p> <strong> ensemble de données et analyse: </strong> </p> <p> Cet exemple utilise le jeu de données de revue de l'instrument de musique Amazon (disponible sur Kaggle ou le github de l'auteur). Pour l'efficacité, un échantillon de 100 avis est utilisé. </p> <pre class="brush:php;toolbar:false"> Importer des pandas en tant que pd data_url = "https://raw.githubusercontent.com/keitazoumana/experimentation-data/main/musical_instruments_reviews.csv" revue_df = pd.read_csv (data_url) [» review_df.sample(100) review_df["embedding"] = review_df["reviewText"].astype(str).apply(get_embedding) review_df.reset_index(drop=True, inplace=True)
Semantic Similarity:
The Euclidean distance, calculated using scipy.spatial.distance.pdist ()
, mesure la similitude entre les intégres de revue. Des distances plus petites indiquent une plus grande similitude.
Analyse de grappes (k-means):
k-means grouping groupes revues similaires. Ici, trois clusters sont utilisés:
kmeans = kmeans (n_clusters = 3) kmeans.fit (revue_df ["embedding"]. Tolist ())
réduction de la dimensionnalité (UMAP): UMAP () embeddings_2d = reducer.fit_transform (revue_df ["embedding"]. Tolist ())
visualisation:
un tracé de diffusion visualise les clusters:
fig = px.scatter (x = embeddings_2d [:,, 0], y = embeddings_2d. color = kmeans.labels_) Fig.show () pre> <p> <img src="https://img.php.cn/upload/article/000/000/000/174165595784565.jpg" alt="TEXTACKET TEXT ENTROVES avec l'Openai API: un guide pratique"> </p><p> </p><p> </p><p> Exploration: </p> <p> Pour l'apprentissage avancé, explorez les ressources de DataCamp sur le GPT-3 à réglage fin et la feuille de triche de l'API OpenAI. </p> <p> Les exemples de code sont présentés de manière plus concise et organisée, améliorant la lisibilité et la compréhension. L'image est incluse comme demandé. </p>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!