Tirer parti des incorporations de texte avec l'API OpenAI: un guide pratique-IA-php.cn

Tirer parti des incorporations de texte avec l'API OpenAI: un guide pratique

Lisa Kudrow

Libérer： 2025-03-11 09:19:11

original

229 Les gens l'ont consulté

Les incorporations de texte sont une pierre angulaire du traitement du langage naturel (NLP), fournissant des représentations numériques du texte où les mots ou les phrases deviennent des vecteurs denses de nombres réels. Cela permet aux machines de comprendre le sens sémantique et les relations entre les mots, améliorant considérablement leur capacité à traiter le langage humain.

Ces intérêts sont essentiels pour les tâches comme la classification du texte, la recherche d'informations et la détection de similitude sémantique. OpenAI recommande le modèle ADA V2 pour les créer, en tirant parti de la force de la série GPT en capturant la signification contextuelle et les associations dans le texte.

Avant de procéder, la familiarité avec l'API d'Openai et le package Openai Python est supposé (voir "Utilisation de GPT-3.5 et GPT-4 via l'API OpenAI dans Python" pour l'orientation). La compréhension du clustering, en particulier les K-means, est également utile (consultez "Introduction à K-means clustering with Scikit-Learn in Python").

Applications de trouver des applications de texte:

Embeddings text Identification.

Récupération d'informations: Récupération des informations pertinentes pour une requête spécifique, imitant la fonctionnalité des moteurs de recherche.

Détection de similitude sémantique: Identification et quantifier la similitude sémantique entre les extraits de texte.

Génération de texte: Génération de texte plus cohérent et contextuellement pertinent.

Traduction machine: Amélioration de la qualité de la traduction automatique en capturant la signification sémantique croisée. openai , scipy.spatial.distance , sklearn.cluster.kmeans , et umap.umap . Installez-les en utilisant:

 pip install -u openai scipy trotly-express scikit-learn umap-learn  Pre> <p> Importer les bibliothèques requises: </p> <pre class="brush:php;toolbar:false"> Importer OS Importer Openai à partir de scipy.spatial Import Distance Importer Plotly.express Clé:  <pre class="brush:php;toolbar:false"> openai.api_key = "<your_api_key_here>" </your_api_key_here>

Copier après la connexion

(n'oubliez pas de remplacer code> par votre clé réelle.)

Text-Embedding-ADA-002 Modèle pour générer des intégres:

 def get_emedding (text_to_embed): réponse = openai.embedding.create (modèle = "text-embedding-ada-002", entrée = [text_to_embed]) Embelling = Response ["Data"] [0] ["" a effacé "] Erembedd <p> <strong> ensemble de données et analyse: </strong> </p> <p> Cet exemple utilise le jeu de données de revue de l'instrument de musique Amazon (disponible sur Kaggle ou le github de l'auteur). Pour l'efficacité, un échantillon de 100 avis est utilisé. </p> <pre class="brush:php;toolbar:false"> Importer des pandas en tant que pd data_url = "https://raw.githubusercontent.com/keitazoumana/experimentation-data/main/musical_instruments_reviews.csv" revue_df = pd.read_csv (data_url) [» review_df.sample(100) review_df["embedding"] = review_df["reviewText"].astype(str).apply(get_embedding) review_df.reset_index(drop=True, inplace=True)

Copier après la connexion

Semantic Similarity:

The Euclidean distance, calculated using scipy.spatial.distance.pdist () , mesure la similitude entre les intégres de revue. Des distances plus petites indiquent une plus grande similitude.

Analyse de grappes (k-means):

k-means grouping groupes revues similaires. Ici, trois clusters sont utilisés:

 kmeans = kmeans (n_clusters = 3) kmeans.fit (revue_df ["embedding"]. Tolist ())

Copier après la connexion

réduction de la dimensionnalité (UMAP): UMAP () embeddings_2d = reducer.fit_transform (revue_df ["embedding"]. Tolist ())

visualisation:

un tracé de diffusion visualise les clusters:

 fig = px.scatter (x = embeddings_2d [:,, 0], y = embeddings_2d. color = kmeans.labels_) Fig.show ()  pre> <p> <img src="https://img.php.cn/upload/article/000/000/000/174165595784565.jpg" alt="TEXTACKET TEXT ENTROVES avec l'Openai API: un guide pratique"> </p><p> </p><p> </p><p> Exploration:  </p> <p> Pour l'apprentissage avancé, explorez les ressources de DataCamp sur le GPT-3 à réglage fin et la feuille de triche de l'API OpenAI. </p> <p> Les exemples de code sont présentés de manière plus concise et organisée, améliorant la lisibilité et la compréhension. L'image est incluse comme demandé. </p>

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!