OpenAI a été un fournisseur de solutions leader dans l'espace Genai. Du Chatgpt légendaire à Sora, il s'agit d'une plate-forme incontournable pour tous les professionnels qui travaillent. Avec Qwen et Claude gagnant en popularité parmi les développeurs, Openai est de retour avec ses dernières mises à jour, ce qui permet aux développeurs de créer des agents d'IA plus fiables et plus capables. Les principaux faits saillants de la liste incluent l'API des réponses et le SDK des agents. Dans ce blog, nous explorerons l'API des réponses et les agents SDK, comprendre comment y accéder et apprendre à les utiliser pour créer des applications réelles!
L'API des réponses est la nouvelle API d'Openai conçue pour simplifier le processus de création d'applications basées sur l'IA. Il combine la simplicité de l'API de complétion de chat avec les puissantes capacités d'utilisation d'outils de l'API Assistants. Cela signifie que les développeurs peuvent désormais créer des agents qui tirent parti de plusieurs outils et gèrent plus efficacement les tâches complexes et en plusieurs étapes. Cette API a réduit la dépendance à l'égard de l'ingénierie rapide et des intégrations externes.
Notre nouvelle API primitive: l'API des réponses. En combinant la simplicité des compléments de chat avec l'utilisation d'outils des assistants, cette nouvelle fondation offre plus de flexibilité dans les agents de construction. La recherche sur le Web, la recherche de fichiers ou l'utilisation de l'ordinateur sont quelques lignes de code! Https: //t.co/s5zsy4wvqy pic.twitter.com/parhjhsjgv
- Openai Developers (@Operenidevs) 11 mars 2025
Avec ces outils, l'API des réponses change la donne pour la construction d'agents d'IA. L'API en fait, à l'avenir, les réponses soutienont tous les nouveaux modèles d'Openai. Voyons comment nous pouvons l'utiliser pour créer des applications.
Pour essayer les réponses API:
Une fois configuré, vous pouvez demander l'API des réponses. Bien que les appels API de base soient courants, ses capacités intégrées le rendent puissant. Explorons trois caractéristiques clés:
Maintenant, voyons-les en action!
Il permet aux modèles de récupérer des informations dans une base de connaissances des fichiers précédemment téléchargés via la recherche sémantique et de mots clés. Actuellement, il ne prend pas en charge les fichiers CSV, vous pouvez vérifier la liste des types de fichiers pris en charge ici.
Remarque: Avant d'utiliser la recherche de fichiers, assurez-vous de stocker vos fichiers dans une base de données vectorielle
Tâche: noms des personnes atteintes de domaine comme science des données. (J'ai utilisé le fichier suivant.)
Code:
réponse = client.Responses.Create ( modèle = "gpt-4o-mini", entrée = "Noms de personnes atteintes de domaine comme science des données", outils = [{ "type": "file_search", "vector_store_ids": [vector_store_id], "filtres": { "Type": "EQ", "clé": "domaine", "valeur": "science des données" } }] ) print (réponse.output_text)
Sortir:
La personne ayant le domaine de la science des données est Alice Johnson [0].<br> [0] names_and_domains.pdf
Cette fonctionnalité permet aux modèles de rechercher sur le Web les dernières informations avant de générer une réponse, garantissant que les données restent à jour. Le modèle peut choisir de rechercher sur le Web ou non en fonction du contenu de l'invite d'entrée.
Tâche: Quels sont les meilleurs cafés de Vijay Nagar?
Code:
réponse = client.Responses.Create ( modèle = "gpt-4o", outils = [{ "type": "web_search_preview", "user_location": { "Type": "approximative", "pays": "dans", "ville": "Indore", "région": "Madhya Pradesh", } }], input = "Quel est le meilleur café de vijay nagar?" ) print (réponse.output_text)
Sortir:
Il s'agit d'une application pratique du modèle d'agent d'utilisation informatique (CUA), qui combine les capacités de vision de GPT-4O avec un raisonnement avancé pour simuler les interfaces informatiques de contrôle et effectuer des tâches.
Tâche: consultez le dernier blog sur le site Web de l'analyse Vidhya.
Code:
réponse = client.Responses.Create ( Model = "Computer-Use-Preview", outils = [{ "Type": "Computer_USE_PREVIEW", "display_width": 1024, "display_height": 768, "Environnement": "Browser" # Autres valeurs possibles: "Mac", "Windows", "Ubuntu" }], entrée = [ { "rôle": "utilisateur", "Contenu": "Consultez le dernier blog sur le site Web de l'analyse Vidhya." } ], tronccation = "auto" ) imprimer (réponse.output)
Sortir:
ResponseComputerToolCall (id = 'CU_67D147AF346C8192B78719DD0E22856964FBB87C6A42E96',<br> action = actionScreenshot (type = 'ScreenShot'),<br> call_id = 'call_a0w16g1bnek09ayiv25vdkxy', en attente_safety_checks = [],<br> status = 'terminé', type = 'Computer_Call')
Maintenant que nous avons vu comment fonctionne l'API des réponses, voyons à quel point il est différent de l'API de complétion préexistante.
API | API de réponses | API de complétion |
Code | à partir d'Openai Import Openai client = openai () réponse = client.Responses.Create ( modèle = "gpt-4o", entrées = [ { "rôle": "utilisateur", "Contenu": "Écrivez une histoire au coucher d'une phrase sur une licorne." } ]] ) print (réponse.output_text) Copier après la connexion |
à partir d'Openai Import Openai client = openai () complétion = client.chat.completions.create ( modèle = "gpt-4o", messages = [ { "rôle": "utilisateur", "Contenu": "Écrivez une histoire au coucher d'une phrase sur une licorne." } ]] ) imprimer (achèvement.choices [0] .Message.Content) Copier après la connexion |
Sortir |
Voici une ventilation simplifiée des différentes fonctionnalités de l'API des complerions de chat et des réponses API:
Capacités | API de réponses | API des compléments de chat |
Génération de texte | ✅ | ✅ |
Audio | À venir | ✅ |
Vision | ✅ | ✅ |
Recherche sur le Web | ✅ | ✅ |
Recherche de fichiers | ✅ | ❌ |
Utilisation par ordinateur | ✅ | ❌ |
Interprète de code | À venir | ❌ |
Manipulation de la réponse | Renvoie une seule sortie structurée | Renvoie un tableau de choix |
État de la conversation | Précéaire_response_id pour la continuité | Doit être géré manuellement |
Comportement de stockage | Stocké par défaut (magasin: faux à désactiver) | Stocké par défaut |
Avec les réponses API en ligne, la question brûlante est maintenant la suivante, cela affecterait-il les achèvements de chat existants et l'API assistant? Oui, ce serait le cas. Voyons comment:
La construction d'agents d'IA ne consiste pas seulement à avoir une API puissante - elle nécessite une orchestration efficace. C'est là que le SDK des agents d'Openai entre en jeu. Le SDK des agents est une boîte à outils open source qui simplifie les flux de travail de l'agent. Ce cadre de construction d'agent s'intègre de manière transparente à l'API API et à Chat Completion. De plus, il est également compatible avec les modèles de divers fournisseurs, à condition qu'ils offrent un point de terminaison API comme les compléments de chat.
Certaines des principales caractéristiques du SDK des agents sont:
L'agent SDK n'est pas un «nouvel ajout» aux bijoux d'Openai. Il s'agit d'une version améliorée de "Swarm", le SDK expérimental qu'Openai avait publié l'année dernière. Alors que «Swarm» vient d'être publié à des fins éducatives, il est devenu populaire parmi les développeurs et a également été adopté par plusieurs entreprises. Pour répondre à plus d'entreprises et les aider à construire des agents de qualité de production de manière transparente, les agents SDK ont été publiés. Maintenant que nous savons ce que le SDK des agents a à offrir, voyons comment nous pouvons utiliser ce cadre pour construire notre système agentique.
Lire aussi: les 10 principales extensions de codage génératrices de l'IA dans le code vs
Nous créerons un système multi-agents qui aide les utilisateurs avec des recommandations de voitures et une estimation des prix de revente en tirant parti des agents LLM et des outils de recherche Web pour fournir des informations précises et à jour.
Nous commençons par créer un agent de conseiller en voiture qui aide les utilisateurs à choisir un type de voiture approprié en fonction de leurs besoins.
Code:
car_advisor = agent ( name = "conseiller en voiture", instructions = "Vous êtes un expert en conseillant le type de voiture approprié comme la berline, le hayon, etc. aux personnes en fonction de leurs besoins.", modèle = "gpt-4o", ) invite = "Je recherche une voiture que j'aime conduire et prendre 4 personnes. asynchrone def main (): résultat = attendre Runner.run (car_advisor, invite) print (result.final_output) # Exécutez la fonction dans Jupyter attendre main ()
Sortir:
Avec l'agent de base en place, nous créons maintenant un système multi-agents incorporant différents agents d'IA spécialisés dans leurs domaines respectifs. Voici comment cela fonctionne:
Agents du système multi-agents
Nous fournirons deux invites différentes aux agents et observerons leurs résultats.
car_sell_estimate = agent ( name = "voiture vende estimer", instructions = "Vous êtes un expert pour suggérer un prix approprié de recevoir une voiture en fonction de sa marque, de son modèle, de l'année d'achat et de sa condition.", Handoff_description = "Expert des prix de revente des voitures", modèle = "gpt-4o", outils = [WebSearchTool ()] ) car_model_advisor = agent ( name = "Car Model Advisor", instructions = "Vous êtes un expert en conseillant le modèle de voiture approprié aux personnes en fonction de leur budget et de leur emplacement.", handoff_description = "Expert de la recommandation du modèle de voiture", modèle = "gpt-4o", outils = [WebSearchTool ()] ) triage_agent = agent ( name = "Agent de triage", instructions = "Vous déterminez l'agent approprié pour la tâche.", modèle = "gpt-4o", Handoffs = [car_sell_estimate, car_model_advisor] ) Invite 1: invite = "Je veux vendre ma voiture Ecosport à New Delhi. Il a 3 ans et en bon état. 50000 km. À quel prix dois-je m'attendre?" asynchrone def main (): résultat = attendre Runner.run (Triage_Agent, invite) print (result.final_output) # Exécutez la fonction dans Jupyter attendre main ()
Sortie 1:
Invite 2:
invite = "Je veux acheter une voiture à accélération haute, confortable pour 4 personnes pour 20 lakhs à New Delhi. Quelle voiture dois-je acheter?" asynchrone def main (): résultat = attendre Runner.run (Triage_Agent, invite) print (result.final_output) # Exécutez la fonction dans Jupyter attendre main ()
Sortie 2:
Nous avons obtenu les options de voiture selon nos exigences! L'implémentation était simple et rapide. Vous pouvez utiliser ce cadre agentique pour construire des agents pour un soutien au voyage, une planification financière, une assistance médicale, des achats personnalisés, des recherches automatisées et bien plus encore.
Le SDK des agents d'Openai représente sa poussée stratégique vers la fourniture d'un cadre dédié au développement des agents d'IA. Le cadre comprend des caractéristiques de type équipage grâce à son agent de triage, imitant les caractéristiques de l'équipage de l'IA. De même, ses mécanismes de transfert ressemblent étroitement à ceux d'Autogène, permettant une délégation efficace des tâches parmi plusieurs agents.
De plus, la force de Langchain dans l'orchestration des agents modulaires se reflète dans la façon dont le SDK des agents fournit des flux de travail structurés, assurant une exécution et une adaptabilité en douceur. Bien que les agents SDK n'offrent rien de plus que ce que font déjà les cadres existants, cela leur donnera bientôt une compétition difficile.
Lire aussi: Claude 3.7 Sonnet: Le meilleur modèle de codage à ce jour?
Réponses L'API et les agents SDK fournissent aux développeurs les outils et la plate-forme pour créer des applications axées sur l'IA. En réduisant la dépendance à l'égard de l'ingénierie rapide et de la logique personnalisée étendue, ces outils permettent aux développeurs de se concentrer sur la création de flux de travail intelligents avec un minimum de frottement.
Voici une vidéo pour en savoir plus sur les réponses d'Openai API et Agents SDK.
L'introduction de l'API des réponses d'Openai et des agents change la donne pour l'automatisation dirigée par l'IA. En tirant parti de ces outils, nous avons réussi à construire un système multi-agents très rapidement avec seulement quelques lignes de code. Cette implémentation peut être élargie pour inclure des outils supplémentaires, des intégrations et des capacités d'agent, ouvrant la voie à des applications d'IA plus intelligentes et autonomes dans diverses industries.
Ces outils vont sûrement aider les développeurs et les entreprises à réduire la complexité du développement et à créer des solutions d'automatisation plus intelligentes et plus évolutives. Que ce soit pour le support client, la recherche, l'automatisation des entreprises ou les applications d'IA spécifiques à l'industrie, l'API des réponses et les agents SDK offrent facilement un cadre puissant pour construire des systèmes alimentés par AI de nouvelle génération.
A. L'API des réponses est le dernier cadre d'IA d'OpenAI qui simplifie le développement des agents en intégrant des outils intégrés comme la recherche Web, la recherche de fichiers et l'utilisation de l'ordinateur.
Q2. En quoi l'API des réponses est-elle différente de l'API de complétion?A. Contrairement à l'API Complétion, l'API des réponses prend en charge l'intégration multi-outils, les sorties structurées et la gestion de l'état de conversation intégré.
Q3. Qu'est-ce que le SDK des agents d'Openai?A. Le SDK des agents est un cadre open source qui permet aux développeurs de construire et d'orchestrer des systèmes multi-agents avec une automatisation alimentée par l'IA.
Q4. Comment le SDK des agents améliore-t-il le développement de l'IA?A. Il permet une coordination d'agent transparente, une observabilité améliorée, des garde-corps intégrés et un suivi amélioré des performances.
Q5. L'API et les agents des réponses peuvent-ils être utilisés ensemble?R. Oui! Le SDK des agents s'intègre à l'API des réponses pour créer des applications puissantes axées sur l'IA.
Q6. Le SDK des agents d'Openai est-il compatible avec d'autres modèles d'IA?A. Oui, il peut fonctionner avec des modèles tiers qui prennent en charge les intégrations de style API complétionnes.
Q7. Quelles industries peuvent bénéficier des systèmes d'IA multi-agents?A. Les industries comme l'automobile, la finance, les soins de santé, le support client et la recherche peuvent utiliser des agents axés sur l'IA pour optimiser les opérations et la prise de décision.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!