VisionAgent d'Andrew Ng: rationalisation des solutions de vision AI-IA-php.cn

VisionAgent: révolutionner le développement des applications de vision par ordinateur

La vision informatique transforme des industries comme les soins de santé, la fabrication et le commerce de détail. Cependant, la construction de solutions basées sur la vision est souvent complexe et prend du temps. Landingai, dirigé par Andrew Ng, présente VisionAgent, un constructeur d'applications Visual AI génératif conçu pour simplifier l'ensemble du processus - de la création et de l'itération au déploiement.

La détection d'objets agentiques de VisionAgent élimine le besoin d'un étiquetage des données long et de la formation du modèle, dépassant les méthodes traditionnelles de détection d'objets. Sa détection basée sur l'invite de texte permet un prototypage et un déploiement rapides, en utilisant un raisonnement avancé pour les résultats de haute qualité et la reconnaissance d'objets complexes polyvalents.

Les fonctionnalités clés incluent:

Détection basée sur l'invite de texte: Aucun étiquetage de données ou formation modèle requis.
Raisonnement avancé: assure des sorties précises et de haute qualité.
Reconnaissance polyvalente: gère efficacement les objets et les scénarios complexes.

VisionAgent dépasse la génération de code simple; Il agit comme un assistant alimenté par l'IA, guidant les développeurs à travers la planification, la sélection des outils, la génération de code et le déploiement. Cette assistance en IA permet aux développeurs d'itérer en quelques minutes, pas des semaines.

Table des matières

Écosystème VisionAgent
Évaluation de référence
VisionAgent en action
1. Invite: "détecter les légumes dans et autour du panier"
1. Invite: "Identifier la voiture rouge dans la vidéo"
Conclusion

Écosystème VisionAgent

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

VisionAgent comprend trois composants centraux pour une expérience de développement rationalisée:

Application Web VisionAgent
Bibliothèque VisionAgent
Bibliothèque des outils VisionAgent

Comprendre leur interaction est crucial pour maximiser le potentiel de VisionAgent.

1. Application Web VisionAgent

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

L'application Web VisionAgent est une plate-forme hébergée conviviale et hébergée pour le prototypage, le raffinage et le déploiement d'applications de vision sans configuration approfondie. Son interface Web intuitive permet aux utilisateurs de:

Télécharger et traiter facilement les données.
générer et tester le code de vision de l'ordinateur.
visualiser et ajuster les résultats.
Déployer les solutions sous forme de points de terminaison cloud ou de rationalisation des applications.

Cette approche à faible code est idéale pour expérimenter des applications de vision alimentées par l'IA sans environnements de développement locaux complexes.

2. Bibliothèque VisionAgent

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

La bibliothèque VisionAgent forme le noyau du cadre, offrant des fonctionnalités essentielles pour la création et le déploiement d'applications de vision axées par l'IA. Les caractéristiques clés incluent:

Planification basée sur les agents: génère plusieurs solutions et sélectionne automatiquement la.
Sélection et exécution des outils: choisit dynamiquement des outils appropriés pour diverses tâches de vision.
Génération et évaluation de code: produit des implémentations basées sur Python efficaces.
Support du modèle de vision intégré: utilise divers modèles de vision informatique pour la détection d'objets, la classification et la segmentation d'images.
Intégration locale et cloud: Active l'exécution locale ou utilise des modèles hébergés de cloud de Landingai pour l'évolutivité.

Une application de chat alimentée par rationalisation fournit une interaction plus intuitive pour les utilisateurs préférant une interface de chat.

3. Bibliothèque des outils VisionAgent

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

La bibliothèque VisionAgent Tools propose une collection d'outils prédéfinis et basés sur Python pour des tâches de vision informatique spécifiques:

Détection d'objets: Identifie et localise des objets dans des images ou des vidéos.
Classification d'images: Catégorise des images basées sur des modèles d'IA formés.
La lecture du code QR: extrait les informations des codes QR.
Comptage des articles: Compte les objets pour les stocks ou le suivi.

Ces outils interagissent avec divers modèles de vision via un registre de modèles dynamiques, permettant une commutation de modèle transparente. Les développeurs peuvent également enregistrer des outils personnalisés. Notez que les services de déploiement ne sont pas inclus dans la bibliothèque des outils.

Évaluation de référence

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

1. Modèles et approches

Landing Ai (détection d'objets agentiques): catégorie agentique.
Microsoft Florence-2: Ouvrir la détection des objets.
google owlv2: ouvrir la détection des objets.
Alibaba qwen2.5-vl-7b-instruit: grand modèle multimodal (LMM).

2. Métriques d'évaluation

Les modèles

ont été évalués en utilisant:

Rappel: mesure la capacité du modèle à identifier tous les objets pertinents.
Précision: Mesure la précision des détections (moins de faux positifs).
F1 Score: Une mesure équilibrée de précision et de rappel.

3. Comparaison des performances

Modèle Rappel précision f1 Score Landing Ai 77,0% 82,6%

Model	Recall	Precision	F1 Score
Landing AI	77.0%	82.6%	79.7% (highest)
Microsoft Florence-2	43.4%	36.6%	39.7%
Google OWLv2	81.0%	29.5%	43.2%
Alibaba Qwen2.5-VL-7B-Instruct	26.0%	54.0%	35.1%

79,7% (le plus élevé) Microsoft Florence-2 43,4% 36,6% 39,7% Google Owlv2 81,0% 29,5% 43,2% Alibaba Qwen2.5-VL-7B-Instruct 26,0% 54,0% 35,1% table>

4. Résultats clés

Landing La détection d'objets agentiques de l'AI a atteint le score F1 le plus élevé, indiquant le meilleur équilibre de précision et de rappel. D'autres modèles ont montré des compromis entre le rappel et la précision.

VisionAgent en action

VisionAgent utilise un flux de travail structuré:

Téléchargez l'image ou la vidéo.
Fournir une invite de texte (par exemple, "détecter les personnes avec des lunettes").
VisionAgent analyse l'entrée.
recevoir les résultats de détection.
Invite: "détecter les légumes dans et autour du panier"

Étape 1: Interaction

L'utilisateur initie la demande en utilisant le langage naturel. VisionAgent confirme la compréhension.

Image d'entrée

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

Exemple d'interaction

"Je vais générer du code pour détecter les légumes à l'intérieur et à l'extérieur du panier en utilisant la détection d'objets."

Étape 2: Planification

VisionAgent détermine la meilleure approche:

Comprendre le contenu de l'image en utilisant la réponse à la question visuelle (VQA).
Générer des suggestions pour la méthode de détection.
Sélectionnez des outils appropriés (détection d'objets, classification basée sur les couleurs).

Étape 3: Exécution

Le plan est exécuté à l'aide de la bibliothèque VisionAgent et de la bibliothèque d'outils.

Observation et sortie

VisionAgent fournit des résultats structurés:

légumes détectés classés par emplacement (panier à l'intérieur / extérieur).
coordonnées de la boîte de délimitation pour chaque légume.
un modèle AI déployable.

Exemples de sortie

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

Invite: "Identifier la voiture rouge dans la vidéo"

Cet exemple suit un processus similaire, en utilisant des trames vidéo, VQA et des suggestions pour identifier et suivre la voiture rouge. La sortie afficherait la voiture voilée tout au long de la vidéo. (Exemples d'image de sortie omis pour la concision, mais serait similaire en style à la sortie de détection de légumes).

Conclusion

VisionAgent rationalise le développement d'applications de vision dirigée par l'IA, l'automatisation des tâches fastidieuses et la fourniture d'outils prêts à l'emploi. Sa vitesse, sa flexibilité et son évolutivité profitent aux chercheurs, développeurs et entreprises. Les progrès futurs incorporeront probablement des modèles plus puissants et un support d'application plus large.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!