Maison > Périphériques technologiques > IA > Comment exécuter omniparser V2 Microsoft & # 039;

Comment exécuter omniparser V2 Microsoft & # 039;

Christopher Nolan
Libérer: 2025-03-04 10:20:15
original
755 Les gens l'ont consulté

Omniparser V2 de Microsoft est un analyseur d'écran AI de pointe qui extrait les données structurées des GUIS en analysant les captures d'écran, permettant aux agents d'IA d'interagir avec les éléments à l'écran en toute transparence. Parfait pour construire des agents GUI autonomes, cet outil change la donne pour l'automatisation et l'optimisation du flux de travail. Dans ce guide, nous couvrirons comment installer Omniparrser V2 localement, sa mécanique opérationnelle et son intégration avec Omnitool, ainsi que ses applications réelles. Restez à l'écoute pour notre prochain article, où j'explorerai en cours d'exécution Omniparser V2 avec Qwen 2.5 - faisant l'automatisation de l'interface graphique au niveau suivant.

Table des matières

  • Comment fonctionne Omniparrser V2?
  • Prérequis pour l'installation d'Omniparser V2
  • étapes d'installation
    • Étape 1: Clone the conda Reposerser
    • Étape 2: Conseil Environment
    • Étape 4: Installez les dépendances requises à l'aide de pip
    • Étape 5: Télécharger les poids du modèle
    • Étape 6: Exécution des démos
    • Sortie
    omnitool: Amélioration des omniparser V2
  • Applications d'omniparser omniparser V2
  • Conclusion
  • comment fonctionne omniparser v2?

omniparser V2 utilise un processus en deux étapes: détection et sous-titrage. Premièrement, son module de détection repose sur un modèle Yolov8 affiné pour repérer des éléments interactifs comme les boutons, les icônes et les menus dans des captures d'écran. Ensuite, le module de sous-titrage utilise le modèle de fondation Florence-2 pour créer des étiquettes descriptives pour ces éléments, expliquant leurs rôles dans l'interface. Ensemble, ces modules aident les grands modèles de langue (LLMS) à bien comprendre les GUIS, permettant des interactions précises et une exécution des tâches.

Par rapport à son prédécesseur, Omniparser V2 offre des mises à niveau majeures. Il réduit la latence de 60% et améliore la précision, en particulier pour détecter les éléments plus petits. Dans des tests tels que l'écran Procot Pro, Omniparrser V2 associé à GPT-4O a atteint une précision moyenne de 39,6%, un énorme saut par rapport au score de référence de 0,8%. Ces gains proviennent de la formation sur un ensemble de données plus grand et plus détaillé qui comprend des informations riches sur les icônes et leurs fonctions.

Comment exécuter omniparser V2 Microsoft & # 039; Prérequis pour l'installation d'Omniparser v2

Avant de commencer le processus d'installation, assurez-vous que votre système répond aux exigences suivantes:

  • git: installer git pour cloner le référentiel omniparser:
sudo apt install git-all
Copier après la connexion
  • MINICONDA: Installez MINICONDA pour gérer les environnements Python. Les instructions peuvent être trouvées dans: Guide d'installation de MiniConda.
  • NVIDIA CUDA Toolkit et CUDA Compilateurs: requis pour l'accélération du GPU. Téléchargez le fichier approprié pour votre système d'exploitation à partir de: CUDA Téléchargements. Alternativement, vous pouvez tout installer en installant WSL sous Windows en utilisant:
wsl --install
Copier après la connexion

étapes d'installation

Maintenant que vous avez toutes les choses prêtes, envisageons d'installer omniparser v2:

Étape 1: cloner le référentiel omniparter

Ouvrez votre terminal et clone le référentiel omniparser de GitHub:

git clone https://github.com/microsoft/OmniParser
cd OmniParser
Copier après la connexion

Étape 2: Configurez l'environnement conda

Créez un environnement conda nommé «Omni» avec Python 3.12:

conda create -n "omni" python==3.12
Copier après la connexion

Étape 3: Activez l'environnement

conda activate omni
Copier après la connexion

Étape 4: Installez les dépendances requises à l'aide de pip

pip install -r requirements.txt
Copier après la connexion

Étape 5: Télécharger les poids du modèle

Téléchargez les poids V2 et placez-les dans le dossier des poids. Assurez-vous que le dossier de poids de légende est nommé icon_caption_florence. Si ce n'est pas téléchargé, utilisez:

rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence

huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights

mv weights/icon_caption weights/icon_caption_florence
Copier après la connexion

Étape 6: Exécution des démos

Pour exécuter la démo Gradio, exécutez:

python gradio_demo.py
Copier après la connexion

Comment exécuter omniparser V2 Microsoft & # 039;

Comment exécuter omniparser V2 Microsoft & # 039;

sortie

Comment exécuter omniparser V2 Microsoft & # 039;

omnitool: améliorer omniparser v2

omnitool est une machine virtuelle Windows 11 qui intègre omniparser à un LLM (comme GPT-4O) pour permettre des actions agentiques entièrement autonomes.

Avantages de l'utilisation d'Omnitool:

  • Actions agentiques autonomes: permet aux agents de l'IA d'effectuer des tâches sans intervention humaine.
  • Automatisation du monde réel: facilite l'automatisation des tâches répétitives grâce à l'interaction GUI.
  • Solutions d'accessibilité: Fournit des données structurées pour les technologies d'assistance.
  • Analyse de l'interface utilisateur: analyse et améliore les interfaces utilisateur en fonction des données structurées extraites.

Applications d'Omniparser v2

Les capacités d'Omniparser V2 ouvrent de nombreuses applications:

  • Automatisation de l'interface utilisateur: Automatisation des interactions avec les interfaces utilisateur graphiques.
  • Solutions d'accessibilité: Fournir des solutions pour les utilisateurs handicapés.
  • Analyse de l'interface utilisateur: Analyser et améliorer la conception de l'interface utilisateur basée sur des données structurées extraites.

Conclusion

omniparser V2 est un bond en avant dans l'analyse visuelle AI, connectant de manière transparente le texte du texte et des données visuelles. Avec sa vitesse, sa précision et son intégration transparente, c'est un outil incontournable pour les développeurs et les entreprises qui cherchent à créer des solutions alimentées par l'IA. Dans notre prochain article, nous plongerons dans l'exécution d'Omniparrser V2 avec Qwen 2.5, débloquant encore plus de potentiel pour les applications du monde réel. Restez à l'écoute!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal