如何在本地运行Microsoft＆＃039; Omniparser V2？-人工智能-PHP中文网

如何在本地运行Microsoft＆＃039; Omniparser V2？

Christopher Nolan

发布： 2025-03-04 10:20:15

原创

754 人浏览过

Microsoft的OmniParser V2是一种尖端的AI屏幕解析器，通过分析屏幕截图从GUI中提取结构化数据，使AI代理能够无缝与屏幕上的元素进行交互。该工具非常适合构建自主GUI代理，是自动化和工作流优化的游戏改变者。在本指南中，我们将介绍如何在本地安装OmniParser V2，其运营力学以及与Omnitool的集成以及其现实世界应用程序。请继续关注我们的下一篇文章，我将在其中探索以QWEN 2.5的OmniparSer v2（将GUI Automation to News formation to Omniparser V2）。目录的内容表

>

omlniparser v2的工作方式？

>步骤4：使用PIP

>步骤5：下载型号的权重

>步骤6：运行演示

如何在本地运行Microsoft＆＃039; Omniparser V2？

结论 omniparser v2的工作方式？> omlniparser V2使用两个步骤的过程：检测和字幕。首先，其检测模块依赖于微调的Yolov8模型来在屏幕截图中发现按钮，图标和菜单等交互元素。接下来，字幕模块使用Florence-2基础模型为这些元素创建描述性标签，并解释了它们在接口中的角色。这些模块一起帮助大型语言模型（LLMS）完全了解GUI，实现了精确的交互和任务执行。与其前任相比，OmniParser V2提供了重大升级。它可将延迟降低60％并提高准确性，尤其是用于检测较小的元素。在Screenspot Pro之类的测试中，Omniparser V2与GPT-4O配对的平均准确度为39.6％，比基线得分的巨大飞跃为0.8％。这些收益来自对更大，更详细的数据集进行培训，其中包含有关图标及其功能的丰富信息。 >安装OmniParser V2的先决条件在开始安装过程之前

git：>安装git以克隆omniparser存储库：

sudo apt install git-all

登录后复制

> miniconda：>安装用于管理Python环境的Miniconda。可以在以下说明中找到：Miniconda安装指南。

GPU加速所需。从：CUDA下载下载适合您操作系统的适当文件。另外，您可以使用以下方式在Windows中安装WSL来安装所有内容

>安装步骤

>现在您已经准备好所有的东西了，让我们看安装OmniParser v2：>

wsl --install

登录后复制

>步骤1：克隆omniparser存储库

>打开您的终端，然后从github中克隆omniparser存储库：

>

>步骤2：设置Conda环境创建一个名为“ Omni”的conda环境，用python 3.12：

git clone https://github.com/microsoft/OmniParser
cd OmniParser

登录后复制

步骤3：激活环境

>步骤4：使用PIP

安装所需的依赖项

conda create -n "omni" python==3.12

登录后复制

步骤5：下载型号

conda activate omni

登录后复制

>下载V2权重，然后将其放入权重文件夹中。确保字幕称为ICON_CAPTION_FLORENCE。如果未下载，请使用：

pip install -r requirements.txt

登录后复制

>步骤6：运行演示

运行Gradio演示，执行：

rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence

huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights

mv weights/icon_caption weights/icon_caption_florence

登录后复制