Microsoft的OmniParser V2是一种尖端的AI屏幕解析器,通过分析屏幕截图从GUI中提取结构化数据,使AI代理能够无缝与屏幕上的元素进行交互。该工具非常适合构建自主GUI代理,是自动化和工作流优化的游戏改变者。在本指南中,我们将介绍如何在本地安装OmniParser V2,其运营力学以及与Omnitool的集成以及其现实世界应用程序。请继续关注我们的下一篇文章,我将在其中探索以QWEN 2.5的OmniparSer v2(将GUI Automation to News formation to Omniparser V2)。 目录的内容表
sudo apt install git-all
wsl --install
>步骤2:设置Conda环境
创建一个名为“ Omni”的conda环境,用python 3.12:
git clone https://github.com/microsoft/OmniParser cd OmniParser
>步骤4:使用PIP
安装所需的依赖项conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights mv weights/icon_caption weights/icon_caption_florence
python gradio_demo.py
>输出
使用omnitool:>
>
>现实世界自动化:通过GUI互动来促进重复任务的自动化。
omniparser v2是AI视觉解析,无缝连接文本和视觉数据处理的重大飞跃。凭借其速度,精度和无缝集成,它是希望建立AI驱动解决方案的开发人员和企业的必备工具。在下一篇文章中,我们将潜入使用QWEN 2.5的OmniparSer V2,从而解开了更多的现实应用程序潜力。请继续关注!
以上是如何在本地运行Microsoft' Omniparser V2?的详细内容。更多信息请关注PHP中文网其他相关文章!