使用OmniparSer V2和Omnitool建立本地視覺代理-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

使用OmniparSer V2和Omnitool建立本地視覺代理

尊渡假赌尊渡假赌尊渡假赌

Mar 03, 2025 pm 07:08 PM

Microsoft的Omniparser V2和Omnitool：用AI

徹底改變GUI自動化

想像AI不僅可以理解，還可以像經驗豐富的專業人員一樣與Windows 11界面進行互動。 Microsoft的OmniparSer V2和Omnitool使其成為現實，增強了重新定義任務自動化和用戶體驗的自主GUI代理。本指南提供了建立本地環境並利用其潛力的實際演練，從簡化工作流程到解決現實世界中的問題。準備建立自己的聰明視覺代理嗎？讓我們開始！

密鑰學習目標：

識別OmniparSer V2和Omnitool的現實應用程序在自動化和可訪問性中
表：

介紹Microsoft Omniparser V2

理解Omnitool

omlniparser v2設置
>先決條件
>安裝
- 驗證
- omnitool設置
>先決條件
VM配置
- 通過Gradio
- 代理相互作用
支持的視覺模型
負責AI和風險緩解
現實世界應用
結論
常見問題
Microsoft OmniparSer V2：深水潛水

> 檢測模塊：

一個精心調整的yolov8模型在屏幕截圖中標識交互式元素（按鈕，圖標，菜單）。

Florence-2基礎模型生成描述性標籤，澄清元素函數。
Omnitool：編排

Building a Local Vision Agent using OmniParser V2 and OmniTool

omniparser v2設置指南

>充分利用OmniparSer V2，請按照以下步驟：

>先決條件：

通過Conda環境進行的必要依賴性。

>安裝：

克隆OmniparSer V2存儲庫：

導航到存儲庫：git clone https://github.com/microsoft/OmniParser
創建並激活一個conda環境：cd OmniParser
> conda create -n "omni" python==3.12使用huggingface-cli：（原始文章中提供的命令）conda activate omni>
>驗證：

>啟動OmniParser V2服務器，並使用示例屏幕截圖進行測試：

python gradio_demo.py

Building a Local Vision Agent using OmniParser V2 and OmniTool Omnitool設置指南

>先決條件：

30GB免費磁盤空間（ISO，Docker容器，存儲）。 docker桌面安裝了。

Windows 11企業評估ISO（重命名為custom.iso並放置在

OmniParser/omnitool/omnibox/vm/win11iso

>導航到VM管理腳本目錄：

> 創建docker容器並安裝ISO：

（這可能需要20-90分鐘）。

> cd OmniParser/omnitool/omnibox/scripts 通過Gradio運行Omnitool：
1. 導航到Gradio目錄：cd OmniParser/omnitool/gradio
2. 激活您的conda環境：conda activate omni
3. 啟動服務器：python app.py –windows_host_url localhost:8006 –omniparser_server_url localhost:8000
4. >訪問終端中顯示的URL，輸入API鍵，然後與AI代理進行交互。確保在單獨的終端窗口中運行的所有組件（OmniParser Server，Omnitool VM，Gradio接口）。
（其餘部分 - 代理互動，支持的視力模型，負責的AI和風險緩解，現實世界中的應用，結論和常見問題 - 在很大程度上與原始文章不變，並且可以在此處包括。）