Microsoft的Omniparser V2和Omnitool:用AI
徹底改變GUI自動化
想像AI不僅可以理解,還可以像經驗豐富的專業人員一樣與Windows 11界面進行互動。 Microsoft的OmniparSer V2和Omnitool使其成為現實,增強了重新定義任務自動化和用戶體驗的自主GUI代理。本指南提供了建立本地環境並利用其潛力的實際演練,從簡化工作流程到解決現實世界中的問題。 準備建立自己的聰明視覺代理嗎?讓我們開始!
密鑰學習目標:
介紹Microsoft Omniparser V2
理解Omnitool一個精心調整的yolov8模型在屏幕截圖中標識交互式元素(按鈕,圖標,菜單)。
omniparser v2設置指南
>>充分利用OmniparSer V2,請按照以下步驟:
>先決條件:
克隆OmniparSer V2存儲庫:
git clone https://github.com/microsoft/OmniParser
cd OmniParser
conda create -n "omni" python==3.12
使用huggingface-cli:(原始文章中提供的命令)conda activate omni
>
>啟動OmniParser V2服務器,並使用示例屏幕截圖進行測試:
python gradio_demo.py
Omnitool設置指南
>先決條件:
30GB免費磁盤空間(ISO,Docker容器,存儲)。 docker桌面安裝了。
Windows 11企業評估ISO(重命名為custom.iso並放置在OmniParser/omnitool/omnibox/vm/win11iso
> 創建docker容器並安裝ISO:
(這可能需要20-90分鐘)。cd OmniParser/omnitool/omnibox/scripts
通過Gradio運行Omnitool:cd OmniParser/omnitool/gradio
conda activate omni
python app.py –windows_host_url localhost:8006 –omniparser_server_url localhost:8000
(其餘部分 - 代理互動,支持的視力模型,負責的AI和風險緩解,現實世界中的應用,結論和常見問題 - 在很大程度上與原始文章不變,並且可以在此處包括。)
以上是使用OmniparSer V2和Omnitool建立本地視覺代理的詳細內容。更多資訊請關注PHP中文網其他相關文章!