Microsoft의 Omniparser v2는 스크린 샷을 분석하여 GUI의 구조화 된 데이터를 추출하여 AI 에이전트가 화면 요소와 매끄럽게 상호 작용할 수있는 최첨단 AI 화면 파서입니다. 자율 GUI 에이전트를 구축하는 데 적합한이 도구는 자동화 및 워크 플로 최적화를위한 게임 체인저입니다. 이 안내서에서는 Omniparser V2를 로컬로 설치하는 방법, 운영 역학 및 Omnitool과의 통합 및 실제 응용 프로그램을 포함합니다. 다음 기사를 계속 지켜봐 주시면 Qwen 2.5로 Omniparser v2를 실행하는 것을 탐색 할 것입니다. GUI 자동화를 다음 단계로 끌어 올리십시오.
목차
Omniparser v2가 어떻게 작동하는지?
Omniparser v2 설치 단계 단계 2 : 컨테이프 4 단계 : 4 단계 : PIP를 사용하여 필요한 종속성을 설치합니다. 5 단계 : 모델 중량 다운로드 6 단계 : 실행 실행 데모 출력
omnitool : omniparser v2 v2 결론
omniparser v2는 어떻게 작동합니까?
Omniparser v2는 2 단계 프로세스 인 탐지 및 캡션을 사용합니다. 먼저, 탐지 모듈은 미세 조정 된 YOLOV8 모델에 의존하여 스크린 샷에서 버튼, 아이콘 및 메뉴와 같은 대화 형 요소를 발견합니다. 다음으로 캡션 모듈은 Florence-2 Foundation 모델을 사용하여 이러한 요소에 대한 설명 레이블을 만들어 인터페이스 내에서의 역할을 설명합니다. 이 모듈은 함께 대형 언어 모델 (LLM)이 GUI를 완전히 이해하여 정확한 상호 작용 및 작업 실행을 가능하게합니다.
는 전임자와 비교하여 Omniparser V2가 주요 업그레이드를 제공합니다. 대기 시간을 60% 줄이고 특히 작은 요소를 감지하기 위해 정확도를 향상시킵니다. Screenspot Pro와 같은 테스트에서 Omniparser v2는 GPT-4O와 쌍을 이루는 평균 정확도를 39.6%로 달성했으며, 이는 기준선 점수 0.8%에서 큰 도약을 기록했습니다. 이러한 이익은 아이콘과 그 기능에 대한 풍부한 정보를 포함하는 더 크고 자세한 데이터 세트에 대한 교육에서 비롯됩니다.
<li> </li>
<is> Omniparser v2 <li>의 설치를위한 전제 조건
<the> 설치 프로세스를 시작하기 전에 시스템이 다음 요구 사항을 충족하는지 확인하십시오.<ul>
git : git을 설치하여 Omniparser 저장소를 복제하십시오 :
<li>
<strong>
</strong>
</li> 미니 컨다 : </ul> 파이썬 환경 관리를위한 미니 컨다 설치. 지침은 : Miniconda 설치 안내서
NVIDIA CUDA 툴킷 및 CUDA 컴파일러 : GPU 가속도에 필요합니다. 운영 체제에 적합한 파일을 다운로드하십시오 : Cuda Downloads. 또는 Windows에서 WSL을 설치하여 모든 것을 설치할 수 있습니다.
<pre class="brush:php;toolbar:false">sudo apt install git-all로그인 후 복사
설치 단계
이제 모든 것이 준비되었으므로 Omniparser v2 설치를 살펴 보겠습니다.
1 단계 : Omniparser 저장소를 복제하십시오
- 터미널을 열고 github에서 Omniparser 저장소를 복제하십시오 :
2 단계 : 콘다 환경을 설정
Python 3.12 : 와 함께 "Omni"라는 콘다 환경을 만듭니다
3 단계 : 환경을 활성화 -
4 단계 : PIP 를 사용하여 필요한 종속성을 설치하십시오
5 단계 : 모델 중량 다운로드
V2 가중치를 다운로드하여 가중치 폴더에 배치하십시오. 캡션 웨이트 폴더의 이름이 ICON_CAPTION_FLORENCE로 명명하십시오. 다운로드하지 않으면 사용하십시오 :
6 단계 : 실행 데모 wsl --install
Gradio 데모를 실행하려면 실행 :
출력
omnitool : Omniparser v2 향상
omnitool은 Omniparser를 LLM (예 : GPT-4O)과 통합하여 완전히 자율적 인 에이전트 작업을 가능하게하는 Windows 11 가상 머신입니다.
omnitool 사용의 이점 : git clone https://github.com/microsoft/OmniParser
cd OmniParser
로그인 후 복사
자율 에이전트 행동 :
AI 에이전트가 사람의 개입없이 작업을 수행 할 수있게합니다.
실제 자동화 : GUI 상호 작용을 통해 반복적 인 작업의 자동화를 용이하게합니다.
접근성 솔루션 : conda create -n "omni" python==3.12
로그인 후 복사
보조 기술에 대한 구조화 된 데이터를 제공합니다
사용자 인터페이스 분석 : 추출 된 구조화 된 데이터를 기반으로 사용자 인터페이스를 분석하고 향상시킵니다.
Omniparser v2 conda activate omni
로그인 후 복사
의 응용
Omniparser v2의 기능은 수많은 응용 프로그램을 열어줍니다 :
UI 자동화 : - 그래픽 사용자 인터페이스와의 상호 작용 자동화
접근성 솔루션 : 장애 사용자를위한 솔루션 제공
사용자 인터페이스 분석 : 추출 된 구조화 된 데이터를 기반으로 사용자 인터페이스 설계 분석 및 개선.
- 결론
Omniparser v2는 AI 시각적 구문 분석에서 주요 도약이며 텍스트 및 시각적 데이터 처리를 원활하게 연결합니다. 속도, 정밀성 및 원활한 통합으로 AI 기반 솔루션을 구축하려는 개발자와 비즈니스를위한 필수 도구입니다. 다음 기사에서는 Qwen 2.5와 함께 Omniparser v2를 실행하여 실제 응용 프로그램에 대한 더 많은 잠재력을 해제 할 것입니다. 계속 지켜봐주십시오!
위 내용은 Microsoft ' S Omniparser V2 로컬에서 실행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!