> 기술 주변기기 > 일체 포함 > Microsoft ' S Omniparser V2 로컬에서 실행하는 방법은 무엇입니까?

Microsoft ' S Omniparser V2 로컬에서 실행하는 방법은 무엇입니까?

Christopher Nolan
풀어 주다: 2025-03-04 10:20:15
원래의
755명이 탐색했습니다.

Microsoft의 Omniparser v2는 스크린 샷을 분석하여 GUI의 구조화 된 데이터를 추출하여 AI 에이전트가 화면 요소와 매끄럽게 상호 작용할 수있는 최첨단 AI 화면 파서입니다. 자율 GUI 에이전트를 구축하는 데 적합한이 도구는 자동화 및 워크 플로 최적화를위한 게임 체인저입니다. 이 안내서에서는 Omniparser V2를 로컬로 설치하는 방법, 운영 역학 및 Omnitool과의 통합 및 실제 응용 프로그램을 포함합니다. 다음 기사를 계속 지켜봐 주시면 Qwen 2.5로 Omniparser v2를 실행하는 것을 탐색 할 것입니다. GUI 자동화를 다음 단계로 끌어 올리십시오. 목차

Omniparser v2가 어떻게 작동하는지?

Omniparser v2 설치 단계
  • 단계 2 : 컨테이프 4 단계 : 4 단계 : PIP를 사용하여 필요한 종속성을 설치합니다. 5 단계 : 모델 중량 다운로드
  • 6 단계 : 실행 실행 데모
  • 출력
  • omnitool : omniparser v2
  • v2
  • 결론
  • omniparser v2는 어떻게 작동합니까? Omniparser v2는 2 단계 프로세스 인 탐지 및 캡션을 사용합니다. 먼저, 탐지 모듈은 미세 조정 된 YOLOV8 모델에 의존하여 스크린 샷에서 버튼, 아이콘 및 메뉴와 같은 대화 형 요소를 발견합니다. 다음으로 캡션 모듈은 Florence-2 Foundation 모델을 사용하여 이러한 요소에 대한 설명 레이블을 만들어 인터페이스 내에서의 역할을 설명합니다. 이 모듈은 함께 대형 언어 모델 (LLM)이 GUI를 완전히 이해하여 정확한 상호 작용 및 작업 실행을 가능하게합니다.
    는 전임자와 비교하여 Omniparser V2가 주요 업그레이드를 제공합니다. 대기 시간을 60% 줄이고 특히 작은 요소를 감지하기 위해 정확도를 향상시킵니다. Screenspot Pro와 같은 테스트에서 Omniparser v2는 GPT-4O와 쌍을 이루는 평균 정확도를 39.6%로 달성했으며, 이는 기준선 점수 0.8%에서 큰 도약을 기록했습니다. 이러한 이익은 아이콘과 그 기능에 대한 풍부한 정보를 포함하는 더 크고 자세한 데이터 세트에 대한 교육에서 비롯됩니다. <li> </li> <is> Omniparser v2 <li>의 설치를위한 전제 조건 <the> 설치 프로세스를 시작하기 전에 시스템이 다음 요구 사항을 충족하는지 확인하십시오.<ul> git : git을 설치하여 Omniparser 저장소를 복제하십시오 : <li> <strong> </strong> </li> 미니 컨다 : </ul> 파이썬 환경 관리를위한 미니 컨다 설치. 지침은 : Miniconda 설치 안내서 NVIDIA CUDA 툴킷 및 CUDA 컴파일러 : GPU 가속도에 필요합니다. 운영 체제에 적합한 파일을 다운로드하십시오 : Cuda Downloads. 또는 Windows에서 WSL을 설치하여 모든 것을 설치할 수 있습니다. <pre class="brush:php;toolbar:false">sudo apt install git-all
    로그인 후 복사
      설치 단계 이제 모든 것이 준비되었으므로 Omniparser v2 설치를 살펴 보겠습니다. 1 단계 : Omniparser 저장소를 복제하십시오
    • 터미널을 열고 github에서 Omniparser 저장소를 복제하십시오 : 2 단계 : 콘다 환경을 설정 Python 3.12 : 와 함께 "Omni"라는 콘다 환경을 만듭니다
    • 3 단계 : 환경을 활성화
    • 4 단계 : PIP 를 사용하여 필요한 종속성을 설치하십시오 5 단계 : 모델 중량 다운로드 V2 가중치를 다운로드하여 가중치 폴더에 배치하십시오. 캡션 웨이트 폴더의 이름이 ICON_CAPTION_FLORENCE로 명명하십시오. 다운로드하지 않으면 사용하십시오 :
    6 단계 : 실행 데모 wsl --install Gradio 데모를 실행하려면 실행 :

    출력

    omnitool : Omniparser v2 향상 omnitool은 Omniparser를 LLM (예 : GPT-4O)과 통합하여 완전히 자율적 인 에이전트 작업을 가능하게하는 Windows 11 가상 머신입니다.

    omnitool 사용의 이점 :
    git clone https://github.com/microsoft/OmniParser
    cd OmniParser
    로그인 후 복사

    자율 에이전트 행동 :

    AI 에이전트가 사람의 개입없이 작업을 수행 할 수있게합니다. 실제 자동화 :

    GUI 상호 작용을 통해 반복적 인 작업의 자동화를 용이하게합니다.

    접근성 솔루션 :
    conda create -n "omni" python==3.12
    로그인 후 복사
    보조 기술에 대한 구조화 된 데이터를 제공합니다 사용자 인터페이스 분석 :

    추출 된 구조화 된 데이터를 기반으로 사용자 인터페이스를 분석하고 향상시킵니다.

    Omniparser v2
    conda activate omni
    로그인 후 복사
    의 응용 Omniparser v2의 기능은 수많은 응용 프로그램을 열어줍니다 :
      UI 자동화 :
    • 그래픽 사용자 인터페이스와의 상호 작용 자동화 접근성 솔루션 : 장애 사용자를위한 솔루션 제공 사용자 인터페이스 분석 : 추출 된 구조화 된 데이터를 기반으로 사용자 인터페이스 설계 분석 및 개선.
    • 결론 Omniparser v2는 AI 시각적 구문 분석에서 주요 도약이며 텍스트 및 시각적 데이터 처리를 원활하게 연결합니다. 속도, 정밀성 및 원활한 통합으로 AI 기반 솔루션을 구축하려는 개발자와 비즈니스를위한 필수 도구입니다. 다음 기사에서는 Qwen 2.5와 함께 Omniparser v2를 실행하여 실제 응용 프로그램에 대한 더 많은 잠재력을 해제 할 것입니다. 계속 지켜봐주십시오!

    위 내용은 Microsoft ' S Omniparser V2 로컬에서 실행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    본 웹사이트의 성명
    본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
    저자별 최신 기사
    인기 튜토리얼
    더>
    최신 다운로드
    더>
    웹 효과
    웹사이트 소스 코드
    웹사이트 자료
    프론트엔드 템플릿