Omniparser V2 및 Omnitool을 사용하여 지역 비전 에이전트 구축
Microsoft의 Omniparser v2 및 Omnitool : ai
로 GUI 자동화 혁명
Microsoft Omniparser v2 : 딥 다이브
설치
- 캡션 모듈 :
- Florence-2 Foundation 모델은 설명 레이블을 생성하고 요소 기능을 명확하게합니다. 이 결합 된 접근 방식을 사용하면 대형 언어 모델 (LLM)이 GUI를 완전히 이해하여 정확한 상호 작용 및 작업 완료를 가능하게합니다. Omniparser V2는 전임자를 크게 향상시켜 60%의 대기 시간 감소와 특히 작은 요소의 경우 정확도를 높이고 있습니다. omnitool : 오케스트레이터
-
omnitool은 Omniparser v2를 주요 LLM (OpenAi, DeepSeek, Qwen, Anthropic)과 통합하는 Dockerized Windows 시스템입니다. 이러한 통합은 AI 에이전트의 완전히 자율적 인 동작을 용이하게하여 반복적 인 GUI 상호 작용을 간소화합니다. Omnitool은 에이전트 테스트 및 배포를위한 안전한 샌드 박스를 제공하여 실제 시나리오에서 효율성과 안전을 보장합니다. Omniparser v2를 완전히 활용하려면 다음 단계를 따르십시오 전제 조건 : 시스템에 설치된 파이썬 콘다 환경을 통한 필요한 종속성 설치 :
Omniparser v2 저장소를 복제하십시오 : 리포지토리로 이동 : 콘다 환경을 생성하고 활성화하십시오 : huggingface-cli를 사용하여 v2 weights (icon_caption_florence) 다운로드 : (원본 기사에 제공된 명령) - 검증 :
-
샘플 스크린 샷을 사용하여 Omniparser v2 서버를 시작하고 테스트 :
전제 조건 :
VM 구성 :30GB 프리 디스크 공간 (ISO, Docker Container, Storage) Docker Desktop 설치. Windows 11 Enterprise Evaluation ISO (Custom.ISO로 이름을 바꾸고 에 배치). -
VM 관리 스크립트 디렉토리로 이동하십시오 : git clone https://github.com/microsoft/OmniParser
Docker 컨테이너를 생성하고 ISO를 설치하십시오 : (이것은 20-90 분이 걸릴 수 있습니다).
-
Gradio를 통해 Omnitool을 실행하는 :
cd OmniParser
-
콘다 환경을 활성화하십시오 : cd OmniParser/omnitool/gradio
<:> 서버를 시작하십시오 : -
conda activate omni
-
python app.py –windows_host_url localhost:8006 –omniparser_server_url localhost:8000
(나머지 섹션-에이전트 상호 작용, 지원되는 비전 모델, 책임있는 AI 및 위험 완화, 실제 응용 프로그램, 결론 및 자주 묻는 질문은 원래 기사에서 크게 변경되지 않으며 여기에 포함시킬 수 있습니다.)
Gradio 디렉토리로 이동하십시오 : 터미널에 표시된 URL에 액세스하고 API 키를 입력 한 다음 AI 에이전트와 상호 작용하십시오. 모든 구성 요소 (Omniparser Server, Omnitool VM, Gradio 인터페이스)가 별도의 터미널 창에서 실행되는지 확인하십시오. -
(VM을 시작, 정지 및 삭제하기위한 추가 지침은 원본 기사에 있습니다.) -
위 내용은 Omniparser V2 및 Omnitool을 사용하여 지역 비전 에이전트 구축의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

소개 OpenAi는 기대가 많은 "Strawberry"아키텍처를 기반으로 새로운 모델을 출시했습니다. O1로 알려진이 혁신적인 모델은 추론 기능을 향상시켜 문제를 통해 생각할 수 있습니다.

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

에이전트 AI에서 작업하는 동안 개발자는 종종 속도, 유연성 및 자원 효율성 사이의 상충 관계를 탐색하는 것을 발견합니다. 나는 에이전트 AI 프레임 워크를 탐구하고 Agno를 만났다 (이전에는 ph-이었다.

문제가있는 벤치 마크 : 라마 사례 연구 2025 년 4 월 초, Meta는 LLAMA 4 제품군을 공개하여 GPT-4O 및 Claude 3.5 Sonnet과 같은 경쟁자들에 대해 호의적으로 배치 한 인상적인 성능 지표를 자랑했습니다. Launc의 중심

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다
