Rumah > Peranti teknologi > AI > Bagaimana untuk menjalankan Microsoft ' s omniparser v2 secara tempatan?

Bagaimana untuk menjalankan Microsoft ' s omniparser v2 secara tempatan?

Christopher Nolan
Lepaskan: 2025-03-04 10:20:15
asal
755 orang telah melayarinya

Microsoft's Omniparser V2 adalah parser skrin AI canggih yang mengekstrak data berstruktur dari GUI dengan menganalisis tangkapan skrin, membolehkan ejen AI berinteraksi dengan unsur-unsur di skrin dengan lancar. Sempurna untuk membina ejen GUI autonomi, alat ini adalah penukar permainan untuk pengoptimuman automasi dan aliran kerja. Dalam panduan ini, kami akan meliputi cara memasang Omniparser V2 secara tempatan, mekanik operasinya, dan integrasinya dengan Omnitool, bersama dengan aplikasi dunia sebenar. Tinggal untuk artikel seterusnya kami, di mana saya akan meneroka menjalankan Omniparser v2 dengan Qwen 2.5 -pengambilan automasi GUI ke peringkat seterusnya.

Jadual Kandungan

bagaimana omniparser v2 berfungsi? Persekitaran
    Langkah 4: Pasang kebergantungan yang diperlukan menggunakan PIP
  • Langkah 5: Muat turun Model Berat
  • V2
    • Kesimpulan
    • bagaimana omniparser v2 berfungsi?
    • omniparser v2 menggunakan proses dua langkah: pengesanan dan kapsyen. Pertama, modul pengesanannya bergantung pada model YOLOV8 yang disesuaikan dengan unsur-unsur interaktif seperti butang, ikon, dan menu dalam tangkapan skrin. Seterusnya, modul kapsyen menggunakan model asas Florence-2 untuk membuat label deskriptif untuk unsur-unsur ini, menerangkan peranan mereka dalam antara muka. Bersama -sama, modul ini membantu model bahasa yang besar (LLMS) memahami sepenuhnya GUI, membolehkan interaksi yang tepat dan pelaksanaan tugas.
    • Berbanding dengan pendahulunya, Omniparser v2 menyampaikan peningkatan utama. Ia memotong latensi sebanyak 60% dan meningkatkan ketepatan, terutamanya untuk mengesan elemen yang lebih kecil. Dalam ujian seperti Screenspot Pro, Omniparser V2 yang dipasangkan dengan GPT-4O mencapai ketepatan purata sebanyak 39.6%, lompatan besar dari skor asas 0.8%. Keuntungan ini datang dari latihan pada dataset yang lebih besar dan lebih terperinci yang merangkumi maklumat yang kaya mengenai ikon dan fungsi mereka.
    • prasyarat untuk pemasangan omniparser v2
    • Sebelum anda memulakan proses pemasangan, pastikan sistem anda memenuhi keperluan berikut:
      • git: Pasang git untuk mengklonkan repositori omniparser:
      sudo apt install git-all
      Salin selepas log masuk
      • miniconda: Pasang miniconda untuk menguruskan persekitaran python. Arahan boleh didapati di: Panduan Pemasangan Miniconda.
      • nvidia cuda toolkit dan cuda compilers: diperlukan untuk pecutan GPU. Muat turun fail yang sesuai untuk sistem operasi anda dari: muat turun CUDA. Sebagai alternatif, anda boleh memasang segala -galanya dengan memasang WSL di Windows menggunakan:
      wsl --install
      Salin selepas log masuk

      Langkah -langkah pemasangan

      Sekarang anda mempunyai semua perkara yang siap, mari kita lihat memasang Omniparser v2:

      Langkah 1: klon repositori omniparser

      Buka terminal anda dan klon repositori omniparser dari GitHub:

    git clone https://github.com/microsoft/OmniParser
    cd OmniParser
    Salin selepas log masuk

    Langkah 2: Sediakan persekitaran konda

    Buat persekitaran conda bernama "Omni" dengan Python 3.12:

    conda create -n "omni" python==3.12
    Salin selepas log masuk

    Langkah 3: Aktifkan Alam Sekitar

    conda activate omni
    Salin selepas log masuk

    Langkah 4: Pasang kebergantungan yang diperlukan menggunakan PIP

    pip install -r requirements.txt
    Salin selepas log masuk

    Langkah 5: Muat turun model berat

    Muat turun berat V2 dan letakkannya dalam folder Weights. Pastikan folder Weights Caption dinamakan icon_caption_florence. Jika tidak dimuat turun, gunakan:

    rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
    
    huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights
    
    mv weights/icon_caption weights/icon_caption_florence
    Salin selepas log masuk

    Langkah 6: Demos Menjalankan

    untuk menjalankan demo Gradio, laksanakan:

    python gradio_demo.py
    Salin selepas log masuk

    Bagaimana untuk menjalankan Microsoft ' s omniparser v2 secara tempatan?

    Bagaimana untuk menjalankan Microsoft ' s omniparser v2 secara tempatan? output

    omnitool: meningkatkan omniparser v2 Bagaimana untuk menjalankan Microsoft ' s omniparser v2 secara tempatan?

    Omnitool adalah mesin maya Windows 11 yang mengintegrasikan Omniparser dengan LLM (seperti GPT-4O) untuk membolehkan tindakan agenik autonomi sepenuhnya.

    faedah menggunakan omnitool:

    Tindakan Autonomi Autonomi:

    membolehkan ejen AI melaksanakan tugas tanpa campur tangan manusia.
    • automasi dunia nyata: memudahkan automasi tugas berulang melalui interaksi GUI.
    • Penyelesaian Kebolehcapaian: Menyediakan data berstruktur untuk teknologi bantuan.
    • Analisis Antara Muka Pengguna
    • : menganalisis dan meningkatkan antara muka pengguna berdasarkan data berstruktur yang diekstrak.
    • Aplikasi Omniparser v2
    • Keupayaan Omniparser v2 membuka banyak aplikasi:
    • Automasi UI: Interaksi mengautomasikan dengan antara muka pengguna grafik.
    • Penyelesaian Kebolehcapaian: Menyediakan penyelesaian untuk pengguna kurang upaya.
    • Analisis antara muka pengguna: Menganalisis dan meningkatkan reka bentuk antara muka pengguna berdasarkan data berstruktur yang diekstrak.

    Kesimpulan

    omniparser v2 adalah lonjakan utama ke hadapan dalam parsing visual AI, dengan lancar menghubungkan teks dan pemprosesan data visual. Dengan kelajuan, ketepatan, dan integrasi yang lancar, ia adalah alat yang mesti dimiliki untuk pemaju dan perniagaan yang ingin membina penyelesaian berkuasa AI. Dalam artikel seterusnya, kami akan menyelam ke dalam omniparser v2 dengan Qwen 2.5, membuka kunci lebih banyak potensi untuk aplikasi dunia nyata. Tinggal!

Atas ialah kandungan terperinci Bagaimana untuk menjalankan Microsoft ' s omniparser v2 secara tempatan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan