Rumah > Peranti teknologi > AI > teks badan

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

WBOY
Lepaskan: 2024-02-19 23:33:22
ke hadapan
1172 orang telah melayarinya

Apabila bercakap tentang masa depan pembantu AI, orang ramai boleh dengan mudah memikirkan Jarvis pembantu AI dalam siri "Iron Man". Jarvis menunjukkan fungsi yang mempesonakan dalam filem Dia bukan sahaja orang kanan Tony Stark, tetapi juga jambatannya untuk berkomunikasi dengan teknologi canggih. Dengan kemunculan model berskala besar, cara manusia menggunakan alat sedang mengalami perubahan revolusioner, dan mungkin kita selangkah lebih dekat dengan senario fiksyen sains. Bayangkan agen berbilang modal yang boleh mengawal komputer di sekeliling kita secara langsung melalui papan kekunci dan tetikus seperti manusia. Betapa menariknya kejayaan ini.

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

AI pembantu Jarvis

Penyelidikan terkini "ScreenAgent: A Vision Language Model-driven Computer Control Agent" dari Sekolah Kecerdasan Buatan Universiti Jilin menunjukkan imaginasi menggunakan model bahasa visual yang besar mengawal secara langsung GUI komputer. Kajian ini mencadangkan model ScreenAgent, yang buat pertama kalinya meneroka kawalan langsung tetikus dan papan kekunci komputer melalui Agen VLM tanpa memerlukan bantuan tag tambahan, mencapai matlamat operasi komputer langsung model berskala besar. Selain itu, ScreenAgent menggunakan proses "plan-execute-reflect" automatik untuk mencapai kawalan berterusan antara muka GUI buat kali pertama. Kerja ini meneroka dan memperbaharui kaedah interaksi manusia-komputer, dan juga sumber sumber terbuka termasuk set data, pengawal dan kod latihan dengan maklumat kedudukan yang tepat. .

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

ScreenAgent menyediakan pengguna hiburan dalam talian, membeli-belah, melancong dan pengalaman membaca yang mudah. Ia juga boleh digunakan sebagai butler peribadi untuk membantu menguruskan komputer peribadi dan mencapai kerja yang pantas. Ia boleh menjadi pembantu pejabat yang berkuasa tanpa sebarang usaha. Melalui kesan praktikal, pengguna boleh memahami fungsinya.
  • membawa anda melayari Internet dan mencapai kebebasan hiburan
  • ScreenAgent mencari dan memainkan video tertentu dalam talian berdasarkan penerangan teks pengguna:

memberi Kemahiran peringkat tinggi pengguna

Biarkan ScreenAgent membuka pemapar acara Windows:

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

Kuasai kemahiran pejabat dan bermain dengan mudah dengan pejabat

perisian pejabat, Skrin Di samping itu Sebagai contoh, mengikut penerangan teks pengguna, padamkan PPT pada halaman kedua yang dibuka:

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

Rancang sebelum mengambil tindakan, tahu di mana untuk berhenti dan dapatkan

Untuk menyelesaikan tugas tertentu , ia mesti dilakukan sebelum tugas dilaksanakan dengan baik dalam merancang aktiviti. ScreenAgent boleh membuat perancangan berdasarkan imej yang diperhatikan dan keperluan pengguna sebelum memulakan tugas, contohnya:

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.Laraskan kelajuan main balik video kepada 1.5 kali:

Cari kereta bandar Magotan terpakai pada 58 Magotan. tapak web Harga:

Pasang xeyes dalam baris arahan:

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

Penghijrahan keupayaan kedudukan visual, pemilihan tetikus adalah bebas tekanan

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

ScreenAgent juga mengekalkan keupayaan untuk mengesan objek semula jadi secara visual, dan boleh melukis bingkai pemilihan objek dengan menyeret tetikus:

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

kaedah yang diperlukan

mengajar cara berinteraksi dengan Interaksi langsung dengan antara muka grafik pengguna bukanlah perkara yang mudah. ​​Ia memerlukan ejen untuk mempunyai pelbagai keupayaan komprehensif seperti perancangan tugas, pemahaman imej, kedudukan visual dan penggunaan alat. Terdapat kompromi tertentu dalam model sedia ada atau penyelesaian interaksi Contohnya, model seperti LLaVA-1.5 tidak mempunyai keupayaan kedudukan visual yang tepat pada imej bersaiz besar GPT-4V mempunyai perancangan misi yang sangat kuat, pemahaman imej dan keupayaan OCR, tetapi enggan memberi Dapatkan koordinat yang tepat. Penyelesaian sedia ada memerlukan anotasi manual bagi label digital tambahan pada imej, dan membenarkan model memilih elemen UI yang perlu diklik, seperti Mobile-Agent, UFO dan projek lain selain itu, model seperti CogAgent dan Fuyu-8B boleh menyokong imej resolusi tinggi Ia mempunyai input dan keupayaan kedudukan visual yang tepat, tetapi CogAgent tidak mempunyai keupayaan panggilan fungsi yang lengkap, dan Fuyu-8B tidak mempunyai keupayaan bahasa.

Untuk menyelesaikan masalah di atas, artikel itu mencadangkan untuk membina persekitaran baharu untuk ejen model bahasa visual (Ejen VLM) untuk berinteraksi dengan skrin komputer sebenar. Dalam persekitaran ini, ejen boleh memerhati tangkapan skrin dan memanipulasi antara muka pengguna grafik dengan mengeluarkan tindakan tetikus dan papan kekunci. Untuk membimbing Ejen VLM berinteraksi secara berterusan dengan skrin komputer, artikel itu membina proses pengendalian yang merangkumi "perancangan-pelaksanaan-pantulan". Semasa fasa perancangan, ejen diminta untuk memecahkan tugas pengguna kepada subtugas. Semasa fasa pelaksanaan, Ejen akan memerhati tangkapan skrin dan memberikan tindakan tetikus dan papan kekunci tertentu untuk melaksanakan subtugasan. Pengawal akan melaksanakan tindakan ini dan memberi maklum balas keputusan pelaksanaan kepada Ejen. Semasa fasa refleksi, Ejen memerhati keputusan pelaksanaan, menentukan status semasa dan memilih untuk meneruskan pelaksanaan, mencuba semula atau melaraskan pelan. Proses ini berterusan sehingga tugasan selesai. Perlu dinyatakan bahawa ScreenAgent tidak perlu menggunakan sebarang modul pengecaman teks atau pengecaman ikon, dan menggunakan pendekatan hujung ke hujung untuk melatih semua keupayaan model.

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

Persekitaran ScreenAgent merujuk kepada protokol sambungan desktop jauh VNC untuk mereka bentuk ruang tindakan Ejen, termasuk operasi klik tetikus dan papan kekunci yang paling asas memerlukan Ejen memberikan koordinat skrin yang tepat. Berbanding dengan memanggil API khusus untuk menyelesaikan tugas, kaedah ini lebih umum dan boleh digunakan pada pelbagai sistem pengendalian desktop dan aplikasi seperti Windows dan Linux Desktop.

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

ScreenAgent Dataset

Untuk melatih model ScreenAgent, artikel tersebut secara manual menganotasi set data ScreenAgent dengan maklumat kedudukan visual yang tepat. Set data ini merangkumi pelbagai tugas komputer harian, termasuk operasi fail, penyemakan imbas web, hiburan permainan dan senario lain dalam persekitaran Desktop Windows dan Linux.

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

Setiap sampel dalam set data ialah proses lengkap untuk menyelesaikan tugasan, termasuk perihalan tindakan, tangkapan skrin dan tindakan tertentu yang dilaksanakan. Contohnya, dalam kes "menambah coklat paling murah pada troli beli-belah" di tapak web Amazon, anda perlu mencari kata kunci dalam kotak carian dahulu, kemudian gunakan penapis untuk mengisih harga dan akhirnya menambah item paling murah pada beli-belah troli. Keseluruhan set data mengandungi 273 rekod tugasan yang lengkap.

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

Hasil eksperimen

Dalam bahagian analisis eksperimen, penulis membandingkan ScreenAgent dengan berbilang model VLM sedia ada dari pelbagai sudut, terutamanya termasuk dua peringkat, keupayaan mengikut arahan dan ketepatan ramalan tindakan yang terperinci. Keupayaan berikut arahan terutamanya menguji sama ada model boleh mengeluarkan urutan tindakan dan jenis tindakan dengan betul dalam format JSON. Ketepatan ramalan atribut tindakan membandingkan sama ada nilai atribut setiap tindakan diramalkan dengan betul, seperti kedudukan klik tetikus, kekunci papan kekunci, dsb.

Perintah untuk mengikuti

🎜🎜

Dari segi perintah berikut, tugas pertama Ejen adalah untuk mengeluarkan panggilan fungsi alat yang betul mengikut kata gesaan, iaitu, untuk mengeluarkan format JSON yang betul Dalam hal ini, kedua-dua ScreenAgent dan GPT-4V boleh mengikuti arahan dengan sangat baik, dan CogAgent asal Oleh kerana kekurangan sokongan data dalam bentuk panggilan API semasa latihan penalaan halus visual, keupayaan untuk mengeluarkan JSON hilang.

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

Kadar ketepatan ramalan atribut tindakan

Dari perspektif kadar ketepatan atribut tindakan, ScreenAgent juga telah mencapai tahap yang setanding dengan GPT-4V. Terutama, ScreenAgent jauh melebihi model sedia ada dalam ketepatan klik tetikus. Ini menunjukkan bahawa penalaan halus visual secara berkesan meningkatkan keupayaan kedudukan tepat model. Tambahan pula, kami juga melihat jurang yang jelas antara ScreenAgent dan GPT-4V dalam perancangan misi, yang menyerlahkan pengetahuan akal sehat GPT-4V dan keupayaan perancangan misi. . digunakan secara meluas dalam pelbagai aplikasi perisian dan sistem pengendalian. ScreenAgent boleh menyelesaikan tugasan yang diberikan oleh pengguna secara autonomi di bawah kawalan proses "pantulan-pelaksanaan-pelan". Dengan cara ini, pengguna boleh melihat setiap langkah penyiapan tugas dan lebih memahami pemikiran tingkah laku Ejen.

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.Artikel sumber terbuka perisian kawalan, kod latihan model dan set data. Atas dasar ini, anda boleh meneroka kerja yang lebih canggih ke arah kecerdasan buatan am, seperti pembelajaran pengukuhan di bawah maklum balas alam sekitar, penerokaan aktif Ejen terhadap dunia terbuka, membina model dunia, perpustakaan kemahiran Ejen, dsb.

Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.

Selain itu, pembantu peribadi yang didorong oleh Ejen AI mempunyai nilai sosial yang besar, seperti membantu orang yang mempunyai anggota badan terhad menggunakan komputer, mengurangkan buruh digital berulang untuk manusia dan mempopularkan pendidikan komputer. Pada masa hadapan, mungkin tidak semua orang boleh menjadi superhero seperti Iron Man, tetapi kita semua mungkin mempunyai Jarvis eksklusif, rakan kongsi pintar yang boleh menemani, membantu dan membimbing kita dalam kehidupan dan kerja kita.

Atas ialah kandungan terperinci Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan