Apabila bercakap tentang masa depan pembantu AI, orang ramai boleh dengan mudah memikirkan Jarvis pembantu AI dalam siri "Iron Man". Jarvis menunjukkan fungsi yang mempesonakan dalam filem Dia bukan sahaja orang kanan Tony Stark, tetapi juga jambatannya untuk berkomunikasi dengan teknologi canggih. Dengan kemunculan model berskala besar, cara manusia menggunakan alat sedang mengalami perubahan revolusioner, dan mungkin kita selangkah lebih dekat dengan senario fiksyen sains. Bayangkan agen berbilang modal yang boleh mengawal komputer di sekeliling kita secara langsung melalui papan kekunci dan tetikus seperti manusia. Betapa menariknya kejayaan ini.
AI pembantu Jarvis
Penyelidikan terkini "ScreenAgent: A Vision Language Model-driven Computer Control Agent" dari Sekolah Kecerdasan Buatan Universiti Jilin menunjukkan imaginasi menggunakan model bahasa visual yang besar mengawal secara langsung GUI komputer. Kajian ini mencadangkan model ScreenAgent, yang buat pertama kalinya meneroka kawalan langsung tetikus dan papan kekunci komputer melalui Agen VLM tanpa memerlukan bantuan tag tambahan, mencapai matlamat operasi komputer langsung model berskala besar. Selain itu, ScreenAgent menggunakan proses "plan-execute-reflect" automatik untuk mencapai kawalan berterusan antara muka GUI buat kali pertama. Kerja ini meneroka dan memperbaharui kaedah interaksi manusia-komputer, dan juga sumber sumber terbuka termasuk set data, pengawal dan kod latihan dengan maklumat kedudukan yang tepat. .
ScreenAgent menyediakan pengguna hiburan dalam talian, membeli-belah, melancong dan pengalaman membaca yang mudah. Ia juga boleh digunakan sebagai butler peribadi untuk membantu menguruskan komputer peribadi dan mencapai kerja yang pantas. Ia boleh menjadi pembantu pejabat yang berkuasa tanpa sebarang usaha. Melalui kesan praktikal, pengguna boleh memahami fungsinya.
memberi Kemahiran peringkat tinggi pengguna
Biarkan ScreenAgent membuka pemapar acara Windows:
Kuasai kemahiran pejabat dan bermain dengan mudah dengan pejabat
perisian pejabat, Skrin Di samping itu Sebagai contoh, mengikut penerangan teks pengguna, padamkan PPT pada halaman kedua yang dibuka:
Rancang sebelum mengambil tindakan, tahu di mana untuk berhenti dan dapatkan
Untuk menyelesaikan tugas tertentu , ia mesti dilakukan sebelum tugas dilaksanakan dengan baik dalam merancang aktiviti. ScreenAgent boleh membuat perancangan berdasarkan imej yang diperhatikan dan keperluan pengguna sebelum memulakan tugas, contohnya:
Laraskan kelajuan main balik video kepada 1.5 kali:
Cari kereta bandar Magotan terpakai pada 58 Magotan. tapak web Harga:
Pasang xeyes dalam baris arahan:
Penghijrahan keupayaan kedudukan visual, pemilihan tetikus adalah bebas tekanan
ScreenAgent juga mengekalkan keupayaan untuk mengesan objek semula jadi secara visual, dan boleh melukis bingkai pemilihan objek dengan menyeret tetikus:
mengajar cara berinteraksi dengan Interaksi langsung dengan antara muka grafik pengguna bukanlah perkara yang mudah. Ia memerlukan ejen untuk mempunyai pelbagai keupayaan komprehensif seperti perancangan tugas, pemahaman imej, kedudukan visual dan penggunaan alat. Terdapat kompromi tertentu dalam model sedia ada atau penyelesaian interaksi Contohnya, model seperti LLaVA-1.5 tidak mempunyai keupayaan kedudukan visual yang tepat pada imej bersaiz besar GPT-4V mempunyai perancangan misi yang sangat kuat, pemahaman imej dan keupayaan OCR, tetapi enggan memberi Dapatkan koordinat yang tepat. Penyelesaian sedia ada memerlukan anotasi manual bagi label digital tambahan pada imej, dan membenarkan model memilih elemen UI yang perlu diklik, seperti Mobile-Agent, UFO dan projek lain selain itu, model seperti CogAgent dan Fuyu-8B boleh menyokong imej resolusi tinggi Ia mempunyai input dan keupayaan kedudukan visual yang tepat, tetapi CogAgent tidak mempunyai keupayaan panggilan fungsi yang lengkap, dan Fuyu-8B tidak mempunyai keupayaan bahasa.
Untuk menyelesaikan masalah di atas, artikel itu mencadangkan untuk membina persekitaran baharu untuk ejen model bahasa visual (Ejen VLM) untuk berinteraksi dengan skrin komputer sebenar. Dalam persekitaran ini, ejen boleh memerhati tangkapan skrin dan memanipulasi antara muka pengguna grafik dengan mengeluarkan tindakan tetikus dan papan kekunci. Untuk membimbing Ejen VLM berinteraksi secara berterusan dengan skrin komputer, artikel itu membina proses pengendalian yang merangkumi "perancangan-pelaksanaan-pantulan". Semasa fasa perancangan, ejen diminta untuk memecahkan tugas pengguna kepada subtugas. Semasa fasa pelaksanaan, Ejen akan memerhati tangkapan skrin dan memberikan tindakan tetikus dan papan kekunci tertentu untuk melaksanakan subtugasan. Pengawal akan melaksanakan tindakan ini dan memberi maklum balas keputusan pelaksanaan kepada Ejen. Semasa fasa refleksi, Ejen memerhati keputusan pelaksanaan, menentukan status semasa dan memilih untuk meneruskan pelaksanaan, mencuba semula atau melaraskan pelan. Proses ini berterusan sehingga tugasan selesai. Perlu dinyatakan bahawa ScreenAgent tidak perlu menggunakan sebarang modul pengecaman teks atau pengecaman ikon, dan menggunakan pendekatan hujung ke hujung untuk melatih semua keupayaan model.
Persekitaran ScreenAgent merujuk kepada protokol sambungan desktop jauh VNC untuk mereka bentuk ruang tindakan Ejen, termasuk operasi klik tetikus dan papan kekunci yang paling asas memerlukan Ejen memberikan koordinat skrin yang tepat. Berbanding dengan memanggil API khusus untuk menyelesaikan tugas, kaedah ini lebih umum dan boleh digunakan pada pelbagai sistem pengendalian desktop dan aplikasi seperti Windows dan Linux Desktop.
Untuk melatih model ScreenAgent, artikel tersebut secara manual menganotasi set data ScreenAgent dengan maklumat kedudukan visual yang tepat. Set data ini merangkumi pelbagai tugas komputer harian, termasuk operasi fail, penyemakan imbas web, hiburan permainan dan senario lain dalam persekitaran Desktop Windows dan Linux.
Setiap sampel dalam set data ialah proses lengkap untuk menyelesaikan tugasan, termasuk perihalan tindakan, tangkapan skrin dan tindakan tertentu yang dilaksanakan. Contohnya, dalam kes "menambah coklat paling murah pada troli beli-belah" di tapak web Amazon, anda perlu mencari kata kunci dalam kotak carian dahulu, kemudian gunakan penapis untuk mengisih harga dan akhirnya menambah item paling murah pada beli-belah troli. Keseluruhan set data mengandungi 273 rekod tugasan yang lengkap.
Dalam bahagian analisis eksperimen, penulis membandingkan ScreenAgent dengan berbilang model VLM sedia ada dari pelbagai sudut, terutamanya termasuk dua peringkat, keupayaan mengikut arahan dan ketepatan ramalan tindakan yang terperinci. Keupayaan berikut arahan terutamanya menguji sama ada model boleh mengeluarkan urutan tindakan dan jenis tindakan dengan betul dalam format JSON. Ketepatan ramalan atribut tindakan membandingkan sama ada nilai atribut setiap tindakan diramalkan dengan betul, seperti kedudukan klik tetikus, kekunci papan kekunci, dsb.
Perintah untuk mengikuti
🎜🎜Dari segi perintah berikut, tugas pertama Ejen adalah untuk mengeluarkan panggilan fungsi alat yang betul mengikut kata gesaan, iaitu, untuk mengeluarkan format JSON yang betul Dalam hal ini, kedua-dua ScreenAgent dan GPT-4V boleh mengikuti arahan dengan sangat baik, dan CogAgent asal Oleh kerana kekurangan sokongan data dalam bentuk panggilan API semasa latihan penalaan halus visual, keupayaan untuk mengeluarkan JSON hilang.
Kadar ketepatan ramalan atribut tindakan
Dari perspektif kadar ketepatan atribut tindakan, ScreenAgent juga telah mencapai tahap yang setanding dengan GPT-4V. Terutama, ScreenAgent jauh melebihi model sedia ada dalam ketepatan klik tetikus. Ini menunjukkan bahawa penalaan halus visual secara berkesan meningkatkan keupayaan kedudukan tepat model. Tambahan pula, kami juga melihat jurang yang jelas antara ScreenAgent dan GPT-4V dalam perancangan misi, yang menyerlahkan pengetahuan akal sehat GPT-4V dan keupayaan perancangan misi. . digunakan secara meluas dalam pelbagai aplikasi perisian dan sistem pengendalian. ScreenAgent boleh menyelesaikan tugasan yang diberikan oleh pengguna secara autonomi di bawah kawalan proses "pantulan-pelaksanaan-pelan". Dengan cara ini, pengguna boleh melihat setiap langkah penyiapan tugas dan lebih memahami pemikiran tingkah laku Ejen.
Artikel sumber terbuka perisian kawalan, kod latihan model dan set data. Atas dasar ini, anda boleh meneroka kerja yang lebih canggih ke arah kecerdasan buatan am, seperti pembelajaran pengukuhan di bawah maklum balas alam sekitar, penerokaan aktif Ejen terhadap dunia terbuka, membina model dunia, perpustakaan kemahiran Ejen, dsb.
Selain itu, pembantu peribadi yang didorong oleh Ejen AI mempunyai nilai sosial yang besar, seperti membantu orang yang mempunyai anggota badan terhad menggunakan komputer, mengurangkan buruh digital berulang untuk manusia dan mempopularkan pendidikan komputer. Pada masa hadapan, mungkin tidak semua orang boleh menjadi superhero seperti Iron Man, tetapi kita semua mungkin mempunyai Jarvis eksklusif, rakan kongsi pintar yang boleh menemani, membantu dan membimbing kita dalam kehidupan dan kerja kita.Atas ialah kandungan terperinci Anda boleh mula menggunakan Windows dan Office secara langsung. Sangat mudah untuk mengendalikan komputer dengan ejen model yang besar.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!