Dalam era multi-modal, model besar juga boleh mengawal dron!
Apabila modul penglihatan menangkap keadaan permulaan, "otak" model besar akan menjana arahan tindakan, dan kemudian dron boleh melaksanakannya dengan cepat dan tepat
Pasukan dron pintar Universiti Aeronautik dan Astronautik Beijing diketuai oleh Profesor Zhou Yaoming Penyelidik telah mencadangkan seni bina ejen yang diwujudkan berdasarkan model besar berbilang modal
Pada masa ini, struktur ini telah digunakan untuk mengawal dron
Bagaimana prestasi ejen baharu ini dan apakah ciri-cirinya? tentang butiran teknikal?
Pasukan penyelidik menggunakan model besar untuk memahami data berbilang modal dan menyepadukan maklumat berbilang sumber seperti foto, bunyi, data penderia dan maklumat lain dari dunia fizikal sebenar untuk membolehkan ejen melihat persekitaran sekeliling dan Buat operasi tingkah laku yang sepadan
Pada masa yang sama, pasukan mencadangkan satu set "Agen sebagai Serebrum, Pengawal sebagai Cerebellum" (ejen adalah otak, pengawal ialah otak kecil) seni bina kawalan:
Proses membuat keputusan ejen sebagai otak dijana pemproses, memfokuskan pada penjanaan tingkah laku peringkat tinggi. Ayat yang ditulis semula: Sebagai penjana keputusan otak, ejen memberi tumpuan kepada penjanaan tingkah laku peringkat tinggi
Sebagai pengawal gerakan otak kecil, tanggungjawab utama pengawal adalah untuk mengubah tingkah laku peringkat tinggi (seperti titik sasaran yang dijangkakan) ke dalam sistem peringkat rendah Perintah (seperti kelajuan rotor)
Secara khusus, pasukan penyelidik percaya bahawa pencapaian ini mempunyai tiga sumbangan utama.
Pasukan penyelidik mencadangkan seni bina sistem baharu yang boleh digunakan pada robot sebenar. Seni bina ini merangkumi agen pintar berdasarkan model besar berbilang modal sebagai otak
, manakala perancang dan pengawal pergerakan robot diwujudkan sebagai sistem persepsi robot dianalogikan dengan mata manusia, telinga dan pengumpul maklumat lain robot Penggerak adalah analog dengan penggerak seperti tangan manusia.
△ Rajah 1 Seni bina sistem perkakasan
Nod ini disambungkan melalui ROS, dan berkomunikasi melalui langganan dan penerbitan mesej dalam ROS atau permintaan dan tindak balas perkhidmatan, yang berbeza daripada hujung ke hujung tradisional robot kawalan model besar.
Seni bina ini membolehkan Ejen menumpukan pada penjanaan arahan peringkat tinggi, mempunyai kecerdasan yang lebih kuat untuk tugasan peringkat tinggi dan mempunyai keteguhan dan kebolehpercayaan yang lebih baik untuk pelaksanaan sebenar.
Kandungan yang perlu ditulis semula ialah: △Rajah 2 Seni bina sistem perisian Kandungan yang ditulis semula: Seni bina sistem perisian ditunjukkan dalam Rajah 2
Di bawah seni bina ini, penulis membina AeroAgent, agen pintar yang berfungsi sebagai otak.
Ejen terutamanya terdiri daripada tiga bahagian:
Pada masa yang sama, untuk melengkapkan tindakan, berbilang interaksi mungkin diperlukan untuk mendapatkan parameter yang diperlukan untuk melaksanakan tindakan daripada penderia bagi memastikan ejen boleh mengeluarkan tindakan khusus secara stabil berdasarkan kesedaran situasi yang menyeluruh dan penggerak. ia memiliki
Kandungan yang perlu ditulis semula ialah: △Rajah 3 seni bina modul AeroAgent Kandungan yang ditulis semula: △Rajah 3 Reka bentuk seni bina modul AeroAgent
Untuk membina jambatan antara ejen yang terkandung dan sistem robot ROS, supaya operasi yang dihasilkan oleh Ejen dapat dilakukan dengan betul dan stabil dihantar ke ROS berjaya dilaksanakan oleh nod lain, dan pada masa yang sama, maklumat yang diberikan oleh nod lain boleh dibaca dan difahami oleh LMM Pasukan mereka bentuk ROSchain -
Sebuah jambatan yang menghubungkan LLM/LMM dengan ROS
ROSchain melepasi a. set Modul dan antara muka program aplikasi (API) memudahkan penyepaduan model besar dengan peranti pengesan robot, unit pelaksanaan dan mekanisme kawalan, menyediakan perisian tengah yang stabil untuk ejen pintar untuk mengakses sistem ROS.
Pasukan penyelidik memberikan tiga sebab untuk menjelaskan mengapa mereka memilih dron untuk menjalankan ujian dan simulasi seni bina sistem ini
Pertama, skala web yang terkandung dalam pengetahuan Dunia LMM hari ini kebanyakannya daripada ketiga- perspektif orang. Kecerdasan yang terkandung dalam bidang seperti robot humanoid adalah serupa dengan perspektif orang pertama dengan manusia sebagai subjek.
Kamera pada dron, terutamanya kamera yang memandang ke bawah, lebih seperti perspektif orang ketiga (perspektif Tuhan) tentang kecerdasan organisma
Sebaliknya, LMM semasa, sama ada ia adalah penggunaan model atau perkhidmatan API, biasanya dihadkan oleh pengkomputeran Sumber menyebabkan kelewatan tertentu dalam tindak balas.
Perancangan misi UAV adalah kerana keupayaannya untuk berlegar dan keupayaan untuk mengatasi kelewatan, yang merupakan halangan untuk aplikasi dalam bidang seperti pemanduan autonomi
Kedua-dua titik ini menjadikan UAV sesuai sebagai perintis pada tahap teknologi semasa. pembangunan. Pengesahan teori dan aplikasi yang berkaitan.
Kedua, kini dalam bidang dron industri, seperti menyelamat kebakaran hutan, pertanian, perhutanan dan perlindungan tumbuhan, ragut tanpa pemandu, pemeriksaan kuasa, dll., juruterbang dan pakar bekerjasama dengan operasi sebenar, tugas pintar dengan keperluan ciri-ciri industri.
Ketiga, dari perspektif pembangunan masa depan, Kolaborasi berbilang ejen mempunyai keperluan yang jelas dalam logistik, pembinaan, kilang dan bidang lain.
Dalam bidang ini, dron, sebagai kecerdasan yang terkandung dari "perspektif Tuhan", sesuai sebagai ketua nod pusat untuk memperuntukkan tugasan robot lain boleh dianggap sebagai sebahagian daripada penggerak dron itu penyelidikan juga mempunyai prospek pembangunan masa depan.
Pasukan menggunakan emulator airgen untuk menjalankan eksperimen simulasi, dan juga kaedah terpilih seperti DRL sebagai kumpulan kawalan. Berikut adalah keputusan percubaan:
Dalam senario mencari dan menyelamat kebakaran liar, AeroAgent mencapai skor cemerlang 100 mata di bawah skor piawai, dengan purata 2.04 mata setiap langkah
Semasa hanya memanggil LLM atau DRL ejen berasaskan mempunyai Ia hanya mendapat 29.4 mata, dengan purata 0.2 setiap langkah, kurang daripada satu persepuluh AeroAgent.
Kandungan yang perlu ditulis semula ialah: △Gambar No. 4-1, tempat kejadian menyelamat kebakaran
Dalam tugasan pendaratan, AeroAgent turut mengatasi model lain dengan jumlah markah 97.4 dan purata skor setiap langkah 48.7.
Kandungan yang perlu ditulis semula ialah: △Rajah 4-2 Pemandangan pendaratan apron laut
Dalam ujian pemeriksaan turbin angin, AeroAgent secara langsung menjadi satu-satunya model yang dapat menyelesaikan tugasan tersebut. . ditulis semula Kandungannya ialah: △Rajah 4-4 Percubaan simulasi Airgen
Pasukan juga menguji sistem UAV dalam senario sebenar, menggunakan eksperimen panduan orang terperangkap yang mudah sebagai contoh untuk menjalankan kajian kes.
Kandungan yang perlu ditulis semula ialah: △ Rajah 5 Percubaan kes membimbing orang yang terperangkap
Pasukan kini berdasarkan kerja ini, menjalankan eksperimen ke atas dron pintar ragut tanpa pemandu di padang rumput yak dataran tinggi untuk meneroka Kemungkinan aplikasi praktikalnya akan diterokai dengan matlamat "menjelmakan kecerdasan" dengan robot lain/kolaborasi berbilang robot.
Alamat kertas: https://arxiv.org/abs/2311.15033
Atas ialah kandungan terperinci Pasukan Universiti Beihang mencadangkan seni bina baharu kecerdasan yang terkandung untuk merealisasikan kawalan dron besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!