Xi Xiaoyao Technology Talk Original
Pengarang |. IQ telah menurun di mana-mana
Baru-baru ini, banyak pasukan telah mencipta semula berdasarkan ChatGPT yang mesra pengguna, dan banyak daripada mereka telah mencapai keputusan yang cemerlang . Kerja InternChat menekankan kemesraan pengguna dengan berinteraksi dengan chatbot dengan cara yang melampaui bahasa (kursor dan gerak isyarat) untuk tugasan pelbagai mod. Nama InternChat juga menarik Ia adalah singkatan untuk interaksi, nonverbal dan chatbots Ia boleh dirujuk sebagai iChat. Tidak seperti sistem interaktif sedia ada yang bergantung pada bahasa tulen, iChat meningkatkan kecekapan komunikasi antara pengguna dan chatbots dengan menambahkan arahan menunjuk. Selain itu, penulis juga menyediakan model bahasa visual besar yang dipanggil Husky yang boleh melakukan penangkapan dan menjawab soalan visual, dan juga boleh menarik perhatian GPT-3.5-turbo dengan hanya 7 bilion parameter.
Namun, kerana populariti laman web Demo, pasukan secara rasmi menutup halaman pengalaman buat sementara waktu Mari kita fahami kandungan karya ini melalui video di bawah~
Tajuk tesis: InternChat: Menyelesaikan Tugasan Berpusatkan Visi dengan Berinteraksi dengan Chatbots Melangkaui Bahasa
Pautan kertas:
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1
Alamat demo :
https://www.php.cn/link/e355ad06c5a89f911fbb0aff2de52435
Alamat projek:
https://www.php.cn /link/ 2d13d901966a8eaa7f9c943eba6a540b
Ciri utama sistem
Pengarang telah menyediakan beberapa tangkapan skrin tugas pada halaman utama projek, di mana anda boleh melihat secara intuitif beberapa fungsi dan kesan sistem interaktif ini:
(a) Alih keluar objek bertutup
(b) Pengeditan imej interaktif
(c) Penjanaan imej
(d) Soal jawab visual interaktif
( e) Penjanaan imej interaktif
(f) Penjelasan sorotan video
Gambaran keseluruhan kertas
Di sini kami mula-mula memperkenalkan dua konsep yang disebut dalam artikel ini:
Tugas bertumpu penglihatan: Untuk membolehkan komputer memahami perkara yang mereka lihat di dunia dan bertindak balas dengan sewajarnya . - Komunikasi dalam bentuk arahan bukan lisan: pergerakan menunjuk seperti kursor dan isyarat tangan.
-
▲ Rajah 1 Keseluruhan seni bina iChat
iChat menggabungkan kelebihan arahan penunjuk dan bahasa untuk melaksanakan tugas bertumpu penglihatan. Seperti yang ditunjukkan dalam Rajah 1, sistem ini terdiri daripada 3 komponen utama:
Unit persepsi yang memproses arahan menunjuk pada imej atau video - Mempunyai kawalan tambahan yang boleh menghuraikan bahasa dengan tepat arahan LLM pengawal mekanisme;
- Kit alat dunia terbuka yang menyepadukan pelbagai model dalam talian HuggingFace, model peribadi terlatih pengguna dan aplikasi lain (seperti kalkulator, enjin carian).
-
Ia boleh beroperasi dengan berkesan pada 3 peringkat iaitu:
- Interaksi asas;
- Interaksi berpandukan bahasa;
- Oleh itu, seperti yang ditunjukkan dalam Rajah 2, apabila sistem bahasa tulen tidak dapat menyelesaikan tugas, sistem masih boleh berjaya melaksanakan tugas interaktif yang kompleks.
▲Rajah 2 Menunjuk kepada kelebihan sistem interaktif dipacu bahasa
Eksperimen
Pertama sekali, mari kita lihat gabungan bahasa dan bukan bahasa pada masa yang sama Perintah untuk meningkatkan komunikasi dengan sistem interaktif. Untuk menunjukkan kelebihan model hibrid ini berbanding arahan bahasa tulen, pasukan penyelidik menjalankan tinjauan pengguna. Peserta berbual dengan Visual ChatGPT dan iChat dan memberi maklum balas tentang pengalaman mereka menggunakannya. Keputusan dalam Jadual 1 dan 2 menunjukkan bahawa iChat lebih cekap dan mesra pengguna daripada Visual ChatGPT.
▲Jadual 1 Tinjauan pengguna tentang “Alih keluar sesuatu”
▲Jadual 2 “Ganti dengan sesuatu” "Sesuatu " tinjauan pengguna
Ringkasan
Walau bagaimanapun, sistem masih mempunyai beberapa batasan, termasuk:
Kecekapan iChat adalah sangat tinggi Tahap bergantung kepada kualiti dan ketepatan model sumber terbuka asasnya. Walau bagaimanapun, model ini mungkin mempunyai had atau berat sebelah yang menjejaskan prestasi iChat.
- Apabila interaksi pengguna menjadi lebih kompleks atau bilangan kejadian meningkat, sistem perlu mengekalkan ketepatan dan masa tindak balas, yang boleh mencabar untuk iChat.
- Selain itu, terdapat kekurangan kerjasama yang boleh dipelajari antara visi semasa dan model berasaskan bahasa, seperti kekurangan fungsi yang boleh dilaraskan oleh data arahan.
- iChat mungkin mengalami kesukaran untuk bertindak balas terhadap situasi baru atau luar biasa di luar data latihan, menyebabkan prestasi terjejas.
- Mencapai penyepaduan yang lancar merentas peranti dan platform yang berbeza boleh menjadi mencabar kerana keupayaan perkakasan yang berbeza-beza, pengehadan perisian dan keperluan kebolehaksesan.
- Pada senarai pelan yang disenaraikan di laman utama projek, masih terdapat beberapa matlamat yang masih belum tercapai Antaranya ialah interaksi Cina yang mesti dialami oleh editor setiap kali pada sistem dialog baharu. Pada masa ini, Sistem ini mungkin masih tidak menyokong bahasa Cina buat masa ini, tetapi nampaknya tiada penyelesaian Memandangkan kebanyakan set data berbilang modal adalah berdasarkan bahasa Inggeris, terjemahan Bahasa Inggeris-Cina membazirkan sumber dalam talian dan masa pemprosesan bahawa jalan menuju Chinaisasi masih akan mengambil sedikit masa.
Atas ialah kandungan terperinci Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!