Rumah > Peranti teknologi > AI > teks badan

Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!

WBOY
Lepaskan: 2023-05-15 17:55:06
ke hadapan
1052 orang telah melayarinya

Xi Xiaoyao Technology Talk Original
Pengarang |. IQ telah menurun di mana-mana

Baru-baru ini, banyak pasukan telah mencipta semula berdasarkan ChatGPT yang mesra pengguna, dan banyak daripada mereka telah mencapai keputusan yang cemerlang . Kerja InternChat menekankan kemesraan pengguna dengan berinteraksi dengan chatbot dengan cara yang melampaui bahasa (kursor dan gerak isyarat) untuk tugasan pelbagai mod. Nama InternChat juga menarik Ia adalah singkatan untuk interaksi, nonverbal dan chatbots Ia boleh dirujuk sebagai iChat. Tidak seperti sistem interaktif sedia ada yang bergantung pada bahasa tulen, iChat meningkatkan kecekapan komunikasi antara pengguna dan chatbots dengan menambahkan arahan menunjuk. Selain itu, penulis juga menyediakan model bahasa visual besar yang dipanggil Husky yang boleh melakukan penangkapan dan menjawab soalan visual, dan juga boleh menarik perhatian GPT-3.5-turbo dengan hanya 7 bilion parameter.

Namun, kerana populariti laman web Demo, pasukan secara rasmi menutup halaman pengalaman buat sementara waktu Mari kita fahami kandungan karya ini melalui video di bawah~

Tajuk tesis: InternChat: Menyelesaikan Tugasan Berpusatkan Visi dengan Berinteraksi dengan Chatbots Melangkaui Bahasa

Pautan kertas:


https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1

Alamat demo :


https://www.php.cn/link/e355ad06c5a89f911fbb0aff2de52435

Alamat projek:


https://www.php.cn /link/ 2d13d901966a8eaa7f9c943eba6a540b

Ciri utama sistem

Pengarang telah menyediakan beberapa tangkapan skrin tugas pada halaman utama projek, di mana anda boleh melihat secara intuitif beberapa fungsi dan kesan sistem interaktif ini:

(a) Alih keluar objek bertutup

Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!


(b) Pengeditan imej interaktif

Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!

(c) Penjanaan imej

Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!

(d) Soal jawab visual interaktif

Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!

( e) Penjanaan imej interaktif

Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!

(f) Penjelasan sorotan video

Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!

Gambaran keseluruhan kertas

Di sini kami mula-mula memperkenalkan dua konsep yang disebut dalam artikel ini:

    Tugas bertumpu penglihatan: Untuk membolehkan komputer memahami perkara yang mereka lihat di dunia dan bertindak balas dengan sewajarnya .
  • Komunikasi dalam bentuk arahan bukan lisan: pergerakan menunjuk seperti kursor dan isyarat tangan.

Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!

▲ Rajah 1 Keseluruhan seni bina iChat

iChat menggabungkan kelebihan arahan penunjuk dan bahasa untuk melaksanakan tugas bertumpu penglihatan. Seperti yang ditunjukkan dalam Rajah 1, sistem ini terdiri daripada 3 komponen utama:

    Unit persepsi yang memproses arahan menunjuk pada imej atau video
  1. Mempunyai kawalan tambahan yang boleh menghuraikan bahasa dengan tepat arahan LLM pengawal mekanisme;
  2. Kit alat dunia terbuka yang menyepadukan pelbagai model dalam talian HuggingFace, model peribadi terlatih pengguna dan aplikasi lain (seperti kalkulator, enjin carian).
Ia boleh beroperasi dengan berkesan pada 3 peringkat iaitu:

  1. Interaksi asas;
  2. Interaksi berpandukan bahasa;
  3. Oleh itu, seperti yang ditunjukkan dalam Rajah 2, apabila sistem bahasa tulen tidak dapat menyelesaikan tugas, sistem masih boleh berjaya melaksanakan tugas interaktif yang kompleks.

Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!▲Rajah 2 Menunjuk kepada kelebihan sistem interaktif dipacu bahasa

Eksperimen

Pertama sekali, mari kita lihat gabungan bahasa dan bukan bahasa pada masa yang sama Perintah untuk meningkatkan komunikasi dengan sistem interaktif. Untuk menunjukkan kelebihan model hibrid ini berbanding arahan bahasa tulen, pasukan penyelidik menjalankan tinjauan pengguna. Peserta berbual dengan Visual ChatGPT dan iChat dan memberi maklum balas tentang pengalaman mereka menggunakannya. Keputusan dalam Jadual 1 dan 2 menunjukkan bahawa iChat lebih cekap dan mesra pengguna daripada Visual ChatGPT.

Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!▲Jadual 1 Tinjauan pengguna tentang “Alih keluar sesuatu”

Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!▲Jadual 2 “Ganti dengan sesuatu” "Sesuatu " tinjauan pengguna

Ringkasan

Walau bagaimanapun, sistem masih mempunyai beberapa batasan, termasuk:

Kecekapan iChat adalah sangat tinggi Tahap bergantung kepada kualiti dan ketepatan model sumber terbuka asasnya. Walau bagaimanapun, model ini mungkin mempunyai had atau berat sebelah yang menjejaskan prestasi iChat.
  • Apabila interaksi pengguna menjadi lebih kompleks atau bilangan kejadian meningkat, sistem perlu mengekalkan ketepatan dan masa tindak balas, yang boleh mencabar untuk iChat.
  • Selain itu, terdapat kekurangan kerjasama yang boleh dipelajari antara visi semasa dan model berasaskan bahasa, seperti kekurangan fungsi yang boleh dilaraskan oleh data arahan.
  • iChat mungkin mengalami kesukaran untuk bertindak balas terhadap situasi baru atau luar biasa di luar data latihan, menyebabkan prestasi terjejas.
  • Mencapai penyepaduan yang lancar merentas peranti dan platform yang berbeza boleh menjadi mencabar kerana keupayaan perkakasan yang berbeza-beza, pengehadan perisian dan keperluan kebolehaksesan.
  • Pada senarai pelan yang disenaraikan di laman utama projek, masih terdapat beberapa matlamat yang masih belum tercapai Antaranya ialah interaksi Cina yang mesti dialami oleh editor setiap kali pada sistem dialog baharu. Pada masa ini, Sistem ini mungkin masih tidak menyokong bahasa Cina buat masa ini, tetapi nampaknya tiada penyelesaian Memandangkan kebanyakan set data berbilang modal adalah berdasarkan bahasa Inggeris, terjemahan Bahasa Inggeris-Cina membazirkan sumber dalam talian dan masa pemprosesan bahawa jalan menuju Chinaisasi masih akan mengambil sedikit masa.

Atas ialah kandungan terperinci Prompt tidak lagi diperlukan Anda boleh memainkan sistem dialog berbilang modal hanya dengan iChat ada di sini!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan