


Model sumber terbuka dan tertutup 'Chaos': Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia
Aug 11, 2024 pm 01:02 PM
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
- Data data sumber terbuka: https://huggingface.co / datasets/hbx/IN3
-
Perbandingan tugas kabur dan pelaksanaan tugas yang jelas Tanda aras ejen semasa sering menganggap bahawa tugas yang diberikan adalah jelas dan tidak menganggap aspek pemahaman maksud pengguna sebagai penilaian yang penting. Memandangkan ketidaklengkapan penunjuk penilaian, kerja ini membangunkan penanda aras Niat-dalam-Interaksi (IN3), yang bertujuan untuk menilai keupayaan interaktif ejen melalui pertimbangan kekaburan tugas yang jelas dan pemahaman niat pengguna. proses pembinaan data Seperti yang ditunjukkan dalam rajah di atas, tugas benih berdasarkan tulisan manusia ialah Langkah 1 , model secara berulang menjana tugasan baharu untuk meningkatkan set data semasa mengambil sampel daripada set data sebagai contoh baharu untuk pusingan generasi seterusnya (Langkah 2). Selepas kaedah penjanaan Arahan Kendiri ini, kekaburan, butiran yang tiada bagi setiap tugas, kepentingan setiap butiran dan pilihan yang berpotensi dianotasi secara manual (Langkah 3).
Proses latihan Interaksi Mistral Secara khusus, artikel secara rawak memilih sepuluh tugasan daripada IN3, menggunakannya untuk menguji LLaMA-2-7B-Chat, Mistral-7B-Instruct-v0.2 dan GPT-4 dan menunjukkan model ini i ) menentukan kekaburan tugas itu, ii) meminta pengguna untuk kehilangan butiran apabila tugasan itu samar-samar, iii) meringkaskan tugas pengguna yang terperinci. . Sebaliknya, GPT-4 paling hampir dengan niat manusia dari segi kekaburan tugas dan butiran penting yang hilang. Pada masa yang sama, penerokaan awal juga menunjukkan bahawa untuk meningkatkan lagi keupayaan ejen untuk memahami niat tersirat dalam interaksi, kejuruteraan segera yang mudah adalah tidak mencukupi untuk terus melatih berdasarkan model sumber terbuka semasa untuk mencapai matlamat Tahap penggunaan ejen pintar.Proses pembinaan data latihan (rekod perbualan in3) merujuk kepada angka di atas, menurut anotasi inciguity tugas IN3, butiran yang hilang dan pilihan yang berpotensi, artikel itu digunakan dalam proses membina perbualan merekodkan beberapa strategi (kotak oren), yang merangkumi: pembinaan rantaian penaakulan awal yang jelas, pembinaan pertanyaan dengan pilihan yang dicadangkan, pembinaan nada tindak balas pengguna yang berbeza, dan pembinaan ringkasan yang jelas bagi rantaian penaakulan. Strategi pembinaan dialog ini akan lebih merangsang pertanyaan dan keupayaan penaakulan model sasaran. Penilaian menyeluruh keupayaan interaksi ejen Keupayaan pemahaman niat tersirat ejen boleh dinilai secara langsung melalui interaksi pengguna atau secara tidak langsung melalui ejen yang melaksanakan tugas hiliran. Antaranya, interaksi pengguna memfokuskan kepada pemahaman niat itu sendiri, manakala pelaksanaan tugas memberi tumpuan kepada matlamat akhir pemahaman niat, iaitu untuk meningkatkan keupayaan ejen untuk mengendalikan tugas. Oleh itu, untuk menilai secara menyeluruh reka bentuk ejen interaktif, artikel membahagikan eksperimen kepada dua bahagian: i) Pemahaman Arahan: Menilai keupayaan pemahaman ejen semasa interaksi pengguna ii) Pelaksanaan Arahan: Menilai prestasi pelaksanaan tugas ejen selepas menyepadukan model interaksi. Pemahaman arahan tidak melibatkan sebarang pelaksanaan ejen masa nyata, jadi artikel secara langsung menilai prestasi model bahasa yang berbeza semasa proses interaksi untuk menentukan keupayaan interaksi mereka sebagai modul huluan dalam reka bentuk ejen Tunjukkan:Arahan memahami keputusan ujian Antaranya, anak panah mewakili semakin tinggi skor/ keupayaan yang lebih rendah Ia berprestasi terbaik pada penunjuk seperti menilai kekaburan tugas dan liputan butiran yang hilang ringkasan yang jelas dan menyeluruh berdasarkan niat pengguna yang terperinci. Berbanding dengan model sumber terbuka yang lain, Mistral-Interact boleh memberikan pilihan yang lebih munasabah untuk meminta butiran yang hilang dalam tugasan kabur, kaedah pertanyaan lebih mesra dan prestasinya setanding dengan GPT-4. Dari segi pelaksanaan arahan, untuk menilai keberkesanan pemahaman niat tersirat untuk pelaksanaan tugas ejen, artikel itu menyepadukan Mistral-Interact sebagai modul interaksi huluan ke dalam rangka kerja XAgent untuk ujian. Antaranya, XAgent boleh berinteraksi dalam persekitaran seperti carian rangkaian, pelaksanaan kod, baris arahan dan sistem fail. Hasil Ujian Pelaksanaan Arahan (ST bermaksud subtask, MS bermaksud peristiwa penting)Hasil penilaian kuantitatif menunjukkan bahawa mengintegrasikan mistral-interaksi membantu: i) Elakkan menetapkan matlamat yang tidak perlu semasa proses pelaksanaan , ii) menjadikan proses pelaksanaan ejen lebih konsisten dengan niat pengguna yang terperinci, dan iii) mengurangkan panggilan alat yang tidak perlu dan menggalakkan kecekapan penggunaan alat ejen.
Analisis Kes Interaksi Ejen
Dari segi pemahaman arahan, untuk menunjukkan lagi keteguhan Mistral-Interact dalam senario dialog yang berbeza, artikel itu juga menyediakan tiga analisis kes.berinteraksi dan pengguna dalam senario berbeza Kes A menunjukkan kesan nada pengguna dan gaya perbualan yang berbeza pada Mistral-Interact. Artikel itu mendapati bahawa tidak kira sama ada jawapan pengguna itu pendek atau terperinci, bersemangat atau dingin, malah mengandungi kesilapan ejaan, Mistral-Interact dapat memahami dengan tepat dan memberikan respons yang sesuai, membuktikan keteguhannya. Dalam kes B, ia telah diuji sama ada Mistral-Interact boleh terus bertanya dan membimbing perbualan kembali ke landasan apabila pengguna menunjukkan sikap tidak bekerjasama. Keputusan menunjukkan bahawa walaupun pengguna mengelak soalan, mereka masih dapat mengubah hala perbualan dengan berkesan. Dalam kes C, boleh diperhatikan bahawa Mistral-Interact boleh memasukkan maklumat tambahan yang diberikan oleh pengguna ke dalam ringkasan, yang tidak ditanya secara jelas oleh model interaksi. Ini menunjukkan bahawa apabila pertanyaan model tidak dapat menampung butiran yang hilang sepenuhnya atau pengguna mempunyai keperluan khusus, model masih dapat meringkaskan semua niat pengguna secara munasabah dan menyeluruh, menjadikannya lebih mesra pengguna. Untuk menggambarkan dengan lebih jelas peranan Mistral-Interact dari segi pelaksanaan arahan, kajian kes perbandingan disediakan dalam rajah di bawah.
Teks dalam warna merah mudaboleh ditemui apabila sasaran pengguna dikaburkan. XAgent tidak dapat menetapkan subtugas pengguna dengan tepat. Menurut teks bertanda ungu, didapati bahawa XAgent sering menetapkan beberapa subtugas yang tidak perlu. Ini adalah kerana tugas pengguna terlalu kabur untuk dilaksanakan, dan ejen cenderung untuk mereka-reka butiran yang tidak perlu, yang tidak konsisten dengan niat sebenar pengguna. hijau
Sebaliknya, matlamat tugasan yang jelas membolehkan XAgent merumuskan subtugas yang lebih khusus selepas interaksi aktif dengan Mistral-Interact. Teks bertandadalam rajah menunjukkan ketekalan ini. Pada masa yang sama, proses pelaksanaan ejen menjadi lebih mudah dan bilangan panggilan alat dikurangkan. Semua ini mencerminkan proses pelaksanaan ejen yang lebih cekap. Kesimpulan Kami berdiri di titik permulaan baharu, bersedia untuk menyaksikan lembaran baharu kerjasama manusia-mesin, persefahaman dan pembelajaran bersama. Ejen pintar tidak lama lagi bukan lagi pemproses maklumat yang dingin, tetapi rakan kongsi yang berempati, yang mampu memahami dengan mendalam keperluan dan keinginan kita yang mungkin pada mulanya tidak dapat dinyatakan dengan jelas melalui pengalaman interaktif yang halus. Revolusi dalam reka bentuk ejen pintar berpusatkan manusia ini akan mendedahkan kemungkinan yang tidak terhingga dalam interaksi, menjadikan ejen pintar benar-benar bantuan yang amat diperlukan dalam kehidupan kita.
Atas ialah kandungan terperinci Model sumber terbuka dan tertutup 'Chaos': Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Artikel Panas

Alat panas Tag

Artikel Panas

Tag artikel panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe

Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI
