Model sumber terbuka dan tertutup 'Chaos': Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia-AI-php.cn

Rumah

Peranti teknologi

Model sumber terbuka dan tertutup 'Chaos': Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia

Aug 11, 2024 pm 01:02 PM

industri

Model sumber terbuka dan tertutup Chaos: Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Penulis pertama artikel ini ialah Qian Cheng dan He Bingxiang, pelajar sarjana di Jabatan Sains Komputer, Universiti Tsinghua. Kedua-duanya adalah ahli THUNLP. Minat penyelidikan utama Qian Cheng ialah pembelajaran alat dan ejen yang didorong oleh model besar Dia akan belajar untuk PhD di UIUC. Minat penyelidikan utama He Bingxiang ialah penjajaran model dan keselamatan yang besar, dan dia akan belajar PhD di Universiti Tsinghua tidak lama lagi. Pengarang yang sepadan untuk artikel ini ialah Cong Xin dan Lin Yankai, dan penyelianya ialah Profesor Madya Liu Zhiyuan.

Hari ini, dengan perkembangan pesat kecerdasan buatan, kami sentiasa meneroka kecerdasan mesin, tetapi kami sering mengabaikan bagaimana ejen pintar ini memahami kami - pencipta mereka. Setiap interaksi, setiap perkataan, setiap tindakan kita manusia dalam hidup dipenuhi dengan niat dan emosi. Tetapi cabaran sebenar ialah: bagaimanakah niat tersirat ini boleh ditangkap, dihuraikan dan dijawab oleh ejen? Ejen pintar tradisional bertindak balas dengan cepat kepada arahan eksplisit, tetapi mereka sering gagal memahami niat tersirat manusia yang kompleks.

Dalam beberapa tahun kebelakangan ini, model bahasa seperti GPT dan LLaMA telah menunjukkan keupayaan yang menakjubkan dalam menyelesaikan tugas yang rumit. Walau bagaimanapun, walaupun ejen dengan mereka sebagai teras mereka pandai merangka strategi dan melaksanakan tugas, mereka jarang mengambil kira strategi interaksi pengguna yang mantap. Tugasan yang diberikan oleh pengguna biasanya tidak jelas dan pendek, yang memerlukan ejen bukan sahaja memahami permintaan literal kami, tetapi juga melihat melalui niat tersirat kami.

Oleh itu, untuk generasi baru ejen pintar yang dapat dilaksanakan dan digunakan oleh orang ramai, ia perlu berpusatkan manusia, memfokuskan bukan sahaja pada ketepatan pelaksanaan tugas, tetapi juga bagaimana untuk mewujudkan yang lebih semula jadi. , hubungan yang lancar dan kaya dengan manusia gaya komunikasi yang berwawasan.

Untuk mengimbangi kekurangan ini, pasukan bersama dari Universiti Tsinghua, Universiti Renmin dan Tencent baru-baru ini mencadangkan pelan reka bentuk interaksi ejen pintar baharu. Kerja ini mula-mula memperkenalkan Niat-dalam-Interaksi (IN3), penanda aras baharu yang bertujuan untuk memahami niat tersirat pengguna melalui interaksi eksplisit dengan pengguna.

Menggunakan Mistral-7B sebagai rangka kerja dan berdasarkan latihan IN3, Mistral-Interact boleh menilai secara proaktif kekaburan tugas, bertanya niat pengguna dan memperhalusinya menjadi matlamat yang boleh diambil tindakan sebelum melancarkan pelaksanaan tugas ejen hiliran. Selepas membenamkan model ke dalam rangka kerja XAgent, artikel tersebut menjalankan penilaian menyeluruh terhadap sistem ejen stateful sepenuhnya.

Hasilnya menunjukkan bahawa penyelesaian ini mempunyai prestasi cemerlang dalam mengenal pasti tugas pengguna yang samar-samar, memulihkan dan meringkaskan maklumat penting yang hilang, menetapkan matlamat pelaksanaan ejen yang tepat dan perlu, dan mengurangkan penggunaan alat berlebihan. Kaedah inovatif ini bukan sahaja mengisi jurang dalam interaksi antara ejen pintar dan pengguna, benar-benar meletakkan manusia di tengah-tengah reka bentuk ejen pintar, tetapi juga bermakna bahawa kami mengambil langkah lebih dekat kepada matlamat mereka bentuk ejen pintar yang lebih selaras dengan niat manusia. . ://github.com/HBX-hbx/Mistral-Interact

Model sumber terbuka dan tertutup Chaos: Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia

Model sumber terbuka: https://huggingface.co/hbx/Mistral-Interact

Data data sumber terbuka: https://huggingface.co / datasets/hbx/IN3
^{Perbandingan tugas kabur dan pelaksanaan tugas yang jelas}Tanda aras ejen semasa sering menganggap bahawa tugas yang diberikan adalah jelas dan tidak menganggap aspek pemahaman maksud pengguna sebagai penilaian yang penting. Memandangkan ketidaklengkapan penunjuk penilaian, kerja ini membangunkan penanda aras Niat-dalam-Interaksi (IN3), yang bertujuan untuk menilai keupayaan interaktif ejen melalui pertimbangan kekaburan tugas yang jelas dan pemahaman niat pengguna.
                                                                                                                                                                                                                                                                                                                                            proses pembinaan data

Seperti yang ditunjukkan dalam rajah di atas, tugas benih berdasarkan tulisan manusia ialah Langkah 1 , model secara berulang menjana tugasan baharu untuk meningkatkan set data semasa mengambil sampel daripada set data sebagai contoh baharu untuk pusingan generasi seterusnya (Langkah 2). Selepas kaedah penjanaan Arahan Kendiri ini, kekaburan, butiran yang tiada bagi setiap tugas, kepentingan setiap butiran dan pilihan yang berpotensi dianotasi secara manual (Langkah 3).

Proses latihan Interaksi Mistral

Oleh kerana model bahasa besar adalah teras reka bentuk ejen, kerja ini mula-mula menjalankan kajian awal untuk menilai prestasi tersirat model sumber terbuka dan sumber tertutup semasa dalam interaksi proses. Formula niat memahami keupayaan.
Secara khusus, artikel secara rawak memilih sepuluh tugasan daripada IN3, menggunakannya untuk menguji LLaMA-2-7B-Chat, Mistral-7B-Instruct-v0.2 dan GPT-4 dan menunjukkan model ini i ) menentukan kekaburan tugas itu, ii) meminta pengguna untuk kehilangan butiran apabila tugasan itu samar-samar, iii) meringkaskan tugas pengguna yang terperinci.
                                                                                                                                                                                                                                                                                                                                   . Sebaliknya, GPT-4 paling hampir dengan niat manusia dari segi kekaburan tugas dan butiran penting yang hilang. Pada masa yang sama, penerokaan awal juga menunjukkan bahawa untuk meningkatkan lagi keupayaan ejen untuk memahami niat tersirat dalam interaksi, kejuruteraan segera yang mudah adalah tidak mencukupi untuk terus melatih berdasarkan model sumber terbuka semasa untuk mencapai matlamat Tahap penggunaan ejen pintar.

^{Proses pembinaan data latihan (rekod perbualan in3)}

merujuk kepada angka di atas, menurut anotasi inciguity tugas IN3, butiran yang hilang dan pilihan yang berpotensi, artikel itu digunakan dalam proses membina perbualan merekodkan beberapa strategi (kotak oren), yang merangkumi: pembinaan rantaian penaakulan awal yang jelas, pembinaan pertanyaan dengan pilihan yang dicadangkan, pembinaan nada tindak balas pengguna yang berbeza, dan pembinaan ringkasan yang jelas bagi rantaian penaakulan. Strategi pembinaan dialog ini akan lebih merangsang pertanyaan dan keupayaan penaakulan model sasaran.

Penilaian menyeluruh keupayaan interaksi ejen

Keupayaan pemahaman niat tersirat ejen boleh dinilai secara langsung melalui interaksi pengguna atau secara tidak langsung melalui ejen yang melaksanakan tugas hiliran. Antaranya, interaksi pengguna memfokuskan kepada pemahaman niat itu sendiri, manakala pelaksanaan tugas memberi tumpuan kepada matlamat akhir pemahaman niat, iaitu untuk meningkatkan keupayaan ejen untuk mengendalikan tugas.

Oleh itu, untuk menilai secara menyeluruh reka bentuk ejen interaktif, artikel membahagikan eksperimen kepada dua bahagian: i) Pemahaman Arahan: Menilai keupayaan pemahaman ejen semasa interaksi pengguna ii) Pelaksanaan Arahan: Menilai prestasi pelaksanaan tugas ejen selepas menyepadukan model interaksi.

Pemahaman arahan tidak melibatkan sebarang pelaksanaan ejen masa nyata, jadi artikel secara langsung menilai prestasi model bahasa yang berbeza semasa proses interaksi untuk menentukan keupayaan interaksi mereka sebagai modul huluan dalam reka bentuk ejen Tunjukkan:

Arahan memahami keputusan ujian Antaranya, anak panah mewakili semakin tinggi skor/ keupayaan yang lebih rendah Ia berprestasi terbaik pada penunjuk seperti menilai kekaburan tugas dan liputan butiran yang hilang ringkasan yang jelas dan menyeluruh berdasarkan niat pengguna yang terperinci. Berbanding dengan model sumber terbuka yang lain, Mistral-Interact boleh memberikan pilihan yang lebih munasabah untuk meminta butiran yang hilang dalam tugasan kabur, kaedah pertanyaan lebih mesra dan prestasinya setanding dengan GPT-4.
Dari segi pelaksanaan arahan, untuk menilai keberkesanan pemahaman niat tersirat untuk pelaksanaan tugas ejen, artikel itu menyepadukan Mistral-Interact sebagai modul interaksi huluan ke dalam rangka kerja XAgent untuk ujian. Antaranya, XAgent boleh berinteraksi dalam persekitaran seperti carian rangkaian, pelaksanaan kod, baris arahan dan sistem fail.

Hasil Ujian Pelaksanaan Arahan (ST bermaksud subtask, MS bermaksud peristiwa penting)

Hasil penilaian kuantitatif menunjukkan bahawa mengintegrasikan mistral-interaksi membantu: i) Elakkan menetapkan matlamat yang tidak perlu semasa proses pelaksanaan , ii) menjadikan proses pelaksanaan ejen lebih konsisten dengan niat pengguna yang terperinci, dan iii) mengurangkan panggilan alat yang tidak perlu dan menggalakkan kecekapan penggunaan alat ejen.

Analisis Kes Interaksi Ejen

Dari segi pemahaman arahan, untuk menunjukkan lagi keteguhan Mistral-Interact dalam senario dialog yang berbeza, artikel itu juga menyediakan tiga analisis kes.
berinteraksi dan pengguna dalam senario berbeza
Kes A menunjukkan kesan nada pengguna dan gaya perbualan yang berbeza pada Mistral-Interact. Artikel itu mendapati bahawa tidak kira sama ada jawapan pengguna itu pendek atau terperinci, bersemangat atau dingin, malah mengandungi kesilapan ejaan, Mistral-Interact dapat memahami dengan tepat dan memberikan respons yang sesuai, membuktikan keteguhannya.
Dalam kes B, ia telah diuji sama ada Mistral-Interact boleh terus bertanya dan membimbing perbualan kembali ke landasan apabila pengguna menunjukkan sikap tidak bekerjasama. Keputusan menunjukkan bahawa walaupun pengguna mengelak soalan, mereka masih dapat mengubah hala perbualan dengan berkesan.
Dalam kes C, boleh diperhatikan bahawa Mistral-Interact boleh memasukkan maklumat tambahan yang diberikan oleh pengguna ke dalam ringkasan, yang tidak ditanya secara jelas oleh model interaksi. Ini menunjukkan bahawa apabila pertanyaan model tidak dapat menampung butiran yang hilang sepenuhnya atau pengguna mempunyai keperluan khusus, model masih dapat meringkaskan semua niat pengguna secara munasabah dan menyeluruh, menjadikannya lebih mesra pengguna.
Untuk menggambarkan dengan lebih jelas peranan Mistral-Interact dari segi pelaksanaan arahan, kajian kes perbandingan disediakan dalam rajah di bawah.
                                                                                                                                                                                             Teks dalam warna merah muda
boleh ditemui apabila sasaran pengguna dikaburkan. XAgent tidak dapat menetapkan subtugas pengguna dengan tepat. Menurut teks bertanda ungu^{, didapati bahawa XAgent sering menetapkan beberapa subtugas yang tidak perlu. Ini adalah kerana tugas pengguna terlalu kabur untuk dilaksanakan, dan ejen cenderung untuk mereka-reka butiran yang tidak perlu, yang tidak konsisten dengan niat sebenar pengguna.}

Sebaliknya, matlamat tugasan yang jelas membolehkan XAgent merumuskan subtugas yang lebih khusus selepas interaksi aktif dengan Mistral-Interact. Teks bertanda
hijau
dalam rajah menunjukkan ketekalan ini. Pada masa yang sama, proses pelaksanaan ejen menjadi lebih mudah dan bilangan panggilan alat dikurangkan. Semua ini mencerminkan proses pelaksanaan ejen yang lebih cekap.
Kesimpulan
Kami berdiri di titik permulaan baharu, bersedia untuk menyaksikan lembaran baharu kerjasama manusia-mesin, persefahaman dan pembelajaran bersama. Ejen pintar tidak lama lagi bukan lagi pemproses maklumat yang dingin, tetapi rakan kongsi yang berempati, yang mampu memahami dengan mendalam keperluan dan keinginan kita yang mungkin pada mulanya tidak dapat dinyatakan dengan jelas melalui pengalaman interaktif yang halus. Revolusi dalam reka bentuk ejen pintar berpusatkan manusia ini akan mendedahkan kemungkinan yang tidak terhingga dalam interaksi, menjadikan ejen pintar benar-benar bantuan yang amat diperlukan dalam kehidupan kita.

Atas ialah kandungan terperinci Model sumber terbuka dan tertutup 'Chaos': Mari lihat ejen mana yang boleh melihat dengan baik niat sebenar manusia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Panas

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

Repo: Cara menghidupkan semula rakan sepasukan

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Kesukaran mengemas kini caching laman web akaun rasmi: Bagaimana untuk mengelakkan cache lama yang mempengaruhi pengalaman pengguna selepas kemas kini versi?

3 minggu yang lalu By 王林

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas Tag

Kod&IT

Suara

Perniagaan

Pemasaran

Pengesan AI

Chatbot

Reka bentuk&Seni

Artikel Panas

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

Repo: Cara menghidupkan semula rakan sepasukan

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Kesukaran mengemas kini caching laman web akaun rasmi: Bagaimana untuk mengelakkan cache lama yang mempengaruhi pengalaman pengguna selepas kemas kini versi?

3 minggu yang lalu By 王林

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Tag artikel panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7134

Tutorial Java

1534

Tutorial Laravel

1257

Tutorial PHP

1205

Tutorial CakePHP

1154

Tunjukkan Lagi

Related knowledge

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe

Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI Aug 19, 2024 pm 04:48 PM

Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI

See all articles