Dalam beberapa bulan yang lalu, contoh syarikat perisian Ejen MetaGPT [1] sangat mengagumkan Ia dengan cepat memperoleh 30k bintang di GitHub dan menerima berpuluh-puluh media profesional global dan laporan V besar. Tetapi syarikat perisian ejen hanyalah mikrokosmos bagi Agent Society. Masyarakat pintar mungkin mempunyai syarikat perisian, syarikat e-dagang dan syarikat permainan, serta sejumlah besar ejen bebas untuk menyediakan produktiviti. Jürgen Schmidhuber, bapa kecerdasan buatan moden, juga sangat mengiktiraf konsep masyarakat pintar Dia dan pasukannya telah membuat sumbangan besar kepada MetaGPT dan dimasukkan dalam senarai pengarang MetaGPT.
Seawal tahun 1986, Marvin Minsky mengetuai revolusi ideologi dalam bidang kecerdasan buatan dengan karyanya "Society of Mind (SOM)" [2]. Dia mencadangkan teori yang sangat asli: minda tidak perlu terdiri daripada komponen pintar individu, tetapi sistem yang kompleks terdiri daripada interaksi satu siri komponen mudah Ini adalah koleksi yang melahirkan apa yang kita tahu kesedaran. Konsep ini mempunyai kesan yang tidak terukur dan meluas ke atas pembinaan ejen autonomi dan perkembangan seterusnya.
Dengan lonjakan ke hadapan dalam teknologi kecerdasan buatan ke 2023, kita kini boleh membayangkan bahawa jika setiap komponen kecil itu sendiri mempunyai tahap kecerdasan tertentu, bagaimana mereka akan berinteraksi dan tahap kecerdasan kolektif yang akan mereka hasilkan. Antara kertas penyelidikan mengenai Natural Language Agent Society (NLSOM, Language Agent Society) pada separuh pertama 2023 [3], daripada institusi penyelidikan terkenal seperti Universiti Sains dan Teknologi King Abdullah, Makmal Kepintaran Buatan Swiss, Universiti Oxford dan Para saintis ETH Zurich bersama-sama meneroka kemungkinan komuniti ejen pintar.
Mereka mencadangkan untuk membina komuniti ejen yang didorong oleh bahasa yang boleh menyelesaikan tugas secara kolaboratif yang ejen tunggal tidak boleh atau sukar untuk diselesaikan secara bebas. Kajian itu mencadangkan satu siri idea eksperimen yang lebih daripada sekadar bukti konsep Mereka dilihat sebagai pelopor kepada masyarakat yang mengandungi trilion agen pintar, yang mungkin juga termasuk ahli manusia.
https://arxiv.org/pdf/2305.17066.pdf
Pada Festival CogX 2023, Jürgen menunjukkan kepada penonton pandangan mendalamnya tentang model bahasa besar (LLM). Apabila membincangkan topik yang berkaitan dengan ejen, beliau menyebut pelbagai cara untuk membina sistem peningkatan diri, termasuk Mesin Turing Universal [4] dan mesin Gödel [5]. Beliau menegaskan bahawa model bahasa besar semasa memberikan kita cara pemikiran baharu - dengan menggunakan bahasa simbolik universal (seperti bahasa semula jadi atau kod pengaturcaraan) sebagai antara muka untuk menyambungkan model yang berbeza. Model ini boleh berkomunikasi dengan model bahasa lain untuk membina paradigma masyarakat minda bahasa semula jadi (NLSOM).
Profesor Jürgen Schmidhuber ialah Pengarah Saintifik Swiss Artificial Intelligence Laboratory (IDSIA) dan Pengarah Pusat Kepintaran Buatan di Universiti Sains dan Teknologi King Abdullah (Inisiatif AI, KAUST). Kerja beliau memberi impak yang mendalam pada arah kecerdasan buatan yang penting seperti pembelajaran pengukuhan (Pembelajaran Pengukuhan), pembelajaran meta (Pembelajaran Meta) dan rangkaian saraf (Rangkaian Neural).
Setakat ini, petikan Google Scholar Profesor Schmidhuber ialah 210,000, termasuk 90,000 petikan untuk kertas ingatan jangka pendek panjang (LSTM) sebagai pencipta bersama. Pada usia 15 tahun, dia berharap dapat mengembangkan kecerdasan buatan yang lebih bijak dan mampu memperbaiki diri agar dia boleh bersara. Dua daripada empat orang yang mengasaskan DeepMind, serta rekrut AI Ph.D pertama mereka, berasal dari makmal Jürgen Schmidhuber.
Dalam masyarakat yang dibayangkan oleh Jürgen, semua komunikasi adalah telus dan mudah ditafsir. Beliau menyebut satu konsep yang dinamakan “Mindstorm”, iaitu apabila sesuatu masalah diberikan, masyarakat minda bahasa semula jadi ini boleh bekerjasama untuk menyelesaikan masalah tersebut.
Dalam proses ini, setiap ahli masyarakat mungkin mempunyai idea dan perspektif yang berbeza, dan mereka akan mengumpul dan menyepadukan idea yang berbeza ini untuk membuat keputusan kolektif.
Kaedah ini amat sesuai untuk menyelesaikan masalah yang tidak dapat diselesaikan dengan berkesan oleh satu ejen. Jürgen seterusnya menjelaskan bahawa masalah sedemikian boleh bersifat pengaturcaraan, seperti menggunakan bahasa Python untuk menyelesaikan masalah pengaturcaraan tertentu. Melalui sinergi ini, kecerdasan kolektif masyarakat ejen pintar akan dapat mencapai penyelesaian yang melebihi kemampuan individu.
Lelaran projek MetaGPT ini mendapat bimbingan langsung daripada Jürgen, dan pasukannya juga memberikan banyak sokongan dalam pengekodan, penulisan dan kejuruteraan.
Seterusnya, artikel ini akan menganalisis kandungan kemas kini kertas MetaGPT secara terperinci supaya pembaca dapat memahami butirannya dengan lebih mendalam.
1. Kemas kini kertas dan rangka kerja
Kemas kini bahagian kertas 3.1: Ia menerangkan konsep reka bentuk pengkhususan peranan dan pembahagian kerja dalam rangka kerja MetaGPT, dan menerangkan mod tingkah laku ejen tunggal dalam MetaGPT dan kaedah organisasi di bawah SOP.
Dikemas kini bahagian 3.2 kertas kerja: Memperkenalkan mekanisme komunikasi dalam rangka kerja MetaGPT, termasuk reka bentuk antara muka komunikasi berstruktur dan mekanisme publish-subscribe.
Kemas kini dalam Bahagian 3.3 kertas kerja: Mekanisme maklum balas boleh laku diperkenalkan, yang merupakan mekanisme untuk lelaran berterusan dan pembetulan kendiri semasa pelaksanaan kod.
Gamb.2. Contoh protokol komunikasi (kiri) dan contoh pengaturcaraan berulang dengan maklum balas boleh laku semasa (kanan). Kiri: Ejen menggunakan kumpulan mesej kongsi untuk menerbitkan mesej berstruktur. Mereka juga boleh melanggan mesej yang berkaitan berdasarkan konfigurasi mereka. Gambar kanan: Selepas menjana kod awal, ejen jurutera boleh melaksanakan kod dan menyemak sama ada ralat dilaporkan semasa operasi. Jika ralat berlaku, Ejen akan menyemak keputusan pelaksanaan dan membandingkannya dengan PRD, reka bentuk sistem dan fail kod untuk menulis semula dan mengoptimumkan kod.
1.1. Protokol Komunikasi Ejen
Pada masa ini, kebanyakan kerjasama pelbagai ejen dicapai melalui perbualan berdasarkan bahasa semula jadi, tetapi ini bukan cara yang optimum untuk menyelesaikan tugasan tertentu.
Keluaran bahasa semula jadi tanpa kekangan dan keperluan khusus boleh membawa kepada herotan kandungan maklumat atau peralihan fokus semantik.
Oleh itu, kandungan komunikasi berstruktur dan borang antara muka membantu ejen memahami keperluan tugas dengan cepat dan tepat, dan juga kondusif untuk memaksimumkan pengekalan kandungan maklumat. Merujuk kepada keperluan peranan untuk jawatan berbeza dalam SOP manusia, kami menetapkan spesifikasi output untuk setiap peranan yang selaras dengan pakar manusia dalam kedudukan yang sepadan, memerlukan ejen menukar maklumat bahasa semula jadi asal kepada ungkapan yang lebih berstruktur (seperti yang ditunjukkan dalam rajah di bawah). Seperti struktur data, reka bentuk API dan rajah jujukan.
Gamb.3 Gambarajah skematik proses pembangunan perisian MetaGPT, menunjukkan bahawa SOP berstruktur boleh membawa hasil yang lebih baik. Lihat Lampiran B untuk demonstrasi yang lebih terperinci
Dalam percubaan seterusnya, kami membandingkan MetaGPT dan ChatDev (menggunakan mekanisme komunikasi dan kerjasama dalam bentuk sembang) untuk benar-benar menyelesaikan tugas kompleks pembangunan perisian ini Hasilnya menunjukkan bahawa reka bentuk Antara muka komunikasi berstruktur boleh membawa kesan ketara kepada kerjasama ejen pintar.
Mekanisme Terbit-Langgan
Dalam proses komunikasi berbilang ejen, bergantung semata-mata pada kaedah komunikasi titik tunggal 1v1 bukan sahaja akan meningkatkan kerumitan topologi komunikasi, membawa kepada kecekapan kerjasama yang rendah, tetapi juga meningkatkan pembangunan secara mendadak kos. Oleh itu, kami melaksanakan kumpulan mesej kongsi dan langganan berasaskan minat dalam rangka kerja melalui mekanisme pemesejan [publish-subscribe].
Secara khusus, persekitaran menyediakan kumpulan mesej kongsi yang mana ejen boleh mendapatkan maklumat secara langsung tanpa bertanya kepada ejen lain satu persatu. Pada masa yang sama, ejen boleh menapis dan menapis mesej berdasarkan minat/kelakuan prihatinnya sendiri, dengan itu mengurangkan beban mesej/ingatan. Seperti yang ditunjukkan dalam Rajah 3, arkitek terutamanya memberi perhatian kepada output dokumen PRD pengurus produk, tetapi kurang memberi perhatian kepada dokumen jurutera ujian.
1.2, Reka Bentuk Maklum Balas Berulang Boleh Laksana
Maklum balas penyahpepijatan dan pelaksanaan memainkan peranan penting dalam tugas pengaturcaraan harian. Walau bagaimanapun, kaedah sedia ada sering kekurangan mekanisme pembetulan kendiri dan hanya menjalankan penilaian kebolehlaksanaan kod melalui semakan kod dan mekanisme semakan. Untuk mengurangkan lagi masalah halusinasi LLM dalam penjanaan kod, kami memperkenalkan mekanisme maklum balas boleh laku untuk memperbaiki kod secara berulang. Melalui maklum balas keputusan ujian pelaksanaan kod automatik, penilaian dan pertimbangan kebolehlaksanaan kod dijalankan, dan LLM dinaikkan pangkat untuk melaksanakan lelaran dan pengoptimuman kendiri. Seperti yang ditunjukkan dalam Rajah 2, jurutera boleh terus mengemas kini kod berdasarkan keputusan pelaksanaan kod dan menguji secara berulang sehingga ujian lulus atau keluar selepas maksimum N percubaan semula.
2. Kemas kini percubaan
Dalam bahagian percubaan, kami telah menambah percubaan untuk meneroka kesan memperkenalkan rangka kerja berbilang ejen ke dalam SOP dan percubaan untuk meningkatkan kualiti kod yang dihasilkan oleh maklum balas berulang yang boleh dilaksanakan. Pada set data:
2.1. Reka bentuk maklum balas berulang boleh dilaksanakan
Rajah 4 menunjukkan prestasi MetaGPT mengatasi semua kaedah sebelumnya dalam penanda aras HumanEval dan MBPP. Apabila MetaGPT (menggunakan GPT-4 sebagai model asas), Pass@1nya pada penanda aras HumanEval bertambah baik dengan ketara berbanding GPT-4. Ia mencapai 85.9% dan 87.7% dalam kedua-dua penanda aras awam ini (dengan mengambil kira kos percubaan, keputusan berangka beberapa model digunakan secara langsung keputusan yang diberikan oleh Dong et al. (2023). [6]). . penilaian manual (A, E) atau analisis statistik (B, C, D) untuk menilai prestasi, kami menunjukkan keupayaan penjanaan perisian autonomi MetaGPT melalui contoh visual (kertas Rajah 5). Eksperimen dan analisis tambahan boleh didapati dalam Lampiran C kertas:
(A) Kebolehlaksanaan: Metrik ini menilai kod yang dijana daripada 1 (gagal/tidak berfungsi) kepada 4 (tanpa kecacatan). 1 bermaksud tidak berfungsi, 2 bermaksud berfungsi tetapi tidak sempurna, 3 bermaksud hampir sempurna, dan 4 bermaksud tiada kecacatan.
(B) Kos: Penilaian kos di sini termasuk (1) masa berjalan projek (2) Penggunaan token dan (3) perbelanjaan sebenar. (C) Statistik Kod: Termasuk (1) bilangan fail kod (2) purata bilangan baris kod setiap fail dan (3) jumlah bilangan baris kod.(D) Kecekapan pengeluaran: Definisi asas ialah penggunaan Token dibahagikan dengan bilangan baris kod, iaitu Token yang digunakan oleh setiap baris kod Semakin kecil nilainya, semakin tinggi kecekapan pengeluaran kod.
(E) Kos semakan manual: Dikira dalam bilangan pusingan semakan yang diperlukan untuk memastikan kod berjalan lancar, yang mewakili kekerapan campur tangan manual, seperti nyahpepijat atau mengimport kebergantungan dan semakan lain. 2.3, SOP lwn ChatChainDalam senario menyelesaikan tugasan tertentu, untuk meneroka kesan SOP terhadap kerjasama pelbagai ejen, kami memilih ChatDev, rangka kerja ejen pembangunan perisian terbuka yang menyokong kerja sumber, sebagai objek Perbandingan eksperimen. ChatDev ialah rangka kerja untuk organisasi ejen dan kerjasama berdasarkan pembahagian peranan ChatChain dan aliran air terjun pembangunan perisian. Kami memilih 7 tugasan daripada SoftwareDev untuk perbandingan dan membandingkan penunjuk berkaitan yang disebutkan di atas untuk menggambarkan perbezaan.
Seperti yang ditunjukkan dalam Jadual 1 kertas kerja, MetaGPT mengatasi ChatDev dalam hampir semua metrik pada set data SoftwareDev yang mencabar.
Contohnya: MetaGPT mendapat 3.75 dari segi kebolehkuatkuasaan, iaitu sangat hampir dengan 4 (sempurna). Selain itu, masa yang diambil lebih sedikit (503 saat) daripada ChatDev. Ia juga jauh lebih baik daripada ChatDev dari segi statistik kod dan kos pengubahsuaian manual. Walaupun MetaGPT memerlukan lebih banyak token (24,613 atau 31,255 berbanding ChatDev 19,292), ia hanya memerlukan 126.5/124.3 Token untuk menjana satu baris kod. Sebagai perbandingan, ChatDev menggunakan 248.9 Token.
Keputusan ini menyerlahkan kelebihan SOP dalam kerjasama pelbagai ejen.
3. PenghargaanTerima kasih kepada Sarah Salhi, setiausaha eksekutif Pusat AI KAUST, rakan pasca doktoral Wang Yuhui, dan pelajar kedoktoran Wang Wenyi atas cadangan dan bantuan mereka dalam kertas kerja ini.
[1] https://arxiv.org/pdf/2308.00352.pdf
[2] https://en.wikipedia.org/wiki/Society_of_Mind
[3] https://arxiv.org/pdf/2305.17066.pdf
#🎜 🎜#[4] https://en.wikipedia.org/wiki/Universal_Turing_machine[5] https://en.wikipedia.org/wiki/Gödel_machine [6] https://arxiv.org/abs/2304.07590Atas ialah kandungan terperinci Menyasarkan masyarakat pintar, MetaGPT berganding bahu dengan pasukan Jürgen Schmidhuber. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!