Ejen StarShip CodeGen yang dilancarkan oleh OpenCSG, syarikat permulaan model berskala besar di China, telah mencapai tempat kedua di dunia dalam kedudukan Prince WEBench (Real Independent Programming Evaluation of Large Models) melalui inovasi. Pada masa yang sama, ia mencipta rekod tertinggi (SOTA) berdasarkan model GPT-4o. (Kiraan perkataan: 37)
Penilaian SWEBench sangat hampir dengan senario pengaturcaraan sebenar dan amat sukar ia bukan sahaja memerlukan model untuk memahami keperluan dan menyelaraskan perubahan antara pelbagai fungsi/kelas, tetapi juga memerlukan model untuk berinteraksi dengan pelaksanaan. persekitaran, mengendalikan konteks yang sangat panjang, dan Lakukan penaakulan logik kompleks yang melampaui tugas penjanaan kod tradisional. Dalam ujian sebenar yang sukar ini, GPT4 dan Devin yang paling maju dalam industri hanya boleh menyelesaikan 1.74% dan 13.86% masalah. Pencapaian OpenCSG ini menandakan langkah utama yang diambil oleh syarikat domestik dalam mempromosikan pembangunan model bahasa ke arah yang lebih praktikal, pintar dan autonomi.
Devin - Inovasi dalam pengaturcaraan model besar
Pada Mac 2024, kemunculan Devin, jurutera perisian AI pertama, meletupkan seluruh dunia teknologi. Walaupun ia disertai dengan beberapa siri kontroversi, keupayaan inovasi Devin yang kukuh dan potensi besar telah membawa jangkaan baharu kepada ramai peminat dan pengamal AI. Devin bukan sahaja boleh menyelesaikan tugas pengekodan dengan mudah, tetapi juga melengkapkan keseluruhan kitaran pembangunan perisian secara bebas - daripada perancangan projek hingga ke penempatan, termasuk tetapi tidak terhad kepada membina tapak web, mencari dan membetulkan pepijat secara bebas, melatih dan memperhalusi model AI, dsb.
Cabaran sebenar pengaturcaraan model besar
Kenapa Devin berani mencabar keupayaan pengaturcaraan model asas seperti GPT4? Intinya ialah jurutera perisian bukan sahaja menulis kod, tetapi juga melibatkan pemahaman keperluan, tafsiran kod, perancangan pengaturcaraan, penjanaan kod, penyahpepijatan dan pembaikan pengecualian, dsb. Setiap pautan di sini akan menjejaskan kebolehgunaan dan kesan pengaturcaraan model besar.
Untuk senario kehidupan sebenar sedemikian, Princeton University mencadangkan SWEBench (https://arxiv.org/abs/2310.06770), yang merupakan alat untuk menilai secara kuantitatif keupayaan penjanaan kod hujung ke hujung. Skor GPT-4 pada SWEBench hanya 1.74%. Walaupun dengan teknologi RAG, markah tidak melebihi 3%, yang menunjukkan bahawa ia tidak boleh menyelesaikan masalah pengaturcaraan dunia sebenar dengan bergantung semata-mata pada model asas.
Inovasi teknologi Devin adalah berdasarkan pembinaan aliran kerja berasaskan Agen, yang meningkatkan kadar penyelesaian SWEBench ke tahap yang baharu. Pada bulan Mac, Devin mendahului senarai dengan kadar penyelesaian masalah sebanyak 13.86% diselesaikan secara bebas, yang secara langsung meningkatkan "pengaturcaraan model besar" daripada keadaan hampir tidak boleh digunakan kepada "melihat cahaya hari." Syarikat-syarikat utama Silicon Valley dan syarikat permulaan model besar sedang merekrut LLM untuk SE, dan rekod ini telah disemak secara berterusan. Sehingga akhir April 2024, rekod terbaik telah dibuat oleh Ejen Pembangun Amazon Q yang dilancarkan oleh pasukan AI Amazon pada 20.33%. Malangnya, berbanding "membiarkan seratus bunga mekar" syarikat China dalam senarai model asas, syarikat China jarang menyertai cabaran sukar ini sehingga kali ini OpenCSG menyemak rekod ini.
Terobosan syarikat pemula Cina
Baru-baru ini, keputusan penilaian terkini SWEBench telah dikemas kini ke tempat kedua dalam senarai Ejen OpenCSG StarShip CodeGen yang dilancarkan oleh syarikat itu mencapai kadar kelulusan 23.67% dalam Lite e. .
OpenCSG hanya ditubuhkan selama setahun Ia adalah pasukan yang mempunyai pengalaman mendalam dalam sumber terbuka dan sintesis model besar: CEO Chen Ran ialah seorang usahawan terkenal dalam bidang perisian sumber terbuka dan telah berjaya membina banyak. syarikat komersil dalam bidang sumber terbuka; CTO Wang Wei berasal dari Kelas Yao Universiti Tsinghua pada tahun 2005 dan mempunyai pengalaman R&D bertahun-tahun dalam bidang kepintaran buatan syarikat juga mengumpulkan pelajar elit dari Universiti Tsinghua, Universiti Peking, Wharton, Universiti Sains dan Teknologi Hong Kong dan universiti lain. Bagaimanakah pasukan sedemikian mencipta rekod baharu?
Rekod baharu, model+AgenBekerjasama
Pada masa ini, banyak syarikat sedang aktif meneroka dan mengamalkan model asas, model domain menegak, RAG dan teknologi lain, manakala OpenCSG telah memilih arah yang difokuskan Ejen Pembangunan inovatif dan pengoptimuman mendalam bagi algoritma model besar.
AgenTahap: Berbeza daripada LLM+RAG atau rangka kerja Ejen umum, OpenCSG StarShip CodeGen Ejen direka untuk ejen yang sangat disesuaikan dan dioptimumkan dalam bidang penyelidikan dan pembangunan perisian: menyepadukan semua peringkat penyelidikan dan pembangunan (pemahaman keperluan , pengambilan kod, perancangan pengaturcaraan dan penulisan kod , pengesahan gelung, dsb.) dilaksanakan melalui Agen LLM, dan digabungkan dengan kaedah kejuruteraan perisian, seperti analisis sintaks AST, perolehan semula kebergantungan, dsb. untuk pengoptimuman yang mendalam, kami berusaha untuk kecemerlangan dalam setiap pautan, dan akhirnya mencapai penjanaan kod ketepatan lebih tinggi melalui penyepaduan.
Tahap algoritma: Sebagai tindak balas kepada masalah biasa seperti konflik API yang disebabkan oleh perubahan versi kod, OpenCSG mencadangkan model guru adaptif, yang menganalisis rekod perubahan versi kod melalui model guru untuk menjana data pengaturcaraan berkualiti tinggi dan menggunakannya untuk meningkatkan kesan penjanaan model asas. Menurut penilaian, penambahbaikan yang dibawa oleh inovasi ini jauh lebih baik daripada model RAG semasa, terutamanya dalam senario projek popular di mana struktur API dikemas kini dengan kerap. Keputusan berkaitan bahagian ini telah dibentuk menjadi kertas kerja dan diserahkan kepada persidangan antarabangsa.
Pendekatan serampang dua mata algoritma + kejuruteraan dan model penambahbaikan berterusan inilah yang membolehkan OpenCSG CodeGen Agent menonjol di kalangan model lain.
StarShip's sea of stars
Jika penilaian sebenar Ejen CodeGen adalah ujian kecil, maka StarShip membawa pelan tindakan besar OpenCSG. Mengenai kedudukan produk StarShip, Ketua Pegawai Eksekutif OpenCSG Chen Ran berkata: "StarShip memikul visi kami untuk membentuk semula pembangunan perisian dengan model besar. Pengguna membentuk pasukan pekerja digital mereka sendiri melalui ejen terbina dalam StarShip. Ejen CodeGen dibina ke dalam platform Pengaturcara digital, pada masa ini termasuk Penyemak kod Ejen CodeReview dan jurutera soal jawab kod CodeSearch, adalah berbeza daripada alat bantuan kod Kami berharap pekerja digital ini boleh bekerja secara langsung tanpa campur tangan bantuan manual Kami akan mengeluarkan lebih banyak jenis pekerja digital, yang merangkumi semua aspek keperluan, reka bentuk, pengekodan, ujian dan operasi dan penyelenggaraan.”
CTO Wang Wei berkata bahawa laluan ini penuh dengan cabaran tetapi sangat menarik, “Daripada prinsip pertama, model besar boleh meningkatkan produktiviti ' atau 'tidak', tetapi persoalan bila, di mana dan dalam bentuk apa StarShip adalah jawapan yang kami cuba berikan."
Selain StarShip, pasukan OpenCSG juga cukup produktif: platform model sumber terbuka CSGHub, wukong. model pra-latihan, model kod diperhalusi CSGCoder, dsb. Produk ini diletakkan dengan tepat dan diterima baik dalam industri.Pelancaran pantas dan lelaran produk ini bukan sahaja memenuhi permintaan pasaran, tetapi juga memenuhi matlamat bersama: untuk memperkasakan semua orang dalam setiap perusahaan dengan model yang besar. "Untuk membolehkan model besar memperkasakan setiap perusahaan dan setiap orang, kita perlu membuat model besar sama seperti air dan elektrik. Jika model besar adalah tenaga elektrik, maka CSGHub ialah rangkaian kuasa, dan StarShip ialah pelbagai peralatan rumah. Akhirnya, Memperkasakan beribu-ribu isi rumah. tetapi juga menjadikan platform sumber terbuka.
"Kami adalah sebuah syarikat muda. Kami mendapat manfaat daripada sumber terbuka supaya kami dapat menghasilkan beberapa keputusan dalam masa yang lebih singkat. Pada masa yang sama, kami akan memberi kembali sepenuhnya kepada komuniti sumber terbuka. Ini adalah prinsip asas terbuka Di samping itu, saya sangat bersetuju dengan Sam Menurut Altman, sumber terbuka hanyalah model, dan nilai produk lebih penting daripada model," kata CTO Wang Wei. “Tanda aras itu sendiri hanyalah angka Dengan pelancaran GPT4-o, markah ujian SWEBench dijangka melebihi 30% tidak lama lagi, dan anggaran optimistik boleh melebihi 50% dan kami memberi lebih perhatian kepada nilai produk di sebalik ini nombor: Dengan peningkatan keupayaan model dan teknologi kejuruteraan, pekerja digital akan berubah daripada perubahan kuantitatif kepada perubahan kualitatif, daripada boleh digunakan kepada mudah digunakan, membawa kepada wabak yang menyeluruh dalam pelbagai industri." Wang Wei menjelaskan, "Ini mungkin baru. era dalam konteks era model besar Perubahan besar, daripada syarikat kepada individu, kita semua perlu bersedia untuk ini.”
.Atas ialah kandungan terperinci Melangkaui Devin, Yao Ban mengetuai OpenCSG untuk mencipta rekod dunia baharu untuk pengaturcaraan model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!