Melangkaui Devin, Yao Ban mengetuai OpenCSG untuk mencipta rekod dunia baharu untuk pengaturcaraan model besar-AI-php.cn

Rumah

Peranti teknologi

Melangkaui Devin, Yao Ban mengetuai OpenCSG untuk mencipta rekod dunia baharu untuk pengaturcaraan model besar

王林

Jun 07, 2024 pm 12:36 PM

industri

Ejen StarShip CodeGen yang dilancarkan oleh OpenCSG, syarikat permulaan model berskala besar di China, telah mencapai tempat kedua di dunia dalam kedudukan Prince WEBench (Real Independent Programming Evaluation of Large Models) melalui inovasi. Pada masa yang sama, ia mencipta rekod tertinggi (SOTA) berdasarkan model GPT-4o. (Kiraan perkataan: 37)

Penilaian SWEBench sangat hampir dengan senario pengaturcaraan sebenar dan amat sukar ia bukan sahaja memerlukan model untuk memahami keperluan dan menyelaraskan perubahan antara pelbagai fungsi/kelas, tetapi juga memerlukan model untuk berinteraksi dengan pelaksanaan. persekitaran, mengendalikan konteks yang sangat panjang, dan Lakukan penaakulan logik kompleks yang melampaui tugas penjanaan kod tradisional. Dalam ujian sebenar yang sukar ini, GPT4 dan Devin yang paling maju dalam industri hanya boleh menyelesaikan 1.74% dan 13.86% masalah. Pencapaian OpenCSG ini menandakan langkah utama yang diambil oleh syarikat domestik dalam mempromosikan pembangunan model bahasa ke arah yang lebih praktikal, pintar dan autonomi.

Devin - Inovasi dalam pengaturcaraan model besar

Pada Mac 2024, kemunculan Devin, jurutera perisian AI pertama, meletupkan seluruh dunia teknologi. Walaupun ia disertai dengan beberapa siri kontroversi, keupayaan inovasi Devin yang kukuh dan potensi besar telah membawa jangkaan baharu kepada ramai peminat dan pengamal AI. Devin bukan sahaja boleh menyelesaikan tugas pengekodan dengan mudah, tetapi juga melengkapkan keseluruhan kitaran pembangunan perisian secara bebas - daripada perancangan projek hingga ke penempatan, termasuk tetapi tidak terhad kepada membina tapak web, mencari dan membetulkan pepijat secara bebas, melatih dan memperhalusi model AI, dsb.

Cabaran sebenar pengaturcaraan model besar

Kenapa Devin berani mencabar keupayaan pengaturcaraan model asas seperti GPT4? Intinya ialah jurutera perisian bukan sahaja menulis kod, tetapi juga melibatkan pemahaman keperluan, tafsiran kod, perancangan pengaturcaraan, penjanaan kod, penyahpepijatan dan pembaikan pengecualian, dsb. Setiap pautan di sini akan menjejaskan kebolehgunaan dan kesan pengaturcaraan model besar.

Untuk senario kehidupan sebenar sedemikian, Princeton University mencadangkan SWEBench (https://arxiv.org/abs/2310.06770), yang merupakan alat untuk menilai secara kuantitatif keupayaan penjanaan kod hujung ke hujung. Skor GPT-4 pada SWEBench hanya 1.74%. Walaupun dengan teknologi RAG, markah tidak melebihi 3%, yang menunjukkan bahawa ia tidak boleh menyelesaikan masalah pengaturcaraan dunia sebenar dengan bergantung semata-mata pada model asas.

Inovasi teknologi Devin adalah berdasarkan pembinaan aliran kerja berasaskan Agen, yang meningkatkan kadar penyelesaian SWEBench ke tahap yang baharu. Pada bulan Mac, Devin mendahului senarai dengan kadar penyelesaian masalah sebanyak 13.86% diselesaikan secara bebas, yang secara langsung meningkatkan "pengaturcaraan model besar" daripada keadaan hampir tidak boleh digunakan kepada "melihat cahaya hari." Syarikat-syarikat utama Silicon Valley dan syarikat permulaan model besar sedang merekrut LLM untuk SE, dan rekod ini telah disemak secara berterusan. Sehingga akhir April 2024, rekod terbaik telah dibuat oleh Ejen Pembangun Amazon Q yang dilancarkan oleh pasukan AI Amazon pada 20.33%. Malangnya, berbanding "membiarkan seratus bunga mekar" syarikat China dalam senarai model asas, syarikat China jarang menyertai cabaran sukar ini sehingga kali ini OpenCSG menyemak rekod ini.

Terobosan syarikat pemula Cina

Baru-baru ini, keputusan penilaian terkini SWEBench telah dikemas kini ke tempat kedua dalam senarai Ejen OpenCSG StarShip CodeGen yang dilancarkan oleh syarikat itu mencapai kadar kelulusan 23.67% dalam Lite e. .

Melangkaui Devin, Yao Ban mengetuai OpenCSG untuk mencipta rekod dunia baharu untuk pengaturcaraan model besar

OpenCSG hanya ditubuhkan selama setahun Ia adalah pasukan yang mempunyai pengalaman mendalam dalam sumber terbuka dan sintesis model besar: CEO Chen Ran ialah seorang usahawan terkenal dalam bidang perisian sumber terbuka dan telah berjaya membina banyak. syarikat komersil dalam bidang sumber terbuka; CTO Wang Wei berasal dari Kelas Yao Universiti Tsinghua pada tahun 2005 dan mempunyai pengalaman R&D bertahun-tahun dalam bidang kepintaran buatan syarikat juga mengumpulkan pelajar elit dari Universiti Tsinghua, Universiti Peking, Wharton, Universiti Sains dan Teknologi Hong Kong dan universiti lain. Bagaimanakah pasukan sedemikian mencipta rekod baharu?

Rekod baharu, model+AgenBekerjasama

Pada masa ini, banyak syarikat sedang aktif meneroka dan mengamalkan model asas, model domain menegak, RAG dan teknologi lain, manakala OpenCSG telah memilih arah yang difokuskan Ejen Pembangunan inovatif dan pengoptimuman mendalam bagi algoritma model besar.

AgenTahap: Berbeza daripada LLM+RAG atau rangka kerja Ejen umum, OpenCSG StarShip CodeGen Ejen direka untuk ejen yang sangat disesuaikan dan dioptimumkan dalam bidang penyelidikan dan pembangunan perisian: menyepadukan semua peringkat penyelidikan dan pembangunan (pemahaman keperluan , pengambilan kod, perancangan pengaturcaraan dan penulisan kod , pengesahan gelung, dsb.) dilaksanakan melalui Agen LLM, dan digabungkan dengan kaedah kejuruteraan perisian, seperti analisis sintaks AST, perolehan semula kebergantungan, dsb. untuk pengoptimuman yang mendalam, kami berusaha untuk kecemerlangan dalam setiap pautan, dan akhirnya mencapai penjanaan kod ketepatan lebih tinggi melalui penyepaduan.

Tahap algoritma: Sebagai tindak balas kepada masalah biasa seperti konflik API yang disebabkan oleh perubahan versi kod, OpenCSG mencadangkan model guru adaptif, yang menganalisis rekod perubahan versi kod melalui model guru untuk menjana data pengaturcaraan berkualiti tinggi dan menggunakannya untuk meningkatkan kesan penjanaan model asas. Menurut penilaian, penambahbaikan yang dibawa oleh inovasi ini jauh lebih baik daripada model RAG semasa, terutamanya dalam senario projek popular di mana struktur API dikemas kini dengan kerap. Keputusan berkaitan bahagian ini telah dibentuk menjadi kertas kerja dan diserahkan kepada persidangan antarabangsa.

Pendekatan serampang dua mata algoritma + kejuruteraan dan model penambahbaikan berterusan inilah yang membolehkan OpenCSG CodeGen Agent menonjol di kalangan model lain.

StarShip's sea of stars

Jika penilaian sebenar Ejen CodeGen adalah ujian kecil, maka StarShip membawa pelan tindakan besar OpenCSG. Mengenai kedudukan produk StarShip, Ketua Pegawai Eksekutif OpenCSG Chen Ran berkata: "StarShip memikul visi kami untuk membentuk semula pembangunan perisian dengan model besar. Pengguna membentuk pasukan pekerja digital mereka sendiri melalui ejen terbina dalam StarShip. Ejen CodeGen dibina ke dalam platform Pengaturcara digital, pada masa ini termasuk Penyemak kod Ejen CodeReview dan jurutera soal jawab kod CodeSearch, adalah berbeza daripada alat bantuan kod Kami berharap pekerja digital ini boleh bekerja secara langsung tanpa campur tangan bantuan manual Kami akan mengeluarkan lebih banyak jenis pekerja digital, yang merangkumi semua aspek keperluan, reka bentuk, pengekodan, ujian dan operasi dan penyelenggaraan.”

CTO Wang Wei berkata bahawa laluan ini penuh dengan cabaran tetapi sangat menarik, “Daripada prinsip pertama, model besar boleh meningkatkan produktiviti ' atau 'tidak', tetapi persoalan bila, di mana dan dalam bentuk apa StarShip adalah jawapan yang kami cuba berikan."

Selain StarShip, pasukan OpenCSG juga cukup produktif: platform model sumber terbuka CSGHub, wukong. model pra-latihan, model kod diperhalusi CSGCoder, dsb. Produk ini diletakkan dengan tepat dan diterima baik dalam industri.

Melangkaui Devin, Yao Ban mengetuai OpenCSG untuk mencipta rekod dunia baharu untuk pengaturcaraan model besar Pelancaran pantas dan lelaran produk ini bukan sahaja memenuhi permintaan pasaran, tetapi juga memenuhi matlamat bersama: untuk memperkasakan semua orang dalam setiap perusahaan dengan model yang besar. "Untuk membolehkan model besar memperkasakan setiap perusahaan dan setiap orang, kita perlu membuat model besar sama seperti air dan elektrik. Jika model besar adalah tenaga elektrik, maka CSGHub ialah rangkaian kuasa, dan StarShip ialah pelbagai peralatan rumah. Akhirnya, Memperkasakan beribu-ribu isi rumah. tetapi juga menjadikan platform sumber terbuka.

"Kami adalah sebuah syarikat muda. Kami mendapat manfaat daripada sumber terbuka supaya kami dapat menghasilkan beberapa keputusan dalam masa yang lebih singkat. Pada masa yang sama, kami akan memberi kembali sepenuhnya kepada komuniti sumber terbuka. Ini adalah prinsip asas terbuka Di samping itu, saya sangat bersetuju dengan Sam Menurut Altman, sumber terbuka hanyalah model, dan nilai produk lebih penting daripada model," kata CTO Wang Wei. “Tanda aras itu sendiri hanyalah angka Dengan pelancaran GPT4-o, markah ujian SWEBench dijangka melebihi 30% tidak lama lagi, dan anggaran optimistik boleh melebihi 50% dan kami memberi lebih perhatian kepada nilai produk di sebalik ini nombor: Dengan peningkatan keupayaan model dan teknologi kejuruteraan, pekerja digital akan berubah daripada perubahan kuantitatif kepada perubahan kualitatif, daripada boleh digunakan kepada mudah digunakan, membawa kepada wabak yang menyeluruh dalam pelbagai industri." Wang Wei menjelaskan, "Ini mungkin baru. era dalam konteks era model besar Perubahan besar, daripada syarikat kepada individu, kita semua perlu bersedia untuk ini.”

Atas ialah kandungan terperinci Melangkaui Devin, Yao Ban mengetuai OpenCSG untuk mencipta rekod dunia baharu untuk pengaturcaraan model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

4 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang lalu By DDD

Nordhold: Sistem Fusion, dijelaskan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1675

Tutorial CakePHP

1429

Tutorial Laravel

1333

Tutorial PHP

1278

Tutorial C#

1257

Tunjukkan Lagi

Related knowledge

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Persidangan Kecerdasan Buatan Teragih DAI 2024 Call for Papers: Hari Agen, Richard Sutton, bapa pembelajaran pengukuhan, akan hadir! Yan Shuicheng, Sergey Levine dan saintis DeepMind akan memberikan ucaptama Aug 22, 2024 pm 08:02 PM

Pengenalan Persidangan Dengan perkembangan pesat sains dan teknologi, kecerdasan buatan telah menjadi kuasa penting dalam menggalakkan kemajuan sosial. Dalam era ini, kami bertuah untuk menyaksikan dan mengambil bahagian dalam inovasi dan aplikasi Kecerdasan Buatan Teragih (DAI). Kecerdasan buatan yang diedarkan adalah cabang penting dalam bidang kecerdasan buatan, yang telah menarik lebih banyak perhatian dalam beberapa tahun kebelakangan ini. Agen berdasarkan model bahasa besar (LLM) tiba-tiba muncul Dengan menggabungkan pemahaman bahasa yang kuat dan keupayaan penjanaan model besar, mereka telah menunjukkan potensi besar dalam interaksi bahasa semula jadi, penaakulan pengetahuan, perancangan tugas, dsb. AIAgent mengambil alih model bahasa besar dan telah menjadi topik hangat dalam kalangan AI semasa. Au

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

See all articles