Berdasarkan perkembangan terkini dalam lingkungan teknologi, konsep penjanaan kod AI telah menjadi sangat popular baru-baru ini.
Namun, kawan-kawan, adakah anda merasakan soalan pengaturcaraan AI lebih menarik perhatian, tetapi apabila ia datang kepada senario pembangunan perusahaan sebenar, anda sentiasa merasakan bahawa soalan itu tidak mencukupi?
Hanya pada masa ini, pemain kanan rendah aiXcoder mengambil tindakan dan melancarkan langkah besar:
Ia adalah model kod sumber terbuka baharu - aiXcoder-7B Versi Base , model yang sesuai khas untuk pembangunan perisian perusahaan Model besar kod yang digunakan di tempat kejadian.
Tunggu sebentar, apakah jenis tahap pengaturcaraan AI yang boleh ditunjukkan oleh model kod besar dengan "hanya"7 bilion parameter?
Mari kita lihat dahulu prestasinya pada tiga set penilaian arus perdana HumanEval, MBPP dan MultiPL-Eskor puratanya sebenarnya melebihi Codellama yang mempunyai 34 bilion parameter.
Anda mesti tahu bahawa yang terakhir berasal dari Meta dan berdasarkan Llama2, yang merupakan model pengaturcaraan AI besar yang paling maju dalam industri sumber terbuka.Model ini bukan sahaja mengalahkan banyak model sumber terbuka yang besar dan menjadi yang terkuat di kalangan model besar dengan berpuluh bilion kod, ia juga mempunyai kelebihan istimewa: Perubahan daripada “soalan tradisional. -berasaskan” penjanaan kod , ia khusus ditujukan kepada
projek perisian peringkat perusahaan, dan berfungsi paling baik dalam senario pembangunan sebenar - keupayaan penjanaan dan penyiapan kod, dan keupayaan silang fail telah diuji, dan semuanya adalah "Leverage " (No. 1) .
Implikasinya ialah aiXcoder-7B tidak memainkan "maya" dan boleh memegang senario perniagaan sebenar perusahaan. Sebagai contoh, dalam set penilaian CrossCodeEval, yang hampir dengan senario pembangunan sebenar, aiXcoder-7B memenangi keputusan terbaik model tahap yang sama dalam satu kejadian:Model besar kod terkuat dengan berpuluh bilion parameterMari kita lihat model Besar dahulu. Apa yang dikeluarkan dan sumber terbuka kali ini ialah versi aiXcoder-7B Base
(versi Instruct yang sepadan juga akan dikeluarkan kemudian), dan perkara yang paling mengejutkan mengenainya ialah:
Selain daripada keupayaan penjanaan kod SOTA - ia bukan sahaja memenangi pusat penilaian arus perdana Pelbagai soalan algoritma, dan yang lebih penting, dalam senario kod kompleks berbilang fail yang konsisten dengan senario pembangunan perusahaan sebenar, aiXcoder-7B menunjukkan prestasi yang lebih cemerlang dalam model parameter dengan magnitud yang sama! Anda mesti tahu bahawa keupayaan alat pengaturcaraan AI yang paling praktikal pada masa ini ialah penjanaan dan penyiapan, termasuk menjana terus blok kaedah lengkap, blok penghakiman bersyarat, blok pemprosesan gelung, blok penangkapan pengecualian dan situasi lain. Dalam senario pembangunan sebenar, kami amat memerlukannya untuk memahami pelbagai fail yang berkaitan dalam keseluruhan projek pembangunan dan kemudian menjananya. Ujian menunjukkan bahawa keupayaan pelengkapan kod versi Asas aiXcoder-7B digabungkan dengan konteks fail tunggal mengatasi StarCoder2, CodeLlama dan model lain, dan mempunyai skor keseluruhan tertinggi dalam bahasa Python, JS dan Java.Ini adalah keputusan pada set penilaian SantaCoder. Seolah-olah itu tidak mencukupi, pasukan aiXcoder juga mencadangkan set data penyelesaian penjanaan kod penilaian yang lebih besar
(lebih daripada 16,000 keping data daripada senario pembangunan sebenar) untuk penilaian lanjut, dan kesannya lebih jelas. Hari ini, set penilaian juga open source
bersama-sama model Semua orang dialu-alukan untuk datang dan mencabar~Adalah diingatkan bahawa pasukan juga telah membuka khas "telur Paskah" untuk kami. ialah versi Asas aiXcoder-7B Apabila menyelesaikan tugasan, kami cenderung menggunakan kod yang lebih pendek untuk menyelesaikan tugasan Terdapat "keindahan kesederhanaan" yang wujud. Faedahnya jelas: lebih mudah untuk pengaturcara memahami dan pepijat lebih mudah dikesan.
Mudah untuk penggunaan peribadi dan penyesuaian diperibadikanMengapa sumber terbuka model kod yang begitu baik?
Pasukan aiXcoder menyatakan bahawa hasrat mereka untuk membantu lebih ramai pembangun mengurangkan beban kerja mereka!
Kali ini, sebab model kod peringkat projek besar 7B adalah sumber terbuka adalah untuk "menggunakannya dengan mudah oleh pembangun perusahaan".
Ciri-cirinya boleh diringkaskan dalam tiga istilah "mudah":Pertama sekali, mudah digunakan.
Data kod ialah hak harta intelek teras persendirian perusahaan. Oleh itu, penggunaan dan pembelajaran yang diswastakan tidak dapat dielakkan, dan biasanya sumber penggunaan perusahaan adalah terhad.aiXcoder-7B Versi Base hanya mempunyai saiz parameter 7B, sangat ringan dan mudah digunakan, dan mempunyai kelebihan kos rendah dan prestasi yang baik.
Titik kedua, mudah untuk disesuaikan.
Banyak syarikat mempunyai rangka kerja pembangunan perisian dan perpustakaan API mereka sendiri, dan logik perniagaan serta spesifikasi seni bina kod perniagaan mereka disesuaikan dengan keadaan tempatan dan sangat diperibadikan. Pada masa yang sama, kandungan ini adalah peribadi.
Model besar mesti mempelajari aset kod perusahaan ini, dan melalui latihan diperibadikan yang berkesan, ia benar-benar boleh digunakan oleh perusahaan.
aiXcoder-7B Versi Base mempunyai ciri penyesuaian yang begitu mudah.
Selain itu, mudah untuk dipasang. Pasukan
aiXcoder mendedahkan bahawa apabila menyediakan perkhidmatan perusahaan pada masa hadapan, berbilang model 7B boleh membentuk seni bina MoE dan digabungkan menjadi satu set penyelesaian untuk melengkapkan perkhidmatan tersuai perusahaan.
Perusahaan yang berbeza boleh mendapatkan penyelesaian model besar kod versi MoE yang memenuhi keperluan peribadi mereka sendiri.
Difahamkan bahawa versi Asas aiXcoder-7B mengambil laluan sumber terbuka, dan akan menumpukan pada pasaran sisi B dan melancarkan versi perusahaan pada masa hadapan.
Dengan cara ini, aiXcoder terus menyediakan pengguna peringkat perusahaan dengan perkhidmatan pembangunan perisian yang tepat, cekap dan berterusan, membantu mereka meningkatkan kecekapan pembangunan dan kualiti kod projek mereka secara berterusan.
Sebagai contoh, firma sekuriti terkemuka dalam industri yang sedang menjalani transformasi digital telah menerima pakai penyelesaian model besar aiXcoder untuk menswastakan dan menggunakan model besar kod dalam persekitaran tempatan, dan menggunakan kaedah pelarasan fleksibel untuk model itu untuk membuat sistem pembangunan pintar dan Gunakan saiz pasukan untuk kekal segerak.
Kaedah penggunaan ini bukan sahaja memastikan bahawa terdapat kuasa pengkomputeran yang mencukupi untuk menyokongnya, tetapi juga mengelakkan cabaran yang disebabkan oleh ambang perkakasan yang tinggi ia juga dapat memenuhi keperluan pengekodan harian perusahaan.
Maklum balas data pelaksanaan sedia ada menunjukkan bahawa selepas latihan peribadi digabungkan dengan pengetahuan domain syarikat sendiri, bahagian penjanaan kod dalam kod logik perniagaan telah meningkat 2 kali ganda berbanding sebelum ini.
Selepas membaca keputusan, apakah kesan sebenar model tersebut? Seterusnya, berikut ialah beberapa tunjuk cara untuk memberi anda rasa.
Pertama sekali, versi Asas aiXcoder-7B boleh memahami maklumat konteks kod yang lebih kompleks dan melakukan penjanaan dan penyiapan kod: panjang konteks yang disokong oleh latihan pra-latihan model ialah 32k, dan pengembangan fasa inferens boleh mencapai 256k.
Seperti yang ditunjukkan dalam rajah di bawah, apabila kami menggunakan berbilang fungsi alat untuk mengumpulkan lebih daripada 1,500 baris kod dan mengulas pada penghujung fail untuk mengakses model, ia boleh mengenal pasti dengan tepat fungsi yang berkaitan di bahagian atas fail, dan lengkapkan maklumat berdasarkan fungsi Kaedah berkaitan.
Kedua, dalam senario pembangunan perusahaan, apa yang lebih penting ialah keupayaan analisis silang fail, yang secara automatik boleh mengenal pasti dan mengekstrak apa yang diperlukan daripada berbilang fail kod.
Seperti yang ditunjukkan dalam rajah di bawah, kita perlu menggunakan pengaturcaraan dinamik pada struktur pepohon untuk melaksanakan carian jarak edit, dan biarkan model melengkapkan kelas keadaan pengaturcaraan dinamik nod direktori pada struktur pepohon.
Model mengenal pasti dengan tepat hubungan antara pengiraan jarak suntingan dan pengiraan nilai minimum dalam tatasusunan bergolek dalam fail lain, sekali gus memberikan hasil ramalan yang betul dengan menggabungkan dua fail bukan semasa.
Perkara di atas belum berakhir, penyiapan versi aiXcoder-7B Base masih lagi agak intelligent.
Sebagai contoh, apabila situasi penerimaan pengguna dilaraskan, ia akan melaraskan panjang penyiapan secara automatik berdasarkan situasi penggunaan semasa.
Pada masa yang sama, sebagai pakar pelengkap kod, ia juga boleh menilai sama ada pengguna pada masa ini memerlukan pelengkapan berdasarkan kelancaran input pengguna (iaitu masa jeda) , dan tidak akan mencetuskan fungsi sesuka hati untuk mengganggu status kerja kami.
Saya perlu katakan: baunya sangat sedap.
Apa yang sebenarnya diperlukan oleh majoriti pengaturcara ialah alat pengaturcaraan AI seperti aiXcoderyang bukan sahaja memahami kod umum, tetapi juga memahami kod "perusahaan kami".
Jadi, bagaimanakah model yang sederhana ini dicipta?
Pasukan memperkenalkan model ini dibangunkan sendiri sepenuhnya Yang pertama ialah data latihan:
termasuk sejumlah 1.2T Unik Dalam model tahap parameter 7B, jumlah data latihan adalah sangat besar.
Bukan sahaja "kuantiti menang", pasukan itu juga mencapai "kemenangan berkualiti" dalam data ini: mereka menghabiskan banyak masa melakukan analisis sintaks dan menapis untuk berdozen bahasa arus perdana, dan analisis statik menghapuskan 163 pepijat dan 197 kecacatan.
Kedua ialah kaedah latihan yang disasarkan Pasukan ini menjalankan latihan semantik berstruktur kod untuk kod peringkat projek dalam persekitaran sebenar untuk memastikan kesan model sepenuhnya.
Akhirnya, dalam proses latihan, isu pemprosesan berbilang fail telah dipertimbangkan sepenuhnya dari awal, dan hubungan perhatian bersama antara berbilang fail telah dibina dengan menggabungkan pengelompokan, kod Graf Panggilan dan kaedah lain.
Akhirnya, lahirlah versi Asas aiXcoder-7B, yang lebih sesuai untuk senario pembangunan sebenar.
Melihat pemain di belakang model ini, kami mendapati asal usulnya tidak mudah:
Pertama sekali, pasukan aiXcoder telah diinkubasi oleh Institut Kejuruteraan Perisian Universiti Peking dan telah terlibat dalam penjanaan kod sejak 2013. Kertas penjanaan kod terawal berdasarkan pembelajaran mendalam di dunia datang daripada mereka
Kedua, dalam tempoh sepuluh tahun yang lalu, pasukan telah menerbitkan lebih daripada 100 kertas kerja berkaitan di persidangan terkemuka seperti NeurIPS , ACL, IJCAI, ICSE, FSE, ASE, dsb. Kertas kerja ini dianggap sebagai "pencapaian pertama" oleh sarjana antarabangsa dan dipetik secara meluas Beliau memenangi Anugerah Kertas Cemerlang ACM.
Boleh dikatakan anda memerlukan kekuatan dan kekuatan, dan anda memerlukan pencapaian dan pencapaian.
Pada 2017, prototaip asal aiXcoder - aiXcoder1.0 telah dikeluarkan, menyediakan pelengkapan kod automatik dan fungsi carian.
Pada April 2021, pasukan melancarkan kod parameter peringkat bilion model besar aiXcoder L versi dengan hak harta intelek yang bebas sepenuhnya, menyokong penyiapan kod dan cadangan bahasa semula jadi. Ini juga merupakan produk komersial pengaturcaraan pintar domestik pertama berdasarkan "model besar".
Kemudian, pasukan itu terus bekerja keras, dan pada Jun 2022, ia melancarkan model parameter berpuluh bilion peringkat pertama di China yang menyokong penjanaan kod peringkat kaedahversi aiXcoder XL, yang juga mempunyai hak harta intelek yang bebas sepenuhnya .
Pada Julai 2023, pasukan aiXcoder melancarkan aiXcoder Europa, yang memfokuskan pada penyesuaian perusahaan, dengan fungsi seperti penyiapan kod automatik, penjanaan kod automatik, pengesanan dan pembaikan kecacatan kod, dan penjanaan ujian unit automatik.
Adalah difahamkan bahawa aiXcoder Europa boleh menyediakan perusahaan dengan penempatan diswastakan dan perkhidmatan latihan yang diperibadikan berdasarkan keselamatan data perusahaan dan keperluan kuasa pengkomputeran, dengan berkesan mengurangkan kos aplikasi model kod besar dan meningkatkan kecekapan penyelidikan dan pembangunan.
Sehingga hari ini, versi Asas aiXcoder-7B telah dilahirkan.
Dalam galaksi sains dan teknologi yang cerah, setiap kejayaan teknologi adalah seperti kelahiran bintang baharu, menerangi kemungkinan masa depan yang tidak terhingga.
Dengan peningkatan keupayaan model kod besar, prestasi cemerlang mereka dalam menyelesaikan masalah pengaturcaraan yang kompleks bukan sahaja memainkan peranan penting dalam meningkatkan kecekapan dan kualiti pembangunan perisian, tetapi juga memainkan peranan penting dalam mempromosikan gelombang automasi pengaturcaraan juga merangsang potensi inovatif pengaturcara, membolehkan mereka menumpukan lebih banyak tenaga untuk penerokaan dan penciptaan.
Dalam erti kata lain, aiXcoder-7B, model kod canggih ini, bukan sahaja mempercepatkan proses automasi pembangunan perisian, tetapi juga membentuk semula ekologi industri teknologi dan menerajui trend pembangunan masa hadapan:
Mempercepatkan pelaksanaan automasi Pembangunan perisian .
Ini bukan sahaja trend umum industri, tetapi juga pilihan yang tidak dapat dielakkan untuk pembangunan.
Yang berhormat, kami berdiri di hadapan titik perubahan ini dan menyaksikan kebangkitan dan realisasi trend ini.
aiXcoder pautan sumber terbuka: https://github.com/aixcoder-plugin/aiXcoder-7Bhttps://gitee.com/aixcoder-model/aixcoder-7b
//www.gitlink.org.cn/aixcoder/aixcoder-7b-model
Atas ialah kandungan terperinci Model kod aiXcoder-7B sumber terbuka Universiti Peking yang paling berkuasa! Fokus pada senario pembangunan sebenar dan direka untuk penggunaan persendirian perusahaan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!