


Kaedah pengoptimuman model pengubah untuk urutan kod panjang untuk meningkatkan prestasi dalam senario kod panjang
Platform pembelajaran mesin Awan Alibaba PAI bekerjasama dengan pasukan Profesor Gao Ming dari East China Normal University untuk menerbitkan model Transformer SASA yang menyedari struktur di SIGIR2022 Ini ialah kaedah pengoptimuman model Transformer untuk jujukan kod panjang, khusus untuk menambah baik senario kod panjang dan prestasi. Memandangkan kerumitan modul perhatian kendiri meningkat secara eksponen dengan panjang jujukan, kebanyakan model bahasa pralatihan (PPLM) berasaskan pengaturcaraan menggunakan pemotongan jujukan untuk memproses jujukan kod. Kaedah SASA mengurangkan pengiraan perhatian kendiri dan menggabungkan ciri-ciri struktur kod, dengan itu meningkatkan prestasi tugas urutan panjang dan mengurangkan memori dan kerumitan pengiraan.
Kertas: Tingting Liu, Chengyu Wang, Cen Chen, Ming Gao, dan Aoying Zhou Memahami Bahasa Pengaturcaraan Panjang dengan SIGIR 2022
Rangka Kerja Model
.Rajah berikut menunjukkan rangka kerja keseluruhan SASA:
Antaranya, SASA terutamanya terdiri daripada dua peringkat: peringkat prapemprosesan dan peringkat latihan Sparse Transformer. Dalam peringkat prapemprosesan, matriks interaksi antara dua token diperolehi, satu ialah matriks frekuensi top-k, dan satu lagi ialah matriks corak AST. Matriks kekerapan Top-k menggunakan model bahasa pra-latihan kod untuk mempelajari kekerapan interaksi perhatian antara token pada korpus CodeSearchNet Matriks corak AST ialah Pokok Sintaks Abstrak (AST) yang menghuraikan kod tersebut pada hubungan sambungan pepohon sintaks maklumat interaktif antara token. Fasa latihan Sparse Transformer menggunakan Transformer Encoder sebagai rangka kerja asas, menggantikan perhatian kendiri penuh dengan perhatian kendiri jarang sedar struktur, dan melakukan pengiraan perhatian antara pasangan token yang mematuhi corak tertentu, dengan itu mengurangkan kerumitan pengiraan.
Perhatian jarang SASA termasuk empat modul berikut:
- Perhatian tetingkap gelongsor: Kira perhatian kendiri hanya antara token dalam tetingkap gelongsor, mengekalkan ciri-ciri konteks setempat kerumitan ialah, ialah panjang jujukan, dan ialah saiz tetingkap gelongsor.
- Perhatian global: Tetapkan token global tertentu ini akan melakukan pengiraan perhatian dengan semua token dalam jujukan untuk mendapatkan maklumat global jujukan adalah, iaitu bilangan token global.
- Top-k jarang perhatian: Interaksi perhatian dalam model Transformer adalah jarang dan berekor panjang Untuk setiap token, hanya token top-k dengan interaksi perhatian tertinggi dikira.
- Perhatian struktur sedar AST: Kod ini berbeza daripada jujukan bahasa semula jadi dan mempunyai ciri struktur yang lebih kukuh Kod dihuraikan ke dalam pokok sintaks abstrak (AST), dan kemudian perhatian dikira berdasarkan sambungan perhubungan dalam skop sintaks.
Untuk menyesuaikan diri dengan ciri pengkomputeran selari perkakasan moden, kami membahagikan jujukan kepada beberapa blok dan bukannya mengira dalam unit token Setiap blok pertanyaan berkaitan dengan
blok tingkap gelongsor dan
blok global dan
atas-k dan Blok AST kira perhatian, dan kerumitan pengiraan keseluruhan ialah
b ialah saiz blok.
Setiap corak perhatian jarang sepadan dengan matriks perhatian dengan mengambil perhatian tetingkap gelongsor sebagai contoh, pengiraan matriks perhatian ialah:
Kod pseudo ASA. :
Hasil eksperimen
Kami menggunakan empat set data tugasan yang disediakan oleh CodeXGLUE[1] untuk penilaian, iaitu pengesanan klon kod, pengesanan kecacatan, carian kod dan ringkasan kod. Kami mengekstrak data yang panjang jujukannya melebihi 512 untuk membentuk set data jujukan yang panjang Keputusan eksperimen adalah seperti berikut:
Daripada keputusan eksperimen, ia dapat dilihat. bahawa prestasi SASA pada tiga set data adalah Prestasi dengan ketara melebihi semua Garis Dasar. Antaranya, Roberta-base[2], CodeBERT[3], dan GraphCodeBERT[4] menggunakan pemotongan untuk memproses jujukan panjang, yang akan kehilangan sebahagian daripada maklumat konteks. Longformer[5] dan BigBird[6] ialah kaedah yang digunakan untuk memproses jujukan panjang dalam pemprosesan bahasa semula jadi, tetapi mereka tidak menganggap ciri-ciri struktur kod, dan pemindahan terus kepada tugas kod adalah tidak berkesan.
Untuk mengesahkan kesan top-k sparse attention dan AST-aware sparse attention modul, kami menjalankan eksperimen ablasi pada set data BigCloneBench dan Pengesanan Kecacatan Hasilnya adalah seperti berikut:
Modul perhatian yang jarang bukan sahaja meningkatkan prestasi tugasan kod yang panjang, tetapi juga mengurangkan penggunaan memori video dengan ketara Di bawah peranti yang sama, SASA boleh menetapkan saiz kelompok yang lebih besar, manakala diri penuh -model perhatian menghadapi masalah ingatan, penggunaan memori video khusus adalah seperti berikut:
SASA, sebagai modul perhatian yang jarang, boleh dipindahkan ke model pra-latihan yang lain berdasarkan Transformer untuk memproses tugas pemprosesan bahasa semula jadi urutan panjang akan disepadukan ke dalam rangka kerja sumber terbuka EasyNLP (https://github.com/alibaba/EasyNLP) dan menyumbang kepada komuniti sumber terbuka.
Pautan kertas:
https://arxiv.org/abs/2205.13730
Atas ialah kandungan terperinci Kaedah pengoptimuman model pengubah untuk urutan kod panjang untuk meningkatkan prestasi dalam senario kod panjang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Pendaraban Matriks Umum (GEMM) ialah bahagian penting dalam banyak aplikasi dan algoritma, dan juga merupakan salah satu petunjuk penting untuk menilai prestasi perkakasan komputer. Penyelidikan mendalam dan pengoptimuman pelaksanaan GEMM boleh membantu kami lebih memahami pengkomputeran berprestasi tinggi dan hubungan antara perisian dan sistem perkakasan. Dalam sains komputer, pengoptimuman GEMM yang berkesan boleh meningkatkan kelajuan pengkomputeran dan menjimatkan sumber, yang penting untuk meningkatkan prestasi keseluruhan sistem komputer. Pemahaman yang mendalam tentang prinsip kerja dan kaedah pengoptimuman GEMM akan membantu kami menggunakan potensi perkakasan pengkomputeran moden dengan lebih baik dan menyediakan penyelesaian yang lebih cekap untuk pelbagai tugas pengkomputeran yang kompleks. Dengan mengoptimumkan prestasi GEMM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi
