Jadual Kandungan
Rangka Kerja Model
Hasil eksperimen
Rumah Peranti teknologi AI Kaedah pengoptimuman model pengubah untuk urutan kod panjang untuk meningkatkan prestasi dalam senario kod panjang

Kaedah pengoptimuman model pengubah untuk urutan kod panjang untuk meningkatkan prestasi dalam senario kod panjang

Apr 29, 2023 am 08:34 AM
Model mengira

Platform pembelajaran mesin Awan Alibaba PAI bekerjasama dengan pasukan Profesor Gao Ming dari East China Normal University untuk menerbitkan model Transformer SASA yang menyedari struktur di SIGIR2022 Ini ialah kaedah pengoptimuman model Transformer untuk jujukan kod panjang, khusus untuk menambah baik senario kod panjang dan prestasi. Memandangkan kerumitan modul perhatian kendiri meningkat secara eksponen dengan panjang jujukan, kebanyakan model bahasa pralatihan (PPLM) berasaskan pengaturcaraan menggunakan pemotongan jujukan untuk memproses jujukan kod. Kaedah SASA mengurangkan pengiraan perhatian kendiri dan menggabungkan ciri-ciri struktur kod, dengan itu meningkatkan prestasi tugas urutan panjang dan mengurangkan memori dan kerumitan pengiraan.

Kertas: Tingting Liu, Chengyu Wang, Cen Chen, Ming Gao, dan Aoying Zhou Memahami Bahasa Pengaturcaraan Panjang dengan SIGIR 2022

Rangka Kerja Model

.

Rajah berikut menunjukkan rangka kerja keseluruhan SASA:

面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能

Antaranya, SASA terutamanya terdiri daripada dua peringkat: peringkat prapemprosesan dan peringkat latihan Sparse Transformer. Dalam peringkat prapemprosesan, matriks interaksi antara dua token diperolehi, satu ialah matriks frekuensi top-k, dan satu lagi ialah matriks corak AST. Matriks kekerapan Top-k menggunakan model bahasa pra-latihan kod untuk mempelajari kekerapan interaksi perhatian antara token pada korpus CodeSearchNet Matriks corak AST ialah Pokok Sintaks Abstrak (AST) yang menghuraikan kod tersebut pada hubungan sambungan pepohon sintaks maklumat interaktif antara token. Fasa latihan Sparse Transformer menggunakan Transformer Encoder sebagai rangka kerja asas, menggantikan perhatian kendiri penuh dengan perhatian kendiri jarang sedar struktur, dan melakukan pengiraan perhatian antara pasangan token yang mematuhi corak tertentu, dengan itu mengurangkan kerumitan pengiraan.

Perhatian jarang SASA termasuk empat modul berikut:

  • Perhatian tetingkap gelongsor: Kira perhatian kendiri hanya antara token dalam tetingkap gelongsor, mengekalkan ciri-ciri konteks setempat kerumitan ialah, ialah panjang jujukan, dan ialah saiz tetingkap gelongsor.
  • Perhatian global: Tetapkan token global tertentu ini akan melakukan pengiraan perhatian dengan semua token dalam jujukan untuk mendapatkan maklumat global jujukan adalah, iaitu bilangan token global.
  • Top-k jarang perhatian: Interaksi perhatian dalam model Transformer adalah jarang dan berekor panjang Untuk setiap token, hanya token top-k dengan interaksi perhatian tertinggi dikira.
  • Perhatian struktur sedar AST: Kod ini berbeza daripada jujukan bahasa semula jadi dan mempunyai ciri struktur yang lebih kukuh Kod dihuraikan ke dalam pokok sintaks abstrak (AST), dan kemudian perhatian dikira berdasarkan sambungan perhubungan dalam skop sintaks.

Untuk menyesuaikan diri dengan ciri pengkomputeran selari perkakasan moden, kami membahagikan jujukan kepada beberapa blok dan bukannya mengira dalam unit token Setiap blok pertanyaan berkaitan dengan

面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能

blok tingkap gelongsor dan

面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能

blok global dan

面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能

atas-k dan Blok AST kira perhatian, dan kerumitan pengiraan keseluruhan ialah

面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能

b ialah saiz blok.

Setiap corak perhatian jarang sepadan dengan matriks perhatian dengan mengambil perhatian tetingkap gelongsor sebagai contoh, pengiraan matriks perhatian ialah:

面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能

Kod pseudo ASA. :

面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能

Hasil eksperimen

Kami menggunakan empat set data tugasan yang disediakan oleh CodeXGLUE[1] untuk penilaian, iaitu pengesanan klon kod, pengesanan kecacatan, carian kod dan ringkasan kod. Kami mengekstrak data yang panjang jujukannya melebihi 512 untuk membentuk set data jujukan yang panjang Keputusan eksperimen adalah seperti berikut:

面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能

Daripada keputusan eksperimen, ia dapat dilihat. bahawa prestasi SASA pada tiga set data adalah Prestasi dengan ketara melebihi semua Garis Dasar. Antaranya, Roberta-base[2], CodeBERT[3], dan GraphCodeBERT[4] menggunakan pemotongan untuk memproses jujukan panjang, yang akan kehilangan sebahagian daripada maklumat konteks. Longformer[5] dan BigBird[6] ialah kaedah yang digunakan untuk memproses jujukan panjang dalam pemprosesan bahasa semula jadi, tetapi mereka tidak menganggap ciri-ciri struktur kod, dan pemindahan terus kepada tugas kod adalah tidak berkesan.

Untuk mengesahkan kesan top-k sparse attention dan AST-aware sparse attention modul, kami menjalankan eksperimen ablasi pada set data BigCloneBench dan Pengesanan Kecacatan Hasilnya adalah seperti berikut:

面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能

Modul perhatian yang jarang bukan sahaja meningkatkan prestasi tugasan kod yang panjang, tetapi juga mengurangkan penggunaan memori video dengan ketara Di bawah peranti yang sama, SASA boleh menetapkan saiz kelompok yang lebih besar, manakala diri penuh -model perhatian menghadapi masalah ingatan, penggunaan memori video khusus adalah seperti berikut:

面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能

SASA, sebagai modul perhatian yang jarang, boleh dipindahkan ke model pra-latihan yang lain berdasarkan Transformer untuk memproses tugas pemprosesan bahasa semula jadi urutan panjang akan disepadukan ke dalam rangka kerja sumber terbuka EasyNLP (https://github.com/alibaba/EasyNLP) dan menyumbang kepada komuniti sumber terbuka.

Pautan kertas:
https://arxiv.org/abs/2205.13730

Atas ialah kandungan terperinci Kaedah pengoptimuman model pengubah untuk urutan kod panjang untuk meningkatkan prestasi dalam senario kod panjang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pendaraban matriks universal CUDA: dari kemasukan kepada kemahiran! Pendaraban matriks universal CUDA: dari kemasukan kepada kemahiran! Mar 25, 2024 pm 12:30 PM

Pendaraban Matriks Umum (GEMM) ialah bahagian penting dalam banyak aplikasi dan algoritma, dan juga merupakan salah satu petunjuk penting untuk menilai prestasi perkakasan komputer. Penyelidikan mendalam dan pengoptimuman pelaksanaan GEMM boleh membantu kami lebih memahami pengkomputeran berprestasi tinggi dan hubungan antara perisian dan sistem perkakasan. Dalam sains komputer, pengoptimuman GEMM yang berkesan boleh meningkatkan kelajuan pengkomputeran dan menjimatkan sumber, yang penting untuk meningkatkan prestasi keseluruhan sistem komputer. Pemahaman yang mendalam tentang prinsip kerja dan kaedah pengoptimuman GEMM akan membantu kami menggunakan potensi perkakasan pengkomputeran moden dengan lebih baik dan menyediakan penyelesaian yang lebih cekap untuk pelbagai tugas pengkomputeran yang kompleks. Dengan mengoptimumkan prestasi GEMM

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

See all articles