


Mekanisme perhatian generasi baharu Perhatian Kilat-2: panjang jujukan tanpa had, overhed kuasa pengkomputeran berterusan, ketepatan pemodelan yang lebih tinggi
Aplikasi semasa model bahasa besar dihadkan oleh had panjang jujukan, yang mengehadkan penggunaannya dalam bidang kecerdasan buatan. Sebagai contoh, terdapat cabaran tertentu dalam dialog berbilang pusingan, pemahaman teks yang panjang, dan pemprosesan dan penjanaan data berbilang modal. Sebab asas untuk had ini ialah seni bina Transformer yang biasa digunakan dalam model bahasa besar pada masa ini mempunyai hubungan kuadratik antara kerumitan pengiraan dan panjang jujukan. Oleh itu, apabila panjang jujukan meningkat, permintaan untuk sumber pengkomputeran meningkat secara eksponen. Oleh itu, cara memproses urutan panjang dengan cekap sentiasa menjadi salah satu cabaran yang dihadapi oleh model bahasa yang besar.
Pendekatan terdahulu tertumpu terutamanya pada menyesuaikan model bahasa besar kepada urutan yang lebih panjang semasa peringkat inferens. Satu pendekatan adalah menggunakan Alibi atau pengekodan kedudukan relatif yang serupa untuk membolehkan model menyesuaikan diri dengan urutan input dengan panjang yang berbeza. Pendekatan lain ialah menggunakan RoPE atau pengekodan kedudukan relatif yang serupa untuk perbezaan, dan memperhalusi secara ringkas model yang telah dilatih untuk memanjangkan panjang jujukan. Kaedah ini membolehkan model besar mempunyai keupayaan pemodelan jujukan panjang tertentu, tetapi overhed latihan dan inferens tidak dikurangkan.
Pasukan OpenNLPLab telah membuka mekanisme perhatian linear baharu yang dipanggil Lightning Attention-2, yang direka untuk menyelesaikan masalah jujukan panjang model bahasa besar. Mekanisme ini mengekalkan kos latihan dan membuat kesimpulan urutan panjang konsisten dengan panjang jujukan 1K, membolehkan penyelesaian set-dan-lupakan. Walaupun sebelum mengalami kesesakan memori, peningkatan panjang jujukan tidak memberi kesan negatif terhadap kelajuan latihan model, sekali gus membolehkan pralatihan panjang tanpa had. Di samping itu, kos inferens bagi teks yang sangat panjang juga konsisten atau lebih rendah berbanding Token 1K, sekali gus mengurangkan kos inferens model bahasa besar semasa. Seperti yang ditunjukkan dalam rajah di bawah, apabila saiz model ialah 400M, 1B dan 3B, apabila panjang jujukan meningkat, kelajuan latihan LLaMA yang disokong oleh FlashAttention2 mula berkurangan dengan cepat, manakala kelajuan TansNormerLLM disokong oleh Lightning Attention-2 hampir tiada perubahan. . Alamat kertas: https:// arxiv.org/pdf/2401.04658.pdf
Open Sumber Alamat: https://github.com/opennlplab/lightnning-attention
- lightning perhatian model Mengekalkan kelajuan pra-latihan yang konsisten merentasi panjang urutan yang berbeza kelihatan seperti satu tugas yang mustahil. Walau bagaimanapun, sejak kemunculan perhatian linear pada tahun 2020, penyelidik telah bekerja keras untuk menjadikan kecekapan sebenar perhatian linear konsisten dengan kerumitan pengiraan linear teorinya. Sehingga pertengahan 2023, penyelidikan mengenai perhatian linear akan tertumpu terutamanya pada penjajaran ketepatan dengan seni bina Transformer. Akhirnya, selepas kemunculan mekanisme perhatian linear yang lebih baik, ia adalah setanding dengan seni bina Transformer yang canggih dalam ketepatan.
Walau bagaimanapun, helah pengiraan paling kritikal bagi "daraban kiri ke pendaraban kanan" dalam perhatian linear adalah lebih perlahan daripada algoritma pendaraban kiri langsung dalam pelaksanaan sebenar. Ini kerana pelaksanaan pendaraban kanan memerlukan penggunaan penjumlahan kumulatif (cumsum) yang mengandungi sejumlah besar operasi gelung, dan sejumlah besar operasi I/O menjadikan pendaraban kanan kurang cekap daripada pendaraban kiri.
Oleh itu, masih terdapat cabaran untuk memastikan kelajuan pra-latihan model besar konsisten merentas panjang jujukan yang berbeza. Penyelidik perlu meneroka dan menambah baik pelaksanaan perhatian linear untuk meningkatkan kecekapan pengiraannya dan mengurangkan operasi I/O. Ini akan membantu mencapai konsistensi dalam kelajuan pra-latihan untuk mengatasi keperluan tugas dengan panjang urutan yang berbeza dengan lebih baik.
- Rajah 2Untuk lebih memahami idea Lightning Attention-2, mari kita semak semula formula pengiraan perhatian softmax tradisional: O=softmax ((QK^T)⊙ M_) V , dengan Q, K, V, M, O masing-masing ialah pertanyaan, kunci, nilai, topeng dan matriks keluaran M di sini ialah matriks segi tiga yang lebih rendah dalam tugasan sehala (seperti GPT dalam dua). -tugasan cara (seperti Bert) boleh diabaikan, iaitu, tiada matriks topeng untuk tugasan dwiarah.
-
Pengarang meringkaskan idea keseluruhan Lightning Attention-2 ke dalam tiga perkara berikut untuk penjelasan:
1 Salah satu idea teras Perhatian Linear ialah mengeluarkan operator softmax yang mahal secara pengiraan, supaya formula pengiraan Perhatian boleh ditulis sebagai O=((QK^T)⊙M_) V. Walau bagaimanapun, disebabkan kewujudan matriks topeng M dalam tugasan sehala, borang ini masih boleh melakukan pengiraan pendaraban kiri sahaja, jadi kerumitan O (N) tidak dapat diperolehi. Tetapi untuk tugas dua hala, kerana tiada matriks topeng, formula pengiraan Perhatian Linear boleh dipermudahkan lagi kepada O=(QK^T) V. Kehalusan Perhatian Linear ialah dengan hanya menggunakan hukum bersekutu pendaraban matriks, formula pengiraannya boleh diubah lagi menjadi: O=Q (K^T V Borang pengiraan ini dipanggil pendaraban betul, dan bekas yang sepadan ialah Ambil kiri. Daripada Rajah 2, kita secara intuitif dapat memahami bahawa Perhatian Linear boleh mencapai kerumitan O (N) yang menarik dalam tugasan dua arah!
2 Namun, memandangkan model GPT penyahkod sahaja secara beransur-ansur menjadi standard de facto LLM, cara menggunakan ciri pendaraban Linear Attention yang betul untuk mempercepatkan tugasan sehala telah menjadi masalah mendesak untuk diselesaikan. Untuk menyelesaikan masalah ini, penulis artikel ini mencadangkan untuk menggunakan idea "bahagi dan menakluki" untuk membahagikan pengiraan matriks perhatian kepada dua bentuk: matriks pepenjuru dan matriks bukan pepenjuru, dan menggunakan kaedah yang berbeza. cara untuk mengira mereka. Seperti yang ditunjukkan dalam Rajah 3, Linear Attention-2 menggunakan idea Tiling yang biasa digunakan dalam medan komputer untuk membahagikan matriks Q, K, dan V kepada bilangan blok yang sama. Antaranya, pengiraan bongkah itu sendiri (intra-blok) masih mengekalkan kaedah pengiraan pendaraban kiri kerana kewujudan matriks topeng, dengan kerumitan O (N^2 manakala pengiraan bongkah (antara-); blok) tidak mempunyai matriks topeng, anda boleh menggunakan kaedah pengiraan pendaraban yang betul untuk menikmati kerumitan O (N). Selepas kedua-duanya dikira secara berasingan, ia boleh ditambah terus untuk mendapatkan output Perhatian Linear Oi sepadan dengan blok ke-i. Pada masa yang sama, keadaan KV terkumpul melalui cumsum untuk digunakan dalam pengiraan blok seterusnya. Dengan cara ini, kerumitan algoritma bagi keseluruhan Lightning Attention-2 ialah O (N^2) untuk intra-blok dan O (N) untuk Trade-off antara blok. Cara untuk mendapatkan pertukaran yang lebih baik ditentukan oleh saiz blok Tiling.
3 Pembaca yang teliti akan mendapati bahawa proses di atas hanyalah sebahagian daripada algoritma Lightning Attention-2 Sebab mengapa ia dinamakan Lightning adalah kerana penulis mempertimbangkan sepenuhnya kecekapan proses algoritma dalam proses pelaksanaan perkakasan GPU. . Diilhamkan oleh siri kerja FlashAttention, apabila benar-benar melakukan pengiraan pada GPU, pengarang mengalihkan tensor Q_i, K_i, V_i split daripada HBM yang lebih perlahan dengan kapasiti yang lebih besar di dalam GPU kepada SRAM yang lebih pantas dengan kapasiti yang lebih kecil sistem, dengan itu mengurangkan sejumlah besar overhed IO memori. Selepas blok melengkapkan pengiraan Perhatian Linear, hasil keluarannya O_i akan dialihkan kembali ke HBM. Ulangi proses ini sehingga semua blok telah diproses.
Pembaca yang ingin mengetahui butiran lanjut boleh membaca Algoritma 1 dan Algoritma 2 dengan teliti dalam artikel ini, serta proses terbitan terperinci dalam kertas. Kedua-dua Algoritma dan proses derivasi membezakan antara proses hadapan dan belakang Lightning Attention-2, yang boleh membantu pembaca memahami dengan lebih mendalam.
Rajah 3
Perbandingan Ketepatan Perhatian Kilat-2 dengan Perhatian Kecil
400M) model parameter kilat perhatian -1 perbezaan ketepatan, seperti yang ditunjukkan dalam rajah di bawah, hampir tiada perbezaan antara kedua-duanya.
Kemudian penyelidik membandingkan TransNormerLLM (TNL-LA2) yang disokong oleh Lightning Attention-2 dengan rangkaian seni bina bukan Transformer termaju dan LLaMA yang disokong oleh FlashAttention2 pada 1B dan 3B di bawah korpus yang sama. Seperti yang ditunjukkan dalam rajah di bawah, TNL-LA2 dan LLaMA mengekalkan arah aliran yang sama, dan prestasi kerugian adalah lebih baik. Percubaan ini menunjukkan bahawa Lightning Attention-2 mempunyai prestasi ketepatan yang tidak kalah dengan seni bina Transformer terkini dalam pemodelan bahasa.
Dalam tugas model bahasa yang besar, penyelidik membandingkan keputusan TNL-LA2 15B dan Pythia pada penanda aras biasa untuk model besar dengan saiz yang serupa. Seperti yang ditunjukkan dalam jadual di bawah, di bawah syarat memakan token yang sama, TNL-LA2 adalah lebih tinggi sedikit daripada model Pythia berdasarkan perhatian Softmax dalam penaakulan akal dan keupayaan komprehensif pelbagai pilihan.
Perbandingan kelajuan Lightning Attention-2
Para penyelidik membandingkan kelajuan modul tunggal dan penggunaan memori Lightning Attention-2 dan FlashAttention2. Seperti yang ditunjukkan dalam rajah di bawah, berbanding Lightning Attention-1 dan FlashAttention2, Lightning Attention-2 menunjukkan peningkatan linear yang ketat dalam kelajuan berbanding dengan panjang jujukan. Dari segi penggunaan memori, ketiga-tiga menunjukkan arah aliran yang sama, tetapi Lightning Attention-2 mempunyai jejak memori yang lebih kecil. Sebabnya ialah penggunaan memori FlashAttention2 dan Lightning Attention-1 juga lebih kurang linear. . Dari segi kelajuan penaakulan, tidak banyak pengenalan. Ini adalah kerana perhatian linear boleh ditukar tanpa rugi kepada mod RNN semasa inferens, dengan itu mencapai kesan yang sama, iaitu, kelajuan membuat kesimpulan satu token adalah malar. Untuk Transformer, kelajuan inferens token semasa adalah berkaitan dengan bilangan token sebelumnya.
Pengarang menguji perbandingan dalam kelajuan inferens antara TransNormerLLM-7B yang disokong oleh Lightning Attention-1 dan model 7B biasa. Seperti yang ditunjukkan dalam rajah di bawah, di bawah anggaran saiz parameter, kelajuan pemprosesan Lightning Attention-1 ialah 4 kali ganda daripada Baichuan dan lebih daripada 3.5 kali ganda daripada ChatGLM, menunjukkan kelebihan kelajuan inferens yang sangat baik.
Ringkasan
Lightning Attention-2 mewakili kemajuan besar dalam mekanisme perhatian linear, menjadikannya pengganti sempurna untuk perhatian Softmax tradisional dari segi ketepatan dan kelajuan, menyediakan platform untuk lebih dan lebih banyak perhatian pada masa hadapan. Pasukan OpenNLPLab akan mengkaji algoritma selari berjujukan berdasarkan mekanisme perhatian linear pada masa hadapan untuk menyelesaikan masalah halangan memori yang dihadapi pada masa ini.
Atas ialah kandungan terperinci Mekanisme perhatian generasi baharu Perhatian Kilat-2: panjang jujukan tanpa had, overhed kuasa pengkomputeran berterusan, ketepatan pemodelan yang lebih tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
