Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%-AI-php.cn

Jadual Kandungan

Rumah

Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 13, 2023 pm 08:29 PM

Model kereta api

Transformer telah berjaya dalam pelbagai tugas pembelajaran dalam bidang seperti pemprosesan bahasa semula jadi, penglihatan komputer dan ramalan siri masa. Walaupun kejayaan mereka, model ini masih menghadapi had kebolehskalaan yang teruk. Sebabnya ialah pengiraan tepat lapisan perhatian menghasilkan masa berjalan kuadratik (dalam urutan panjang) dan kerumitan memori. Ini membawa cabaran asas untuk memanjangkan model Transformer kepada panjang konteks yang lebih panjang

Industri telah meneroka pelbagai kaedah untuk menyelesaikan masalah lapisan perhatian temporal kuadratik, salah satu arahan yang perlu diberi perhatian ialah perhatian anggaran Matriks pertengahan dalam lapisan daya. Kaedah untuk mencapai ini termasuk penghampiran melalui matriks jarang, matriks peringkat rendah, atau gabungan kedua-duanya.

Walau bagaimanapun, kaedah ini tidak memberikan jaminan hujung ke hujung untuk anggaran matriks keluaran perhatian. Kaedah ini bertujuan untuk menganggarkan komponen perhatian individu dengan lebih cepat, tetapi tiada satu pun memberikan anggaran hujung ke hujung perhatian produk titik penuh. Kaedah ini juga tidak menyokong penggunaan topeng kausal, yang merupakan bahagian penting dalam seni bina Transformer moden. Batasan teori terkini menunjukkan bahawa secara amnya adalah tidak mungkin untuk melakukan penghampiran istilah bagi matriks perhatian dalam masa sub-kuadrat

Walau bagaimanapun, kajian terbaru yang dipanggil KDEFormer menunjukkan bahawa apabila istilah matriks perhatian disempadani Di bawah andaian , ia boleh memberikan anggaran yang boleh dibuktikan dalam masa subkuadrat. Secara teorinya, masa jalan KDEFormer adalah lebih kurang Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50% ; ia menggunakan anggaran ketumpatan kernel (KDE) untuk menganggarkan norma lajur, membolehkan pengiraan kebarangkalian pensampelan lajur matriks perhatian. Walau bagaimanapun, algoritma KDE semasa tidak mempunyai kecekapan praktikal, malah dalam teori terdapat jurang antara masa jalan KDEFormer dan algoritma masa O(n) yang boleh dilaksanakan secara teori. Dalam artikel itu, penulis membuktikan bahawa di bawah andaian kemasukan terhad yang sama, algoritma masa hampir linear Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50% adalah mungkin. Walau bagaimanapun, algoritma mereka juga melibatkan penggunaan kaedah polinomial untuk menghampiri softmax, yang mungkin tidak praktikal.

Dalam artikel ini, penyelidik dari Universiti Yale, Google Research dan institusi lain menyediakan algoritma yang mempunyai yang terbaik dari kedua-dua dunia, yang praktikal dan cekap serta boleh mencapai jaminan masa hampir linear terbaik. Tambahan pula, kaedah ini menyokong penutupan sebab akibat, yang tidak mungkin dalam kerja sebelumnya.

Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

Segarkan pautan berikut untuk melihat kertas: https://arxiv.org/abs/2310.05869

Artikel ini mencadangkan mekanisme perhatian anggaran yang disebut "hyperattention". dikemukakan dengan menggunakan konteks yang panjang dalam model bahasa yang besar. Penyelidikan terkini menunjukkan bahawa dalam kes yang paling teruk, melainkan jika entri matriks perhatian disempadani atau kedudukan stabil matriks adalah rendah, masa kuadratik diperlukan

Ditulis semula seperti berikut: Para penyelidik memperkenalkan dua Parameter untuk mengukur: (1) norma lajur maksimum matriks perhatian ternormal, (2) perkadaran norma baris dalam matriks perhatian tidak normal selepas mengalih keluar masukan besar. Mereka menggunakan parameter berbutir halus ini untuk menggambarkan kesukaran masalah. Selagi parameter di atas adalah kecil, algoritma pensampelan masa linear boleh dilaksanakan walaupun matriks mempunyai entri tidak terhad atau pangkat stabil yang besar

HyperAttention mempunyai ciri reka bentuk modular dan boleh disepadukan dengan mudah dengan pelaksanaan asas pantas yang lain. , terutamanya It's FlashAttention. Secara empirik, Super Attention mengatasi kaedah sedia ada apabila menggunakan algoritma LSH untuk mengenal pasti entri yang besar, dan mencapai peningkatan kelajuan yang ketara berbanding dengan penyelesaian terkini seperti FlashAttention. Penyelidik mengesahkan prestasi HyperAttention pada pelbagai set data konteks dengan panjang yang berbeza-beza

Contohnya, HyperAttention menjadikan masa inferens ChatGLM2 50% lebih pantas pada panjang konteks 32k, manakala kebingungan meningkat daripada 5.6 kepada 6.3. HyperAttention adalah 5x lebih pantas pada satu lapisan perhatian dengan panjang konteks yang lebih besar (cth. 131k) dan topeng penyebab.

Gambaran Keseluruhan Kaedah

Perhatian produk titik melibatkan pemprosesan tiga matriks input: Q (pertanyaan), K (kunci), V (nilai), semua saiz nxd, dengan n ialah bilangan token dalam urutan input , d ialah dimensi perwakilan asas. Output proses ini adalah seperti berikut:

Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

Di sini, matriks A := exp (QK^T) ditakrifkan sebagai indeks unsur QK^T. D ialah matriks pepenjuru n×n yang diperoleh daripada hasil tambah baris A, dengan Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50% . Dalam kes ini, matriks A dipanggil "matriks perhatian" dan (D^-1) A dipanggil "matriks softmax". Perlu diingat bahawa pengiraan terus matriks perhatian A memerlukan operasi Θ(n²d), manakala menyimpannya menggunakan memori Θ(n²). Oleh itu, pengiraan Att secara langsung memerlukan masa jalan Ω(n²d) dan memori Ω(n²).

Matlamat penyelidik adalah untuk menganggarkan matriks keluaran Att dengan cekap sambil mengekalkan ciri spektrumnya. Strategi mereka terdiri daripada mereka bentuk penganggar cekap masa hampir linear untuk matriks penskalaan pepenjuru D. Tambahan pula, mereka dengan cepat menganggarkan hasil matriks matriks softmax D^-1A dengan pensubsampelan. Lebih khusus lagi, mereka bertujuan untuk mencari matriks pensampelan Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50% dengan bilangan baris yang terhingga dan matriks pepenjuru supaya kekangan berikut pada spesifikasi pengendali ralat dipenuhi:

Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

Penyelidik telah menunjukkan bahawa dengan mentakrifkan matriks persampelan S berdasarkan spesifikasi baris V, bahagian pendaraban matriks masalah penghampiran perhatian dalam formula (1) boleh diselesaikan dengan cekap. Masalah yang lebih mencabar ialah: bagaimana untuk mendapatkan anggaran yang boleh dipercayai bagi matriks pepenjuru D. Dalam keputusan terkini, Zandieh secara berkesan mengeksploitasi penyelesai KDE yang pantas untuk mendapatkan anggaran kualiti tinggi D. Kami memudahkan program KDEformer dan menunjukkan bahawa pensampelan seragam adalah mencukupi untuk mencapai jaminan spektrum yang diperlukan tanpa memerlukan pensampelan kepentingan berasaskan kepadatan kernel. Penyederhanaan ketara ini membolehkan mereka membangunkan algoritma masa linear yang praktikal dan boleh dibuktikan.

Berbeza dengan penyelidikan sebelum ini, kaedah kami tidak memerlukan penyertaan bersempadan atau pangkat stabil bersempadan. Tambahan pula, walaupun entri atau kedudukan stabil dalam matriks perhatian adalah besar, parameter berbutir halus yang diperkenalkan untuk menganalisis kerumitan masa mungkin masih kecil.

Akibatnya, HyperAttention jauh lebih pantas, dengan lebih 50 kali lebih pantas perambatan ke hadapan dan ke belakang pada panjang jujukan n= 131k. Kaedah ini masih mencapai kelajuan 5x yang besar apabila berurusan dengan topeng penyebab. Tambahan pula, apabila kaedah itu digunakan pada LLM pra-terlatih (seperti chatqlm2-6b-32k) dan dinilai pada set data penanda aras konteks panjang LongBench, ia mengekalkan tahap prestasi yang hampir dengan model asal walaupun tanpa memerlukan penalaan halus. . Para penyelidik juga menilai tugas tertentu dan mendapati bahawa tugasan ringkasan dan penyelesaian kod mempunyai kesan yang lebih besar pada lapisan perhatian anggaran berbanding tugas menyelesaikan masalah.

Algoritma

Untuk mendapatkan jaminan spektrum apabila menghampiri Att, langkah pertama dalam kertas ini ialah melakukan anggaran 1 ± ε pada sebutan pepenjuru matriks D. Selepas itu, hasil matriks antara A dan V dianggarkan dengan pensampelan (D^-1) mengikut baris persegi ℓ₂-norma V.

Proses menghampiri D terdiri daripada dua langkah. Pertama, algoritma yang berakar umbi dalam LSH pengisihan Hamming digunakan untuk mengenal pasti entri dominan dalam matriks perhatian, seperti yang ditunjukkan dalam Definisi 1. Langkah kedua ialah memilih subset kecil K secara rawak. Makalah ini akan menunjukkan bahawa, di bawah andaian ringan tertentu tentang matriks A dan D, kaedah mudah ini boleh mewujudkan sempadan spektrum matriks yang dianggarkan. Matlamat penyelidik adalah untuk mencari anggaran matriks D yang cukup tepat untuk memenuhi:

Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

🎜

Andaian artikel ini ialah norma lajur matriks softmax mempamerkan pengedaran yang agak seragam. Lebih tepat lagi, pengkaji menganggap bahawa bagi mana-mana i ∈ [n] t terdapat beberapa Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50% sedemikian rupa sehingga .

Langkah pertama algoritma ialah mengenal pasti entri besar dalam matriks perhatian A dengan mencincang kekunci dan pertanyaan ke dalam baldi bersaiz seragam menggunakan Hamming sorted LSH (sortLSH). Algoritma 1 memperincikan proses ini dan Rajah 1 menggambarkannya secara visual.

Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

Fungsi Algoritma 1 adalah untuk mengembalikan topeng jarang yang digunakan untuk mengasingkan entri utama matriks perhatian. Selepas mendapat topeng ini, pengkaji boleh mengira anggaran matriks D dalam Algoritma 2 yang memenuhi jaminan spektrum dalam Persamaan (2). Algoritma ini dilaksanakan dengan menggabungkan nilai perhatian yang sepadan dengan topeng dengan set lajur yang dipilih secara rawak dalam matriks perhatian. Algoritma dalam kertas ini boleh digunakan secara meluas dan boleh digunakan dengan cekap dengan menggunakan topeng yang telah ditetapkan untuk menentukan kedudukan entri utama dalam matriks perhatian. Jaminan utama algoritma diberikan dalam Teorem 1. Subrutin yang menyepadukan anggaran pepenjuru

dan hasil matriks antara anggaran Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

dan matriks nilai V. Oleh itu, para penyelidik memperkenalkan HyperAttention, algoritma yang cekap yang boleh menganggarkan mekanisme perhatian dengan jaminan spektrum dalam formula (1) dalam masa yang lebih kurang linear. Algoritma 3 mengambil sebagai input mask MH yang mentakrifkan kedudukan kemasukan dominan dalam matriks perhatian. Topeng ini boleh dijana menggunakan algoritma sortLSH (Algoritma 1) atau boleh menjadi topeng yang telah ditetapkan, serupa dengan pendekatan dalam [7]. Kami mengandaikan bahawa topeng kemasukan besar M^H adalah jarang mengikut reka bentuk dan bilangan penyertaan bukan sifarnya adalah terhad Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

Seperti yang ditunjukkan dalam Rajah 2, kaedah ini berdasarkan pemerhatian penting. Perhatian bertopeng M^C⊙A boleh diuraikan kepada tiga matriks bukan sifar, setiap satunya adalah separuh saiz matriks perhatian asal. Blok A_21 sepenuhnya di bawah pepenjuru adalah perhatian terbuka. Oleh itu, kita boleh menganggarkan jumlah barisnya menggunakan Algoritma 2. Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50% Dua bongkah pepenjuru dan yang ditunjukkan dalam Rajah 2 ialah perhatian kausal, iaitu separuh daripada saiz asal. Untuk menangani hubungan kausal ini, para penyelidik menggunakan pendekatan rekursif, seterusnya membahagikannya kepada ketulan yang lebih kecil dan mengulangi proses tersebut. Pseudokod untuk proses ini diberikan dalam Algoritma 4.

Eksperimen dan keputusan Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50% Para penyelidik melanjutkan model bahasa besar sedia ada untuk memproses jujukan jarak jauh dan kemudian menanda aras algoritma. Semua percubaan dijalankan pada satu GPU A100 40GB dan menggunakan FlashAttention 2 untuk pengiraan perhatian yang tepat. Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

Untuk mengekalkan makna asal tidak berubah, kandungan perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu muncul

Para penyelidik pertama kali menilai HyperAttention pada dua LLM yang telah dilatih, dan memilih model yang digunakan secara meluas dalam aplikasi praktikal Dua model dengan seni bina yang berbeza: chatglm2-6b-32k dan phi-1.5.

Dalam operasi, mereka menampal lapisan perhatian ℓ terakhir dengan menggantikannya dengan HyperAttention, di mana bilangan ℓ boleh berbeza-beza daripada 0 hingga jumlah bilangan semua lapisan perhatian dalam setiap LLM. Ambil perhatian bahawa perhatian dalam kedua-dua model memerlukan topeng sebab, dan Algoritma 4 digunakan secara rekursif sehingga panjang jujukan input n kurang daripada 4,096. Untuk semua panjang jujukan, kami menetapkan saiz baldi b dan bilangan lajur sampel m kepada 256. Mereka menilai prestasi model tampalan monyet tersebut dari segi kebingungan dan pecutan.

Pada masa yang sama, penyelidik menggunakan LongBench, koleksi set data penanda aras konteks panjang, yang mengandungi 6 tugasan berbeza, iaitu menjawab soalan tunggal/berbilang dokumen, rumusan, pembelajaran sampel kecil, tugasan sintesis dan penyelesaian kod. Mereka memilih subset set data dengan panjang jujukan pengekodan lebih daripada 32,768 dan memangkasnya jika panjangnya melebihi 32,768. Kemudian hitung kebingungan setiap model, iaitu kehilangan meramalkan token seterusnya. Untuk menyerlahkan kebolehskalaan untuk jujukan yang panjang, kami juga mengira jumlah kelajuan merentas semua lapisan perhatian, sama ada dilakukan oleh HyperAttention atau FlashAttention.

Keputusan yang ditunjukkan dalam Rajah 3 di atas adalah seperti berikut Walaupun chatglm2-6b-32k telah melepasi patch monyet HyperAttention, ia masih menunjukkan tahap kekeliruan yang munasabah. Sebagai contoh, selepas menggantikan lapisan 20, kebingungan meningkat lebih kurang 1 dan terus meningkat secara perlahan sehingga mencapai lapisan 24. Masa jalan lapisan perhatian telah dipertingkatkan sebanyak kira-kira 50%. Jika semua lapisan diganti, kebingungan meningkat kepada 12 dan berjalan 2.3 kali lebih cepat. Model phi-1.5 juga menunjukkan situasi yang sama, tetapi apabila bilangan HyperAttention meningkat, kebingungan akan meningkat secara linear

Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

Selain itu, penyelidik juga menjalankan eksperimen ke atas monyet yang ditampal chatglm2-6b-32k pada Set data LongBench Penilaian prestasi telah dijalankan, dan markah penilaian untuk tugasan masing-masing seperti menjawab soalan tunggal/berbilang dokumen, rumusan, pembelajaran sampel kecil, tugasan sintesis dan penyelesaian kod telah dikira. Keputusan penilaian ditunjukkan dalam Jadual 1 di bawah

Walaupun menggantikan HyperAttention biasanya menghasilkan penalti prestasi, mereka mendapati bahawa impaknya berbeza-beza berdasarkan tugas yang sedang dijalankan. Sebagai contoh, ringkasan dan penyiapan kod adalah yang paling kukuh berbanding tugasan lain.

Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

Perkara yang luar biasa ialah apabila separuh daripada lapisan perhatian (iaitu 14 lapisan) ditampal, para penyelidik mengesahkan bahawa penurunan prestasi untuk kebanyakan tugasan tidak akan melebihi 13%. Khususnya untuk tugasan ringkasan, prestasi kekal hampir tidak berubah, menunjukkan bahawa tugas ini adalah yang paling teguh kepada pengubahsuaian separa dalam mekanisme perhatian. Apabila n=32k, kelajuan pengiraan lapisan perhatian meningkat sebanyak 1.5 kali.

Lapisan perhatian diri tunggal

Para penyelidik meneroka lebih lanjut pecutan HyperAttention apabila panjang jujukan berbeza dari 4,096 hingga 131,072. Mereka mengukur masa jam dinding operasi hadapan dan hadapan+belakang apabila dikira menggunakan FlashAttention atau dipercepatkan oleh HyperAttention. Masa jam dinding dengan dan tanpa penutup sebab turut diukur. Semua input Q, K, dan V adalah sama panjang, dimensi ditetapkan kepada d = 64, dan bilangan kepala perhatian ialah 12.

Mereka memilih parameter yang sama seperti sebelumnya dalam HyperAttention. Seperti yang ditunjukkan dalam Rajah 4, apabila topeng penyebab tidak digunakan, kelajuan HyperAttention meningkat sebanyak 54 kali, dan dengan topeng penyebab, kelajuan meningkat sebanyak 5.4 kali. Walaupun kebingungan temporal masking kausal dan bukan masking adalah sama, algoritma sebenar masking kausal (Algoritma 1) memerlukan operasi tambahan seperti membahagikan Q, K dan V, menggabungkan output perhatian, mengakibatkan peningkatan dalam masa jalan sebenar . Apabila panjang jujukan n bertambah, pecutan akan lebih tinggi

Para penyelidik percaya bahawa keputusan ini bukan sahaja boleh digunakan untuk inferens, tetapi juga boleh digunakan untuk melatih atau memperhalusi LLM untuk menyesuaikan diri dengan jujukan yang lebih panjang, yang membuka pengembangan perhatian diri Kemungkinan baru

Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%

Atas ialah kandungan terperinci Mekanisme perhatian anggaran baharu HyperAttention: mesra kepada konteks yang panjang, mempercepatkan inferens LLM sebanyak 50%. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7554

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Jun 11, 2024 am 09:51 AM

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

See all articles