


Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif
.
Mengapakah kepentingan alternatif begitu menonjol?
Dengan revolusi kecerdasan buatan pada 2023, seni bina
kini berada di kemuncaknya. Walau bagaimanapun, dalam tergesa-gesa untuk menggunakan seni bina
Transformer yang berjaya, mudah untuk mengabaikan alternatif yang boleh dipelajari.
Sebagai jurutera, kita tidak seharusnya mengambil pendekatan satu saiz untuk semua dan menggunakan penyelesaian yang sama untuk setiap masalah. Kita harus mempertimbangkan kebaikan dan keburukan dalam setiap situasi; jika tidak, terperangkap dalam batasan platform tertentu sambil berasa "puas hati" dengan tidak mengetahui ada alternatif boleh mengubah pembangunan kembali kepada pra-pembebasan semalaman Masalah ini adalah bukan unik untuk bidang kecerdasan buatan, tetapi corak sejarah yang telah berulang dari zaman dahulu hingga kini.
Sebuah halaman dalam sejarah SQL Wars, cerita tentang persaingan dan konfrontasi antara sistem pengurusan pangkalan data. Dalam cerita ini, pelbagai sistem pengurusan pangkalan data, seperti Oracle, MySQL, dan SQL Server, bersaing sengit untuk bahagian pasaran dan kelebihan teknikal. Pertandingan ini bukan sahaja dicerminkan dalam prestasi dan kefungsian, tetapi juga melibatkan banyak aspek seperti strategi perniagaan, pemasaran dan kepuasan pengguna. Sistem pengurusan pangkalan data ini sentiasa memperkenalkan ciri dan penambahbaikan baharu untuk menarik lebih ramai pengguna dan perniagaan memilih produk mereka. Sebuah halaman dalam sejarah perang SQL, yang telah menyaksikan perkembangan dan perubahan industri sistem pengurusan pangkalan data, dan juga memberikan kami pengalaman dan pelajaran berharga
Contoh penting dalam pembangunan perisian baru-baru ini ialah apabila SQL Trend NoSQL muncul apabila pelayan mula dikekang secara fizikal. Pemula di seluruh dunia beralih ke NoSQL atas sebab "skala", walaupun mereka tidak berada di tempat yang hampir dengan skala tersebut
Walau bagaimanapun, dari masa ke masa, apabila konsistensi akhirnya dan overhed pengurusan NoSQL muncul, dan lonjakan besar dalam keupayaan perkakasan dari segi Kelajuan dan kapasiti SSD, pelayan SQL telah melihat kemunculan semula baru-baru ini kerana kesederhanaan penggunaannya dan kini lebih daripada 90% pemula mempunyai kebolehskalaan yang mencukupi SQL dan NoSQL adalah dua teknologi pangkalan data yang berbeza. SQL ialah singkatan Bahasa Pertanyaan Berstruktur, yang digunakan terutamanya untuk memproses data berstruktur. NoSQL merujuk kepada pangkalan data bukan hubungan, sesuai untuk memproses data tidak berstruktur atau separa berstruktur. Walaupun sesetengah orang berpendapat bahawa SQL adalah lebih baik daripada NoSQL, atau sebaliknya, pada hakikatnya ia hanya bermakna bahawa setiap teknologi mempunyai kebaikan, keburukan dan kes penggunaannya sendiri. Dalam sesetengah kes, SQL mungkin lebih sesuai untuk memproses data hubungan yang kompleks, manakala NoSQL lebih sesuai untuk memproses data tidak berstruktur berskala besar. Walau bagaimanapun, ini tidak bermakna hanya satu teknologi boleh dipilih. Malah, banyak aplikasi dan sistem menggunakan penyelesaian hibrid SQL dan NoSQL dalam amalan. Bergantung pada keperluan khusus dan jenis data, teknologi yang paling sesuai boleh dipilih untuk menyelesaikan masalah. Oleh itu, adalah penting untuk memahami ciri dan senario yang boleh digunakan bagi setiap teknologi dan membuat pilihan termaklum berdasarkan situasi tertentu. Sama ada SQL atau NoSQL, kedua-duanya mempunyai mata pembelajaran tersendiri dan kes penggunaan pilihan yang boleh dipelajari dan didebunga silang antara teknologi yang serupa
Apakah titik kesakitan terbesar semasa Transformer
seni bina?
Biasanya ini termasuk pengiraan, saiz konteks, set data dan penjajaran. Dalam perbincangan ini kita akan menumpukan pada pengiraan dan panjang konteks:
Kos pengiraan kuadratik disebabkan oleh peningkatan O(N^2) bagi setiap token yang digunakan/dijana. Ini menjadikan saiz konteks lebih besar daripada 100,000 sangat mahal, menjejaskan inferens dan latihan.
Kekurangan GPU semasa memburukkan lagi masalah ini.Saiz konteks mengehadkan mekanisme Perhatian, mengehadkan kes penggunaan "agen pintar" dengan teruk (seperti smol-dev) dan memaksa penyelesaian kepada masalah itu. Konteks yang lebih besar memerlukan lebih sedikit penyelesaian.
- Jadi, bagaimana kita nak selesaikan masalah ini? . Linear Transformers" dalam kategori baharu Yang pertama
- yang secara langsung menangani tiga batasan di atas dengan menyokong:
-
- Kos pengiraan linear, bebas daripada saiz konteks.
- Membenarkan token/output saat yang munasabah dalam mod RNN dengan keperluan yang lebih rendah dalam CPU (terutamanya ARM) . Tiada had saiz konteks keras sebagai RNN. Sebarang had dalam dokumentasi adalah garis panduan - anda boleh memperhalusinya.
- Sambil kami terus mengembangkan model kecerdasan buatan kepada 10#🎜#🎜 🎜#Dengan saiz konteks k dan ke atas, kos pengiraan kuadratik mula berkembang secara eksponen.
Walau bagaimanapun, Linear Transformers tidak meninggalkan seni bina rangkaian saraf berulang dan menyelesaikan kesesakannya, yang memaksa mereka diganti.
Walau bagaimanapun, RNN yang direka bentuk semula mempelajari pelajaran berskala Transformer, membolehkan RNN berfungsi sama dengan Transformer dan menghapuskan keperluan untuk kesesakan.Dari segi kelajuan latihan, gunakan Transformer untuk membawa mereka kembali ke padang - membolehkan mereka berjalan dengan cekap di O(N) kos, Pada masa yang sama skala kepada lebih 1 bilion parameter dalam latihan sambil mengekalkan tahap prestasi yang sama.
Carta: Linear Transformer mengira pertumbuhan perkenan linear vs. daripada transformer Anda akan mendapat pertumbuhan 10x+ pada kiraan token 2k dan pertumbuhan 100x+ pada panjang token 100k 🎜🎜#Pada parameter 14B, RWKV ialah Transformer linear sumber terbuka terbesar, setanding dengan GPT NeoX dan set data lain yang serupa seperti Pile.
#🎜🎜🎜##🎜🎜 model Prestasinya setanding dengan model pengubah sedia ada dengan saiz yang sama, seperti yang ditunjukkan oleh pelbagai penanda aras 🎜#Tetapi dalam istilah yang lebih mudah, apakah maksudnya?
##Kelebihan🎜 🎜🎜#
Inferens/latihan adalah 10x atau lebih murah daripada Transformer pada saiz konteks yang lebih besar
#🎜 🎜🎜#Dalam mod RNN, boleh berjalan perlahan-lahan pada perkakasan yang sangat terhad
#🎜🎜 prestasi Transformilar kepada Transformilar pada set data yang sama
RNN tidak mempunyai had saiz konteks teknikal (konteks tanpa had!) #🎜 🎜##🎜🎜🎜🎜🎜 🎜#
KeburukanKeburukan
- Keburukan
- #🎜🎜 #Masalah tingkap gelongsor, ingatan hilang melebihi titik tertentu
- #🎜🎜 ##🎜🎜🎜🎜🎜 #Tidak terbukti boleh berskala melebihi parameter 14B
- Tidak sebagus pengoptimuman dan penggunaan transformer#🎜#🎜 🎜🎜#
- Jadi sementara RWKV belum berada pada skala parameter 60B+ LLaMA2, adalah mungkin dengan sokongan dan sumber yang betul Mencapai ini pada kos yang lebih rendah dan dalam julat persekitaran yang lebih luas, terutamanya kerana model cenderung lebih kecil dan lebih cekap Pertimbangkan ini jika kes penggunaan anda penting untuk kecekapan. Walau bagaimanapun, ini bukan penyelesaian muktamad – kuncinya terletak pada alternatif yang sihat Kita harus mempertimbangkan untuk mempelajari alternatif lain dan faedahnya Lebih perlahan, tetapi sangat fleksibel untuk latihan berbilang zaman. Mengetahui sebab boleh membantu mengurangkan krisis token.
Rangkaian/ejen lawan generatif: teknik boleh digunakan untuk melatih set latihan yang diperlukan kepada matlamat Khusus, walaupun untuk model berasaskan teks . #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜
https://www.php.cn/link/b433da1b32b5ca96c0ba7fcb9edba97d
Tajuk asal:#🎜 daripada Pengubah Linear dan Pilihan Penerokaan 🎜##🎜
Atas ialah kandungan terperinci Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Pengekodan Vibe membentuk semula dunia pembangunan perisian dengan membiarkan kami membuat aplikasi menggunakan bahasa semulajadi dan bukannya kod yang tidak berkesudahan. Diilhamkan oleh penglihatan seperti Andrej Karpathy, pendekatan inovatif ini membolehkan Dev

Februari 2025 telah menjadi satu lagi bulan yang berubah-ubah untuk AI generatif, membawa kita beberapa peningkatan model yang paling dinanti-nantikan dan ciri-ciri baru yang hebat. Dari Xai's Grok 3 dan Anthropic's Claude 3.7 Sonnet, ke Openai's G

Yolo (anda hanya melihat sekali) telah menjadi kerangka pengesanan objek masa nyata yang terkemuka, dengan setiap lelaran bertambah baik pada versi sebelumnya. Versi terbaru Yolo V12 memperkenalkan kemajuan yang meningkatkan ketepatan

CHATGPT 4 kini tersedia dan digunakan secara meluas, menunjukkan penambahbaikan yang ketara dalam memahami konteks dan menjana tindak balas yang koheren berbanding dengan pendahulunya seperti ChATGPT 3.5. Perkembangan masa depan mungkin merangkumi lebih banyak Inter yang diperibadikan

Artikel ini mengkaji semula penjana seni AI atas, membincangkan ciri -ciri mereka, kesesuaian untuk projek kreatif, dan nilai. Ia menyerlahkan Midjourney sebagai nilai terbaik untuk profesional dan mengesyorkan Dall-E 2 untuk seni berkualiti tinggi dan disesuaikan.

Google Deepmind's Gencast: AI Revolusioner untuk Peramalan Cuaca Peramalan cuaca telah menjalani transformasi dramatik, bergerak dari pemerhatian asas kepada ramalan berkuasa AI yang canggih. Google Deepmind's Gencast, tanah air

Openai's O1: Hadiah 12 Hari Bermula dengan model mereka yang paling berkuasa Ketibaan Disember membawa kelembapan global, kepingan salji di beberapa bahagian dunia, tetapi Openai baru sahaja bermula. Sam Altman dan pasukannya melancarkan mantan hadiah 12 hari

Artikel ini membincangkan model AI yang melampaui chatgpt, seperti Lamda, Llama, dan Grok, menonjolkan kelebihan mereka dalam ketepatan, pemahaman, dan kesan industri. (159 aksara)
