Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif-AI-php.cn

Rumah

Peranti teknologi

Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 27, 2023 pm 02:01 PM

rwkv

Mengapakah kepentingan alternatif begitu menonjol?

Dengan revolusi kecerdasan buatan pada 2023, seni bina Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif

Transformer

kini berada di kemuncaknya. Walau bagaimanapun, dalam tergesa-gesa untuk menggunakan seni bina

Transformer yang berjaya, mudah untuk mengabaikan alternatif yang boleh dipelajari.

Sebagai jurutera, kita tidak seharusnya mengambil pendekatan satu saiz untuk semua dan menggunakan penyelesaian yang sama untuk setiap masalah. Kita harus mempertimbangkan kebaikan dan keburukan dalam setiap situasi; jika tidak, terperangkap dalam batasan platform tertentu sambil berasa "puas hati" dengan tidak mengetahui ada alternatif boleh mengubah pembangunan kembali kepada pra-pembebasan semalaman Masalah ini adalah bukan unik untuk bidang kecerdasan buatan, tetapi corak sejarah yang telah berulang dari zaman dahulu hingga kini.

Sebuah halaman dalam sejarah SQL Wars, cerita tentang persaingan dan konfrontasi antara sistem pengurusan pangkalan data. Dalam cerita ini, pelbagai sistem pengurusan pangkalan data, seperti Oracle, MySQL, dan SQL Server, bersaing sengit untuk bahagian pasaran dan kelebihan teknikal. Pertandingan ini bukan sahaja dicerminkan dalam prestasi dan kefungsian, tetapi juga melibatkan banyak aspek seperti strategi perniagaan, pemasaran dan kepuasan pengguna. Sistem pengurusan pangkalan data ini sentiasa memperkenalkan ciri dan penambahbaikan baharu untuk menarik lebih ramai pengguna dan perniagaan memilih produk mereka. Sebuah halaman dalam sejarah perang SQL, yang telah menyaksikan perkembangan dan perubahan industri sistem pengurusan pangkalan data, dan juga memberikan kami pengalaman dan pelajaran berharga

Contoh penting dalam pembangunan perisian baru-baru ini ialah apabila SQL Trend NoSQL muncul apabila pelayan mula dikekang secara fizikal. Pemula di seluruh dunia beralih ke NoSQL atas sebab "skala", walaupun mereka tidak berada di tempat yang hampir dengan skala tersebut

Walau bagaimanapun, dari masa ke masa, apabila konsistensi akhirnya dan overhed pengurusan NoSQL muncul, dan lonjakan besar dalam keupayaan perkakasan dari segi Kelajuan dan kapasiti SSD, pelayan SQL telah melihat kemunculan semula baru-baru ini kerana kesederhanaan penggunaannya dan kini lebih daripada 90% pemula mempunyai kebolehskalaan yang mencukupi SQL dan NoSQL adalah dua teknologi pangkalan data yang berbeza. SQL ialah singkatan Bahasa Pertanyaan Berstruktur, yang digunakan terutamanya untuk memproses data berstruktur. NoSQL merujuk kepada pangkalan data bukan hubungan, sesuai untuk memproses data tidak berstruktur atau separa berstruktur. Walaupun sesetengah orang berpendapat bahawa SQL adalah lebih baik daripada NoSQL, atau sebaliknya, pada hakikatnya ia hanya bermakna bahawa setiap teknologi mempunyai kebaikan, keburukan dan kes penggunaannya sendiri. Dalam sesetengah kes, SQL mungkin lebih sesuai untuk memproses data hubungan yang kompleks, manakala NoSQL lebih sesuai untuk memproses data tidak berstruktur berskala besar. Walau bagaimanapun, ini tidak bermakna hanya satu teknologi boleh dipilih. Malah, banyak aplikasi dan sistem menggunakan penyelesaian hibrid SQL dan NoSQL dalam amalan. Bergantung pada keperluan khusus dan jenis data, teknologi yang paling sesuai boleh dipilih untuk menyelesaikan masalah. Oleh itu, adalah penting untuk memahami ciri dan senario yang boleh digunakan bagi setiap teknologi dan membuat pilihan termaklum berdasarkan situasi tertentu. Sama ada SQL atau NoSQL, kedua-duanya mempunyai mata pembelajaran tersendiri dan kes penggunaan pilihan yang boleh dipelajari dan didebunga silang antara teknologi yang serupa

Apakah titik kesakitan terbesar semasa Transformer

seni bina?

Biasanya ini termasuk pengiraan, saiz konteks, set data dan penjajaran. Dalam perbincangan ini kita akan menumpukan pada pengiraan dan panjang konteks:

Kos pengiraan kuadratik disebabkan oleh peningkatan O(N^2) bagi setiap token yang digunakan/dijana. Ini menjadikan saiz konteks lebih besar daripada 100,000 sangat mahal, menjejaskan inferens dan latihan.

Kekurangan GPU semasa memburukkan lagi masalah ini.

Saiz konteks mengehadkan mekanisme Perhatian, mengehadkan kes penggunaan "agen pintar" dengan teruk (seperti smol-dev) dan memaksa penyelesaian kepada masalah itu. Konteks yang lebih besar memerlukan lebih sedikit penyelesaian.

- Kos pengiraan linear, bebas daripada saiz konteks.
- Membenarkan token/output saat yang munasabah dalam mod RNN dengan keperluan yang lebih rendah dalam CPU (terutamanya ARM) . Tiada had saiz konteks keras sebagai RNN. Sebarang had dalam dokumentasi adalah garis panduan - anda boleh memperhalusinya.
- Sambil kami terus mengembangkan model kecerdasan buatan kepada 10#🎜#🎜 🎜#Dengan saiz konteks k dan ke atas, kos pengiraan kuadratik mula berkembang secara eksponen.
Walau bagaimanapun, Linear Transformers tidak meninggalkan seni bina rangkaian saraf berulang dan menyelesaikan kesesakannya, yang memaksa mereka diganti.
Walau bagaimanapun, RNN yang direka bentuk semula mempelajari pelajaran berskala Transformer, membolehkan RNN berfungsi sama dengan Transformer dan menghapuskan keperluan untuk kesesakan.
Dari segi kelajuan latihan, gunakan Transformer untuk membawa mereka kembali ke padang - membolehkan mereka berjalan dengan cekap di O(N) kos, Pada masa yang sama skala kepada lebih 1 bilion parameter dalam latihan sambil mengekalkan tahap prestasi yang sama.

Carta: Linear Transformer mengira pertumbuhan perkenan linear vs. daripada transformer Anda akan mendapat pertumbuhan 10x+ pada kiraan token 2k dan pertumbuhan 100x+ pada panjang token 100k 🎜🎜#Pada parameter 14B, RWKV ialah Transformer linear sumber terbuka terbesar, setanding dengan GPT NeoX dan set data lain yang serupa seperti Pile.

#🎜🎜🎜##🎜🎜 model Prestasinya setanding dengan model pengubah sedia ada dengan saiz yang sama, seperti yang ditunjukkan oleh pelbagai penanda aras 🎜#Tetapi dalam istilah yang lebih mudah, apakah maksudnya?

##Kelebihan🎜 🎜🎜#

Inferens/latihan adalah 10x atau lebih murah daripada Transformer pada saiz konteks yang lebih besar

#🎜 🎜🎜#

Dalam mod RNN, boleh berjalan perlahan-lahan pada perkakasan yang sangat terhad

#🎜🎜 prestasi Transformilar kepada Transformilar pada set data yang sama

RNN tidak mempunyai had saiz konteks teknikal (konteks tanpa had!) #🎜 🎜##🎜🎜🎜🎜🎜 🎜#

Keburukan

Keburukan
- #🎜🎜 #Masalah tingkap gelongsor, ingatan hilang melebihi titik tertentu
- #🎜🎜 ##🎜🎜🎜🎜🎜 #Tidak terbukti boleh berskala melebihi parameter 14B
- Tidak sebagus pengoptimuman dan penggunaan transformer#🎜#🎜 🎜🎜#
- Jadi sementara RWKV belum berada pada skala parameter 60B+ LLaMA2, adalah mungkin dengan sokongan dan sumber yang betul Mencapai ini pada kos yang lebih rendah dan dalam julat persekitaran yang lebih luas, terutamanya kerana model cenderung lebih kecil dan lebih cekap Pertimbangkan ini jika kes penggunaan anda penting untuk kecekapan. Walau bagaimanapun, ini bukan penyelesaian muktamad – kuncinya terletak pada alternatif yang sihat Kita harus mempertimbangkan untuk mempelajari alternatif lain dan faedahnya Lebih perlahan, tetapi sangat fleksibel untuk latihan berbilang zaman. Mengetahui sebab boleh membantu mengurangkan krisis token.
Rangkaian/ejen lawan generatif: teknik boleh digunakan untuk melatih set latihan yang diperlukan kepada matlamat Khusus, walaupun untuk model berasaskan teks . #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜
Tajuk asal:#🎜 daripada Pengubah Linear dan Pilihan Penerokaan 🎜#
https://www.php.cn/link/b433da1b32b5ca96c0ba7fcb9edba97d
#🎜

Atas ialah kandungan terperinci Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7518

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan! Mar 20, 2025 pm 03:34 PM

Pengekodan Vibe membentuk semula dunia pembangunan perisian dengan membiarkan kami membuat aplikasi menggunakan bahasa semulajadi dan bukannya kod yang tidak berkesudahan. Diilhamkan oleh penglihatan seperti Andrej Karpathy, pendekatan inovatif ini membolehkan Dev

Top 5 Genai dilancarkan pada Februari 2025: GPT-4.5, Grok-3 & More! Mar 22, 2025 am 10:58 AM

Februari 2025 telah menjadi satu lagi bulan yang berubah-ubah untuk AI generatif, membawa kita beberapa peningkatan model yang paling dinanti-nantikan dan ciri-ciri baru yang hebat. Dari Xai's Grok 3 dan Anthropic's Claude 3.7 Sonnet, ke Openai's G

Bagaimana cara menggunakan Yolo V12 untuk pengesanan objek? Mar 22, 2025 am 11:07 AM

Yolo (anda hanya melihat sekali) telah menjadi kerangka pengesanan objek masa nyata yang terkemuka, dengan setiap lelaran bertambah baik pada versi sebelumnya. Versi terbaru Yolo V12 memperkenalkan kemajuan yang meningkatkan ketepatan

Adakah chatgpt 4 o tersedia? Mar 28, 2025 pm 05:29 PM

CHATGPT 4 kini tersedia dan digunakan secara meluas, menunjukkan penambahbaikan yang ketara dalam memahami konteks dan menjana tindak balas yang koheren berbanding dengan pendahulunya seperti ChATGPT 3.5. Perkembangan masa depan mungkin merangkumi lebih banyak Inter yang diperibadikan

Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Apr 02, 2025 pm 06:10 PM

Artikel ini mengkaji semula penjana seni AI atas, membincangkan ciri -ciri mereka, kesesuaian untuk projek kreatif, dan nilai. Ia menyerlahkan Midjourney sebagai nilai terbaik untuk profesional dan mengesyorkan Dall-E 2 untuk seni berkualiti tinggi dan disesuaikan.

Google ' s Gencast: Peramalan Cuaca dengan Demo Mini Gencast Mar 16, 2025 pm 01:46 PM

Google Deepmind's Gencast: AI Revolusioner untuk Peramalan Cuaca Peramalan cuaca telah menjalani transformasi dramatik, bergerak dari pemerhatian asas kepada ramalan berkuasa AI yang canggih. Google Deepmind's Gencast, tanah air

O1 vs GPT-4O: Adakah model baru OpenAI ' lebih baik daripada GPT-4O? Mar 16, 2025 am 11:47 AM

Openai's O1: Hadiah 12 Hari Bermula dengan model mereka yang paling berkuasa Ketibaan Disember membawa kelembapan global, kepingan salji di beberapa bahagian dunia, tetapi Openai baru sahaja bermula. Sam Altman dan pasukannya melancarkan mantan hadiah 12 hari

AI mana yang lebih baik daripada chatgpt? Mar 18, 2025 pm 06:05 PM

Artikel ini membincangkan model AI yang melampaui chatgpt, seperti Lamda, Llama, dan Grok, menonjolkan kelebihan mereka dalam ketepatan, pemahaman, dan kesan industri. (159 aksara)

See all articles