.
Mengapakah kepentingan alternatif begitu menonjol?
Dengan revolusi kecerdasan buatan pada 2023, seni bina
Transformer
kini berada di kemuncaknya. Walau bagaimanapun, dalam tergesa-gesa untuk menggunakan seni bina
Transformer yang berjaya, mudah untuk mengabaikan alternatif yang boleh dipelajari.
Sebagai jurutera, kita tidak seharusnya mengambil pendekatan satu saiz untuk semua dan menggunakan penyelesaian yang sama untuk setiap masalah. Kita harus mempertimbangkan kebaikan dan keburukan dalam setiap situasi; jika tidak, terperangkap dalam batasan platform tertentu sambil berasa "puas hati" dengan tidak mengetahui ada alternatif boleh mengubah pembangunan kembali kepada pra-pembebasan semalaman Masalah ini adalah bukan unik untuk bidang kecerdasan buatan, tetapi corak sejarah yang telah berulang dari zaman dahulu hingga kini.
Sebuah halaman dalam sejarah SQL Wars, cerita tentang persaingan dan konfrontasi antara sistem pengurusan pangkalan data. Dalam cerita ini, pelbagai sistem pengurusan pangkalan data, seperti Oracle, MySQL, dan SQL Server, bersaing sengit untuk bahagian pasaran dan kelebihan teknikal. Pertandingan ini bukan sahaja dicerminkan dalam prestasi dan kefungsian, tetapi juga melibatkan banyak aspek seperti strategi perniagaan, pemasaran dan kepuasan pengguna. Sistem pengurusan pangkalan data ini sentiasa memperkenalkan ciri dan penambahbaikan baharu untuk menarik lebih ramai pengguna dan perniagaan memilih produk mereka. Sebuah halaman dalam sejarah perang SQL, yang telah menyaksikan perkembangan dan perubahan industri sistem pengurusan pangkalan data, dan juga memberikan kami pengalaman dan pelajaran berharga
Contoh penting dalam pembangunan perisian baru-baru ini ialah apabila SQL Trend NoSQL muncul apabila pelayan mula dikekang secara fizikal. Pemula di seluruh dunia beralih ke NoSQL atas sebab "skala", walaupun mereka tidak berada di tempat yang hampir dengan skala tersebut
Walau bagaimanapun, dari masa ke masa, apabila konsistensi akhirnya dan overhed pengurusan NoSQL muncul, dan lonjakan besar dalam keupayaan perkakasan dari segi Kelajuan dan kapasiti SSD, pelayan SQL telah melihat kemunculan semula baru-baru ini kerana kesederhanaan penggunaannya dan kini lebih daripada 90% pemula mempunyai kebolehskalaan yang mencukupi SQL dan NoSQL adalah dua teknologi pangkalan data yang berbeza. SQL ialah singkatan Bahasa Pertanyaan Berstruktur, yang digunakan terutamanya untuk memproses data berstruktur. NoSQL merujuk kepada pangkalan data bukan hubungan, sesuai untuk memproses data tidak berstruktur atau separa berstruktur. Walaupun sesetengah orang berpendapat bahawa SQL adalah lebih baik daripada NoSQL, atau sebaliknya, pada hakikatnya ia hanya bermakna bahawa setiap teknologi mempunyai kebaikan, keburukan dan kes penggunaannya sendiri. Dalam sesetengah kes, SQL mungkin lebih sesuai untuk memproses data hubungan yang kompleks, manakala NoSQL lebih sesuai untuk memproses data tidak berstruktur berskala besar. Walau bagaimanapun, ini tidak bermakna hanya satu teknologi boleh dipilih. Malah, banyak aplikasi dan sistem menggunakan penyelesaian hibrid SQL dan NoSQL dalam amalan. Bergantung pada keperluan khusus dan jenis data, teknologi yang paling sesuai boleh dipilih untuk menyelesaikan masalah. Oleh itu, adalah penting untuk memahami ciri dan senario yang boleh digunakan bagi setiap teknologi dan membuat pilihan termaklum berdasarkan situasi tertentu. Sama ada SQL atau NoSQL, kedua-duanya mempunyai mata pembelajaran tersendiri dan kes penggunaan pilihan yang boleh dipelajari dan didebunga silang antara teknologi yang serupa
Apakah titik kesakitan terbesar semasa Transformer
seni bina?
Biasanya ini termasuk pengiraan, saiz konteks, set data dan penjajaran. Dalam perbincangan ini kita akan menumpukan pada pengiraan dan panjang konteks:
Kos pengiraan kuadratik disebabkan oleh peningkatan O(N^2) bagi setiap token yang digunakan/dijana. Ini menjadikan saiz konteks lebih besar daripada 100,000 sangat mahal, menjejaskan inferens dan latihan.
Kekurangan GPU semasa memburukkan lagi masalah ini.Saiz konteks mengehadkan mekanisme Perhatian, mengehadkan kes penggunaan "agen pintar" dengan teruk (seperti smol-dev) dan memaksa penyelesaian kepada masalah itu. Konteks yang lebih besar memerlukan lebih sedikit penyelesaian.
Walau bagaimanapun, Linear Transformers tidak meninggalkan seni bina rangkaian saraf berulang dan menyelesaikan kesesakannya, yang memaksa mereka diganti.
Walau bagaimanapun, RNN yang direka bentuk semula mempelajari pelajaran berskala Transformer, membolehkan RNN berfungsi sama dengan Transformer dan menghapuskan keperluan untuk kesesakan.Dari segi kelajuan latihan, gunakan Transformer untuk membawa mereka kembali ke padang - membolehkan mereka berjalan dengan cekap di O(N) kos, Pada masa yang sama skala kepada lebih 1 bilion parameter dalam latihan sambil mengekalkan tahap prestasi yang sama.
Carta: Linear Transformer mengira pertumbuhan perkenan linear vs. daripada transformer Anda akan mendapat pertumbuhan 10x+ pada kiraan token 2k dan pertumbuhan 100x+ pada panjang token 100k 🎜🎜#Pada parameter 14B, RWKV ialah Transformer linear sumber terbuka terbesar, setanding dengan GPT NeoX dan set data lain yang serupa seperti Pile.
#🎜🎜🎜##🎜🎜 model Prestasinya setanding dengan model pengubah sedia ada dengan saiz yang sama, seperti yang ditunjukkan oleh pelbagai penanda aras 🎜#Tetapi dalam istilah yang lebih mudah, apakah maksudnya?
##Kelebihan🎜 🎜🎜#
Inferens/latihan adalah 10x atau lebih murah daripada Transformer pada saiz konteks yang lebih besar
#🎜 🎜🎜#
Dalam mod RNN, boleh berjalan perlahan-lahan pada perkakasan yang sangat terhad
#🎜🎜 prestasi Transformilar kepada Transformilar pada set data yang sama
Keburukan
Keburukan
Rangkaian/ejen lawan generatif: teknik boleh digunakan untuk melatih set latihan yang diperlukan kepada matlamat Khusus, walaupun untuk model berasaskan teks . #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜
Tajuk asal:#🎜 daripada Pengubah Linear dan Pilihan Penerokaan 🎜#
#🎜
Atas ialah kandungan terperinci Memperkenalkan RWKV: Kebangkitan Transformer linear dan meneroka alternatif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!