Kertas kerja yang sangat dipuji oleh pengulas semasa peringkat semakan buta ICLR: Adakah ia akan menjadi inovasi utama dalam seni bina Transformer?-AI-php.cn

Jadual Kandungan

Membina Transformer dalam yang boleh dilatih tanpa pintasan

Eksperimen

Rumah

Kertas kerja yang sangat dipuji oleh pengulas semasa peringkat semakan buta ICLR: Adakah ia akan menjadi inovasi utama dalam seni bina Transformer?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 05:31 PM

kereta api transforme

Walaupun banyak pencapaian yang ketara, kemajuan praktikal dalam melatih rangkaian saraf dalam (DNN) sebahagian besarnya tidak bergantung pada asas teori. Kebanyakan DNN moden yang berjaya bergantung pada susunan khusus sambungan baki dan lapisan normalisasi, tetapi prinsip umum cara menggunakan komponen ini dalam seni bina baharu masih tidak diketahui, dan peranannya dalam seni bina sedia ada masih belum difahami sepenuhnya.

Seni bina sisa adalah yang paling popular dan berjaya, pada asalnya dibangunkan dalam konteks rangkaian neural konvolusi (CNN) dan kemudiannya muncul di mana-mana daripada seni bina pengubah rangkaian perhatian. Satu sebab kejayaan seni bina sisa adalah perambatan isyarat yang lebih baik berbanding DNN biasa, di mana perambatan isyarat merujuk kepada penghantaran maklumat geometri melalui lapisan DNN dan diwakili oleh fungsi kernel.

Baru-baru ini, menggunakan prinsip perambatan isyarat untuk melatih DNN yang lebih mendalam tanpa penglibatan sambungan baki dan/atau lapisan normalisasi dalam seni bina sisa telah menjadi bidang kepentingan masyarakat. Sebabnya adalah dua kali ganda: pertama ia mengesahkan hipotesis penyebaran isyarat untuk keberkesanan seni bina sisa, sekali gus menjelaskan pemahaman kebolehtafsiran DNN, kedua ini mungkin membolehkan prinsip dan kaedah am untuk kebolehlatihan DNN di luar paradigma sisa.

Bagi CNN, hasil kerja Xiao et al (2018) menunjukkan bahawa perambatan isyarat yang lebih baik melalui permulaan yang lebih baik boleh melatih rangkaian dalam biasa dengan cekap, walaupun. jauh lebih perlahan daripada rangkaian sisa. Kerja Martens et al. (2021) mencadangkan Deep Kernel Shaping (DKS), yang menggunakan transformasi fungsi pengaktifan untuk mengawal perambatan isyarat, dan menggunakan pengoptimum tertib kedua yang kuat seperti K-FAC untuk melaksanakan latihan rangkaian biasa dan rangkaian sisa pada ImageNet. Kelajuan adalah sama. Hasil kerja Zhang et al (2022) memanjangkan DKS kepada kelas fungsi pengaktifan yang lebih besar dan mencapai kesamaan hampir dalam generalisasi.

Kuantiti utama untuk dianalisis dalam perambatan isyarat ialah kernel masa permulaan DNN, atau lebih tepat lagi, anggaran kernel di bawah had lebar tak terhingga. Untuk perceptron berbilang lapisan (MLP) dan CNN yang menggunakan permulaan delta, kernel boleh ditulis sebagai rekursi lapisan mudah yang mengandungi hanya fungsi 2D untuk memudahkan analisis mudah. Evolusi kernel transformer rentas lapisan adalah lebih kompleks, jadi kaedah sedia ada seperti DKS tidak sesuai untuk transformer atau sememangnya mana-mana seni bina yang mengandungi lapisan perhatian kendiri.

Dalam MLP, perambatan isyarat dinilai dengan melihat tingkah laku kernel (satu dimensi), manakala perambatan isyarat dalam transformer boleh dinilai dengan melihat (dimensi tinggi ) matriks kernel pada lapisan rangkaian Berdasarkan evolusi dalam .

Kajian ini mesti mengelakkan situasi di mana unsur pepenjuru tumbuh atau mengecut dengan cepat dengan kedalaman yang semakin meningkat, yang berkaitan dengan norma pengaktifan yang tidak terkawal dan boleh menyebabkan kehilangan ketepuan atau masalah berangka . Mengelakkan keruntuhan pangkat adalah perlu untuk kebolehlatihan transformer dalam, dan sama ada transformer bebas sisa dalam boleh dilatih masih menjadi persoalan terbuka.

Kertas kerja dari peringkat semakan buta ICLR 2023 ini menyelesaikan masalah ini dan menunjukkan buat kali pertama bahawa adalah mungkin untuk berjaya melatih transformer dalam tanpa sambungan baki atau lapisan normalisasi. Untuk tujuan ini, mereka mengkaji perambatan isyarat dan masalah keruntuhan kedudukan dalam transformer bebas sisa dalam dan memperoleh tiga kaedah untuk menghalangnya. Khususnya, pendekatan ini menggunakan gabungan pemulaan parameter, matriks pincang dan penskalaan semula bergantung kepada kedudukan, dan menyerlahkan beberapa kerumitan khusus untuk perambatan isyarat dalam transformer, termasuk interaksi dengan pengekodan kedudukan dan penyekat sebab. Para penyelidik secara empirik menunjukkan bahawa kaedah mereka boleh menjana transformer bebas sisa yang boleh dilatih dalam.

Dalam bahagian percubaan, pada set data WikiText-103 dan C4, para penyelidik menunjukkan penggunaan kaedah utama mereka - Exponential Signal Preserving Attention (E- SPA), boleh membuat kehilangan latihan pengubah piawai yang setanding dengan pengubah sisa dalam kertas dengan memanjangkan masa latihan kira-kira lima kali. Di samping itu, dengan menggabungkan kaedah ini dengan sambungan baki, penyelidik juga menunjukkan bahawa transformer tanpa lapisan normalisasi boleh mencapai kelajuan latihan yang setanding dengan transformer standard.

Kertas kerja yang sangat dipuji oleh pengulas semasa peringkat semakan buta ICLR: Adakah ia akan menjadi inovasi utama dalam seni bina Transformer?

Alamat kertas: https://openreview.net/pdf?id=NPrsUQgMjKK

Berkenaan kertas kerja ini, Rohan Anil, ketua jurutera Google AI, percaya bahawa ia adalah satu langkah besar ke hadapan untuk seni bina Transformer dan peningkatan asas.

Kertas kerja yang sangat dipuji oleh pengulas semasa peringkat semakan buta ICLR: Adakah ia akan menjadi inovasi utama dalam seni bina Transformer?

Membina Transformer dalam yang boleh dilatih tanpa pintasan

Setakat ini, satu-satunya strategi untuk membetulkan keruntuhan pangkat Transformer bergantung pada sambungan baki, yang Pendekatan ini dilangkau isu kebolehlatihan yang wujud pada lapisan perhatian diri. Sebaliknya, kajian ini secara langsung menjawab persoalan ini. Mula-mula lebih memahami perambatan isyarat melalui lapisan perhatian, dan kemudian ubah suai berdasarkan cerapan untuk mencapai penghantaran isyarat yang setia dalam transformer dalam, yang boleh dilatih dengan atau tanpa sambungan baki.

Secara khusus, pertama, kajian menjalankan tetapan mudah pengubah vanila dalam dengan hanya perhatian, dan kemudian mereka menganggap bahawa pengubah mempunyai tetapan kepala tunggal (h = 1) atau Dengan persediaan berbilang kepala, di mana matriks perhatian A tidak berubah antara kepala yang berbeza. Jika blok l≤L mempunyai matriks perhatian A_l apabila dimulakan, perwakilan blok akhir ialah

dan Kertas kerja yang sangat dipuji oleh pengulas semasa peringkat semakan buta ICLR: Adakah ia akan menjadi inovasi utama dalam seni bina Transformer?

mengguna pakai pemulaan ortogon, kemudian Kertas kerja yang sangat dipuji oleh pengulas semasa peringkat semakan buta ICLR: Adakah ia akan menjadi inovasi utama dalam seni bina Transformer? boleh berbentuk ortogon semasa pemulaan. Di bawah andaian di atas, jika digunakan untuk mewakili matriks isirong input kedudukan silang, selepas beberapa penyederhanaan, formula berikut boleh diperolehi:

Kertas kerja yang sangat dipuji oleh pengulas semasa peringkat semakan buta ICLR: Adakah ia akan menjadi inovasi utama dalam seni bina Transformer? Daripada formula yang dipermudahkan ini (matriks kernel dalam pengubah perhatian-sahaja dalam), tiga keperluan untuk (A_l)_l boleh ditentukan:

Kertas kerja yang sangat dipuji oleh pengulas semasa peringkat semakan buta ICLR: Adakah ia akan menjadi inovasi utama dalam seni bina Transformer? A_l hendaklah segi tiga lebih rendah ∀l agar serasi dengan perhatian topeng sebab.

Dalam bahagian 3.1 dan 3.2 seterusnya, penyelidikan memberi tumpuan kepada mencari matriks perhatian yang memenuhi keperluan di atas, dan mereka mencadangkan 3 kaedah E-SPA, U- SPA dan Nilai-Skipinit, setiap kaedah digunakan untuk mengawal matriks perhatian pengubah, membolehkan perambatan isyarat setia walaupun pada kedalaman yang dalam. Tambahan pula, Bahagian 3.3 menunjukkan bagaimana perhatian softmax boleh diubah suai untuk melaksanakan matriks perhatian ini.

Dalam rajah di bawah, kajian itu mengesahkan dua cadangan skim SPA, U-SPA dan E-SPA Hasilnya menunjukkan bahawa ia berjaya mengelak walaupun rangkaian Pay perhatian hanya kepada fenomena kejatuhan pangkat dalam transformer vanila.
Eksperimen

WikiText-103 Baseline: Pertama, kajian ini mengesahkan bahawa transformer dalam standard tanpa sambungan baki tidak boleh dilatih, walaupun ia mempunyai lapisan normalisasi (LN) dan pengaktifan berubah, tetapi kaedahnya dalam artikel ini boleh menyelesaikan masalah ini. Seperti yang ditunjukkan dalam Rajah 2, dapat dilihat dengan jelas bahawa mengalihkan sambungan baki daripada pengubah standard menjadikannya tidak boleh dilatih, dan kehilangan latihan menjadi stabil pada sekitar 7.5. Seperti yang ditunjukkan dalam Rajah 1, pengubah piawai mengalami keruntuhan pangkat.

Sebaliknya, kaedah E-SPA yang dicadangkan dalam kajian ini mengatasi prestasi U-SPA dan Value-Skipinit. Walau bagaimanapun, pengubah lalai dengan baki dan LN masih mengekalkan kelebihan kelajuan latihan berbanding kaedah bebas baki kami.

Dalam Jadual 1, kajian menilai kesan fungsi pengaktifan yang berbeza dalam blok MLP menggunakan kaedah yang dicadangkan, serta penggunaan LN dalam pengubah bebas sisa. Dapat dilihat bahawa pada kedalaman 36, kaedah kami mencapai prestasi latihan yang baik untuk satu siri pengaktifan: GeLU yang diubah DKS, ReLU Bocor yang diubah TAT dan GeLU yang tidak diubah, tetapi bukan Sigmoid yang tidak diubah. Ia juga telah dilihat secara eksperimen bahawa normalisasi lapisan adalah agak tidak penting untuk kelajuan latihan dan bahkan boleh memudaratkan pengaktifan berubah apabila menggunakan SPA, yang sudah mempunyai mekanisme terbina dalam untuk mengawal spesifikasi pengaktifan.

Dalam Rajah 3, kita melihat bahawa satu cara untuk memadankan kehilangan latihan pengubah lalai tanpa memerlukan lebih banyak lelaran ialah menggunakan sambungan baki normalisasi.

Jadual 2 menunjukkan bahawa E-SPA dengan sisa ternormal dan LN mengatasi prestasi pengubah PreLN lalai.

Rajah 4(a) di bawah menunjukkan bahawa E-SPA sekali lagi mengatasi kaedah lain 4(b) menunjukkan bahawa jurang kehilangan latihan boleh ditingkatkan dengan hanya masa Latihan untuk menghapuskan.

Atas ialah kandungan terperinci Kertas kerja yang sangat dipuji oleh pengulas semasa peringkat semakan buta ICLR: Adakah ia akan menjadi inovasi utama dalam seni bina Transformer?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Di mana untuk mencari kad kunci kawalan kren di atomfall

1 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7442

Tutorial CakePHP

1371

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Tongyi Qianwen adalah sumber terbuka sekali lagi, Qwen1.5 membawakan enam model volum, dan prestasinya melebihi GPT3.5 Feb 07, 2024 pm 10:15 PM

Pada masanya untuk Festival Musim Bunga, versi 1.5 Model Tongyi Qianwen (Qwen) berada dalam talian. Pagi ini, berita versi baharu itu menarik perhatian komuniti AI. Versi baharu model besar termasuk enam saiz model: 0.5B, 1.8B, 4B, 7B, 14B dan 72B. Antaranya, prestasi versi terkuat mengatasi GPT3.5 dan Mistral-Medium. Versi ini termasuk model Base dan model Sembang, dan menyediakan sokongan berbilang bahasa. Pasukan Tongyi Qianwen Alibaba menyatakan bahawa teknologi yang berkaitan juga telah dilancarkan di laman web rasmi Tongyi Qianwen dan Apl Tongyi Qianwen. Selain itu, keluaran Qwen 1.5 hari ini juga mempunyai sorotan berikut: menyokong panjang konteks 32K membuka pusat pemeriksaan model Base+Chat;

Tinggalkan seni bina pengekod-penyahkod dan gunakan model resapan untuk pengesanan tepi, yang lebih berkesan Universiti Teknologi Pertahanan Nasional mencadangkan DiffusionEdge Feb 07, 2024 pm 10:12 PM

Rangkaian pengesanan tepi dalam semasa biasanya menggunakan seni bina penyahkod pengekod, yang mengandungi modul pensampelan atas dan bawah untuk mengekstrak ciri berbilang peringkat dengan lebih baik. Walau bagaimanapun, struktur ini mengehadkan rangkaian untuk mengeluarkan hasil pengesanan tepi yang tepat dan terperinci. Sebagai tindak balas kepada masalah ini, kertas kerja mengenai AAAI2024 menyediakan penyelesaian baharu. Tajuk tesis: DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection Penulis: Ye Yunfan (Universiti Teknologi Pertahanan Nasional), Xu Kai (Universiti Teknologi Pertahanan Kebangsaan), Huang Yuxing (Universiti Teknologi Pertahanan Nasional), Yi Renjiao (Universiti Teknologi Pertahanan Nasional), Cai Zhiping (Universiti Teknologi Pertahanan Negara) Pautan kertas: https ://ar

Model besar juga boleh dihiris, dan Microsoft SliceGPT sangat meningkatkan kecekapan pengiraan LLAMA-2 Jan 31, 2024 am 11:39 AM

Model bahasa besar (LLM) biasanya mempunyai berbilion parameter dan dilatih menggunakan trilion token. Walau bagaimanapun, model sedemikian sangat mahal untuk dilatih dan digunakan. Untuk mengurangkan keperluan pengiraan, pelbagai teknik pemampatan model sering digunakan. Teknik pemampatan model ini secara amnya boleh dibahagikan kepada empat kategori: penyulingan, penguraian tensor (termasuk pemfaktoran peringkat rendah), pemangkasan dan kuantisasi. Kaedah pemangkasan telah wujud sejak sekian lama, tetapi banyak yang memerlukan penalaan halus pemulihan (RFT) selepas pemangkasan untuk mengekalkan prestasi, menjadikan keseluruhan proses mahal dan sukar untuk skala. Penyelidik dari ETH Zurich dan Microsoft telah mencadangkan penyelesaian kepada masalah ini yang dipanggil SliceGPT. Idea teras kaedah ini adalah untuk mengurangkan pembenaman rangkaian dengan memadamkan baris dan lajur dalam matriks berat.

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Pengubah Titik Dikemas kini: lebih cekap, lebih pantas dan lebih berkuasa! Jan 17, 2024 am 08:27 AM

Tajuk asal: PointTransformerV3: Pautan Kertas Lebih Ringkas, Pantas, Lebih Kuat: https://arxiv.org/pdf/2312.10035.pdf Pautan kod: https://github.com/Pointcept/PointTransformerV3 Unit pengarang: HKUSHAILabMPIPKUMIT Idea kertas: Artikel ini ialah tidak bertujuan untuk diterbitkan dalam Mencari inovasi dalam mekanisme perhatian. Sebaliknya, ia memberi tumpuan kepada memanfaatkan kuasa skala untuk mengatasi pertukaran sedia ada antara ketepatan dan kecekapan dalam konteks pemprosesan awan titik. Dapatkan inspirasi daripada kemajuan terkini dalam pembelajaran perwakilan berskala besar 3D,

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. May 07, 2024 pm 05:00 PM

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

See all articles