


Kertas kerja yang sangat dipuji oleh pengulas semasa peringkat semakan buta ICLR: Adakah ia akan menjadi inovasi utama dalam seni bina Transformer?
Walaupun banyak pencapaian yang ketara, kemajuan praktikal dalam melatih rangkaian saraf dalam (DNN) sebahagian besarnya tidak bergantung pada asas teori. Kebanyakan DNN moden yang berjaya bergantung pada susunan khusus sambungan baki dan lapisan normalisasi, tetapi prinsip umum cara menggunakan komponen ini dalam seni bina baharu masih tidak diketahui, dan peranannya dalam seni bina sedia ada masih belum difahami sepenuhnya.
Seni bina sisa adalah yang paling popular dan berjaya, pada asalnya dibangunkan dalam konteks rangkaian neural konvolusi (CNN) dan kemudiannya muncul di mana-mana daripada seni bina pengubah rangkaian perhatian. Satu sebab kejayaan seni bina sisa adalah perambatan isyarat yang lebih baik berbanding DNN biasa, di mana perambatan isyarat merujuk kepada penghantaran maklumat geometri melalui lapisan DNN dan diwakili oleh fungsi kernel.
Baru-baru ini, menggunakan prinsip perambatan isyarat untuk melatih DNN yang lebih mendalam tanpa penglibatan sambungan baki dan/atau lapisan normalisasi dalam seni bina sisa telah menjadi bidang kepentingan masyarakat. Sebabnya adalah dua kali ganda: pertama ia mengesahkan hipotesis penyebaran isyarat untuk keberkesanan seni bina sisa, sekali gus menjelaskan pemahaman kebolehtafsiran DNN, kedua ini mungkin membolehkan prinsip dan kaedah am untuk kebolehlatihan DNN di luar paradigma sisa.
Bagi CNN, hasil kerja Xiao et al (2018) menunjukkan bahawa perambatan isyarat yang lebih baik melalui permulaan yang lebih baik boleh melatih rangkaian dalam biasa dengan cekap, walaupun. jauh lebih perlahan daripada rangkaian sisa. Kerja Martens et al. (2021) mencadangkan Deep Kernel Shaping (DKS), yang menggunakan transformasi fungsi pengaktifan untuk mengawal perambatan isyarat, dan menggunakan pengoptimum tertib kedua yang kuat seperti K-FAC untuk melaksanakan latihan rangkaian biasa dan rangkaian sisa pada ImageNet. Kelajuan adalah sama. Hasil kerja Zhang et al (2022) memanjangkan DKS kepada kelas fungsi pengaktifan yang lebih besar dan mencapai kesamaan hampir dalam generalisasi.
Kuantiti utama untuk dianalisis dalam perambatan isyarat ialah kernel masa permulaan DNN, atau lebih tepat lagi, anggaran kernel di bawah had lebar tak terhingga. Untuk perceptron berbilang lapisan (MLP) dan CNN yang menggunakan permulaan delta, kernel boleh ditulis sebagai rekursi lapisan mudah yang mengandungi hanya fungsi 2D untuk memudahkan analisis mudah. Evolusi kernel transformer rentas lapisan adalah lebih kompleks, jadi kaedah sedia ada seperti DKS tidak sesuai untuk transformer atau sememangnya mana-mana seni bina yang mengandungi lapisan perhatian kendiri.
Dalam MLP, perambatan isyarat dinilai dengan melihat tingkah laku kernel (satu dimensi), manakala perambatan isyarat dalam transformer boleh dinilai dengan melihat (dimensi tinggi ) matriks kernel pada lapisan rangkaian Berdasarkan evolusi dalam .
Kajian ini mesti mengelakkan situasi di mana unsur pepenjuru tumbuh atau mengecut dengan cepat dengan kedalaman yang semakin meningkat, yang berkaitan dengan norma pengaktifan yang tidak terkawal dan boleh menyebabkan kehilangan ketepuan atau masalah berangka . Mengelakkan keruntuhan pangkat adalah perlu untuk kebolehlatihan transformer dalam, dan sama ada transformer bebas sisa dalam boleh dilatih masih menjadi persoalan terbuka.
Kertas kerja dari peringkat semakan buta ICLR 2023 ini menyelesaikan masalah ini dan menunjukkan buat kali pertama bahawa adalah mungkin untuk berjaya melatih transformer dalam tanpa sambungan baki atau lapisan normalisasi. Untuk tujuan ini, mereka mengkaji perambatan isyarat dan masalah keruntuhan kedudukan dalam transformer bebas sisa dalam dan memperoleh tiga kaedah untuk menghalangnya. Khususnya, pendekatan ini menggunakan gabungan pemulaan parameter, matriks pincang dan penskalaan semula bergantung kepada kedudukan, dan menyerlahkan beberapa kerumitan khusus untuk perambatan isyarat dalam transformer, termasuk interaksi dengan pengekodan kedudukan dan penyekat sebab. Para penyelidik secara empirik menunjukkan bahawa kaedah mereka boleh menjana transformer bebas sisa yang boleh dilatih dalam.
Dalam bahagian percubaan, pada set data WikiText-103 dan C4, para penyelidik menunjukkan penggunaan kaedah utama mereka - Exponential Signal Preserving Attention (E- SPA), boleh membuat kehilangan latihan pengubah piawai yang setanding dengan pengubah sisa dalam kertas dengan memanjangkan masa latihan kira-kira lima kali. Di samping itu, dengan menggabungkan kaedah ini dengan sambungan baki, penyelidik juga menunjukkan bahawa transformer tanpa lapisan normalisasi boleh mencapai kelajuan latihan yang setanding dengan transformer standard.
Alamat kertas: https://openreview.net/pdf?id=NPrsUQgMjKK
Berkenaan kertas kerja ini, Rohan Anil, ketua jurutera Google AI, percaya bahawa ia adalah satu langkah besar ke hadapan untuk seni bina Transformer dan peningkatan asas.
Membina Transformer dalam yang boleh dilatih tanpa pintasan
Setakat ini, satu-satunya strategi untuk membetulkan keruntuhan pangkat Transformer bergantung pada sambungan baki, yang Pendekatan ini dilangkau isu kebolehlatihan yang wujud pada lapisan perhatian diri. Sebaliknya, kajian ini secara langsung menjawab persoalan ini. Mula-mula lebih memahami perambatan isyarat melalui lapisan perhatian, dan kemudian ubah suai berdasarkan cerapan untuk mencapai penghantaran isyarat yang setia dalam transformer dalam, yang boleh dilatih dengan atau tanpa sambungan baki.
Secara khusus, pertama, kajian menjalankan tetapan mudah pengubah vanila dalam dengan hanya perhatian, dan kemudian mereka menganggap bahawa pengubah mempunyai tetapan kepala tunggal (h = 1) atau Dengan persediaan berbilang kepala, di mana matriks perhatian A tidak berubah antara kepala yang berbeza. Jika blok l≤L mempunyai matriks perhatian A_l apabila dimulakan, perwakilan blok akhir ialah
dan
mengguna pakai pemulaan ortogon, kemudian boleh berbentuk ortogon semasa pemulaan.
Di bawah andaian di atas, jika
digunakan untuk mewakili matriks isirong input kedudukan silang, selepas beberapa penyederhanaan, formula berikut boleh diperolehi:
Daripada formula yang dipermudahkan ini (matriks kernel dalam pengubah perhatian-sahaja dalam), tiga keperluan untuk (A_l)_l boleh ditentukan:
A_l hendaklah segi tiga lebih rendah ∀l agar serasi dengan perhatian topeng sebab.
Dalam bahagian 3.1 dan 3.2 seterusnya, penyelidikan memberi tumpuan kepada mencari matriks perhatian yang memenuhi keperluan di atas, dan mereka mencadangkan 3 kaedah E-SPA, U- SPA dan Nilai-Skipinit, setiap kaedah digunakan untuk mengawal matriks perhatian pengubah, membolehkan perambatan isyarat setia walaupun pada kedalaman yang dalam. Tambahan pula, Bahagian 3.3 menunjukkan bagaimana perhatian softmax boleh diubah suai untuk melaksanakan matriks perhatian ini.
-
Dalam rajah di bawah, kajian itu mengesahkan dua cadangan skim SPA, U-SPA dan E-SPA Hasilnya menunjukkan bahawa ia berjaya mengelak walaupun rangkaian Pay perhatian hanya kepada fenomena kejatuhan pangkat dalam transformer vanila.
-
Eksperimen
WikiText-103 Baseline: Pertama, kajian ini mengesahkan bahawa transformer dalam standard tanpa sambungan baki tidak boleh dilatih, walaupun ia mempunyai lapisan normalisasi (LN) dan pengaktifan berubah, tetapi kaedahnya dalam artikel ini boleh menyelesaikan masalah ini. Seperti yang ditunjukkan dalam Rajah 2, dapat dilihat dengan jelas bahawa mengalihkan sambungan baki daripada pengubah standard menjadikannya tidak boleh dilatih, dan kehilangan latihan menjadi stabil pada sekitar 7.5. Seperti yang ditunjukkan dalam Rajah 1, pengubah piawai mengalami keruntuhan pangkat.
Sebaliknya, kaedah E-SPA yang dicadangkan dalam kajian ini mengatasi prestasi U-SPA dan Value-Skipinit. Walau bagaimanapun, pengubah lalai dengan baki dan LN masih mengekalkan kelebihan kelajuan latihan berbanding kaedah bebas baki kami.
Dalam Jadual 1, kajian menilai kesan fungsi pengaktifan yang berbeza dalam blok MLP menggunakan kaedah yang dicadangkan, serta penggunaan LN dalam pengubah bebas sisa. Dapat dilihat bahawa pada kedalaman 36, kaedah kami mencapai prestasi latihan yang baik untuk satu siri pengaktifan: GeLU yang diubah DKS, ReLU Bocor yang diubah TAT dan GeLU yang tidak diubah, tetapi bukan Sigmoid yang tidak diubah. Ia juga telah dilihat secara eksperimen bahawa normalisasi lapisan adalah agak tidak penting untuk kelajuan latihan dan bahkan boleh memudaratkan pengaktifan berubah apabila menggunakan SPA, yang sudah mempunyai mekanisme terbina dalam untuk mengawal spesifikasi pengaktifan.
Dalam Rajah 3, kita melihat bahawa satu cara untuk memadankan kehilangan latihan pengubah lalai tanpa memerlukan lebih banyak lelaran ialah menggunakan sambungan baki normalisasi.
Jadual 2 menunjukkan bahawa E-SPA dengan sisa ternormal dan LN mengatasi prestasi pengubah PreLN lalai.
Rajah 4(a) di bawah menunjukkan bahawa E-SPA sekali lagi mengatasi kaedah lain 4(b) menunjukkan bahawa jurang kehilangan latihan boleh ditingkatkan dengan hanya masa Latihan untuk menghapuskan.
Atas ialah kandungan terperinci Kertas kerja yang sangat dipuji oleh pengulas semasa peringkat semakan buta ICLR: Adakah ia akan menjadi inovasi utama dalam seni bina Transformer?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Pada masanya untuk Festival Musim Bunga, versi 1.5 Model Tongyi Qianwen (Qwen) berada dalam talian. Pagi ini, berita versi baharu itu menarik perhatian komuniti AI. Versi baharu model besar termasuk enam saiz model: 0.5B, 1.8B, 4B, 7B, 14B dan 72B. Antaranya, prestasi versi terkuat mengatasi GPT3.5 dan Mistral-Medium. Versi ini termasuk model Base dan model Sembang, dan menyediakan sokongan berbilang bahasa. Pasukan Tongyi Qianwen Alibaba menyatakan bahawa teknologi yang berkaitan juga telah dilancarkan di laman web rasmi Tongyi Qianwen dan Apl Tongyi Qianwen. Selain itu, keluaran Qwen 1.5 hari ini juga mempunyai sorotan berikut: menyokong panjang konteks 32K membuka pusat pemeriksaan model Base+Chat;

Rangkaian pengesanan tepi dalam semasa biasanya menggunakan seni bina penyahkod pengekod, yang mengandungi modul pensampelan atas dan bawah untuk mengekstrak ciri berbilang peringkat dengan lebih baik. Walau bagaimanapun, struktur ini mengehadkan rangkaian untuk mengeluarkan hasil pengesanan tepi yang tepat dan terperinci. Sebagai tindak balas kepada masalah ini, kertas kerja mengenai AAAI2024 menyediakan penyelesaian baharu. Tajuk tesis: DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection Penulis: Ye Yunfan (Universiti Teknologi Pertahanan Nasional), Xu Kai (Universiti Teknologi Pertahanan Kebangsaan), Huang Yuxing (Universiti Teknologi Pertahanan Nasional), Yi Renjiao (Universiti Teknologi Pertahanan Nasional), Cai Zhiping (Universiti Teknologi Pertahanan Negara) Pautan kertas: https ://ar

Model bahasa besar (LLM) biasanya mempunyai berbilion parameter dan dilatih menggunakan trilion token. Walau bagaimanapun, model sedemikian sangat mahal untuk dilatih dan digunakan. Untuk mengurangkan keperluan pengiraan, pelbagai teknik pemampatan model sering digunakan. Teknik pemampatan model ini secara amnya boleh dibahagikan kepada empat kategori: penyulingan, penguraian tensor (termasuk pemfaktoran peringkat rendah), pemangkasan dan kuantisasi. Kaedah pemangkasan telah wujud sejak sekian lama, tetapi banyak yang memerlukan penalaan halus pemulihan (RFT) selepas pemangkasan untuk mengekalkan prestasi, menjadikan keseluruhan proses mahal dan sukar untuk skala. Penyelidik dari ETH Zurich dan Microsoft telah mencadangkan penyelesaian kepada masalah ini yang dipanggil SliceGPT. Idea teras kaedah ini adalah untuk mengurangkan pembenaman rangkaian dengan memadamkan baris dan lajur dalam matriks berat.

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Tajuk asal: PointTransformerV3: Pautan Kertas Lebih Ringkas, Pantas, Lebih Kuat: https://arxiv.org/pdf/2312.10035.pdf Pautan kod: https://github.com/Pointcept/PointTransformerV3 Unit pengarang: HKUSHAILabMPIPKUMIT Idea kertas: Artikel ini ialah tidak bertujuan untuk diterbitkan dalam Mencari inovasi dalam mekanisme perhatian. Sebaliknya, ia memberi tumpuan kepada memanfaatkan kuasa skala untuk mengatasi pertukaran sedia ada antara ketepatan dan kecekapan dalam konteks pemprosesan awan titik. Dapatkan inspirasi daripada kemajuan terkini dalam pembelajaran perwakilan berskala besar 3D,

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
