Rumah Peranti teknologi AI Dengarkan saya, Transformer ialah mesin vektor sokongan

Dengarkan saya, Transformer ialah mesin vektor sokongan

Sep 17, 2023 pm 06:09 PM
data Model

Transformer ialah mesin vektor sokongan (SVM), satu teori baharu yang telah mencetuskan perbincangan dalam komuniti akademik.

Hujung minggu lalu, kertas kerja dari University of Pennsylvania dan University of California, Riverside cuba mengkaji prinsip struktur Transformer berdasarkan model besar, geometri yang dioptimumkan dalam lapisan perhatian dan pemisahan token input optimum daripada token tidak optimum. Kesetaraan formal diwujudkan antara masalah SVM yang terhad.

Pengarang menyatakan di hackernews bahawa teori ini menyelesaikan masalah SVM memisahkan token "baik" daripada token "buruk" dalam setiap urutan input. Sebagai pemilih token dengan prestasi cemerlang, SVM ini pada asasnya berbeza daripada SVM tradisional yang memberikan label 0-1 kepada input.

Teori ini juga menerangkan bagaimana perhatian mendorong jarang melalui softmax: token "buruk" yang jatuh di sebelah salah sempadan keputusan SVM ditindas oleh fungsi softmax, manakala token "baik" adalah token yang berakhir dengan bukan- token kebarangkalian sifar softmax. Perlu juga dinyatakan bahawa SVM ini berasal daripada sifat eksponen softmax.

Selepas kertas itu dimuat naik ke arXiv, orang ramai menyatakan pendapat mereka satu demi satu. Beberapa orang berkata: Hala tuju penyelidikan AI benar-benar berpusing, adakah ia akan kembali lagi?

Dengarkan saya, Transformer ialah mesin vektor sokongan

Selepas melakukan bulatan penuh, mesin vektor sokongan masih tidak ketinggalan zaman.

Sejak penerbitan kertas klasik "Attention is All You Need", seni bina Transformer telah membawa kemajuan revolusioner kepada bidang pemprosesan bahasa semula jadi (NLP). Lapisan perhatian dalam Transformer menerima satu siri token input X dan menilai korelasi antara token dengan mengira Dengarkan saya, Transformer ialah mesin vektor sokongan, di mana (K, Q) ialah parameter pertanyaan kunci yang boleh dilatih, akhirnya menangkap kebergantungan jauh dengan berkesan.

Kini, kertas baharu yang dipanggil "Transformers as Support Vector Machines" mewujudkan kesetaraan formal antara geometri pengoptimuman perhatian kendiri dan masalah SVM margin keras, menggunakan produk luar linear pasangan token Kekangan token input optimum yang berasingan daripada token yang tidak optimum.

Dengarkan saya, Transformer ialah mesin vektor sokongan

Pautan kertas: https://arxiv.org/pdf/2308.16898.pdf

Persamaan rasmi ini berdasarkan kertas "Max-Margin Token Selection" oleh Dazanaud echanism Attention al. "Atas dasar penyelarasan Vanishing, menumpu kepada penyelesaian SVM yang meminimumkan norma nuklear bagi parameter gabungan

. Sebaliknya, parameter secara langsung melalui W meminimumkan objektif SVM norma Frobenius. Kertas kerja ini menerangkan penumpuan ini dan menekankan bahawa ia boleh berlaku ke arah optimum tempatan dan bukannya optimum global. Dengarkan saya, Transformer ialah mesin vektor sokongan(2) Kertas kerja ini juga menunjukkan penumpuan arah tempatan/global bagi keturunan kecerunan parameterisasi W di bawah keadaan geometri yang sesuai. Yang penting, overparameterization memangkinkan penumpuan global dengan memastikan kebolehlaksanaan masalah SVM dan memastikan persekitaran pengoptimuman yang jinak tanpa titik pegun.

(3) Walaupun teori kajian ini digunakan terutamanya untuk kepala ramalan linear, pasukan penyelidik mencadangkan persamaan SVM yang lebih umum yang boleh meramalkan bias tersirat transformer 1 lapisan dengan kepala bukan linear/MLP.

Secara amnya, hasil kajian ini boleh digunakan untuk set data umum dan boleh dilanjutkan ke lapisan perhatian silang, dan kesahihan praktikal kesimpulan kajian telah disahkan melalui eksperimen berangka yang menyeluruh. Kajian ini mewujudkan perspektif penyelidikan baharu yang melihat pengubah berbilang lapisan sebagai hierarki SVM yang memisahkan dan memilih token terbaik.

Secara khusus, diberikan urutan input panjang T dan dimensi benam d

, kajian ini menganalisis model perhatian silang dan perhatian kendiri teras:

Dengarkan saya, Transformer ialah mesin vektor sokongan

di mana K, Q dan V masing-masing adalah kunci, pertanyaan dan matriks nilai yang boleh dilatih, #🎜🎜 Dengarkan saya, Transformer ialah mesin vektor sokongan; S (・) mewakili non-lineariti softmax, yang digunakan baris demi baris. Kajian mengandaikan bahawa token pertama Z (ditandakan dengan z) digunakan untuk ramalan. Khususnya, diberikan set data latihan Dengarkan saya, Transformer ialah mesin vektor sokongan, Dengarkan saya, Transformer ialah mesin vektor sokongan, Dengarkan saya, Transformer ialah mesin vektor sokongan, Kaji penggunaan fungsi kehilangan berkurangan untuk pengecilan: Dengarkan saya, Transformer ialah mesin vektor sokonganDengarkan saya, Transformer ialah mesin vektor sokongansini , h (・): #🎜🎜

ialah pengepala ramalan yang mengandungi nilai berat V. Dalam rumusan ini, model f (・) dengan tepat mewakili pengubah satu lapisan di mana lapisan perhatian diikuti oleh MLP. Pengarang memulihkan perhatian diri dalam (2) dengan menetapkan

Dengarkan saya, Transformer ialah mesin vektor sokongan

, di mana x_i mewakili token pertama bagi jujukan X_i. Disebabkan oleh sifat tak linear operasi softmax, ia menimbulkan cabaran besar untuk pengoptimuman. Walaupun kepala ramalan adalah tetap dan linear, masalahnya adalah tidak cembung dan tidak linear. Dalam kajian ini, penulis menumpukan pada mengoptimumkan berat perhatian (K, Q, atau W) dan mengatasi cabaran ini untuk mewujudkan kesetaraan asas SVM.

Dengarkan saya, Transformer ialah mesin vektor sokonganKertas ini distrukturkan seperti berikut: Bab 2 memperkenalkan pengetahuan awal perhatian dan pengoptimuman kendiri Bab 3 menganalisis geometri pengoptimuman perhatian kendiri dan menunjukkan perhatian parameter RP menumpu kepada penyelesaian marginal maksimum Bab 4 dan 5 masing-masing memperkenalkan analisis keturunan kecerunan global dan tempatan, menunjukkan bahawa pembolehubah pertanyaan kunci W menumpu kepada penyelesaian (Att-SVM Bab 6 menyediakan maklumat mengenai keputusan ramalan bukan linear pada kesetaraan kepala dan SVM umum Bab 7 memanjangkan teori kepada ramalan berurutan dan ramalan sebab-sebab Bab 8 membincangkan literatur yang berkaitan. Akhir sekali, Bab 9 diakhiri dengan mencadangkan soalan terbuka dan hala tuju penyelidikan masa hadapan. Dengarkan saya, Transformer ialah mesin vektor sokonganKandungan utama kertas tersebut adalah seperti berikut:

#🎜🎜 bias tersirat lapisan perhatian ( Bab 2-3)

Mengoptimumkan parameter perhatian (K, Q) apabila regularization hilang akan menumpu kepada #🎜 dalam arah Maksimum penyelesaian marginal 🎜#

, sasaran norma nuklearnya ialah parameter gabungan . Dalam kes meparameterkan perhatian silang secara langsung dengan gabungan parameter W, laluan regularisasi (RP) menumpu secara berarah kepada penyelesaian (Att-SVM) yang menyasarkan norma Frobenius.

Ini ialah hasil pertama yang membezakan secara rasmi W lawan (K, Q) dinamik pengoptimuman parametrik, mendedahkan bias tertib rendah pada yang terakhir. Teori kajian ini dengan jelas menerangkan keoptimuman token yang dipilih dan secara semula jadi meluas kepada tetapan klasifikasi urutan-ke-jujukan atau kausal. Dengarkan saya, Transformer ialah mesin vektor sokonganDengarkan saya, Transformer ialah mesin vektor sokongan Penumpuan Turun Kecerunan (Bab 4-5) #🎜🎜🎜🎜🎜🎜🎜🎜 Dengan permulaan yang sesuai dan kepala linear h (・), lelaran turunan kecerunan (GD) gabungan pembolehubah pertanyaan kunci W menumpu ke arah kepada penyelesaian optimum tempatan (Att-SVM) (Bahagian 5). Untuk mencapai optimum tempatan, token yang dipilih mesti mempunyai skor yang lebih tinggi daripada token bersebelahan.

Arah optimum tempatan tidak semestinya unik dan boleh ditentukan berdasarkan ciri geometri masalah [TLZO23]. Sebagai sumbangan penting, penulis mengenal pasti keadaan geometri yang menjamin penumpuan ke arah optimum global (Bab 4). Syarat ini termasuk:

  • Token terbaik mempunyai perbezaan markah yang jelas;
  • Arah kecerunan awal adalah konsisten dengan token terbaik.

Selain itu, kertas kerja ini juga menunjukkan bahawa penparameteran berlebihan (iaitu, dimensi d adalah besar, dan keadaan yang sama) dengan memastikan kebolehlaksanaan (1) (Att-SVM), dan (2) jinak. landskap pengoptimuman (iaitu. Tiada titik pegun dan arah optimum tempatan palsu) untuk memangkinkan penumpuan global (lihat Bahagian 5.2).

Rajah 1 dan 2 menggambarkan ini.

Dengarkan saya, Transformer ialah mesin vektor sokongan


Dengarkan saya, Transformer ialah mesin vektor sokongan

Generalisasi bersamaan SVM (Bab 6)

Lapisan Perhatian wujud apabila mengoptimumkan dengan linear H (・) Bias tanah untuk memilih satu token dari setiap urutan (aka perhatian keras). Ini ditunjukkan dalam (Att-SVM), di mana token output ialah gabungan cembung token input. Sebaliknya, pengarang menunjukkan bahawa kepala tak linear mesti terdiri daripada berbilang token, sekali gus menonjolkan kepentingannya dalam dinamik pengubah (Bahagian 6.1). Menggunakan pandangan yang diperoleh daripada teori, penulis mencadangkan pendekatan setara SVM yang lebih umum.

Terutamanya, mereka menunjukkan bahawa kaedah kami boleh meramal dengan tepat bias tersirat perhatian yang dilatih melalui keturunan kecerunan dalam kes umum yang tidak diliputi oleh teori (cth., h (・) ialah MLP). Khususnya, formula am kami memisahkan berat perhatian kepada dua bahagian: bahagian arah dikawal oleh SVM, yang memilih penanda dengan menggunakan topeng 0-1 dan bahagian terhingga, yang melaraskan Kebarangkalian softmax menentukan komposisi tepat token yang dipilih.

Ciri penting penemuan ini ialah ia digunakan pada set data sewenang-wenang (selagi SVM boleh dilaksanakan) dan boleh disahkan secara berangka. Pengarang secara meluas secara eksperimen mengesahkan kesetaraan marginal maksimum dan bias tersirat pengubah. Penulis percaya bahawa penemuan ini menyumbang kepada pemahaman transformer sebagai mekanisme pemilihan token margin maksimum hierarki dan boleh meletakkan asas untuk penyelidikan akan datang mengenai pengoptimuman dan dinamik generalisasi mereka.

Atas ialah kandungan terperinci Dengarkan saya, Transformer ialah mesin vektor sokongan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. May 07, 2024 pm 05:00 PM

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

See all articles