Rumah Peranti teknologi AI Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini

Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini

Jan 12, 2024 pm 11:48 PM
teori arxiv

Baru-baru ini, sebuah kertas kerja telah dikeluarkan mengenai arxiv, yang memberikan tafsiran baru tentang prinsip matematik Transformer Kandungannya sangat panjang dan terdapat banyak pengetahuan Ia sangat disyorkan untuk membaca artikel asal.

Pada tahun 2017, "Perhatian adalah semua yang anda perlukan" yang diterbitkan oleh Vaswani et al menjadi peristiwa penting dalam pembangunan seni bina rangkaian saraf. Sumbangan teras kertas ini ialah mekanisme perhatian kendiri, iaitu inovasi yang membezakan Transformers daripada seni bina tradisional dan memainkan peranan penting dalam prestasi praktikalnya yang cemerlang.

Malah, inovasi ini telah menjadi pemangkin utama untuk kemajuan kecerdasan buatan dalam bidang seperti penglihatan komputer dan pemprosesan bahasa semula jadi, di samping memainkan peranan penting dalam kemunculan model bahasa yang besar. Oleh itu, memahami Transformers, dan khususnya mekanisme yang memproses data perhatian kendiri, adalah bidang yang penting tetapi sebahagian besarnya kurang dipelajari.

Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini

Alamat kertas: https://arxiv.org/pdf/2312.10794.pdf

Rangkaian saraf dalam (DNN) mempunyai ciri yang sama: data input diproses lapisan demi lapisan mengikut tertib, membentuk masa Sistem dinamik diskret (untuk kandungan tertentu, sila rujuk "Pembelajaran Mendalam" yang diterbitkan oleh MIT, juga dikenali sebagai "Buku Bunga" di China). Perspektif ini telah berjaya digunakan untuk memodelkan rangkaian sisa ke sistem dinamik berterusan masa, yang dipanggil persamaan pembezaan biasa saraf (ODE saraf). Dalam persamaan pembezaan pemalar ilahi, imej input Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini akan berkembang mengikut medan halaju yang berubah-ubah masa Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini sepanjang selang masa (0, T). Oleh itu, DNN boleh dilihat sebagai Peta Alir Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini dari satu Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini ke satu Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini yang lain. Terdapat persamaan yang kukuh antara peta aliran walaupun dalam medan halaju Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini di bawah kekangan seni bina DNN klasik.

Penyelidik mendapati Transformer sebenarnya adalah pemetaan aliran pada Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini, iaitu pemetaan antara ruang ukuran kebarangkalian dimensi d (ruang ukuran kebarangkalian). Untuk melaksanakan pemetaan aliran ini yang menukar antara ruang metrik, Transformers perlu mewujudkan sistem zarah berinteraksi medan min.

Secara khusus, setiap zarah (yang boleh difahami sebagai token dalam konteks pembelajaran mendalam) mengikuti aliran medan vektor, dan aliran bergantung pada ukuran empirikal semua zarah. Sebaliknya, persamaan menentukan evolusi ukuran empirikal zarah, proses yang boleh bertahan lama dan memerlukan perhatian yang berterusan.

Pemerhatian utama penyelidik ialah zarah cenderung akhirnya bergumpal bersama. Fenomena ini amat ketara dalam tugasan pembelajaran seperti terbitan sehala (iaitu, meramal perkataan seterusnya dalam urutan). Metrik output mengekodkan taburan kebarangkalian token seterusnya dan sebilangan kecil hasil yang mungkin boleh ditapis berdasarkan hasil pengelompokan.

Hasil penyelidikan artikel ini menunjukkan bahawa taburan had sebenarnya adalah jisim titik dan tidak ada kepelbagaian atau rawak, tetapi ini tidak konsisten dengan hasil pemerhatian sebenar. Paradoks yang jelas ini diselesaikan oleh fakta bahawa zarah wujud dalam keadaan berubah-ubah untuk jangka masa yang panjang. Seperti yang dapat dilihat daripada Rajah 2 dan 4, Transformer mempunyai dua skala masa yang berbeza: pada peringkat pertama, semua token dengan cepat membentuk beberapa kelompok, manakala pada peringkat kedua (jauh lebih perlahan daripada peringkat pertama), melalui Semasa proses penggabungan berpasangan kelompok, semua token akhirnya runtuh menjadi satu titik.

Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini

Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini

Matlamat artikel ini adalah dua kali ganda. Di satu pihak, Artikel ini bertujuan untuk menyediakan rangka kerja umum dan mudah difahami untuk mengkaji Transformers dari perspektif matematik. Khususnya, struktur sistem zarah berinteraksi ini membolehkan penyelidik membuat sambungan konkrit kepada topik yang telah ditetapkan dalam matematik, termasuk persamaan pengangkutan tak linear, aliran kecerunan Wasserstein, model tingkah laku kolektif, dan konfigurasi titik optimum pada sfera. Sebaliknya, kertas kerja ini menerangkan beberapa hala tuju penyelidikan yang menjanjikan, dengan tumpuan khusus pada fenomena pengelompokan dalam jangka masa yang panjang. Langkah-langkah hasil utama yang dicadangkan oleh penyelidik adalah baru, dan mereka juga menimbulkan soalan terbuka sepanjang kertas yang mereka anggap menarik.

Sumbangan utama artikel ini dibahagikan kepada tiga bahagian.

Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini


Bahagian 1: Permodelan. Artikel ini mentakrifkan model ideal seni bina Transformer yang menganggap bilangan lapisan sebagai pembolehubah masa berterusan. Pendekatan kepada abstraksi ini bukanlah baru dan serupa dengan pendekatan yang diambil oleh seni bina klasik seperti ResNets. Model artikel ini hanya memfokuskan pada dua komponen utama seni bina Transformer: mekanisme perhatian kendiri dan normalisasi lapisan. Normalisasi lapisan berkesan mengehadkan zarah pada ruang sfera unit Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini, manakala mekanisme perhatian kendiri mencapai gandingan tak linear antara zarah melalui pengukuran empirikal. Sebaliknya, ukuran empirikal berkembang mengikut persamaan pembezaan separa kesinambungan. Artikel ini juga memperkenalkan model alternatif yang lebih ringkas dan mudah digunakan untuk perhatian diri, aliran kecerunan Wasserstein bagi fungsi tenaga, dan sudah ada kaedah penyelidikan yang matang untuk konfigurasi titik optimum pada sfera fungsi tenaga.

Bahagian 2: Pengelompokan. Dalam bahagian ini, penyelidik mencadangkan keputusan matematik baharu pada pengelompokan token dalam jangka masa yang lebih lama. Seperti yang ditunjukkan Teorem 4.1, dalam ruang dimensi tinggi, sekumpulan n zarah yang dimulakan secara rawak pada bola unit akan berkumpul menjadi satu titik pada Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini. Penerangan tepat penyelidik tentang kadar pengecutan gugusan zarah melengkapkan keputusan ini. Secara khusus, para penyelidik memplot histogram jarak antara semua zarah, serta titik masa apabila semua zarah hampir menyelesaikan pengelompokan (lihat Bahagian 4 artikel asal). Para penyelidik juga memperoleh hasil pengelompokan tanpa menganggap dimensi besar d (lihat Bahagian 5 artikel asal).

Bahagian 3: Memandang ke hadapan. Kertas kerja ini mencadangkan barisan penyelidikan masa depan yang berpotensi dengan mengemukakan terutamanya soalan dalam bentuk soalan terbuka dan membuktikannya melalui pemerhatian berangka. Para penyelidik mula-mula memfokuskan pada kes dimensi d = 2 (lihat Bahagian 6 artikel asal) dan mengeluarkan sambungan dengan pengayun Kuramoto. Ia kemudian ditunjukkan secara ringkas bagaimana masalah sukar yang berkaitan dengan pengoptimuman sfera boleh diselesaikan dengan membuat pengubahsuaian yang mudah dan semula jadi pada model (lihat Bahagian 7 artikel asal). Bab berikut meneroka sistem zarah berinteraksi yang memungkinkan untuk melaraskan parameter dalam seni bina Transformer, yang mungkin membawa kepada aplikasi praktikal selanjutnya pada masa hadapan.

Atas ialah kandungan terperinci Versi baharu yang didedahkan: Prinsip Matematik Transformer yang anda tidak pernah lihat sebelum ini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Menerobos sempadan pengesanan kecacatan tradisional, 'Spektrum Kecacatan' mencapai ketepatan ultra tinggi dan pengesanan kecacatan industri semantik yang kaya buat kali pertama. Menerobos sempadan pengesanan kecacatan tradisional, 'Spektrum Kecacatan' mencapai ketepatan ultra tinggi dan pengesanan kecacatan industri semantik yang kaya buat kali pertama. Jul 26, 2024 pm 05:38 PM

Dalam pembuatan moden, pengesanan kecacatan yang tepat bukan sahaja kunci untuk memastikan kualiti produk, tetapi juga teras untuk meningkatkan kecekapan pengeluaran. Walau bagaimanapun, set data pengesanan kecacatan sedia ada selalunya tidak mempunyai ketepatan dan kekayaan semantik yang diperlukan untuk aplikasi praktikal, menyebabkan model tidak dapat mengenal pasti kategori atau lokasi kecacatan tertentu. Untuk menyelesaikan masalah ini, pasukan penyelidik terkemuka yang terdiri daripada Universiti Sains dan Teknologi Hong Kong Guangzhou dan Teknologi Simou telah membangunkan set data "DefectSpectrum" secara inovatif, yang menyediakan anotasi berskala besar yang kaya dengan semantik bagi kecacatan industri. Seperti yang ditunjukkan dalam Jadual 1, berbanding set data industri lain, set data "DefectSpectrum" menyediakan anotasi kecacatan yang paling banyak (5438 sampel kecacatan) dan klasifikasi kecacatan yang paling terperinci (125 kategori kecacatan

Model dialog NVIDIA ChatQA telah berkembang kepada versi 2.0, dengan panjang konteks disebut pada 128K Model dialog NVIDIA ChatQA telah berkembang kepada versi 2.0, dengan panjang konteks disebut pada 128K Jul 26, 2024 am 08:40 AM

Komuniti LLM terbuka ialah era apabila seratus bunga mekar dan bersaing Anda boleh melihat Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 dan banyak lagi. model yang cemerlang. Walau bagaimanapun, berbanding dengan model besar proprietari yang diwakili oleh GPT-4-Turbo, model terbuka masih mempunyai jurang yang ketara dalam banyak bidang. Selain model umum, beberapa model terbuka yang mengkhusus dalam bidang utama telah dibangunkan, seperti DeepSeek-Coder-V2 untuk pengaturcaraan dan matematik, dan InternVL untuk tugasan bahasa visual.

Google AI memenangi pingat perak IMO Mathematical Olympiad, model penaakulan matematik AlphaProof telah dilancarkan dan pembelajaran pengukuhan kembali Google AI memenangi pingat perak IMO Mathematical Olympiad, model penaakulan matematik AlphaProof telah dilancarkan dan pembelajaran pengukuhan kembali Jul 26, 2024 pm 02:40 PM

Bagi AI, Olimpik Matematik tidak lagi menjadi masalah. Pada hari Khamis, kecerdasan buatan Google DeepMind menyelesaikan satu kejayaan: menggunakan AI untuk menyelesaikan soalan sebenar IMO Olimpik Matematik Antarabangsa tahun ini, dan ia hanya selangkah lagi untuk memenangi pingat emas. Pertandingan IMO yang baru berakhir minggu lalu mempunyai enam soalan melibatkan algebra, kombinatorik, geometri dan teori nombor. Sistem AI hibrid yang dicadangkan oleh Google mendapat empat soalan dengan betul dan memperoleh 28 mata, mencapai tahap pingat perak. Awal bulan ini, profesor UCLA, Terence Tao baru sahaja mempromosikan Olimpik Matematik AI (Anugerah Kemajuan AIMO) dengan hadiah berjuta-juta dolar Tanpa diduga, tahap penyelesaian masalah AI telah meningkat ke tahap ini sebelum Julai. Lakukan soalan secara serentak pada IMO Perkara yang paling sukar untuk dilakukan dengan betul ialah IMO, yang mempunyai sejarah terpanjang, skala terbesar dan paling negatif

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains Aug 08, 2024 pm 09:22 PM

Editor |KX Sehingga hari ini, perincian dan ketepatan struktur yang ditentukan oleh kristalografi, daripada logam ringkas kepada protein membran yang besar, tidak dapat ditandingi oleh mana-mana kaedah lain. Walau bagaimanapun, cabaran terbesar, yang dipanggil masalah fasa, kekal mendapatkan maklumat fasa daripada amplitud yang ditentukan secara eksperimen. Penyelidik di Universiti Copenhagen di Denmark telah membangunkan kaedah pembelajaran mendalam yang dipanggil PhAI untuk menyelesaikan masalah fasa kristal Rangkaian saraf pembelajaran mendalam yang dilatih menggunakan berjuta-juta struktur kristal tiruan dan data pembelauan sintetik yang sepadan boleh menghasilkan peta ketumpatan elektron yang tepat. Kajian menunjukkan bahawa kaedah penyelesaian struktur ab initio berasaskan pembelajaran mendalam ini boleh menyelesaikan masalah fasa pada resolusi hanya 2 Angstrom, yang bersamaan dengan hanya 10% hingga 20% daripada data yang tersedia pada resolusi atom, manakala Pengiraan ab initio tradisional

Pandangan alam semula jadi: Ujian kecerdasan buatan dalam perubatan berada dalam keadaan huru-hara Apa yang perlu dilakukan? Pandangan alam semula jadi: Ujian kecerdasan buatan dalam perubatan berada dalam keadaan huru-hara Apa yang perlu dilakukan? Aug 22, 2024 pm 04:37 PM

Editor |. ScienceAI Berdasarkan data klinikal yang terhad, beratus-ratus algoritma perubatan telah diluluskan. Para saintis sedang membahaskan siapa yang harus menguji alat dan cara terbaik untuk melakukannya. Devin Singh menyaksikan seorang pesakit kanak-kanak di bilik kecemasan mengalami serangan jantung semasa menunggu rawatan untuk masa yang lama, yang mendorongnya untuk meneroka aplikasi AI untuk memendekkan masa menunggu. Menggunakan data triage daripada bilik kecemasan SickKids, Singh dan rakan sekerja membina satu siri model AI untuk menyediakan potensi diagnosis dan mengesyorkan ujian. Satu kajian menunjukkan bahawa model ini boleh mempercepatkan lawatan doktor sebanyak 22.3%, mempercepatkan pemprosesan keputusan hampir 3 jam bagi setiap pesakit yang memerlukan ujian perubatan. Walau bagaimanapun, kejayaan algoritma kecerdasan buatan dalam penyelidikan hanya mengesahkan perkara ini

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian? PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian? Aug 07, 2024 pm 07:08 PM

Pada tahun 2023, hampir setiap bidang AI berkembang pada kelajuan yang tidak pernah berlaku sebelum ini. Pada masa yang sama, AI sentiasa menolak sempadan teknologi trek utama seperti kecerdasan yang terkandung dan pemanduan autonomi. Di bawah trend berbilang modal, adakah status Transformer sebagai seni bina arus perdana model besar AI akan digoncang? Mengapakah penerokaan model besar berdasarkan seni bina MoE (Campuran Pakar) menjadi trend baharu dalam industri? Bolehkah Model Penglihatan Besar (LVM) menjadi satu kejayaan baharu dalam penglihatan umum? ...Daripada surat berita ahli PRO 2023 laman web ini yang dikeluarkan dalam tempoh enam bulan lalu, kami telah memilih 10 tafsiran khas yang menyediakan analisis mendalam tentang aliran teknologi dan perubahan industri dalam bidang di atas untuk membantu anda mencapai matlamat anda dalam bidang baharu. tahun. Tafsiran ini datang dari Week50 2023

See all articles