


Koleksi Transformer paling lengkap dalam sejarah! LeCun mengesyorkan: Buat katalog untuk 60 model kertas yang manakah anda terlepas?
Jika ada sesuatu yang menyokong pembangunan model berskala besar dalam beberapa tahun kebelakangan ini, ia mestilah Transformer!
Berdasarkan Transformer, sejumlah besar model muncul dalam pelbagai bidang Setiap model mempunyai seni bina yang berbeza, butiran yang berbeza dan nama yang tidak mudah untuk dijelaskan.
Baru-baru ini, seorang pengarang telah menjalankan klasifikasi komprehensif bagi semua model Transformer popular yang dikeluarkan dalam beberapa tahun dan indeks , cuba sediakan katalog yang komprehensif tetapi ringkas Artikel tersebut termasuk pengenalan kepada inovasi Transformer dan semakan proses pembangunan.
Pautan kertas: https://arxiv.org/pdf/2302.07730.pdf
Pemenang Anugerah Turing Yann LeCun menyatakan persetujuannya.
Penulis artikel, Xavier (Xavi) Amatriain, berkelulusan PhD dari Universiti Pompeu Fabra di Sepanyol di 2005 dan kini merupakan Naib Presiden Kejuruteraan LinkedIn Jabatan, bertanggungjawab terutamanya untuk strategi kecerdasan buatan produk.
Apakah itu Transformer?
Transformer ialah sejenis model pembelajaran mendalam dengan beberapa ciri seni bina yang unik. Ia pertama kali muncul dalam kertas terkenal "Attention is All you Need" yang diterbitkan oleh penyelidik Google pada tahun 2017. Kertas itu diterbitkan dalam In. hanya 5 tahun, ia telah mengumpul 38,000 petikan yang menakjubkan.
Seni bina Transformer juga tergolong dalam model penyahkod pengekod (penyahkod-pengekod), tetapi dalam model sebelumnya, perhatian hanyalah satu daripada mekanisme, dan kebanyakannya adalah berdasarkan LSTM (Memori Jangka Pendek Panjang) dan varian lain RNN (Rangkaian Neural Berulang).
Pandangan utama kertas kerja yang mencadangkan Transformer ialah, seperti yang dikatakan tajuk, mekanisme perhatian boleh digunakan sebagai satu-satunya mekanisme untuk memperoleh pergantungan antara input dan output tidak berhasrat untuk Untuk mendalami semua butiran seni bina Transformer, rakan-rakan yang berminat boleh mencari di blog "The Illustrated Transformer".
Pautan blog: https://jalammar.github.io/illustrated-transformer/
Hanya beberapa komponen terpenting diterangkan secara ringkas di bawah.
Seni Bina Pengekod-Penyahkod
A Umum seni bina pengekod/penyahkod terdiri daripada dua model, pengekod mengambil input dan mengekodnya menjadi vektor panjang tetap;
Pengekod dan penyahkod dilatih bersama untuk meminimumkan kemungkinan log bersyarat. Setelah dilatih, pengekod/penyahkod boleh menjana output berdasarkan urutan input yang diberikan, atau ia boleh menjaringkan sepasang urutan input/output.
Di bawah seni bina Transformer yang asal, kedua-dua pengekod dan penyahkod mempunyai 6 lapisan yang sama Dalam setiap 6 lapisan ini, pengekod mempunyai dua sub-lapisan: lapisan perhatian berbilang kepala dan rangkaian suapan hadapan mudah. dengan satu sambungan baki dan satu penormalan lapisan untuk setiap sub-lapisan.
Saiz output pengekod ialah 512, dan penyahkod menambah sublapisan ketiga, iaitu satu lagi lapisan perhatian berbilang kepala pada output pengekod. Di samping itu, satu lagi lapisan berbilang kepala dalam penyahkod ditutup untuk mengelakkan kebocoran maklumat daripada memberi perhatian kepada kedudukan seterusnya.
Mekanisme perhatian
Daripada penerangan di atas Sebagai dapat dilihat, satu-satunya elemen "pelik" dalam struktur model ialah perhatian lembu jantan, dan di sinilah letaknya keseluruhan kuasa model.
Fungsi perhatian ialah pemetaan antara pertanyaan dan set pasangan nilai kunci kepada output dikira sebagai jumlah nilai berwajaran, di mana berat diberikan kepada setiap satu nilai diberikan oleh Dikira oleh fungsi keserasian antara pertanyaan dan kunci yang sepadan.
Transformer menggunakan perhatian berbilang kepala, iaitu pengiraan selari bagi satu set fungsi perhatian, juga dikenali sebagai perhatian produk titik skala.
Berbanding dengan rangkaian berulang dan konvolusi, lapisan perhatian mempunyai beberapa kelebihan yang lebih penting ialah kerumitan pengiraan yang lebih rendah dan ketersambungan yang lebih tinggi, yang sangat baik untuk urutan pembelajaran -bergantungan jangka dalam .
Apa yang Transformer boleh lakukan? Mengapa ia menjadi popular?
Transformer asal direka untuk terjemahan bahasa, terutamanya daripada bahasa Inggeris ke Jerman, tetapi versi pertama kertas kerja Keputusan eksperimen telah menunjukkan bahawa seni bina dapat digeneralisasikan dengan baik kepada tugas bahasa lain.
Arah aliran tertentu ini disedari dengan cepat oleh komuniti penyelidik.
Dalam beberapa bulan akan datang, penarafan mana-mana tugasan ML berkaitan bahasa akan diduduki sepenuhnya oleh beberapa versi seni bina Transformer, seperti Skuad tugasan soal jawab tidak lama lagi. dibunuh oleh pelbagai model Transformer.
Salah satu sebab utama mengapa Transofrmer boleh menduduki kebanyakan kedudukan NLP dengan begitu cepat ialah: keupayaan mereka untuk menyesuaikan diri dengan pantas kepada tugas lain, iaitu, memindahkan model Transformer yang telah dilatih; sangat Mudah dan cepat menyesuaikan diri dengan tugas yang mereka belum dilatih, kelebihan yang besar berbanding model lain.
Sebagai pengamal ML, anda tidak perlu lagi melatih model besar dari awal pada set data yang besar dan hanya menggunakan semula model pra-latihan pada tugas yang sedang dijalankan, mungkin hanya mengubahnya sedikit dengan set data yang lebih kecil.
Teknik khusus yang digunakan untuk menyesuaikan model pra-latihan kepada tugasan yang berbeza dipanggil penalaan halus.
Ternyata Transformers begitu mudah menyesuaikan diri dengan tugasan lain sehinggakan walaupun pada asalnya ia dibangunkan untuk tugasan yang berkaitan dengan bahasa, ia cepat menjadi berguna untuk tugasan lain, Daripada aplikasi visual atau audio dan muzik sepanjang jalan untuk bermain catur atau membuat matematik.
Sudah tentu, semua aplikasi ini tidak akan dapat dilakukan jika bukan kerana pelbagai alatan yang tersedia untuk sesiapa sahaja yang boleh menulis beberapa baris kod.
Bukan sahaja Transformer disepadukan dengan pantas ke dalam rangka kerja kecerdasan buatan utama (iaitu Pytorch dan TensorFlow), terdapat juga beberapa syarikat yang dibina sepenuhnya untuk Transformer.
Huggingface, sebuah syarikat permulaan yang telah mengumpul lebih $60 juta setakat ini, dibina hampir keseluruhannya berdasarkan idea untuk mengkomersialkan perpustakaan Transformer sumber terbuka mereka.
GPT-3 ialah model Transformer yang dilancarkan oleh OpenAI pada Mei 2020. Ia merupakan versi susulan GPT dan GPT-2 mereka yang terdahulu. Syarikat itu mencipta banyak heboh dengan memperkenalkan model itu dalam pracetak, mendakwa model itu sangat berkuasa sehingga mereka tidak layak untuk mengeluarkannya kepada dunia.
Selain itu, OpenAI bukan sahaja tidak mengeluarkan GPT-3, tetapi juga mencapai pengkomersilan melalui perkongsian yang sangat besar dengan Microsoft.
Kini, GPT-3 menyediakan sokongan teknikal asas untuk lebih daripada 300 aplikasi berbeza dan merupakan asas kepada strategi perniagaan OpenAI. Itu penting bagi syarikat yang telah menerima lebih daripada $1 bilion dalam pembiayaan.
RLHF
Daripada maklum balas manusia (atau pilihan ), juga dikenali sebagai RLHF (atau RLHP), baru-baru ini telah menjadi tambahan besar kepada kotak alat kecerdasan buatan.
Konsep ini pertama kali datang daripada kertas kerja 2017 "Pembelajaran Pengukuhan Mendalam daripada Keutamaan Manusia", tetapi baru-baru ini ia telah digunakan untuk ChatGPT dan ejen perbualan yang serupa, dan telah mencapai keputusan yang agak baik Kesannya telah menarik perhatian orang ramai lagi.
Idea dalam artikel sangat mudah setelah model bahasa dilatih, ia boleh menghasilkan kesan yang berbeza pada dialog dan meminta manusia menetapkan keputusan, kedudukan ini (juga dikenali sebagai keutamaan atau maklum balas) boleh digunakan untuk melatih ganjaran menggunakan mekanisme pembelajaran pengukuhan.
Resapan model resapan
Model resapan mempunyai menjadi SOTA baharu untuk penjanaan imej mempunyai kecenderungan untuk menggantikan GAN (Generative Adversarial Networks).
Model resapan ialah sejenis model pembolehubah pendam terlatih bagi inferens variasi Secara praktikalnya, ini bermakna melatih rangkaian saraf dalam untuk menggunakan fungsi hingar tertentu Imej kabur dinafikan.
Rangkaian yang dilatih dengan cara ini sebenarnya sedang mempelajari ruang terpendam yang diwakili oleh imej ini.
Selepas membaca pengenalan, mulakan Perjalanan retrospektif Transformer!
Atas ialah kandungan terperinci Koleksi Transformer paling lengkap dalam sejarah! LeCun mengesyorkan: Buat katalog untuk 60 model kertas yang manakah anda terlepas?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hari ini saya ingin berkongsi kerja penyelidikan terbaru dari University of Connecticut yang mencadangkan kaedah untuk menyelaraskan data siri masa dengan model pemprosesan bahasa semula jadi (NLP) yang besar pada ruang terpendam untuk meningkatkan prestasi peramalan siri masa. Kunci kepada kaedah ini ialah menggunakan petunjuk spatial terpendam (prompt) untuk meningkatkan ketepatan ramalan siri masa. Tajuk kertas: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Alamat muat turun: https://arxiv.org/pdf/2403.05798v1.pdf 1. Model latar belakang masalah besar

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi
