Jadual Kandungan
Gambar rajah dan kod seni bina Transformer adalah "tidak konsisten"
Rumah Peranti teknologi AI Gambar itu tidak konsisten dengan kod yang ditemui dalam kertas Transformer: Ia sepatutnya ditunjukkan 1,000 kali.

Gambar itu tidak konsisten dengan kod yang ditemui dalam kertas Transformer: Ia sepatutnya ditunjukkan 1,000 kali.

May 25, 2023 pm 03:01 PM
ai kod

Pada tahun 2017, pasukan Google Brain secara kreatif mencadangkan seni bina Transformer dalam kertas kerjanya "Perhatian Adalah Semua yang Anda Perlukan". bidang hari ini, ia digunakan secara meluas dalam pelbagai tugas bahasa dan telah mencapai banyak keputusan SOTA.

Bukan itu sahaja, Transformer, yang telah menerajui bidang NLP, telah dengan pantas melanda pelbagai bidang seperti penglihatan komputer (CV) dan pengecaman pertuturan, dan telah mencapai prestasi yang baik. menghasilkan tugasan seperti pengelasan imej, pengesanan sasaran dan kesan pengecaman pertuturan.

Gambar itu tidak konsisten dengan kod yang ditemui dalam kertas Transformer: Ia sepatutnya ditunjukkan 1,000 kali.

Alamat kertas: https://arxiv.org/pdf/1706.03762 .pdf

Sejak pelancarannya, Transformer telah menjadi modul teras bagi banyak model, seperti BERT, T5, dsb. Transformer yang biasa digunakan. Malah ChatGPT, yang menjadi popular baru-baru ini, bergantung pada Transformer, yang telah dipatenkan oleh Google.

Gambar itu tidak konsisten dengan kod yang ditemui dalam kertas Transformer: Ia sepatutnya ditunjukkan 1,000 kali.

Sumber imej: https://patentimages.storage.googleapis.com /05/e8/f1/cd8eed389b7687/US10452978.pdf

Selain itu, siri model GPT (Generative Pre-trained Transformer) yang dikeluarkan oleh OpenAI mempunyai Transformer dalam nama , jadi anda boleh melihat Transformer Ia adalah teras siri model GPT.

Pada masa yang sama, pengasas bersama OpenAI Ilya Stutskever baru-baru ini berkata apabila bercakap tentang Transformer bahawa apabila Transformer mula-mula dikeluarkan, ia sebenarnya adalah hari kedua selepas kertas itu dikeluarkan Jangan tunggu untuk menukar penyelidikan saya sebelum ini kepada Transformer, dan kemudian GPT diperkenalkan. Ia dapat dilihat bahawa kepentingan Transformer adalah jelas.

Dalam tempoh 6 tahun, model berasaskan Transformer telah terus berkembang dan berkembang. Kini, bagaimanapun, seseorang telah menemui ralat dalam kertas Transformer asal.

Gambar rajah dan kod seni bina Transformer adalah "tidak konsisten"

Orang yang menemui ralat itu ialah Sebastian, seorang penyelidik pembelajaran mesin dan AI yang terkenal serta ketua pendidik AI daripada permulaan Lightning AI. Beliau menegaskan bahawa gambar rajah seni bina dalam kertas Transformer asal adalah tidak betul, meletakkan normalisasi lapisan (LN) antara blok baki, yang tidak konsisten dengan kod.

Gambar itu tidak konsisten dengan kod yang ditemui dalam kertas Transformer: Ia sepatutnya ditunjukkan 1,000 kali.

Rajah seni bina Transformer adalah seperti berikut: di sebelah kiri, dan di sebelah kanan ialah lapisan Post-LN Transformer (daripada kertas "On Layer Normalization in the Transformer Architecture" [1]).

Bahagian kod yang tidak konsisten adalah seperti berikut. Baris 82 menulis urutan pelaksanaan "layer_postprocess_sequence="dan"", yang bermaksud bahawa pasca pemprosesan melaksanakan keciciran, residual_add dan layer_norm dalam urutan. Jika add&norm di bahagian tengah kiri gambar di atas difahami sebagai: tambah adalah di atas norma, iaitu norma dahulu dan kemudian tambah, maka kod itu memang tidak konsisten dengan gambar.

Alamat kod:

https://github.com/tensorflow/tensor2tensor/commit/ f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9 Seterusnya, Sebastian berkata bahawa kertas kerja "On Layer Normalization in the Transformer Architecture" percaya bahawa Pra-LN berprestasi lebih baik dan boleh menyelesaikan masalah kecerunan . Inilah yang dilakukan oleh kebanyakan atau kebanyakan seni bina dalam amalan, tetapi ia boleh membawa kepada rasuah perwakilan.

Kecerunan yang lebih baik dicapai apabila penormalan lapisan diletakkan dalam sambungan baki sebelum perhatian dan lapisan bersambung sepenuhnya.

Gambar itu tidak konsisten dengan kod yang ditemui dalam kertas Transformer: Ia sepatutnya ditunjukkan 1,000 kali.

Jadi sementara perbahasan mengenai Pasca-LN atau Pra-LN diteruskan, kertas lain menggabungkan Kedua-dua perkara ini ditangani dalam "ResiDual: Transformer dengan Dual Residual Connections"[2].

Mengenai penemuan Sebastian, sesetengah orang berpendapat bahawa kita sering menemui kertas yang tidak konsisten dengan kod atau keputusan. Kebanyakannya jujur, tetapi kadang-kadang ia pelik. Memandangkan populariti kertas Transformer, ketidakkonsistenan ini sepatutnya disebut seribu kali.

Sebastian menjawab bahawa untuk bersikap adil, kod "paling asli" memang konsisten dengan gambar rajah seni bina, tetapi versi kod yang diserahkan pada 2017 telah diubah suai dan gambar rajah seni bina tidak dikemas kini. Jadi, ini benar-benar mengelirukan.

Gambar itu tidak konsisten dengan kod yang ditemui dalam kertas Transformer: Ia sepatutnya ditunjukkan 1,000 kali.

Seperti seorang netizen berkata, "Perkara yang paling teruk tentang membaca kod ialah anda akan Anda sering menemui perubahan kecil seperti ini, dan anda tidak tahu sama ada ia disengajakan atau tidak anda tidak boleh mengujinya kerana anda tidak mempunyai kuasa pengkomputeran yang mencukupi untuk melatih model tersebut.”

Saya tertanya-tanya apa yang akan Google lakukan seterusnya sama ada untuk mengemas kini kod atau gambar rajah seni bina, kami akan tunggu dan lihat!

Atas ialah kandungan terperinci Gambar itu tidak konsisten dengan kod yang ditemui dalam kertas Transformer: Ia sepatutnya ditunjukkan 1,000 kali.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Geospatial Laravel: Pengoptimuman peta interaktif dan sejumlah besar data Geospatial Laravel: Pengoptimuman peta interaktif dan sejumlah besar data Apr 08, 2025 pm 12:24 PM

Cecair memproses 7 juta rekod dan membuat peta interaktif dengan teknologi geospatial. Artikel ini meneroka cara memproses lebih dari 7 juta rekod menggunakan Laravel dan MySQL dan mengubahnya menjadi visualisasi peta interaktif. Keperluan Projek Cabaran Awal: Ekstrak Wawasan berharga menggunakan 7 juta rekod dalam pangkalan data MySQL. Ramai orang mula -mula mempertimbangkan bahasa pengaturcaraan, tetapi mengabaikan pangkalan data itu sendiri: Bolehkah ia memenuhi keperluan? Adakah penghijrahan data atau pelarasan struktur diperlukan? Bolehkah MySQL menahan beban data yang besar? Analisis awal: Penapis utama dan sifat perlu dikenalpasti. Selepas analisis, didapati bahawa hanya beberapa atribut yang berkaitan dengan penyelesaiannya. Kami mengesahkan kemungkinan penapis dan menetapkan beberapa sekatan untuk mengoptimumkan carian. Carian Peta Berdasarkan Bandar

Cara menyelesaikan MySQL tidak dapat dimulakan Cara menyelesaikan MySQL tidak dapat dimulakan Apr 08, 2025 pm 02:21 PM

Terdapat banyak sebab mengapa permulaan MySQL gagal, dan ia boleh didiagnosis dengan memeriksa log ralat. Penyebab umum termasuk konflik pelabuhan (periksa penghunian pelabuhan dan ubah suai konfigurasi), isu kebenaran (periksa keizinan pengguna yang menjalankan perkhidmatan), ralat fail konfigurasi (periksa tetapan parameter), rasuah direktori data (memulihkan data atau membina semula ruang meja), isu ruang jadual InnoDB (semak fail ibdata1) Apabila menyelesaikan masalah, anda harus menganalisisnya berdasarkan log ralat, cari punca utama masalah, dan mengembangkan tabiat sandaran data secara teratur untuk mencegah dan menyelesaikan masalah.

Cara Menggunakan MySQL Selepas Pemasangan Cara Menggunakan MySQL Selepas Pemasangan Apr 08, 2025 am 11:48 AM

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Jurutera Backend Senior Remote (Platform) memerlukan kalangan Jurutera Backend Senior Remote (Platform) memerlukan kalangan Apr 08, 2025 pm 12:27 PM

Jurutera Backend Senior Remote Company Kekosongan Syarikat: Lokasi Lokasi: Jauh Pejabat Jauh Jenis: Gaji sepenuh masa: $ 130,000- $ 140,000 Penerangan Pekerjaan Mengambil bahagian dalam penyelidikan dan pembangunan aplikasi mudah alih Circle dan ciri-ciri berkaitan API awam yang meliputi keseluruhan kitaran hayat pembangunan perisian. Tanggungjawab utama kerja pembangunan secara bebas berdasarkan rubyonrails dan bekerjasama dengan pasukan react/redux/relay front-end. Membina fungsi teras dan penambahbaikan untuk aplikasi web dan bekerjasama rapat dengan pereka dan kepimpinan sepanjang proses reka bentuk berfungsi. Menggalakkan proses pembangunan positif dan mengutamakan kelajuan lelaran. Memerlukan lebih daripada 6 tahun backend aplikasi web kompleks

Bolehkah mysql kembali json Bolehkah mysql kembali json Apr 08, 2025 pm 03:09 PM

MySQL boleh mengembalikan data JSON. Fungsi JSON_EXTRACT mengekstrak nilai medan. Untuk pertanyaan yang kompleks, pertimbangkan untuk menggunakan klausa WHERE untuk menapis data JSON, tetapi perhatikan kesan prestasinya. Sokongan MySQL untuk JSON sentiasa meningkat, dan disyorkan untuk memberi perhatian kepada versi dan ciri terkini.

Memahami sifat asid: tiang pangkalan data yang boleh dipercayai Memahami sifat asid: tiang pangkalan data yang boleh dipercayai Apr 08, 2025 pm 06:33 PM

Penjelasan terperinci mengenai atribut asid asid pangkalan data adalah satu set peraturan untuk memastikan kebolehpercayaan dan konsistensi urus niaga pangkalan data. Mereka menentukan bagaimana sistem pangkalan data mengendalikan urus niaga, dan memastikan integriti dan ketepatan data walaupun dalam hal kemalangan sistem, gangguan kuasa, atau pelbagai pengguna akses serentak. Gambaran keseluruhan atribut asid Atomicity: Transaksi dianggap sebagai unit yang tidak dapat dipisahkan. Mana -mana bahagian gagal, keseluruhan transaksi dilancarkan kembali, dan pangkalan data tidak mengekalkan sebarang perubahan. Sebagai contoh, jika pemindahan bank ditolak dari satu akaun tetapi tidak meningkat kepada yang lain, keseluruhan operasi dibatalkan. Begintransaction; UpdateAcCountSsetBalance = Balance-100Wh

Mysql tidak dapat dipasang setelah memuat turun Mysql tidak dapat dipasang setelah memuat turun Apr 08, 2025 am 11:24 AM

Sebab utama kegagalan pemasangan MySQL adalah: 1. Isu kebenaran, anda perlu menjalankan sebagai pentadbir atau menggunakan perintah sudo; 2. Ketergantungan hilang, dan anda perlu memasang pakej pembangunan yang relevan; 3. Konflik pelabuhan, anda perlu menutup program yang menduduki port 3306 atau mengubah suai fail konfigurasi; 4. Pakej pemasangan adalah korup, anda perlu memuat turun dan mengesahkan integriti; 5. Pembolehubah persekitaran dikonfigurasikan dengan salah, dan pembolehubah persekitaran mesti dikonfigurasi dengan betul mengikut sistem operasi. Selesaikan masalah ini dan periksa dengan teliti setiap langkah untuk berjaya memasang MySQL.

Kunci utama MySQL boleh menjadi batal Kunci utama MySQL boleh menjadi batal Apr 08, 2025 pm 03:03 PM

Kunci utama MySQL tidak boleh kosong kerana kunci utama adalah atribut utama yang secara unik mengenal pasti setiap baris dalam pangkalan data. Jika kunci utama boleh kosong, rekod tidak dapat dikenal pasti secara unik, yang akan membawa kepada kekeliruan data. Apabila menggunakan lajur integer sendiri atau UUIDs sebagai kunci utama, anda harus mempertimbangkan faktor-faktor seperti kecekapan dan penghunian ruang dan memilih penyelesaian yang sesuai.

See all articles