Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.-AI-php.cn

Rumah

Peranti teknologi

Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.

王林

Jun 13, 2024 pm 02:06 PM

projek Abacus

Pendaraban dan pengasingan juga berfungsi.

Sejak ia dicadangkan pada 2017, Transformer telah menjadi seni bina arus perdana untuk model AI yang besar dan telah berada dalam kedudukan C dengan kukuh.

Walau bagaimanapun, apa yang perlu diakui oleh semua penyelidik ialah Transformer berprestasi sangat teruk pada tugasan aritmetik, walaupun penambahan, dan kecacatan ini sebahagian besarnya berpunca daripada ketidakupayaan Transformer untuk menjejaki setiap digit dengan tepat dalam julat nombor yang besar.

Untuk menyelesaikan masalah ini, penyelidik dari University of Maryland, CMU dan institusi lain telah melancarkan cabaran kepada masalah ini. Mereka menyelesaikan masalah ini dengan menambah pembenaman pada setiap nombor yang mengekod kedudukan nombor berbanding dengan permulaan. Kajian mendapati bahawa hanya satu hari diperlukan untuk melatih nombor 20 digit pada GPU tunggal untuk mencapai prestasi terkini, dengan ketepatan sehingga 99% pada masalah penambahan 100 digit.

Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.

Alamat kertas: https://arxiv.org/pdf/2405.17399

Alamat projek: https://github.com/mcleish7/arithmetic

Tajuk: Transformers Can Do Aritmetik🜎Specific🜎 Khususnya, penyelidik mencadangkan pengubahsuaian ringkas pada paparan jadual data dapat menyelesaikan kekurangan ini. Mereka mencadangkan pembenaman Abakus untuk mengekod kedudukan dalam julat setiap token simbol digital. Menggunakan benam Abakus bersama-sama dengan benam kedudukan standard, kajian itu memerhatikan peningkatan ketara dalam ketepatan Transformer pada tugasan aritmetik, dengan itu model yang dilatih dengan hanya sehingga 20 digit operan berskala kepada masalah dengan 120 digit. Nombor ini mewakili faktor penskalaan SOTA 6x, berbanding faktor penskalaan tercanggih sebelum ini iaitu hanya 2.5x. Difahamkan bahawa ini adalah urutan penambahan pembelajaran terpanjang yang ditunjukkan setakat ini.

Selain mengkaji mengoptimumkan prestasi Transformer dalam aritmetik dan generalisasi, artikel ini juga meneroka beberapa kaedah lain untuk meningkatkan prestasi Transformer. Mereka mendapati bahawa mereka boleh mengurangkan ralat generalisasi sebanyak 50% ke atas garis dasar pembenaman Abakus dengan memasukkan sambungan langkau antara lapisan suntikan input dan setiap lapisan penyahkod. Makalah ini juga mendapati bahawa seni bina Transformer bergelung yang digunakan bersama dengan pembenaman boleh mencapai generalisasi yang hampir sempurna pada masalah penambahan.

Sumbangan kertas ini boleh diringkaskan seperti berikut:

;

Melaksanakan generalisasi panjang penambahan

Penulis menyiasat satu siri kaedah yang bertujuan untuk meningkatkan prestasi aritmetik model bahasa yang dilatih dari awal. Mereka memberi tumpuan terutamanya kepada dua hipotesis: 1) maklumat kedudukan digit individu dalam nombor sedang hilang 2) gelung boleh meningkatkan keupayaan penaakulan seni bina Transformer pada masalah penaakulan aritmetik berbilang langkah. Penulis membincangkan secara ringkas tetapan latihan dan penilaian sebelum menerangkan setiap peningkatan secara terperinci.

Persediaan eksperimen

Pengarang melatih model bahasa kausal yang mengandungi hanya penyahkod untuk menyelesaikan masalah penambahan.

Mereka menganggap dua seni bina pengubah standard. Pertama, mereka menggunakan model pengubah autoregresif standard dengan berbilang lapisan penyahkod yang disusun mengikut cara suapan ke hadapan. Kedua, mereka menambah model pengubah piawai ini dengan suntikan input, yang menambah benam pada input setiap lapisan penyahkod. Pengarang secara visual menggambarkan seni bina ini dalam Rajah 20.

Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.

Pembenaman abakus membantu menyelaraskan nombor

Melalui penyelidikan dan eksperimen awal sebelum ini, penulis mendapati walaupun nombor input dipaparkan dengan nombor paling tidak penting terlebih dahulu, data latihan adalah berhierarki dan kaya (beribu-ribu contoh), ia juga sukar untuk pengubah piawai untuk mempelajari penambahan berbilang digit. Mereka juga memerhatikan bahawa apabila manusia melakukan operasi tambah panjang, mereka mula-mula menyusun nombor dengan digit yang sama ke dalam lajur. Oleh itu, hipotesis pertama pengarang ialah digit bagi setiap nombor tidak mudah diwakili untuk pengubah, dan submasalah ini menimbulkan halangan yang lebih besar daripada penambahan sebenar itu sendiri.

Untuk menangani batasan pengubah dalam mewakili maklumat kedudukan, pengarang mereka bentuk pembenaman kedudukan khas yang mengekod kedudukan setiap nombor berbanding kedudukan permulaan nombor semasa. Pengarang memanggil penyematan Abakus ini. Mereka menggunakan pembenaman kedudukan yang sama pada semua nombor dengan digit yang sama, memberikan isyarat eksplisit yang boleh digunakan model untuk menjajarkan nombor, seperti yang ditunjukkan dalam Rajah 2.

Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.

Pembenaman Abakus menyelesaikan masalah penambahan

Untuk seni bina transformer standard, pembenaman Abakus meningkatkan prestasi generalisasi kepada 100-bit dan ke atas. Dalam Rajah 3 (kiri), pengarang menyerlahkan kelebihan perbandingan benam Abakus berbanding seni bina transformer standard dan benam apabila melakukan operasi aditif, mengambil ketepatan purata merentas semua kes merentas ketiga-tiga model.

Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.

Rajah 1 juga menunjukkan keputusan ketepatan untuk model pengubah standard yang dilatih dengan FIRE dan Abakus, yang telah diuji dalam domain (ID) dan luar domain (OOD). Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.

Gelung dalam Transformer meningkatkan prestasi

Selepas menyelesaikan masalah pembenaman kedudukan, penulis seterusnya meneroka sama ada seni bina gelung boleh meningkatkan lagi keupayaan pengubah untuk melakukan penambahan berbilang digit. Mereka menggunakan istilah "blok berulang" untuk merujuk kepada set lapisan penyahkod dengan berat yang berbeza, dan "berulang" merujuk kepada bilangan kali blok berulang diulang. Pengarang menggunakan istilah kedalaman berkesan untuk merujuk kepada bilangan lapisan yang digunakan dalam pengubah, tidak kira sama ada beratnya unik. Melainkan dinyatakan sebaliknya, mereka menggunakan seni bina gelung maksimum, yang hanya bergelung melalui lapisan unik untuk mencapai kedalaman yang berkesan. Mereka juga menggunakan suntikan input dan sambungan baki untuk menyebarkan salinan input ke setiap lapisan dalam rangkaian.

Kelebihan Gelung

Dalam Rajah 3 (kanan), pengarang membandingkan semua varian seni bina menggunakan pemasukan FIRE dan NoPE untuk penambahan latihan dengan operan sehingga 40 bit. Walaupun bilangan parameter hanya 1/10 daripada model lain, kita dapat melihat bahawa pengubah bergelung (bergelung, dengan suntikan input dan kehilangan progresif) mencapai prestasi luar pengedaran yang terbaik apabila menggunakan sebarang jenis benam kedudukan. Dalam Rajah 8, penulis menunjukkan keteguhan keputusan ini merentasi pelbagai saiz data latihan.

Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.

Untuk model berulang, anda boleh memilih untuk menukar bilangan gelung bagi setiap hantaran hadapan semasa latihan. Ini cenderung untuk meningkatkan keupayaan generalisasi model kepada tugas yang lebih sukar semasa ujian, yang juga dipanggil pengiraan kerugian progresif. Fungsi kehilangan ini ialah gabungan cembung bagi nilai kehilangan dua hantaran ke hadapan, satu menggunakan bilangan literal kitaran (16 untuk model 1 × 16) dan satu lagi menggunakan bilangan kitaran yang lebih kecil secara rawak.

Seterusnya, penulis meneroka kesan menukar saiz blok gelung sambil mengekalkan kedalaman berkesan tetap. Mereka mengurangkan separuh bilangan lapisan dalam blok gelung dan menggandakan kiraan gelung, daripada model dengan 16 lapisan dalam blok dan hanya satu kiraan gelung (16 × 1, pengubah standard) kepada model dengan hanya satu lapisan dalam blok dan kiraan gelung Terdapat 16 kali (1 × 16) model.

Menganalisis keputusan ini melalui Rajah 4, penulis mendapati bahawa dalam beberapa kes menggabungkan gelung dan benam Abakus boleh meningkatkan lagi prestasi. Khususnya, pada masalah OOD, model dengan dua kitaran (8 × 2) menghasilkan separuh ralat model asiklik semata-mata (16 × 1), manakala pada masalah OOD dengan 100+, ketepatannya juga meningkat sedikit.

Akhir sekali, dalam Lampiran A.7.3, pengarang mengubah kedalaman berkesan model untuk menganalisis kesan bilangan parameter pada tugas ini, termasuk Abakus, FIRE dan pembenaman NoPE. Walaupun eksperimen dalam Rajah 4 adalah perbandingan yang saksama bagi kedalaman yang berbeza, model pengubah piawai tulen mempunyai lebih banyak parameter daripada model gelung yang sepadan. Dalam Jadual 3 dalam Lampiran, penulis merekodkan kuantiti parameter kepada juta terdekat.

Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.

Eksperimen

Para penyelidik bukan sahaja meneroka masalah penambahan, tetapi juga pendaraban dan pengisihan. Pendaraban Integer Khususnya, kajian ini menyerlahkan bahawa menggabungkan benam Abakus dengan FIRE juga meningkatkan ketepatan pada masalah pengedaran yang paling sukar (kanan bawah) berbanding garis dasar menggunakan FIRE sahaja.

Isih susunan

Jadual 1 menunjukkan prestasi pengubah piawai (lapan lapisan) yang dilatih dengan benam yang berbeza – FIRE, Abakus dan gabungannya. Keputusan menunjukkan bahawa kaedah pemasukan gabungan meningkatkan keupayaan generalisasi model.

Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.

Seperti yang ditunjukkan dalam Jadual 2, kami memerhatikan hasil bercampur-campur apabila memasangkan kombinasi benam Abakus+FIRE dengan seni bina model yang berbeza (kedalaman berkesan 8). .

Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.

Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Selepas satu hari latihan pada GPU tunggal, Transformer boleh mencapai ketepatan 99% dalam menambah nombor 100 digit.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Nordhold: Sistem Fusion, dijelaskan

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1667

Tutorial CakePHP

1426

Tutorial Laravel

1328

Tutorial PHP

1273

Tutorial C#

1255

Tunjukkan Lagi

Related knowledge

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. Jul 15, 2024 pm 03:59 PM

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

See all articles