Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini-AI-php.cn

Rumah

Peranti teknologi

Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 14, 2024 pm 01:51 PM

projek

Optimalkan dari akar model besar.

Seni bina Transformer boleh dikatakan sebagai kuasa utama di sebalik banyak kisah kejayaan baru-baru ini dalam bidang pembelajaran mendalam. Cara mudah untuk membina seni bina Transformer yang mendalam adalah dengan menyusun berbilang "blok" Transformer yang serupa satu demi satu, tetapi setiap "blok" adalah lebih kompleks dan terdiri daripada banyak komponen berbeza yang memerlukan susunan dan gabungan tertentu untuk mencapai prestasi yang baik.

Sejak kelahiran seni bina Transformer pada tahun 2017, para penyelidik telah melancarkan sejumlah besar kajian terbitan berdasarkannya, tetapi hampir tiada perubahan dibuat pada "blok" Transformer.

Jadi persoalannya, bolehkah blok Transformer standard dipermudahkan?

Dalam kertas kerja baru-baru ini, penyelidik dari ETH Zurich membincangkan cara memudahkan blok Transformer standard yang diperlukan untuk LLM tanpa menjejaskan sifat penumpuan dan prestasi tugas hiliran. Berdasarkan teori penyebaran isyarat dan bukti empirikal, mereka mendapati bahawa beberapa bahagian seperti sambungan baki, lapisan normalisasi (LayerNorm), parameter unjuran dan nilai, dan sub-blok bersiri MLP (memihak kepada susun atur selari) boleh dialih keluar untuk memudahkan GPT- seperti seni bina penyahkod dan model BERT gaya pengekod.

Para penyelidik meneroka sama ada komponen yang terlibat boleh dialih keluar tanpa menjejaskan kelajuan latihan, dan pengubahsuaian seni bina yang perlu dibuat pada blok Transformer.

Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini

Pautan kertas: https://arxiv.org/pdf/2311.01906.pdf

Lightning AI Pengasas dan penyelidik pembelajaran mesin Sebastian Raschka menggelar penyelidikan ini sebagai "" kertas kegemarannya: "

Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini

Tetapi sesetengah penyelidik mempersoalkan: "Sukar untuk mengulas melainkan saya telah melihat proses latihan yang lengkap. Jika tiada lapisan normalisasi dan tiada sambungan baki, bagaimana ia boleh lebih daripada 1 "

Sebastian Raschka bersetuju: "Ya, seni bina yang mereka uji adalah agak kecil, Sama ada ini boleh digeneralisasikan kepada Transformer dengan berbilion parameter masih perlu dilihat. Tetapi dia masih berkata kerja itu mengagumkan dan percaya itu kejayaan mengalih keluar sambungan baki adalah munasabah sepenuhnya (memandangkan skema permulaannya).

Dalam hal ini, pemenang Anugerah Turing Yann LeCun mengulas: "Kami hanya menyentuh permukaan bidang seni bina pembelajaran mendalam. Ini adalah ruang berdimensi tinggi, jadi kelantangan hampir sepenuhnya terkandung di permukaan, tetapi kami hanya menyentuh permukaan Sebahagian kecil daripada ‖

Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini

Mengapa kita perlu memudahkan blok Transformer?

Para penyelidik berkata bahawa memudahkan blok Transformer tanpa menjejaskan kelajuan latihan adalah masalah penyelidikan yang menarik.

Pertama sekali, seni bina rangkaian saraf moden adalah kompleks dalam reka bentuk dan mengandungi banyak komponen Peranan komponen yang berbeza ini dalam dinamik latihan rangkaian saraf dan cara ia berinteraksi antara satu sama lain tidak difahami dengan baik. Soalan ini berkaitan dengan jurang antara teori pembelajaran mendalam dan amalan, dan oleh itu sangat penting.

Teori perambatan isyarat telah terbukti berpengaruh dalam memotivasikan pilihan reka bentuk praktikal dalam seni bina rangkaian neural dalam. Penyebaran isyarat mengkaji evolusi maklumat geometri dalam rangkaian saraf selepas pemula, ditangkap oleh produk dalaman perwakilan hierarki merentas input, dan telah membawa kepada banyak hasil yang mengagumkan dalam melatih rangkaian saraf dalam.

Walau bagaimanapun, pada masa ini teori ini hanya mempertimbangkan model semasa pemulaan, dan selalunya hanya mempertimbangkan hantaran hadapan awal, jadi ia tidak boleh mendedahkan banyak isu kompleks dalam dinamik latihan rangkaian saraf dalam, seperti sumbangan sambungan baki kepada kelajuan latihan. Walaupun penyebaran isyarat adalah penting untuk motivasi pengubahsuaian, para penyelidik mengatakan mereka tidak dapat memperoleh modul Transformer yang dipermudahkan daripada teori sahaja dan terpaksa bergantung pada pandangan empirikal.

Dari segi aplikasi praktikal, memandangkan kos latihan semasa yang tinggi dan menggunakan model Transformer yang besar, sebarang peningkatan kecekapan dalam saluran latihan dan inferens seni bina Transformer mewakili potensi penjimatan yang besar. Jika modul Transformer boleh dipermudahkan dengan mengalih keluar komponen yang tidak diperlukan, ia boleh mengurangkan bilangan parameter dan meningkatkan daya pemprosesan model.

Kertas ini juga menyebut bahawa selepas mengalih keluar sambungan baki, parameter nilai, parameter unjuran dan sub-blok bersiri, ia boleh memadankan Transformer standard dari segi kelajuan latihan dan prestasi tugas hiliran. Akhirnya, penyelidik mengurangkan bilangan parameter sebanyak 16% dan memerhatikan peningkatan 16% dalam pemprosesan dalam latihan dan masa inferens.

Bagaimana untuk memudahkan blok Transformer?

Berdasarkan teori perambatan isyarat dan pemerhatian empirikal, pengkaji memperkenalkan cara menjana blok Transformer paling mudah bermula daripada modul Pra-LN (seperti ditunjukkan di bawah).

Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini

Dalam setiap bahagian Bab 4 kertas kerja, penulis memperkenalkan cara memadam satu komponen blok pada satu masa tanpa menjejaskan kelajuan latihan.

Semua percubaan dalam bahagian ini menggunakan model GPT penyahkod bersaiz 768 lebar 18-blok pada set data CodeParrot set data ini cukup besar supaya apabila pengarang berada dalam mod epos latihan tunggal, jurang isasi umum adalah sangat kecil (lihat Rajah 2), yang membolehkan mereka menumpukan pada kelajuan latihan.

Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini

Padamkan baki sambungan

Para penyelidik mula-mula mempertimbangkan untuk memadamkan baki sambungan dalam sub-blok perhatian. Dalam notasi persamaan (1), ini bersamaan dengan menetapkan α_SA kepada 0. Hanya mengalih keluar sambungan baki perhatian boleh membawa kepada kemerosotan isyarat, iaitu keruntuhan pangkat, mengakibatkan kebolehlatihan yang lemah. Dalam Bahagian 4.1 kertas kerja, penyelidik menerangkan kaedah mereka secara terperinci. . Maksudnya, apabila β_V = β_P = 0 dan identiti dimulakan

Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini

, selepas bilangan langkah latihan yang sama, kajian ini pada asasnya boleh mencapai prestasi blok Pra-LN. Dalam kes ini, W^V = W^P = I mempunyai W^V = W^P = I sepanjang proses latihan, iaitu nilai dan parameter unjuran adalah konsisten. Penulis membentangkan kaedah terperinci dalam Bahagian 4.2.

Memadamkan sambungan sisa sub-blok MLP Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini

Berbanding dengan modul di atas, memadamkan sambungan baki sub-blok MLP adalah lebih mencabar. Seperti dalam penyelidikan terdahulu, penulis mendapati bahawa apabila menggunakan Adam, tanpa sambungan baki MLP, menjadikan pengaktifan lebih linear melalui perambatan isyarat masih menghasilkan penurunan ketara dalam kelajuan latihan setiap kemas kini, seperti yang ditunjukkan dalam Rajah 22.

Mereka juga mencuba pelbagai variasi permulaan Looks Linear, termasuk pemberat Gaussian, pemberat ortogon atau pemberat identiti, tetapi tidak berjaya. Oleh itu, mereka menggunakan pengaktifan standard (cth. ReLU) sepanjang kerja dan permulaan mereka dalam sub-blok MLP. Pengarang beralih kepada konsep sub-blok MHA dan MLP selari, yang telah terbukti popular dalam beberapa model pengubah besar baru-baru ini, seperti PALM dan ViT-22B. Blok pengubah selari ditunjukkan dalam rajah di bawah.

Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini Pengarang memperincikan operasi khusus untuk mengalih keluar sambungan sisa sub-blok MLP dalam Bahagian 4.3 kertas itu.

Padam lapisan normalisasi

Perkara terakhir yang perlu dipadamkan ialah lapisan normalisasi, jadi anda mendapat blok paling mudah di penjuru kanan sebelah atas Rajah 1. Dari perspektif pemulaan perambatan isyarat, pengarang boleh mengalih keluar lapisan normalisasi pada mana-mana peringkat pemudahan dalam bahagian ini. Idea mereka ialah penormalan dalam blok Pra-LN secara tersirat mengurangkan berat sisa cawangan, dan kesan berfaedah ini boleh direplikasi tanpa lapisan normalisasi melalui mekanisme lain: sama ada dalam Apabila menggunakan sambungan baki, secara eksplisit mengurangkan berat cawangan baki , atau berat sebelah matriks perhatian terhadap identiti/menukar ketaklinearan MLP kepada kelinearan "lebih". Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini

Memandangkan pengarang mengambil kira mekanisme ini semasa proses pengubahsuaian (seperti mengurangkan berat MLP β_FF dan Perhatian Berbentuk), tidak ada keperluan untuk normalisasi. Penulis membentangkan lebih banyak maklumat dalam Bahagian 4.4.

Hasil eksperimen

Peluasan kedalaman

Memandangkan teori perambatan isyarat biasanya memfokuskan pada kedalaman yang besar, degradasi isyarat biasanya berlaku dalam kes ini. Jadi persoalan yang wajar ialah, adakah kelajuan latihan yang dipertingkatkan yang dicapai oleh blok pengubah mudah kami juga meningkat kepada kedalaman yang lebih mendalam?

Dapat diperhatikan daripada Rajah 6 bahawa selepas memanjangkan kedalaman daripada 18 blok kepada 72 blok, prestasi kedua-dua model dan pengubah Pra-LN dalam kajian ini bertambah baik, yang menunjukkan bahawa model dipermudah dalam kajian ini bukan sahaja lebih pantas dalam latihan Lebih pantas dan dapat memanfaatkan keupayaan tambahan yang disediakan oleh kedalaman yang lebih mendalam. Malah, apabila normalisasi digunakan, trajektori setiap kemas kini bagi blok dipermudahkan dan Pra-LN dalam kajian ini hampir tidak dapat dibezakan pada kedalaman yang berbeza.

BERT

Seterusnya, pengarang menunjukkan bahawa prestasi blok dipermudahkan mereka digunakan pada set data dan seni bina yang berbeza sebagai tambahan kepada penyahkod autoregresif, serta tugas hiliran. Mereka memilih tetapan popular model BERT pengekod dwiarah sahaja untuk pemodelan bahasa bertopeng dan menggunakan penanda aras hiliran GLUE.

Seperti yang ditunjukkan dalam Rajah 7, dalam masa 24 jam masa jalanan, blok yang dipermudahkan kajian ini adalah setanding dengan kelajuan pra-latihan tugas pemodelan bahasa bertopeng berbanding garis dasar Pra-LN (Crammed). Sebaliknya, mengalih keluar sambungan sisa tanpa mengubah nilai dan unjuran sekali lagi membawa kepada penurunan ketara dalam kelajuan latihan. Dalam Rajah 24, penulis menyediakan gambar rajah setara bagi langkah mikrobatch.

Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini

Selain itu, dalam Jadual 1, para penyelidik mendapati bahawa kaedah mereka, selepas penalaan halus pada penanda aras GLUE, menunjukkan prestasi yang setanding dengan penanda aras Crammed BERT.

Mereka memecahkan tugas hiliran dalam Jadual 2. Untuk perbandingan yang saksama, mereka menggunakan protokol penalaan halus yang sama seperti Geiping & Goldstein (2023) (5 zaman, hiperparameter tetap untuk setiap tugas, regularisasi keciciran).

Peningkatan kecekapan

Dalam Jadual 1, penyelidik juga memperincikan bilangan parameter dan kelajuan latihan model menggunakan blok Transformer berbeza dalam tugas pemodelan bahasa bertopeng. Mereka mengira kelajuan sebagai nisbah bilangan langkah mikrobatch yang diambil selama 24 jam pralatihan kepada garis dasar Pra-LN Crammed BERT. Kesimpulannya ialah model menggunakan 16% lebih sedikit parameter, dan SAS-P dan SAS masing-masing adalah 16% dan 9% lebih cepat setiap lelaran daripada blok Pra-LN.

Dapat diambil perhatian bahawa dalam pelaksanaan di sini, blok selari hanya 5% lebih cepat daripada blok Pra-LN, manakala kelajuan latihan yang diperhatikan oleh Chowdhery et al (2022) adalah 15% lebih cepat, menunjukkan bahawa dengan lebih pelaksanaan yang dioptimumkan, Ada kemungkinan bahawa kelajuan latihan keseluruhan boleh dipertingkatkan lagi. Seperti Geiping & Goldstein (2023), pelaksanaan ini juga menggunakan teknologi gabungan operator automatik dalam PyTorch (Sarofeen et al., 2022).

Latihan yang lebih lama

Akhir sekali, memandangkan trend semasa melatih model yang lebih kecil pada lebih banyak data untuk jangka masa yang lebih lama, para penyelidik membincangkan sama ada blok yang dipermudahkan masih boleh mencapai latihan blok Pra-LN selepas kelajuan latihan yang panjang. Untuk melakukan ini, mereka menggunakan model dalam Rajah 5 pada CodeParrot dan berlatih dengan token 3x. Tepatnya, latihan mengambil kira-kira 120K langkah (bukannya 40K langkah) dengan saiz kelompok 128 dan panjang urutan 128, yang menghasilkan kira-kira 2B token.

Seperti yang dapat dilihat dari Rajah 8, apabila lebih banyak token digunakan untuk latihan, kelajuan latihan blok kod SAS dan SAS-P yang dipermudahkan masih setanding dengan, atau lebih baik daripada, blok kod PreLN.

Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini

Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Netizen dipuji: Transformer mengetuai versi ringkas kertas tahunan ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7555

Tutorial CakePHP

1383

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Jul 17, 2024 am 10:14 AM

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

See all articles