Rumah Peranti teknologi AI Ajar anda cara menggunting 'alpaca' langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Ajar anda cara menggunting 'alpaca' langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Oct 12, 2023 pm 06:29 PM
projek Pemangkasan model besar llm-shearing

Apakah kesan pemotongan rambut alpaka model besar Llama 2? Hari ini, pasukan Chen Danqi dari Princeton University mencadangkan kaedah pemangkasan model besar yang dipanggil LLM-Shearing, yang boleh mencapai prestasi yang lebih baik daripada model saiz yang sama dengan jumlah pengiraan dan kos yang kecil.


Sejak kemunculan model bahasa besar (LLM), mereka telah mencapai hasil yang ketara dalam pelbagai tugas bahasa semula jadi. kesan. Walau bagaimanapun, model bahasa yang besar memerlukan sumber pengkomputeran yang besar untuk dilatih. Akibatnya, industri semakin berminat untuk membina model skala pertengahan yang sama berkuasa, dengan kemunculan LLaMA, MPT dan Falcon, yang membolehkan inferens yang cekap dan penalaan halus.

LLM dengan pelbagai saiz ini sesuai untuk kes penggunaan yang berbeza, tetapi setiap model individu dilatih dari awal (walaupun model parameter kecil 1 bilion) Ia masih memerlukan banyak sumber pengkomputeran, yang masih menjadi beban besar bagi kebanyakan institusi penyelidikan saintifik.

Jadi dalam artikel ini, pasukan Chen Danqi dari Princeton University cuba menyelesaikan masalah berikut: Bolehkah LLM sedia ada yang telah terlatih digunakan untuk membina lebih kecil, tujuan am LLM yang berdaya saing prestasi sambil memerlukan lebih sedikit pengiraan daripada latihan dari awal?

Penyelidik meneroka penggunaan pemangkasan berstruktur untuk mencapai matlamat mereka. Masalahnya di sini ialah untuk LLM tujuan umum, model yang dipangkas akan mengalami kemerosotan prestasi, terutamanya jika tiada pelaburan pengiraan yang ketara selepas pemangkasan. Kaedah pemangkasan cekap yang mereka gunakan boleh digunakan untuk membangunkan LLM yang lebih kecil tetapi masih berdaya saing prestasi, dan latihan memerlukan usaha pengiraan yang jauh lebih sedikit daripada latihan dari awal.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

  • Alamat kertas: https://arxiv.org/abs/2310.06694#🎜🎜🎜
  • Alamat kod: https://github.com/princeton-nlp/LLM-Shearing
  • ModelsSheared-LLaMA-1.3B, -LLaMA-2.7B

Sebelum memangkas LLM, para penyelidik mengenal pasti dua cabaran teknikal utama, Pertama, bagaimana untuk menentukan struktur pemangkasan akhir dengan prestasi yang kuat dan penaakulan yang cekap? Teknologi pemangkasan berstruktur semasa LLM tidak mempunyai struktur sasaran yang ditentukan, menyebabkan prestasi yang tidak memuaskan dan kelajuan inferens model yang dipangkas kedua, bagaimana untuk meneruskan pra-latihan model yang dipangkas untuk mencapai prestasi yang diharapkan? Mereka mendapati bahawa latihan dengan data pra-latihan mentah menghasilkan pengurangan kerugian yang berbeza di seluruh domain berbanding dengan melatih model dari awal.

Sebagai tindak balas kepada dua cabaran ini, penyelidik mencadangkan algoritma
"LLM - ricih"
. Algoritma pemangkasan novel ini, yang dipanggil "pencantasan berstruktur terarah," memangkas model sumber kepada seni bina sasaran yang ditentukan, yang ditentukan oleh konfigurasi model pra-latihan sedia ada. Mereka menunjukkan bahawa kaedah pemangkasan mencari substruktur dalam model sumber dan memaksimumkan prestasi di bawah kekangan sumber. Di samping itu, algoritma pemuatan kelompok dinamik direka bentuk, yang boleh memuatkan data latihan setiap domain mengikut perkadaran mengikut kadar pengurangan kerugian, dengan itu menggunakan data dengan cekap dan mempercepatkan peningkatan prestasi keseluruhan.

Akhir sekali, penyelidik mencantas model LLaMA2-7B kepada dua LLM yang lebih kecil, iaitu Sheared-LLaMA-1.3B dan Sheared -LLaMA-2.7B mengesahkan keberkesanan pendekatannya.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing Mereka hanya menggunakan 50 bilion token (iaitu 5% daripada bajet pra-latihan OpenLLaMA) untuk memangkas dan meneruskan pra-latihan, tetapi untuk 11 wakil Kedua-dua model masih mengatasi prestasi LLM popular lain yang mempunyai saiz yang serupa, termasuk Pythia, INCITE dan OpenLLaMA, untuk tugasan hiliran seperti pengetahuan am, pemahaman bacaan dan pengetahuan dunia, serta penalaan arahan terjana terbuka.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-ShearingTetapi harus disebutkan bahawa apabila kertas ini mengeluarkan Sheared-LLaMA-3B, rekod model sumber terbuka 3B terkuat telah diambil oleh StableLM - Rehat 3B.

Selain itu, jejak prestasi tugasan hiliran menunjukkan bahawa menggunakan lebih banyak token untuk terus melatih model yang dipangkas akan membawa manfaat yang lebih besar. Para penyelidik hanya bereksperimen dengan model sehingga 7 bilion parameter, tetapi ricih LLM adalah sangat umum dan boleh diperluaskan kepada model bahasa besar dalam sebarang saiz dalam kerja akan datang.

Pengenalan kaedah
#🎜🎜🎜🎜🎜🎜🎜🎜 Memandangkan model besar M_S (model sumber) sedia ada, matlamat kertas kerja ini adalah untuk mengkaji cara menjana model M_T (model sasaran) yang lebih kecil dan kukuh dengan berkesan. Kajian itu percaya bahawa ini memerlukan dua peringkat untuk diselesaikan:

Peringkat pertama prunes M_S kepada M_T, walaupun Ini mengurangkan bilangan parameter, tetapi tidak dapat tidak membawa kepada kemerosotan prestasi;

  • pemangkasan berstruktur
  • #🎜🎜🎜##🎜🎜🎜
Pemangkasan berstruktur boleh mengalih keluar sejumlah besar parameter model, dengan itu mencapai kesan memampatkan model dan mempercepatkan inferens. Walau bagaimanapun, kaedah pemangkasan berstruktur sedia ada boleh menyebabkan model menyimpang daripada konfigurasi seni bina konvensional. Sebagai contoh, kaedah CoFiPruning menghasilkan model dengan konfigurasi lapisan tidak seragam, yang menimbulkan overhed inferens tambahan berbanding konfigurasi lapisan bersatu standard.
Artikel ini memanjangkan CoFiPruning untuk membenarkan pemangkasan model sumber kepada sebarang konfigurasi sasaran yang ditentukan. Sebagai contoh, artikel ini menggunakan seni bina INCITE-Base-3B sebagai struktur sasaran apabila menjana model 2.7B.

Selain itu, artikel ini juga mempelajari set topeng pemangkasan (topeng pemangkasan) pada parameter model kebutiran yang berbeza Pembolehubah topeng adalah seperti berikut:

Setiap pembolehubah topeng mengawal sama ada untuk memangkas atau mengekalkan substruktur yang berkaitan. Sebagai contoh, jika z^layer yang sepadan= 0, lapisan ini perlu dipadamkan. Rajah 2 di bawah menggambarkan cara topeng pemangkasan mengawal struktur yang dipangkas.

Selepas pemangkasan, kertas kerja ini memuktamadkan seni bina yang dipangkas dengan mengekalkan komponen pemarkahan tertinggi yang dikaitkan dengan pembolehubah topeng dalam setiap substruktur, Dan teruskan pra-latihan model cantasan menggunakan objektif pemodelan bahasa.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

pemuatan pukal dinamik

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

#🎜#
#🎜#
#🎜##🎜 #Kajian ini percaya bahawa adalah perlu untuk menjalankan latihan pra-latihan yang meluas bagi model pemangkasan untuk memulihkan prestasi model.

Diinspirasikan oleh penyelidikan lain, kertas kerja ini mencadangkan algoritma yang lebih cekap, pemuatan kelompok dinamik, yang hanya boleh dilaraskan secara dinamik berdasarkan nisbah domain prestasi model. Algoritma adalah seperti berikut:

Eksperimen dan keputusan
#🎜#
#🎜##🎜##🎜 🎜🎜#
Konfigurasi model: Artikel ini menggunakan model LLaMA2-7B sebagai model sumber, dan kemudian menjalankan eksperimen pemangkasan berstruktur Mereka memampatkan LLaMA2-7B kepada dua saiz sasaran yang lebih kecil iaitu 2.7 B dan 1.3B, dan kemudian. dipangkas Prestasi model dibandingkan dengan model saiz yang sama, termasuk OPT-1.3B, Pythia-1.4B, OPT-2.7B, Pythia-2.8B, INCITE-Base-3B, OpenLLaMA-3B-v1, OpenLLaMA- 3B-v2 . Jadual 8 meringkaskan butiran seni bina model untuk semua model ini.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Data: Memandangkan data latihan LLaMA2 tidak boleh diakses secara terbuka, artikel ini menggunakan set data RedPajama. Jadual 1 menyediakan data pra-latihan yang digunakan oleh model kertas ini dan model garis dasar.
Latihan: Para penyelidik menggunakan sehingga 16 GPU Nvidia A100 (80GB) dalam semua eksperimen.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-ShearingSHEARED-LLAMA lebih baik dari saiz LM yang sama

#🎟#🎜🎜🎜🎜 # 🎜🎜#
Makalah ini menunjukkan bahawa Sheared-LLaMA dengan ketara mengatasi LLM sedia ada dengan saiz yang serupa sambil menggunakan hanya sebahagian kecil daripada belanjawan pengiraan untuk melatih model ini dari awal.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Tugas hiliran: Jadual 2 menunjukkan prestasi sifar dan beberapa pukulan Sheared-LLaMA dan model pra-latihan sedia ada dengan saiz yang serupa pada tugas hiliran prestasi.

Penalaan Arahan: Seperti yang ditunjukkan dalam Rajah 3, Sheared-LLaMA yang ditala arahan mencapai kadar kemenangan yang lebih tinggi berbanding dengan semua model pra-latihan lain pada skala yang sama.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Rajah 4 menunjukkan bahawa model INCITEBase-3B bermula dengan ketepatan yang lebih tinggi, tetapi tahap prestasinya menurun semasa proses pra-latihan yang sedang berjalan.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Analisis

Akhir sekali, pengkaji menganalisis kelebihan kaedah ini.

Keberkesanan pemuatan kelompok dinamik

Antaranya, penyelidik menganalisis keberkesanan pemuatan kelompok dinamik daripada tiga aspek berikut: (1) Kehilangan data LM akhir merentas domain, untuk (2 ) setiap domain sepanjang proses latihan, (3) prestasi tugas hiliran. Hasilnya adalah berdasarkan algoritma Sheared-LaMA-1.3B.

Perbezaan kerugian merentas domain. Tujuan pemuatan kelompok dinamik adalah untuk mengimbangi kadar pengurangan kerugian bagi setiap domain supaya kerugian mencapai nilai rujukan dalam masa yang lebih kurang sama. Perbezaan antara kehilangan model (pemuatan kelompok asal dan pemuatan kelompok dinamik) dan kehilangan rujukan diplot dalam Rajah 5. Sebaliknya, pemuatan kelompok dinamik mengurangkan kerugian secara sekata dan perbezaan dalam kerugian merentas domain juga sangat serupa, yang menunjukkan bahawa data Penggunaan yang lebih cekap.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Penggunaan data. Jadual 3 membandingkan perkadaran data mentah RedPajama dan penggunaan data domain yang dimuatkan secara dinamik (Rajah 7 menunjukkan perubahan dalam pemberat domain sepanjang proses latihan). Pemuatan pukal dinamik meningkatkan berat domain Buku dan C4 berbanding domain lain, menunjukkan bahawa domain ini lebih sukar untuk dipulihkan daripada model yang dipangkas.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Prestasi hiliran. Seperti yang ditunjukkan dalam Rajah 6, model pemangkasan yang dilatih menggunakan pemuatan kelompok dinamik mencapai prestasi hiliran yang lebih baik berbanding model yang dilatih pada pengedaran RedPajama asal. Ini menunjukkan bahawa pengurangan kerugian yang lebih seimbang yang disediakan oleh pemuatan kelompok dinamik boleh meningkatkan prestasi hiliran.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Perbandingan dengan kaedah pemangkasan lain

Selain itu, penyelidik membandingkan kaedah ricih LLM dengan kaedah pemangkasan lain dan melaporkan kekeliruan pengesahan, yang merupakan ukuran keupayaan model keseluruhan sebagai penunjuk yang kuat.

Disebabkan oleh pengehadan pengiraan, eksperimen berikut mengawal jumlah belanjawan pengiraan semua kaedah yang dibandingkan dan bukannya menjalankan setiap kaedah hingga akhir.

Seperti yang ditunjukkan dalam Jadual 4, di bawah sparsity yang sama, hasil inferens model pemangkasan sasaran dalam artikel ini adalah lebih tinggi daripada model CoFiPruning pemangkasan tidak seragam, tetapi kebingungannya lebih tinggi sedikit.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Analisis lain

Jadual 5 menunjukkan bahawa meningkatkan overhed pemangkasan boleh terus meningkatkan kebingungan sambil mengawal jumlah token. Walau bagaimanapun, kerana pemangkasan adalah lebih mahal daripada pra-latihan berterusan, para penyelidik memperuntukkan token 0.4B untuk pemangkasan.

Ajar anda cara menggunting alpaca langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing

Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Ajar anda cara menggunting 'alpaca' langkah demi langkah, pasukan Chen Danqi mencadangkan kaedah pemangkasan model besar LLM-Shearing. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Jul 17, 2024 am 10:14 AM

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Penjanaan video tanpa had, perancangan dan membuat keputusan, penyebaran paksa penyepaduan ramalan token seterusnya dan penyebaran jujukan penuh Penjanaan video tanpa had, perancangan dan membuat keputusan, penyebaran paksa penyepaduan ramalan token seterusnya dan penyebaran jujukan penuh Jul 23, 2024 pm 02:05 PM

Pada masa ini, model bahasa berskala besar autoregresif menggunakan paradigma ramalan token seterusnya telah menjadi popular di seluruh dunia Pada masa yang sama, sejumlah besar imej dan video sintetik di Internet telah menunjukkan kepada kami kuasa model penyebaran. Baru-baru ini, pasukan penyelidik di MITCSAIL (salah seorang daripadanya ialah Chen Boyuan, pelajar PhD di MIT) berjaya menyepadukan keupayaan berkuasa model resapan jujukan penuh dan model token seterusnya, dan mencadangkan paradigma latihan dan pensampelan: Diffusion Forcing (DF). ). Tajuk kertas: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Alamat kertas: https:/

See all articles