Rumah Peranti teknologi AI Universiti Sains dan Teknologi China dan Huawei Noah mencadangkan Undang-undang Entropi untuk mendedahkan hubungan antara prestasi model besar, kadar pemampatan data dan kehilangan latihan.

Universiti Sains dan Teknologi China dan Huawei Noah mencadangkan Undang-undang Entropi untuk mendedahkan hubungan antara prestasi model besar, kadar pemampatan data dan kehilangan latihan.

Jul 22, 2024 pm 04:39 PM
projek

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系
Lajur AIxiv ialah lajur di mana kandungan akademik dan teknikal diterbitkan di laman web ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Kerja ini telah disiapkan oleh pasukan IEEE Fellow Chen Enhong dari Makmal Kecerdasan Kognitif Kebangsaan di Universiti Sains dan Teknologi China dan Makmal Bahtera Nuh Huawei. Pasukan Profesor Chen Enhong terlibat secara mendalam dalam bidang perlombongan data dan pembelajaran mesin, dan telah menerbitkan banyak kertas kerja dalam jurnal dan persidangan teratas Google Scholar telah dipetik lebih daripada 20,000 kali. Noah's Ark Laboratory ialah makmal Huawei yang terlibat dalam penyelidikan asas mengenai kecerdasan buatan. Ia mematuhi konsep penekanan yang sama pada penyelidikan teori dan inovasi aplikasi, dan komited untuk mempromosikan inovasi dan pembangunan teknologi dalam bidang kecerdasan buatan.

Data ialah asas kejayaan model bahasa besar (LLM), tetapi tidak semua data bermanfaat untuk pembelajaran model. Secara intuitif, sampel berkualiti tinggi dijangka mempunyai kecekapan yang lebih baik dalam pengajaran LLM. Oleh itu, kaedah sedia ada biasanya tertumpu kepada pemilihan data berasaskan kualiti. Walau bagaimanapun, kebanyakan kaedah ini menilai sampel data yang berbeza secara bebas, mengabaikan kesan gabungan kompleks antara sampel. Seperti yang ditunjukkan dalam Rajah 1, walaupun setiap sampel adalah berkualiti sempurna, gabungannya mungkin masih tidak optimum disebabkan oleh lebihan maklumat bersama atau ketidakkonsistenan. Walaupun subset berasaskan kualiti terdiri daripada ketiga-tiga sampel kualiti, pengetahuan yang dikodkan sebenarnya berlebihan dan bercanggah. Sebaliknya, subset data lain yang terdiri daripada beberapa sampel yang agak rendah kualitinya tetapi pelbagai mungkin lebih bermaklumat dalam pengajaran LLM. Oleh itu, pemilihan data berasaskan kualiti tidak sejajar sepenuhnya dengan matlamat untuk memaksimumkan tangkapan pengetahuan LLM.

Dan artikel ini bertujuan untuk mendedahkan hubungan intrinsik antara prestasi LLM dan pemilihan data. Diilhamkan oleh sifat pemampatan maklumat LLM, kami menemui undang-undang entropi, yang memautkan prestasi LLM kepada kadar pemampatan data dan kehilangan langkah latihan model sebelumnya, yang masing-masing mencerminkan tahap lebihan maklumat set data dan kesan yang wujud. LLM pada set data Tahap penguasaan pengetahuan. Melalui derivasi teori dan penilaian empirikal, kami mendapati bahawa prestasi model berkait songsang dengan nisbah mampatan data latihan, yang biasanya mengakibatkan kehilangan latihan yang lebih rendah. Berdasarkan penemuan undang-undang entropi, kami mencadangkan kaedah pemilihan data yang sangat cekap dan umum untuk latihan LLM, dinamakan ZIP, yang bertujuan untuk memilih subset data nisbah mampatan rendah secara keutamaan. ZIP dengan rakus memilih data yang pelbagai dalam pelbagai peringkat, akhirnya memperoleh subset data dengan kepelbagaian yang baik.

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

  • Pasukan: Pasukan Chen Enhong di National Key Laboratory of Cognitive Intelligence, University of Science and Technology of China, Huawei Noah's Ark Laboratory
  • Pautan kertas: https://arxiv.org/pdf
  • Pautan kod : https://github.com/USTC-StarTeam/ZIP

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

                                                                                                                                                                                                                                                                                                                                                                                                                                 Hukum entropi
Kami menjalankan analisis teori tentang hubungan antara pemampatan data dan prestasi LLM. Secara intuitif, ketepatan dan kepelbagaian data latihan akan mempengaruhi prestasi model akhir. Pada masa yang sama, prestasi LLM mungkin suboptimum jika data mempunyai konflik bawaan yang teruk atau jika model kurang memahami maklumat yang dikodkan dalam data. Berdasarkan andaian ini, kami menyatakan prestasi LLM sebagai Z , yang dijangka terjejas oleh:

Nisbah mampatan data R: Secara intuitif, set data dengan nisbah mampatan yang lebih rendah menunjukkan kepadatan maklumat yang lebih tinggi.
  • Kehilangan latihan L: Menunjukkan sama ada data sukar untuk diingati oleh model. Di bawah model asas yang sama, kehilangan latihan yang tinggi biasanya disebabkan oleh kehadiran bunyi bising atau maklumat yang tidak konsisten dalam set data.
  • Ketekalan data C: Ketekalan data dicerminkan oleh entropi kebarangkalian token seterusnya memandangkan situasi sebelumnya. Konsistensi data yang lebih tinggi biasanya membawa kepada kehilangan latihan yang lebih rendah.
  • Kualiti data purata S: mencerminkan purata kualiti peringkat sampel data, yang boleh diukur melalui pelbagai aspek objektif dan subjektif.
Memandangkan sejumlah data latihan, prestasi model boleh dianggarkan oleh faktor di atas:

di mana f ialah fungsi tersirat. Memandangkan model asas tertentu, skala L biasanya bergantung pada R dan C dan boleh dinyatakan sebagai: 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

Memandangkan set data dengan homogeniti yang lebih tinggi atau ketekalan data yang lebih baik lebih mudah dipelajari oleh model, L Ia dijangka menjadi monotonik dalam R dan C. Oleh itu, kita boleh menulis semula formula di atas sebagai: 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

di mana g' ialah fungsi songsang. Dengan menggabungkan tiga persamaan di atas, kita mendapat: 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

di mana h ialah satu lagi fungsi tersirat. Jika kaedah pemilihan data tidak mengubah purata kualiti data Q, kita boleh menganggap pembolehubah Q sebagai pemalar. Oleh itu, prestasi akhir boleh dinyatakan secara kasar sebagai: 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系
Ini bermakna prestasi model berkaitan dengan kadar mampatan data dan kehilangan latihan. Kami memanggil hubungan ini Hukum entropi.

Berdasarkan undang-undang Entropi, kami mencadangkan dua inferens:

  • Jika C dianggap sebagai pemalar, kehilangan latihan secara langsung dipengaruhi oleh kadar mampatan. Oleh itu, prestasi model dikawal oleh nisbah mampatan: jika nisbah mampatan data R lebih tinggi, maka Z biasanya lebih teruk, yang akan disahkan dalam eksperimen kami.
  • Di bawah nisbah mampatan yang sama, kehilangan latihan yang lebih tinggi bermakna konsistensi data yang lebih rendah. Oleh itu, pengetahuan berkesan yang dipelajari oleh model mungkin lebih terhad. Ini boleh digunakan untuk meramalkan prestasi LLM pada data berbeza dengan nisbah mampatan dan kualiti sampel yang serupa. Kami akan menunjukkan aplikasi penaakulan ini dalam amalan kemudian. . jumlah maklumat berkesan di bawah bajet data latihan yang terhad. Atas sebab kecekapan, kami mengguna pakai paradigma tamak berbilang peringkat berulang untuk mendapatkan penyelesaian anggaran dengan cekap dengan kadar mampatan yang agak rendah. Dalam setiap lelaran, kami mula-mula menggunakan peringkat pemilihan global untuk memilih kumpulan sampel calon dengan nisbah mampatan rendah untuk mencari sampel dengan ketumpatan maklumat yang tinggi. Kami kemudiannya menggunakan peringkat pemilihan tempatan berbutir kasar untuk memilih set sampel yang lebih kecil yang mempunyai redundansi terendah dengan sampel yang dipilih. Akhir sekali, kami menggunakan peringkat pemilihan tempatan yang terperinci untuk meminimumkan persamaan antara sampel yang akan ditambah. Proses di atas diteruskan sehingga data yang mencukupi diperolehi. Algoritma khusus adalah seperti berikut:

Hasil eksperimen

1 Keberkesanan algoritma pemilihan ZIP untuk LLM berbeza dan dalam peringkat LLM yang berbeza

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

Membandingkan algoritma pemilihan data SFT yang berbeza, model yang dilatih berdasarkan data pemilihan ZIP menunjukkan kelebihan dalam prestasi dan juga unggul dalam kecekapan. Keputusan khusus ditunjukkan dalam jadual di bawah:
Terima kasih kepada ciri ZIP yang bebas model dan tidak sensitif kandungan, ia juga boleh digunakan pada pemilihan data dalam peringkat penjajaran keutamaan. Data yang dipilih oleh ZIP juga menunjukkan kelebihan yang besar. Keputusan khusus ditunjukkan dalam jadual di bawah:
2 Pengesahan eksperimen undang-undang Entropi

Berdasarkan eksperimen pemilihan data SFT, kami berdasarkan kesan model, kadar mampatan data dan kehilangan data daripada model dalam langkah latihan sebelumnya, masing-masing Pelbagai keluk hubungan telah dipasang. Keputusan ditunjukkan dalam Rajah 2 dan 3, dari mana kita boleh melihat korelasi rapat antara tiga faktor. Pertama sekali, data kadar mampatan rendah biasanya membawa kepada hasil model yang lebih baik Ini kerana proses pembelajaran LLM sangat berkaitan dengan pemampatan maklumat Kita boleh menganggap LLM sebagai pemampat data, jadi data dengan kadar mampatan yang lebih rendah bermakna lebih banyak pengetahuan dan dengan itu lebih berharga kepada pemampat. Pada masa yang sama, boleh diperhatikan bahawa nisbah mampatan yang lebih rendah biasanya disertai dengan kehilangan latihan yang lebih tinggi Ini kerana data yang sukar untuk dimampatkan membawa lebih banyak pengetahuan, menimbulkan cabaran yang lebih besar untuk LLM menyerap pengetahuan yang terkandung di dalamnya. 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

                                                                                                                                     
                              圖3 Llama-3-8B

我們提供了一個entropy law 在真實場景中指導LLM 訓練資料增量更新的應用。在這個任務場景中,訓練資料量保持相對穩定,只有一小部分資料會被修改。結果見圖 4,其中
是逐漸增量更新的 5 個資料版本,出於保密要求,僅提供不同壓縮率下模型效果的相對關係。根據 entropy law 預測,假設每次增量更新後資料品質沒有顯著下降,可以預期隨著資料壓縮率的降低,模型效能會有所提升。這項預測與圖中數據版本
的結果一致。然而,資料版本
顯示出損失和資料壓縮率的異常增加,這預示了由於訓練資料一致性下降導致的模型效能下降的潛在可能。這一預測透過隨後的模型性能評估進一步得到證實。因此,entropy law 可以作為 LLM 訓練的指導原則,無需在完整資料集上訓練模型直到收斂,便可預測 LLM 訓練失敗的潛在風險。鑑於訓練 LLM 的高昂成本,這一點尤其重要。 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

                                           

Atas ialah kandungan terperinci Universiti Sains dan Teknologi China dan Huawei Noah mencadangkan Undang-undang Entropi untuk mendedahkan hubungan antara prestasi model besar, kadar pemampatan data dan kehilangan latihan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Sistem Fusion, dijelaskan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1676
14
Tutorial PHP
1278
29
Tutorial C#
1257
24
Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. Jul 15, 2024 pm 03:59 PM

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

See all articles