Rumah Peranti teknologi AI Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga

Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga

Jul 16, 2024 am 11:57 AM
projek Eunhanan Memory3

2.4B Memori3 mencapai prestasi yang lebih baik daripada model LLM dan RAG yang lebih besar.

Dalam beberapa tahun kebelakangan ini, model bahasa besar (LLM) telah mendapat perhatian yang tidak pernah berlaku sebelum ini kerana prestasinya yang luar biasa. Walau bagaimanapun, LLM mahal untuk dilatih dan disimpulkan, dan orang ramai telah cuba mengurangkan kos melalui pelbagai kaedah pengoptimuman.

Dalam artikel ini, penyelidik dari Institut Penyelidikan Inovasi Algoritma Shanghai, Universiti Peking dan institusi lain telah diilhamkan oleh hierarki memori otak manusia Mereka melengkapkan LLM dengan memori eksplisit (format memori yang lebih murah daripada parameter model dan RAG). ) untuk mengurangkan kos ini. Dari segi konsep, LLM boleh menikmati saiz parameter yang lebih kecil, kos latihan dan kos inferens kerana kebanyakan pengetahuan mereka dieksplisitkan ke dalam ingatan eksplisit. Alamat Kertas T: https: //arxiv.org/pdf/2407.01178
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Tajuk Tesis: Memori
    3
  • : Pemodelan Bahasa dengan Ingatan Eksplisit
  • yang dilatih oleh penyelidik sebagai bukti awal 2.4B LLM dari awal, yang mencapai prestasi yang lebih baik daripada model LLM dan RAG yang lebih besar, dan mencapai kelajuan penyahkodan yang lebih tinggi daripada RAG. Model ini dinamakan Memory
    3
  • kerana dalam LLM, memori eksplisit ialah bentuk ingatan ketiga selepas ingatan tersirat (parameter model) dan ingatan kerja (nilai kunci konteks).

Secara khusus, kertas kerja ini memperkenalkan format ingatan baharu, ingatan eksplisit, yang dicirikan oleh kos penulisan yang agak rendah dan kos bacaan yang agak rendah. Seperti yang ditunjukkan dalam Rajah 1, model mula-mula menukar pangkalan pengetahuan (atau mana-mana set data teks) kepada ingatan eksplisit yang dilaksanakan sebagai nilai kunci perhatian yang jarang, kemudian memanggil kenangan ini semasa inferens dan menyepadukannya ke tengah lapisan perhatian diri.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketigaFormat memori baharu mentakrifkan hierarki ingatan baharu:
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketigaSelain itu, artikel ini juga memperkenalkan teori litar ingatan yang menyokong luaran pengetahuan dan mencadangkan kesederhanaan memori yang boleh menjadikan storan boleh dikendalikan Mekanisme dan protokol pralatihan untuk menggalakkan pembentukan ingatan.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketigaRingkasnya:

Memori
3
Menggunakan ingatan eksplisit semasa proses inferens, yang mengurangkan beban menghafal
pengetahuan khusus untuk parameter model
terbina; d dalam pangkalan pengetahuan, di mana format memori jarang mengekalkan saiz storan sebenar;
  • Para penyelidik melatih model Memory3
    dari awal dengan parameter tidak terbenam 2.4B, dan prestasinya melebihi skala model SOTA yang lebih besar. Ia juga mempunyai prestasi yang lebih baik dan inferens yang lebih pantas daripada RAG;
  • Selain itu, Memori
  • 3
  • meningkatkan fakta dan mengurangkan halusinasi, dan membolehkan penyesuaian pantas kepada tugas profesional.
  • Pengenalan kaedah

Teori litar memori membantu menentukan pengetahuan yang boleh disimpan sebagai ingatan eksplisit, dan seni bina model yang sesuai untuk membaca dan menulis ingatan eksplisit.
Penyelidik menganggap hubungan input-output sebagai mekanisme dalaman litar, dan mentakrifkan pengetahuan sebagai hubungan input-output dan litarnya. Dengan memanipulasi litar ini, seseorang boleh mengasingkan banyak pengetahuan daripada LLM sambil mengekalkan fungsinya secara utuh.

Memory
3Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga: Dari segi seni bina, matlamat artikel ini adalah untuk mereka bentuk mekanisme ingatan eksplisit untuk Transformer LLM supaya kos penulisan dan kos bacaannya agak rendah. Di samping itu, artikel ini berharap dapat mengehadkan pengubahsuaian kepada seni bina Transformer kepada skop terkecil yang mungkin tanpa menambah sebarang parameter baharu yang boleh dilatih, supaya kebanyakan LLM Transformer sedia ada boleh ditukar kepada Memori tanpa model penalaan halus
3
. Proses reka bentuk mudah adalah seperti berikut:

Tulis kos: Sebelum inferens, LLM menulis setiap rujukan kepada memori eksplisit, yang disimpan pada pemacu.Kenangan dipilih daripada vektor utama lapisan perhatian diri, jadi proses penulisan tidak melibatkan latihan. Setiap rujukan diproses secara bebas, mengelakkan kos perhatian konteks yang panjang.

Kos baca: Semasa inferens, ingatan eksplisit diambil daripada pemacu dan dibaca dengan perhatian sendiri bersama-sama dengan nilai kunci konteks biasa. Setiap memori terdiri daripada sebilangan kecil nilai utama daripada sebilangan kecil kepala perhatian, sangat mengurangkan pengiraan tambahan, storan GPU, storan pemacu dan masa muat. Ia membolehkan LLM mendapatkan banyak rujukan dengan kerap dengan kesan terhad pada kelajuan penyahkodan.

Proses penaakulan ditunjukkan dalam Rajah 9. Setiap kali LLM menjana 64 token, ia membuang memori semasa, menggunakan 64 token ini sebagai teks pertanyaan untuk mendapatkan 5 ingatan baharu dan terus menggunakan kenangan ini. Begitu juga, apabila memproses isyarat, LLM mendapatkan semula 5 kenangan untuk setiap blok 64 token. Setiap blok memfokuskan memorinya sendiri, dan memori mungkin berbeza antara blok.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Menulis dan membaca kenangan: Semasa inferens, LLM boleh terus membaca ingatan eksplisit yang diperoleh melalui lapisan perhatian kendirinya dengan menggabungkannya dengan nilai kunci kontekstual (Rajah 9). Khususnya, bagi setiap kepala perhatian h lapisan ke-l, jika ia dipilih sebagai kepala ingatan, maka keluarannya Y^(l,h) akan berubah:
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Selain itu, kajian ini Memori eksplisit menggunakan selari pengekodan kedudukan, iaitu, semua kedudukan utama terletak dalam selang panjang 128 yang sama, seperti yang ditunjukkan dalam Rajah 9.

Dua peringkat pra-latihan: Pra-latihan terdiri daripada dua peringkat, pemanasan badan dan latihan berterusan. Hanya fasa latihan berterusan yang melibatkan ingatan eksplisit, manakala fasa pemanasan menggunakan format yang sama seperti pra-latihan biasa.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Rajah 13 memplot jadual kehilangan latihan dan kadar pembelajaran semasa fasa memanaskan badan.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Rajah 14 memplot jadual kehilangan latihan dan kadar pembelajaran semasa fasa latihan berterusan.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Hasil eksperimen

Para penyelidik menilai kebolehan umum model Memory3 (tugas penanda aras), kebolehan perbualan, kebolehan profesional (undang-undang dan perubatan), dan halusinasi. Selain itu, penyelidik juga mengukur kelajuan penyahkodan Memory3 dan membandingkannya dengan model SOTA LLM dan RAG yang serupa dan lebih besar.

Hasil penilaian keupayaan umum ditunjukkan di bawah, dan keputusan menunjukkan bahawa ingatan eksplisit meningkatkan skor purata sebanyak 2.51%. Sebagai perbandingan, perbezaan skor antara Llama2-7B dan 13B ialah 4.91%. Memori eksplisit boleh meningkatkan "saiz model berkesan" sebanyak 2.51/4.91 ≈ 51.1%.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Seterusnya, pengarang menilai kemahiran dialog Memory3, dan keputusannya disenaraikan dalam Jadual 18, menunjukkan bahawa model itu mengatasi prestasi Vicuna-7B, Falcon-40B-Instruct dan ChatGLM2-6B dengan parameter yang lebih sedikit.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Pada masa ini, LLM masih menghadapi masalah halusinasi. Dari segi konsep, Memori3 sepatutnya kurang terdedah kepada halusinasi kerana ingatan eksplisitnya sepadan terus dengan teks rujukan. Untuk menilai halusinasi, penyelidik memilih dua set data bahasa Inggeris untuk penilaian. Keputusan ditunjukkan dalam Jadual 19. Memori3 mencapai markah tertinggi pada kebanyakan tugasan.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Satu faedah menggunakan memori eksplisit ialah LLM boleh menyesuaikan diri dengan domain dan tugas baharu dengan mudah dengan mengemas kini pangkalan pengetahuannya. Hanya import rujukan berkaitan tugasan ke dalam pangkalan pengetahuan Memory3 dan secara pilihan tukarkannya kepada ingatan eksplisit sekiranya permulaan yang hangat.Model itu kemudiannya boleh memanfaatkan pengetahuan baharu ini untuk membuat inferens, melangkau proses penalaan halus yang lebih mahal dan berpotensi rugi, dan berjalan lebih pantas daripada RAG. Pengurangan kos ini telah ditunjukkan dalam Rajah 4 dan boleh memudahkan penggunaan LLM yang pantas dalam pelbagai industri.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Jadual di bawah menunjukkan bahawa Memory3 berprestasi lebih baik daripada kebanyakan model.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Akhir sekali, penyelidik menilai kelajuan penyahkodan atau daya pemprosesan Memory3 mengikut bilangan token yang dijana sesaat.
Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga
Untuk maklumat lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Sistem Fusion, dijelaskan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1671
14
Tutorial PHP
1276
29
Tutorial C#
1256
24
Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. Jul 15, 2024 pm 03:59 PM

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

See all articles