Rumah Peranti teknologi AI ECCV 2024|Adakah anda benar-benar melihatnya, atau adakah anda fikir anda melihatnya? Pergantungan berlebihan model berbilang modal besar pada pengetahuan pra-latihan teks harus diselesaikan

ECCV 2024|Adakah anda benar-benar melihatnya, atau adakah anda fikir anda melihatnya? Pergantungan berlebihan model berbilang modal besar pada pengetahuan pra-latihan teks harus diselesaikan

Jul 28, 2024 am 07:49 AM
projek Penjajaran keutamaan

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pi Renjie, pengarang pertama artikel ini, ialah pelajar kedoktoran tahun ketiga di Universiti Sains dan Teknologi Hong Kong, belajar di bawah Profesor Zhang Tong dan Profesor Zhou Xiaofang. Sebelum ini menerima ijazah sarjana muda dalam bidang kejuruteraan komputer dari Universiti Hong Kong. Minat penyelidikannya termasuk model bahasa besar multimodal, kecerdasan buatan berpusatkan data, dan pembelajaran mesin automatik.

Dengan kemajuan model bahasa besar (LLM), model bahasa besar multimodal (MLLM) berkembang pesat. Mereka menggunakan pengekod visual yang telah terlatih untuk memproses imej, dan memasukkan imej ke LLM sebagai pembenaman token bersama dengan maklumat teks, sekali gus memanjangkan keupayaan perbualan model untuk memproses input imej. Peningkatan keupayaan ini membawa kemungkinan untuk pelbagai bidang aplikasi yang berpotensi seperti pemanduan autonomi dan pembantu perubatan.

Walaupun MLLM mempunyai keupayaan pemahaman imej dan teks yang sangat baik, mereka masih mengalami ralat atau halusinasi, menghasilkan respons yang tidak sepadan dengan imej input, seperti menjawab objek yang tidak wujud atau salah mengenal pasti atribut. Kami percaya bahawa ketidakseimbangan volum data dan masa latihan dalam peringkat latihan yang berbeza bagi model besar berbilang modal adalah salah satu sebab utama untuk jenis berat sebelah ini. Modul bahasa bagi model berbilang modal yang besar sering menggunakan data teks besar-besaran untuk pra-latihan, manakala peringkat penjajaran modal menggunakan saiz data yang lebih kecil dan masa latihan yang lebih singkat.

Untuk menyelesaikan masalah di atas, kami mencadangkan kaedah penjajaran keutamaan - Pengoptimuman Keutamaan Bootstrapped (BPO), yang boleh mengurangkan fenomena halusinasi model besar berbilang modal sambil meningkatkan keupayaan pemahaman visual model.

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

  • Tajuk kertas: Memperkukuh Model Bahasa Besar Berbilang Modal dengan Pengoptimuman Keutamaan Bootstrapped
  • Pautan kertas: https://arxiv.org/pdf/2403.08730
  • Co. com/pipilurj/bootstrapped-preference-optimization-BPO-

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

Secara khusus, kami mereka bentuk dua kaedah untuk membina sampel negatif secara automatik untuk pembelajaran keutamaan, mendedahkan terlalu bergantung model berbilang modal pada latihan. Selepas itu, kami menggunakan anotasi data asal sebagai sampel positif untuk memperhalusi pilihan model berbilang modal. Secara keseluruhannya, sumbangan utama kami ialah:
1 Kami mencadangkan perspektif baharu yang mengubah masalah penjajaran pelbagai mod kepada tugas pembelajaran keutamaan, di mana kecenderungan pra-latihan dan keupayaan pemahaman visual dianggap sebagai keutamaan lama dan baharu

2. Kami memperkenalkan kaedah untuk mengautomasikan pembinaan set data keutamaan berskala besar. Melalui kaedah ini, sejumlah besar sampel negatif dengan maklumat bias pra-latihan boleh dibina

3 Sebilangan besar eksperimen telah membuktikan bahawa kaedah kami dapat meningkatkan keupayaan kognitif model besar berbilang modal untuk. imej, latihan Model yang terakhir telah meningkatkan prestasi dalam pelbagai penanda aras.
Pembinaan set data keutamaan boleh skala

Untuk contoh positif set data keutamaan, sudah terdapat banyak set data siap sedia direka untuk penalaan halus yang diselia, seperti jawapan soalan beranotasi MiniGP4 yang berkualiti tinggi dan dijana oleh MiniGPTla. Data,ShareGPTV memanfaatkan GPT4-V yang berkuasa sebagai alat untuk, menjana kapsyen berkualiti tinggi untuk imej. Kami menggunakan set data awam beranotasi ini sebagai respons positif dalam set data keutamaan untuk mengelakkan anotasi manual yang mahal sambil memastikan pasangan data berkualiti tinggi.

Untuk mengumpul data tindak balas negatif yang mencerminkan kecenderungan pra-latihan, kami mencadangkan dua kaedah.

a. Melemahkan gesaan imej: Kami menambah hingar pada data imej dalam set data keutamaan untuk memusnahkan ciri imej dan menjadikan model besar berbilang modal lebih cenderung kepada pengedaran asal yang telah dilatih semasa menjawab Respons ralat akan mengandungi bias sedia ada modul LLM. Seperti yang dapat dilihat daripada rajah, dengan menambahkan tahap hingar yang berbeza pada imej, kebarangkalian jawapan yang betul muncul adalah lebih kecil, dan kebarangkalian jawapan dengan berat sebelah pra-latihan muncul adalah lebih besar.

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

b Suntikan ralat: Kami memerlukan model bahasa besar yang sepadan dengan model besar berbilang modal untuk menulis semula respons secara terus, dan memerlukan model menjana jawapan yang tidak betul yang serupa tetapi tidak sama dengan jawapan. .
Seterusnya, kami menggunakan pengoptimuman keutamaan langsung (DPO) untuk mengoptimumkan model berbilang modal:

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

Penilaian percubaan

VA
VA

VA
yang halus BPO -BPO dan LLaVA-13B-BPO) diuji pada MM-Vet, LLaVA-Wild dan Object HalBench. MM-Vet dan LlaVA-Bench ialah senarai yang digunakan khusus untuk mengukur keupayaan komprehensif model, manakala Object HalBench digunakan untuk menilai kredibiliti visual model besar berbilang modal.

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

Hasil eksperimen menunjukkan bahawa model yang diperhalusi oleh BPO menerajui semua tugasan pada tiga senarai penanda aras. Pada kebanyakan tugas, LLaVA-7B-BPO malah mengatasi model LLaVa1.5-13B yang belum ditala.

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

Kami juga membandingkan BPO dengan latihan penalaan halus (SFT) yang diselia. Kami memperhalusi model dengan terus menggunakan sampel positif daripada set data sebagai data yang diselia. Eksperimen menunjukkan bahawa model besar berbilang mod yang diperhalusi oleh BPO berprestasi lebih baik daripada penalaan halus SFT pada kategori subtugas yang berbeza.

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

Dari segi keputusan kualitatif, kami membandingkan prestasi model besar berbilang modal sebelum dan selepas penalaan halus BPO. Kami mendapati bahawa model BPO-finetuned menghasilkan jawapan yang lebih setia kepada input imej dan mengandungi kurang maklumat yang salah.
🎜🎜🎜🎜Untuk butiran penyelidikan lanjut, sila rujuk kertas asal. 🎜

Atas ialah kandungan terperinci ECCV 2024|Adakah anda benar-benar melihatnya, atau adakah anda fikir anda melihatnya? Pergantungan berlebihan model berbilang modal besar pada pengetahuan pra-latihan teks harus diselesaikan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Sistem Fusion, dijelaskan
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1667
14
Tutorial PHP
1273
29
Tutorial C#
1255
24
Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. Jul 15, 2024 pm 03:59 PM

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

See all articles