


Tonton filem 2 jam dalam 4 saat! Alibaba mengeluarkan model besar multi-modal universal mPLUG-Owl3
Selepas menonton filem 2 jam dalam 4 saat, pencapaian baharu pasukan Alibaba telah diumumkan secara rasmi -
melancarkan model besar pelbagai mod am mPLUG-Owl3, yang digunakan khas untuk memahami berbilang gambar dan video panjang.
Secara khusus, menggunakan LLaVA-Next-Interleave sebagai penanda aras, mPLUG-Owl3 mengurangkan Kependaman Token Pertama model sebanyak 6 kali, dan bilangan imej yang boleh dimodelkan oleh A100 tunggal meningkat sebanyak 8 kali, mencapai 400 Dengan hanya satu gambar, anda boleh menonton filem 2 jam dalam masa 4 saat sahaja.
Dalam erti kata lain, kecekapan penaakulan model telah banyak dipertingkatkan.
Dan tanpa mengorbankan ketepatan model.
mPLUG-Owl3 juga telah mencapai SOTA pada banyak Penanda Aras dalam pelbagai senario yang melibatkan model besar berbilang modal, termasuk medan imej tunggal, berbilang imej dan video. . -modal model bahasa besar asas mPLUG -Siri Burung Hantu
Pangkalan Pemahaman Dokumen mPLUG-Siri DocOwl
Penaakulan berbilang gambar
Ini sering berlaku dalam Situasi kehidupan -
Ramai pengguna bukan sahaja mengadakan perbualan di sekitar satu gambar, tetapi pengguna mungkin mempunyai beberapa bahan, dan model perlu dapat memahami dengan betul hubungan antara kandungan dalam bahan yang berbeza.
Dalam contoh di bawah, mPLUG-Owl3 boleh mengaktifkan pengetahuan akal model bahasa melalui apa yang dilihatnya dalam dua imej, dan membuat inferens di sekitar dua gambar.
Dalam contoh lain, mPLUG-Owl3 bukan sahaja dapat mengesan perbezaan gaya antara dua gambar, tetapi juga menyedari bahawa walaupun watak dalam kedua-dua gambar mempunyai gaya yang berbeza, mereka sebenarnya adalah watak yang sama.
Soalan kali pertama: Apakah gaya seni yang digambarkan dalam gambar dan bagaimana ia berbeza?
Jawapan: Gambar pertama dalam gaya piksel, gambar kedua dalam gaya kartun...(beri sebab)
Soalan kedua: Siapa yang muncul dalam kedua-dua gambar? Apakah ciri-ciri mereka?
Bagaimana anda melakukannya?
Tidak seperti model tradisional, mPLUG-Owl3 tidak perlu menyambung jujukan visual ke dalam urutan teks model bahasa terlebih dahulu.
Untuk mencapai matlamat ini, pasukan mencadangkan modul Hyper Attention yang ringan, yang boleh memanjangkan Blok Transformer sedia ada yang hanya boleh memodelkan teks kepada satu yang boleh melakukan interaksi ciri grafik dan teks serta pembinaan teks modul baharu.
Dengan jarang memanjangkan 4 Blok Transformer ke seluruh model bahasa, mPLUG-Owl3 boleh menaik taraf LLM kepada LLM berbilang modal pada kos yang sangat kecil.
Selepas ciri visual diekstrak daripada pengekod visual, dimensi diselaraskan dengan dimensi model bahasa melalui pemetaan linear yang mudah.
Seterusnya, ciri visual hanya akan berinteraksi dengan teks dalam 4 lapisan Blok Transformer ini Memandangkan token visual tidak mengalami sebarang pemampatan, maklumat terperinci boleh disimpan.
Mari kita lihat bagaimana Hyper Attention direka.
Perhatian Hiper Untuk membolehkan model bahasa melihat ciri visual, operasi Perhatian Silang diperkenalkan, menggunakan ciri visual sebagai Kunci dan Nilai, dan menggunakan keadaan tersembunyi model bahasa sebagai Pertanyaan untuk mengekstrak ciri visual.
Dalam beberapa tahun kebelakangan ini, penyelidikan lain juga telah mempertimbangkan untuk menggunakan Cross-Attention untuk gabungan pelbagai mod, seperti Flamingo dan IDEFICS, tetapi kerja-kerja ini gagal mencapai prestasi yang baik.
Dalam laporan teknikal mPLUG-Owl3, pasukan membandingkan reka bentuk Flamingo untuk menerangkan lebih lanjut perkara teknikal utama Hyper Attention:
Pertama sekali, Hyper Attention tidak menggunakan reka bentuk Cross-Attention dan Lata Perhatian Diri , tetapi tertanam dalam blok Perhatian Diri.
Kelebihannya ialah ia mengurangkan bilangan parameter baharu tambahan yang diperkenalkan, menjadikan model lebih mudah untuk dilatih, dan kecekapan latihan dan inferens boleh dipertingkatkan lagi.
Kedua, Hyper Attention memilih LayerNorm yang berkongsi model bahasa, kerana output pengedaran oleh LayerNorm adalah betul-betul taburan yang lapisan Attention telah dilatih untuk menstabilkan lapisan ini adalah penting untuk pembelajaran yang stabil bagi Cross-Attention yang baru diperkenalkan.
Malah, Hyper Attention menggunakan strategi Perhatian Silang dan Perhatian Kendiri selari, menggunakan Pertanyaan dikongsi untuk berinteraksi dengan ciri visual, dan menggabungkan kedua-dua ciri itu melalui Pintu Adaptif.
Ini membolehkan Query memilih secara selektif ciri visual yang berkaitan dengannya berdasarkan semantiknya sendiri.
Pasukan mendapati bahawa kedudukan relatif imej dan teks dalam konteks asal adalah sangat penting untuk model untuk lebih memahami input berbilang modal.
Untuk memodelkan sifat ini, mereka memperkenalkan pengekodan kedudukan putaran berjalin berbilang mod MI-Rope untuk memodelkan maklumat kedudukan bagi Kunci visual.
Secara khusus, mereka telah merakam maklumat kedudukan setiap gambar dalam teks asal, dan akan menggunakan kedudukan ini untuk mengira pembenaman Tali yang sepadan, dan setiap tampung gambar yang sama akan berkongsi pembenaman ini.
Selain itu, mereka juga memperkenalkan topeng Attention dalam Cross-Attention, supaya teks sebelum imej dalam konteks asal tidak dapat melihat ciri yang sepadan dengan imej berikutnya.
Ringkasnya, titik reka bentuk Hyper Attention ini telah membawa peningkatan kecekapan selanjutnya kepada mPLUG-Owl3 dan memastikan ia masih boleh mempunyai keupayaan pelbagai mod kelas pertama.
Hasil eksperimen
Dengan menjalankan percubaan pada pelbagai set data, mPLUG-Owl3 boleh mencapai hasil SOTA dalam kebanyakan Penanda Aras berbilang mod imej tunggal, malah mengatasi yang mempunyai saiz model yang lebih besar dalam banyak ujian .
Pada masa yang sama, dalam penilaian berbilang imej, mPLUG-Owl3 turut mengatasi LLAVA-Next-Interleave dan Mantis, yang dioptimumkan khas untuk senario berbilang imej.
Selain itu, ia mengatasi model sedia ada di LongVideoBench (52.1 mata), senarai yang secara khusus menilai pemahaman model tentang video panjang.
Pasukan R&D juga mencadangkan kaedah penilaian jujukan visual panjang yang menarik.
Seperti yang kita sedia maklum, dalam senario interaksi manusia-komputer yang sebenar, tidak semua gambar melayan masalah pengguna Konteks sejarah akan dipenuhi dengan kandungan berbilang modal yang tidak relevan dengan masalah tersebut ialah.
Untuk menilai keupayaan anti-gangguan model dalam input jujukan visual yang panjang, mereka membina set data penilaian baharu berdasarkan MMBench-dev.
Perkenalkan gambar yang tidak berkaitan untuk setiap sampel penilaian kitaran MMBench dan ganggu susunan gambar, dan kemudian tanya soalan tentang gambar asal untuk melihat sama ada model boleh bertindak balas dengan betul dan stabil. (Untuk soalan yang sama, 4 sampel dengan susunan pilihan yang berbeza dan gambar gangguan akan dibina, dan hanya satu jawapan yang betul akan direkodkan jika semua jawapan adalah betul.)
Percubaan dibahagikan kepada beberapa peringkat mengikut bilangan input gambar.
Dapat dilihat bahawa model tanpa latihan berbilang graf seperti Qwen-VL dan mPLUG-Owl2 dengan cepat gagal.
LLAVA-Next-Interleave dan Mantis, yang telah dilatih pada berbilang imej, boleh mengekalkan lengkung pereputan yang serupa dengan mPLUG-Owl3 pada mulanya, tetapi apabila bilangan imej mencapai tahap 50, model ini boleh tidak lagi dijawab dengan betul.
Dan mPLUG-Owl3 boleh mengekalkan ketepatan 40% walaupun dengan 400 gambar.
Namun, ada satu perkara yang perlu diperkatakan Walaupun mPLUG-Owl3 mengatasi model sedia ada, ketepatannya jauh dari tahap yang sangat baik Hanya boleh dikatakan bahawa kaedah penilaian ini mendedahkan keupayaan anti-gangguan semua model di bawah jujukan panjang. perlu dipertingkatkan lagi pada masa hadapan.
Untuk butiran lanjut, sila rujuk kertas dan kod.
Kertas: https://arxiv.org/abs/2408.04840
Kod: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
demo (peluk muka) : https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
demo (Komuniti Ajaib): https://modelscope.cn/studios/iic/mPLUG-Owl3
7B model (muka berpeluk): https:// /huggingface.co/mPLUG/mPLUG-Owl3-7B-240728
Model 7B (Komuniti Ajaib) https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728
— Tamat—
hantarTolong e-mel kepada:
ai@qbitai.com
Nyatakan tajuk dan beritahu kami:
Siapa anda, dari mana anda, kandungan penyerahan anda
Lampirkan pautan ke halaman utama kertas/projek, dan hubungi maklumat
Kami akan membalas anda dalam masa (cuba yang terbaik)
Klik di sini untuk mengikuti saya dan ingat untuk membintangi~
"Kongsi", "Suka" dan "Tonton" dengan tiga klik
Jumpa anda setiap hari di kemajuan sains dan teknologi yang canggih ~
Atas ialah kandungan terperinci Tonton filem 2 jam dalam 4 saat! Alibaba mengeluarkan model besar multi-modal universal mPLUG-Owl3. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Menurut berita dari laman web ini pada 5 Ogos, Alibaba Cloud mengumumkan bahawa Persidangan Yunqi 2024 akan diadakan di Bandar Yunqi, Hangzhou dari 19 hingga 21 September akan ada forum utama selama tiga hari, 400 sub-forum dan topik selari. serta hampir empat Sepuluh ribu meter persegi kawasan pameran. Persidangan Yunqi adalah percuma dan terbuka kepada orang ramai Mulai sekarang, orang ramai boleh memohon tiket percuma melalui laman web rasmi Persidangan Yunqi Tiket semua lulus sebanyak 5,000 yuan. https://yunqi.aliyun.com/2024 /ticket-list Menurut laporan, Persidangan Yunqi bermula pada 2009 dan pada asalnya dinamakan Forum Pembangunan Laman Web China Pertama pada 2011, ia berkembang menjadi Persidangan Pembangun Awan Alibaba pada 2015 , ia secara rasmi dinamakan semula sebagai "Persidangan Yunqi" dan terus berjaya bergerak

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Pautan projek ditulis di hadapan: https://nianticlabs.github.io/mickey/ Memandangkan dua gambar, pose kamera di antara mereka boleh dianggarkan dengan mewujudkan kesesuaian antara gambar. Biasanya, surat-menyurat ini adalah 2D hingga 2D, dan anggaran pose kami adalah skala-tak tentu. Sesetengah aplikasi, seperti realiti tambahan segera pada bila-bila masa, di mana-mana sahaja, memerlukan anggaran pose metrik skala, jadi mereka bergantung pada penganggar kedalaman luaran untuk memulihkan skala. Makalah ini mencadangkan MicKey, proses pemadanan titik utama yang mampu meramalkan korespondensi metrik dalam ruang kamera 3D. Dengan mempelajari padanan koordinat 3D merentas imej, kami dapat membuat kesimpulan relatif metrik
