Rumah Tutorial Perkakasan Kajian perkakasan Tonton filem 2 jam dalam 4 saat! Alibaba mengeluarkan model besar multi-modal universal mPLUG-Owl3

Tonton filem 2 jam dalam 4 saat! Alibaba mengeluarkan model besar multi-modal universal mPLUG-Owl3

Aug 20, 2024 am 10:32 AM
Ali Model Filem modal Selesai membaca abs

Selepas menonton filem 2 jam dalam 4 saat, pencapaian baharu pasukan Alibaba telah diumumkan secara rasmi -

melancarkan model besar pelbagai mod am mPLUG-Owl3, yang digunakan khas untuk memahami berbilang gambar dan video panjang.

4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Secara khusus, menggunakan LLaVA-Next-Interleave sebagai penanda aras, mPLUG-Owl3 mengurangkan Kependaman Token Pertama model sebanyak 6 kali, dan bilangan imej yang boleh dimodelkan oleh A100 tunggal meningkat sebanyak 8 kali, mencapai 400 Dengan hanya satu gambar, anda boleh menonton filem 2 jam dalam masa 4 saat sahaja.

Dalam erti kata lain, kecekapan penaakulan model telah banyak dipertingkatkan.

Dan tanpa mengorbankan ketepatan model.

mPLUG-Owl3 juga telah mencapai SOTA pada banyak Penanda Aras dalam pelbagai senario yang melibatkan model besar berbilang modal, termasuk medan imej tunggal, berbilang imej dan video. . -modal model bahasa besar asas mPLUG -Siri Burung Hantu

Pangkalan Pemahaman Dokumen mPLUG-Siri DocOwl4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Mari ketahui teknologi hitam keluaran mPLUG-Owl3 ini.

Buka Kunci Main Permainan

Pasukan menunjukkan beberapa kegunaan biasa mPLUG-Owl3.

Peningkatan perolehan berbilang modal

Secara umumnya, ia adalah amalan biasa untuk menambah pengetahuan yang model itu tidak belajar melalui sistem perolehan semula. Ini memerlukan model untuk memahami dengan tepat pengetahuan pelbagai modal yang masuk dan menggunakannya untuk menjawab soalan.

Dalam contoh berikut, mPLUG-Owl3 bukan sahaja boleh bertindak balas dengan betul berdasarkan pengetahuan yang diperoleh, tetapi juga memberikan pertimbangan berdasarkan pengetahuan yang mana ia berdasarkan, dan menyediakan asas terperinci untuk penghakiman. Ini sangat mesra kepada kakitangan R&D hiliran untuk pembangunan dan penyahpepijatan.

Bahagian perolehan semula: Berikut adalah beberapa pengetahuan pelbagai modal yang diperoleh untuk anda membuat keputusan.

Soalan: Berdasarkan pemerhatian anda terhadap empat gambar anjing di atas, bolehkah anda mengelaskan anjing dalam gambar 5? Beri alasan.

Jawapan: Berdasarkan pemerhatian terhadap empat gambar anjing, anjing dalam gambar 5 boleh diklasifikasikan sebagai Irish Terrier. Anjing dalam gambar 1 digambarkan sebagai Irish Terrier, dan anjing dalam gambar 5 mempunyai ciri-ciri fizikal yang serupa dengan anjing dalam gambar 1...

Penaakulan berbilang gambar

Ini sering berlaku dalam Situasi kehidupan -

Ramai pengguna bukan sahaja mengadakan perbualan di sekitar satu gambar, tetapi pengguna mungkin mempunyai beberapa bahan, dan model perlu dapat memahami dengan betul hubungan antara kandungan dalam bahan yang berbeza.

Dalam contoh di bawah, mPLUG-Owl3 boleh mengaktifkan pengetahuan akal model bahasa melalui apa yang dilihatnya dalam dua imej, dan membuat inferens di sekitar dua gambar. 4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Soalan: Bolehkah haiwan di sebelah kiri bertahan dalam persekitaran di sebelah kanan? Jawapan dan penjelasan diperlukan.

Jawapan (jawapan yang betul ditanda hijau): Idea umum ialah ia tidak dapat bertahan kerana persekitaran terlalu sejuk.

Dalam contoh lain, mPLUG-Owl3 bukan sahaja dapat mengesan perbezaan gaya antara dua gambar, tetapi juga menyedari bahawa walaupun watak dalam kedua-dua gambar mempunyai gaya yang berbeza, mereka sebenarnya adalah watak yang sama.

Soalan kali pertama: Apakah gaya seni yang digambarkan dalam gambar dan bagaimana ia berbeza?

Jawapan: Gambar pertama dalam gaya piksel, gambar kedua dalam gaya kartun...(beri sebab)

Soalan kedua: Siapa yang muncul dalam kedua-dua gambar? Apakah ciri-ciri mereka? 4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Jawapan: Dalam kedua-dua lukisan, seorang lelaki memakai topi koboi muncul, dan dia digambarkan dalam dua gaya berbeza. .

mPLUG-Owl3 boleh menonton filem 2 jam dan mula menjawab soalan pengguna dalam masa 4 saat.

Sama ada pengguna bertanya soalan tentang klip yang sangat terperinci pada permulaan, tengah dan akhir filem, mPLUG-Owl3 boleh menjawabnya dengan lancar.

Bagaimana anda melakukannya?

Tidak seperti model tradisional, mPLUG-Owl3 tidak perlu menyambung jujukan visual ke dalam urutan teks model bahasa terlebih dahulu. 4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Dalam erti kata lain, tidak kira apa pun input (berpuluh-puluh gambar atau jam video), ia tidak menduduki kapasiti jujukan model bahasa, yang mengelakkan overhed pengkomputeran yang besar dan penggunaan memori video yang disebabkan oleh jujukan visual yang panjang.

Sesetengah orang mungkin bertanya, bagaimanakah maklumat visual disepadukan ke dalam model bahasa?

4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Untuk mencapai matlamat ini, pasukan mencadangkan modul Hyper Attention yang ringan, yang boleh memanjangkan Blok Transformer sedia ada yang hanya boleh memodelkan teks kepada satu yang boleh melakukan interaksi ciri grafik dan teks serta pembinaan teks modul baharu.

4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Dengan jarang memanjangkan 4 Blok Transformer ke seluruh model bahasa, mPLUG-Owl3 boleh menaik taraf LLM kepada LLM berbilang modal pada kos yang sangat kecil.

Selepas ciri visual diekstrak daripada pengekod visual, dimensi diselaraskan dengan dimensi model bahasa melalui pemetaan linear yang mudah.

Seterusnya, ciri visual hanya akan berinteraksi dengan teks dalam 4 lapisan Blok Transformer ini Memandangkan token visual tidak mengalami sebarang pemampatan, maklumat terperinci boleh disimpan.

Mari kita lihat bagaimana Hyper Attention direka.

Perhatian Hiper Untuk membolehkan model bahasa melihat ciri visual, operasi Perhatian Silang diperkenalkan, menggunakan ciri visual sebagai Kunci dan Nilai, dan menggunakan keadaan tersembunyi model bahasa sebagai Pertanyaan untuk mengekstrak ciri visual.

Dalam beberapa tahun kebelakangan ini, penyelidikan lain juga telah mempertimbangkan untuk menggunakan Cross-Attention untuk gabungan pelbagai mod, seperti Flamingo dan IDEFICS, tetapi kerja-kerja ini gagal mencapai prestasi yang baik.

Dalam laporan teknikal mPLUG-Owl3, pasukan membandingkan reka bentuk Flamingo untuk menerangkan lebih lanjut perkara teknikal utama Hyper Attention:

4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Pertama sekali, Hyper Attention tidak menggunakan reka bentuk Cross-Attention dan Lata Perhatian Diri , tetapi tertanam dalam blok Perhatian Diri.

Kelebihannya ialah ia mengurangkan bilangan parameter baharu tambahan yang diperkenalkan, menjadikan model lebih mudah untuk dilatih, dan kecekapan latihan dan inferens boleh dipertingkatkan lagi.

Kedua, Hyper Attention memilih LayerNorm yang berkongsi model bahasa, kerana output pengedaran oleh LayerNorm adalah betul-betul taburan yang lapisan Attention telah dilatih untuk menstabilkan lapisan ini adalah penting untuk pembelajaran yang stabil bagi Cross-Attention yang baru diperkenalkan.

Malah, Hyper Attention menggunakan strategi Perhatian Silang dan Perhatian Kendiri selari, menggunakan Pertanyaan dikongsi untuk berinteraksi dengan ciri visual, dan menggabungkan kedua-dua ciri itu melalui Pintu Adaptif.

Ini membolehkan Query memilih secara selektif ciri visual yang berkaitan dengannya berdasarkan semantiknya sendiri.

Pasukan mendapati bahawa kedudukan relatif imej dan teks dalam konteks asal adalah sangat penting untuk model untuk lebih memahami input berbilang modal.

Untuk memodelkan sifat ini, mereka memperkenalkan pengekodan kedudukan putaran berjalin berbilang mod MI-Rope untuk memodelkan maklumat kedudukan bagi Kunci visual.

Secara khusus, mereka telah merakam maklumat kedudukan setiap gambar dalam teks asal, dan akan menggunakan kedudukan ini untuk mengira pembenaman Tali yang sepadan, dan setiap tampung gambar yang sama akan berkongsi pembenaman ini.

Selain itu, mereka juga memperkenalkan topeng Attention dalam Cross-Attention, supaya teks sebelum imej dalam konteks asal tidak dapat melihat ciri yang sepadan dengan imej berikutnya.

Ringkasnya, titik reka bentuk Hyper Attention ini telah membawa peningkatan kecekapan selanjutnya kepada mPLUG-Owl3 dan memastikan ia masih boleh mempunyai keupayaan pelbagai mod kelas pertama.

4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Hasil eksperimen

Dengan menjalankan percubaan pada pelbagai set data, mPLUG-Owl3 boleh mencapai hasil SOTA dalam kebanyakan Penanda Aras berbilang mod imej tunggal, malah mengatasi yang mempunyai saiz model yang lebih besar dalam banyak ujian .

4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Pada masa yang sama, dalam penilaian berbilang imej, mPLUG-Owl3 turut mengatasi LLAVA-Next-Interleave dan Mantis, yang dioptimumkan khas untuk senario berbilang imej.

4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Selain itu, ia mengatasi model sedia ada di LongVideoBench (52.1 mata), senarai yang secara khusus menilai pemahaman model tentang video panjang.

4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

Pasukan R&D juga mencadangkan kaedah penilaian jujukan visual panjang yang menarik.

Seperti yang kita sedia maklum, dalam senario interaksi manusia-komputer yang sebenar, tidak semua gambar melayan masalah pengguna Konteks sejarah akan dipenuhi dengan kandungan berbilang modal yang tidak relevan dengan masalah tersebut ialah.

Untuk menilai keupayaan anti-gangguan model dalam input jujukan visual yang panjang, mereka membina set data penilaian baharu berdasarkan MMBench-dev.

Perkenalkan gambar yang tidak berkaitan untuk setiap sampel penilaian kitaran MMBench dan ganggu susunan gambar, dan kemudian tanya soalan tentang gambar asal untuk melihat sama ada model boleh bertindak balas dengan betul dan stabil. (Untuk soalan yang sama, 4 sampel dengan susunan pilihan yang berbeza dan gambar gangguan akan dibina, dan hanya satu jawapan yang betul akan direkodkan jika semua jawapan adalah betul.)

Percubaan dibahagikan kepada beberapa peringkat mengikut bilangan input gambar.

Dapat dilihat bahawa model tanpa latihan berbilang graf seperti Qwen-VL dan mPLUG-Owl2 dengan cepat gagal.

4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

LLAVA-Next-Interleave dan Mantis, yang telah dilatih pada berbilang imej, boleh mengekalkan lengkung pereputan yang serupa dengan mPLUG-Owl3 pada mulanya, tetapi apabila bilangan imej mencapai tahap 50, model ini boleh tidak lagi dijawab dengan betul.

Dan mPLUG-Owl3 boleh mengekalkan ketepatan 40% walaupun dengan 400 gambar.

Namun, ada satu perkara yang perlu diperkatakan Walaupun mPLUG-Owl3 mengatasi model sedia ada, ketepatannya jauh dari tahap yang sangat baik Hanya boleh dikatakan bahawa kaedah penilaian ini mendedahkan keupayaan anti-gangguan semua model di bawah jujukan panjang. perlu dipertingkatkan lagi pada masa hadapan.

Untuk butiran lanjut, sila rujuk kertas dan kod.

Kertas: https://arxiv.org/abs/2408.04840

Kod: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3

demo (peluk muka) : https://huggingface.co/spaces/mPLUG/mPLUG-Owl3

demo (Komuniti Ajaib): https://modelscope.cn/studios/iic/mPLUG-Owl3

7B model (muka berpeluk): https:// /huggingface.co/mPLUG/mPLUG-Owl3-7B-240728

Model 7B (Komuniti Ajaib) https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728

— Tamat—

hantar

Tolong e-mel kepada:

ai@qbitai.com

Nyatakan tajuk dan beritahu kami:

Siapa anda, dari mana anda, kandungan penyerahan anda

Lampirkan pautan ke halaman utama kertas/projek, dan hubungi maklumat

Kami akan membalas anda dalam masa (cuba yang terbaik)

Klik di sini untuk mengikuti saya dan ingat untuk membintangi~

"Kongsi", "Suka" dan "Tonton" dengan tiga klik

Jumpa anda setiap hari di kemajuan sains dan teknologi yang canggih ~

Atas ialah kandungan terperinci Tonton filem 2 jam dalam 4 saat! Alibaba mengeluarkan model besar multi-modal universal mPLUG-Owl3. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Sistem Fusion, dijelaskan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1670
14
Tutorial PHP
1274
29
Tutorial C#
1256
24
Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Alibaba Cloud mengumumkan bahawa Persidangan Yunqi 2024 akan diadakan di Hangzhou dari 19 hingga 21 September Permohonan percuma untuk tiket percuma Alibaba Cloud mengumumkan bahawa Persidangan Yunqi 2024 akan diadakan di Hangzhou dari 19 hingga 21 September Permohonan percuma untuk tiket percuma Aug 07, 2024 pm 07:12 PM

Menurut berita dari laman web ini pada 5 Ogos, Alibaba Cloud mengumumkan bahawa Persidangan Yunqi 2024 akan diadakan di Bandar Yunqi, Hangzhou dari 19 hingga 21 September akan ada forum utama selama tiga hari, 400 sub-forum dan topik selari. serta hampir empat Sepuluh ribu meter persegi kawasan pameran. Persidangan Yunqi adalah percuma dan terbuka kepada orang ramai Mulai sekarang, orang ramai boleh memohon tiket percuma melalui laman web rasmi Persidangan Yunqi Tiket semua lulus sebanyak 5,000 yuan. https://yunqi.aliyun.com/2024 /ticket-list Menurut laporan, Persidangan Yunqi bermula pada 2009 dan pada asalnya dinamakan Forum Pembangunan Laman Web China Pertama pada 2011, ia berkembang menjadi Persidangan Pembangun Awan Alibaba pada 2015 , ia secara rasmi dinamakan semula sebagai "Persidangan Yunqi" dan terus berjaya bergerak

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24) Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Pautan projek ditulis di hadapan: https://nianticlabs.github.io/mickey/ Memandangkan dua gambar, pose kamera di antara mereka boleh dianggarkan dengan mewujudkan kesesuaian antara gambar. Biasanya, surat-menyurat ini adalah 2D hingga 2D, dan anggaran pose kami adalah skala-tak tentu. Sesetengah aplikasi, seperti realiti tambahan segera pada bila-bila masa, di mana-mana sahaja, memerlukan anggaran pose metrik skala, jadi mereka bergantung pada penganggar kedalaman luaran untuk memulihkan skala. Makalah ini mencadangkan MicKey, proses pemadanan titik utama yang mampu meramalkan korespondensi metrik dalam ruang kamera 3D. Dengan mempelajari padanan koordinat 3D merentas imej, kami dapat membuat kesimpulan relatif metrik

See all articles