Pembelajaran penyeliaan kendiri multimodal: meneroka fungsi objektif, penjajaran data dan seni bina model - mengambil ulasan terbaru Edinburgh sebagai contoh-AI-php.cn

Jadual Kandungan

1. Pengenalan

2. Pengetahuan latar belakang

3. Fungsi objektif

Rumah

Peranti teknologi

Pembelajaran penyeliaan kendiri multimodal: meneroka fungsi objektif, penjajaran data dan seni bina model - mengambil ulasan terbaru Edinburgh sebagai contoh

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 26, 2023 am 10:04 AM

Model

Pembelajaran pelbagai mod bertujuan untuk memahami dan menganalisis maklumat daripada pelbagai modaliti, dan kemajuan besar telah dicapai dalam mekanisme penyeliaan dalam beberapa tahun kebelakangan ini.

Walau bagaimanapun, pergantungan berat pada data ditambah dengan anotasi manual yang mahal menghalang penskalaan model. Pada masa yang sama, memandangkan ketersediaan data tidak berlabel berskala besar di dunia nyata, pembelajaran penyeliaan kendiri telah menjadi strategi menarik untuk mengurangkan kesesakan pelabelan.

Berdasarkan dua arah ini, pembelajaran multimodal penyeliaan sendiri (SSML) menyediakan kaedah untuk mengeksploitasi penyeliaan daripada data multimodal asal.

Pembelajaran penyeliaan kendiri multimodal: meneroka fungsi objektif, penjajaran data dan seni bina model - mengambil ulasan terbaru Edinburgh sebagai contoh

Alamat kertas: https ://arxiv.org/abs/2304.01008

Alamat projek: https://github. com/ys-zong/wesome-self-supervised-multimodal-learning

Dalam semakan ini, kami menyediakan semakan menyeluruh tentang keadaan-keadaan- teknik seni untuk SSML , kami mengklasifikasikan sepanjang tiga paksi ortogon: fungsi objektif, penjajaran data dan seni bina model. Paksi ini sepadan dengan ciri-ciri yang wujud kaedah pembelajaran penyeliaan sendiri dan data berbilang modal.

Secara khusus, kami membahagikan objektif latihan ke dalam kategori diskriminasi contoh, pengelompokan dan ramalan topeng. Kami juga membincangkan strategi berpasangan dan penjajaran data input berbilang mod semasa latihan. Akhir sekali, seni bina model disemak, termasuk reka bentuk pengekod, modul gabungan dan penyahkod, yang merupakan komponen penting kaedah SSML.

Menyemak tugasan aplikasi berbilang mod hiliran, melaporkan prestasi khusus model teks imej imej dan model video berbilang modal hiliran, dan juga menyemak SSML algoritma dalam bidang yang berbeza Aplikasi praktikal seperti penjagaan kesihatan, penderiaan jauh dan terjemahan mesin. Akhir sekali, cabaran dan hala tuju masa depan SSML dibincangkan.

1. Pengenalan

Manusia melihat dunia melalui pelbagai deria, termasuk penglihatan, pendengaran, sentuhan dan bau. Kami memperoleh pemahaman menyeluruh tentang persekitaran kami dengan memanfaatkan maklumat pelengkap daripada setiap modaliti. Penyelidikan AI telah tertumpu pada membangunkan ejen pintar yang meniru tingkah laku manusia dan memahami dunia dengan cara yang sama. Untuk tujuan ini, bidang pembelajaran mesin multimodal [1], [2] bertujuan untuk membangunkan model yang mampu memproses dan menyepadukan data daripada pelbagai modaliti yang berbeza. Dalam tahun-tahun kebelakangan ini, pembelajaran multimodal telah mencapai kemajuan yang ketara, membawa kepada satu siri aplikasi dalam pembelajaran visual dan bahasa [3], pemahaman video [4], [5], bioperubatan [6], pemanduan autonomi [7] dan bidang lain. Secara lebih asas, pembelajaran multimodal memajukan masalah asas yang telah lama wujud dalam kecerdasan buatan [8], membawa kita lebih dekat kepada kecerdasan buatan yang lebih umum.

Walau bagaimanapun, algoritma berbilang modal selalunya masih memerlukan anotasi manual yang mahal untuk latihan yang berkesan, yang menghalang pengembangannya. Baru-baru ini, pembelajaran penyeliaan kendiri (SSL) [9], [10] telah mula mengurangkan masalah ini dengan menjana penyeliaan daripada data beranotasi yang sedia ada. Penyeliaan kendiri dalam pembelajaran mod tunggal ditakrifkan dengan jelas dan hanya bergantung pada objektif latihan dan sama ada anotasi manusia digunakan untuk penyeliaan. Namun, dalam konteks pembelajaran multimodal, definisinya lebih bernuansa. Dalam pembelajaran multimodal, satu modaliti sering bertindak sebagai isyarat penyeliaan untuk modaliti yang lain. Dari segi matlamat penskalaan ke atas dengan menghapuskan kesesakan anotasi manual, isu utama dalam menentukan skop penyeliaan diri ialah sama ada gandingan rentas mod diperoleh secara bebas.

Pembelajaran multimodal penyeliaan kendiri (SSML) meningkatkan keupayaan model berbilang mod dengan ketara dengan memanfaatkan data berbilang mod yang tersedia secara percuma dan objektif penyeliaan sendiri. Dalam semakan ini, kami menyemak algoritma SSML dan aplikasinya. Kami menguraikan pelbagai kaedah di sepanjang tiga paksi ortogon: fungsi objektif, penjajaran data dan seni bina model. Paksi ini sepadan dengan ciri algoritma pembelajaran yang diselia sendiri dan pertimbangan khusus yang diperlukan untuk data berbilang mod. Rajah 1 memberikan gambaran keseluruhan taksonomi yang dicadangkan. Berdasarkan pra-tugas, kami membahagikan objektif latihan kepada kategori diskriminasi contoh, pengelompokan dan ramalan topeng. Pendekatan hibrid yang menggabungkan dua atau lebih pendekatan ini juga dibincangkan.

Unik kepada penyeliaan diri pelbagai mod ialah masalah gandingan data berbilang modal. Gandingan, atau lebih umum penjajaran, antara modaliti boleh dieksploitasi oleh algoritma SSML sebagai input (cth. apabila satu modaliti digunakan untuk menyediakan penyeliaan untuk yang lain), tetapi juga sebagai output (cth., belajar daripada data tidak berpasangan dan mendorong gandingan sebagai hasil sampingan). Kami membincangkan peranan penjajaran yang berbeza pada tahap berbutir kasar yang sering diandaikan tersedia secara bebas dalam penyeliaan diri berbilang mod (cth., imej dan kapsyen yang dirangkak web [11]); , surat-menyurat antara kata tajuk dan tampalan imej [12]). Selain itu, kami meneroka persimpangan fungsi objektif dan andaian penjajaran data.

juga menganalisis reka bentuk seni bina model SSML kontemporari. Secara khususnya, kami mempertimbangkan ruang reka bentuk modul pengekod dan gabungan, membandingkan pengekod khusus mod (tanpa gabungan atau gabungan lewat) dan pengekod bersatu dengan gabungan awal. Kami juga mengkaji seni bina dengan reka bentuk penyahkod khusus dan membincangkan kesan pilihan reka bentuk ini.

Akhir sekali, aplikasi algoritma ini dalam pelbagai bidang dunia nyata, termasuk penjagaan kesihatan, penderiaan jauh, terjemahan mesin, dll., dibincangkan dan cabaran teknikal dan kesan sosial SSML dibincangkan secara mendalam, menunjukkan arah penyelidikan masa depan yang berpotensi. Kami meringkaskan kemajuan terkini dalam kaedah, set data dan pelaksanaan untuk menyediakan titik permulaan kepada penyelidik dan pengamal dalam bidang tersebut.

Kertas semakan sedia ada sama ada hanya tertumpu pada pembelajaran pelbagai mod yang diselia [1], [2], [13], [14], atau modaliti tunggal Pembelajaran penyeliaan kendiri [9], [10], [15], atau sub-kawasan tertentu SSL seperti latihan pra-linguistik visual [16]. Semakan yang paling relevan ialah [17], tetapi ia lebih memfokuskan pada data temporal dan mengabaikan pertimbangan utama penyeliaan diri berbilang mod bagi penjajaran dan seni bina. Sebaliknya, kami menyediakan gambaran keseluruhan yang komprehensif dan terkini bagi algoritma SSML dan menyediakan taksonomi baharu yang meliputi algoritma, data dan seni bina.

Pembelajaran penyeliaan kendiri multimodal: meneroka fungsi objektif, penjajaran data dan seni bina model - mengambil ulasan terbaru Edinburgh sebagai contoh

2. Pengetahuan latar belakang

Penyeliaan kendiri dalam pembelajaran pelbagai mod

Kami mula-mula menerangkan skop SSML yang dipertimbangkan dalam tinjauan ini, kerana istilah ini telah digunakan secara tidak konsisten dalam literatur terdahulu. Mentakrifkan penyeliaan diri dalam konteks mod tunggal adalah lebih mudah dengan menggunakan sifat bebas label bagi tugas dalih yang berbeza, contohnya, diskriminasi contoh yang terkenal [20] atau sasaran ramalan bertopeng [21] melaksanakan penyeliaan diri. Sebaliknya, situasi dalam pembelajaran multimodal adalah lebih rumit kerana peranan modaliti dan label menjadi kabur. Sebagai contoh, dalam kapsyen imej yang diselia [22], teks biasanya dianggap sebagai label, tetapi dalam pembelajaran visual dan perwakilan bahasa berbilang mod yang diselia sendiri [11], teks dianggap sebagai modaliti input.

Dalam konteks multimodal, istilah penyeliaan kendiri telah digunakan untuk merujuk kepada sekurang-kurangnya empat situasi: (1) Pembelajaran tanpa label daripada data multimodal yang dipasangkan secara automatik— — seperti filem dengan trek video dan audio [23], atau data imej dan kedalaman daripada kamera RGBD [24]. (2) Belajar daripada data berbilang modal, di mana satu modaliti telah diberi anotasi secara manual, atau dua modaliti telah dipasangkan secara manual, tetapi anotasi ini telah dibuat untuk tujuan yang berbeza, dan oleh itu boleh dianggap percuma untuk latihan pra SSML. Sebagai contoh, pasangan kapsyen imej yang dipadankan yang dikikis daripada web, seperti yang digunakan dalam CLIP mani [11], sebenarnya merupakan contoh pembelajaran metrik diselia [25], [26] di mana pasangan itu diawasi. Walau bagaimanapun, memandangkan kedua-dua corak dan gandingan tersedia secara bebas pada skala, ia sering digambarkan sebagai diselia sendiri. Data yang dicipta secara kebetulan ini selalunya mempunyai kualiti yang lebih rendah dan lebih bising daripada set data yang dipilih susun khas seperti COCO [22] dan Genom Visual [27]. (3) Belajar daripada data berbilang modal beranotasi tujuan berkualiti tinggi (cth., imej kapsyen manual dalam COCO [22]), tetapi dengan objektif gaya yang diselia sendiri seperti Pixel-BERT [28]. (4) Akhir sekali, terdapat kaedah "seliaan sendiri" yang menggunakan campuran data berbilang modal percuma dan dilabel secara manual [29], [30]. Untuk tujuan penyiasatan ini, kami mengikuti idea penyeliaan diri dan bertujuan untuk meningkatkan dengan memecahkan kesesakan anotasi manual. Oleh itu, kami memasukkan dua kategori pertama dan kategori keempat kaedah dari segi dapat melatih data yang tersedia secara percuma. Kami mengecualikan kaedah yang ditunjukkan hanya untuk set data susun atur secara manual kerana kaedah tersebut menggunakan objektif "penyeliaan diri" biasa pada set data susun atur (cth., ramalan bertopeng).

Pembelajaran penyeliaan kendiri multimodal: meneroka fungsi objektif, penjajaran data dan seni bina model - mengambil ulasan terbaru Edinburgh sebagai contoh

(a) Pembelajaran pelbagai mod diselia dan (b) penyeliaan kendiri Paradigma pembelajaran pembelajaran pelbagai mod: pra-latihan penyeliaan kendiri tanpa anotasi manual (atas); menyelia dan memperhalusi tugas hiliran (bawah).

3. Fungsi objektif

Dalam bahagian ini, kami akan memperkenalkan fungsi objektif yang digunakan untuk melatih tiga jenis algoritma berbilang modal yang diselia sendiri: contoh ramalan diskriminasi, pengelompokan dan penyamaran. Akhirnya kami juga membincangkan sasaran hibrid.

3.1 Diskriminasi contoh

Dalam pembelajaran mod tunggal, diskriminasi contoh (ID) menukar data asal kepada Setiap instance in dianggap sebagai kelas yang berasingan, dan model dilatih untuk membezakan antara kejadian yang berbeza. Dalam konteks pembelajaran multimodal, diskriminasi contoh biasanya bertujuan untuk menentukan sama ada sampel daripada dua modaliti input adalah daripada contoh yang sama, iaitu, berpasangan. Dengan berbuat demikian, ia cuba untuk menyelaraskan ruang perwakilan pasangan corak sambil menolak ruang perwakilan pasangan kejadian yang berbeza jauh. Terdapat dua jenis matlamat pengecaman contoh: ramalan kontrastif dan ramalan padanan, bergantung pada cara input disampel.

Pembelajaran penyeliaan kendiri multimodal: meneroka fungsi objektif, penjajaran data dan seni bina model - mengambil ulasan terbaru Edinburgh sebagai contoh

3.2 Pengelompokan

Kaedah pengelompokan menganggap bahawa End- terlatih pengelompokan hingga akhir akan menghasilkan pengumpulan data berdasarkan ciri yang menonjol secara semantik. Dalam amalan, kaedah ini secara berulang meramalkan penugasan kelompok perwakilan yang dikodkan dan menggunakan ramalan ini (juga dipanggil label pseudo) sebagai isyarat penyeliaan untuk mengemas kini perwakilan ciri. Pengelompokan multimodal memberi peluang untuk mempelajari perwakilan berbilang mod dan juga menambah baik pengelompokan tradisional dengan menyelia modaliti lain menggunakan label pseudo untuk setiap modaliti.

3.3 Ramalan topeng

Tugas ramalan topeng boleh menggunakan pengekodan automatik (serupa dengan BERT [101]) atau kaedah regresi automatik (serupa dengan GPT [102]) untuk dilaksanakan.

Pembelajaran penyeliaan kendiri multimodal: meneroka fungsi objektif, penjajaran data dan seni bina model - mengambil ulasan terbaru Edinburgh sebagai contoh

Atas ialah kandungan terperinci Pembelajaran penyeliaan kendiri multimodal: meneroka fungsi objektif, penjajaran data dan seni bina model - mengambil ulasan terbaru Edinburgh sebagai contoh. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7493

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Kerja baharu pada ramalan siri masa + model besar NLP: secara automatik menjana gesaan tersirat untuk ramalan siri masa Mar 18, 2024 am 09:20 AM

Hari ini saya ingin berkongsi kerja penyelidikan terbaru dari University of Connecticut yang mencadangkan kaedah untuk menyelaraskan data siri masa dengan model pemprosesan bahasa semula jadi (NLP) yang besar pada ruang terpendam untuk meningkatkan prestasi peramalan siri masa. Kunci kepada kaedah ini ialah menggunakan petunjuk spatial terpendam (prompt) untuk meningkatkan ketepatan ramalan siri masa. Tajuk kertas: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Alamat muat turun: https://arxiv.org/pdf/2403.05798v1.pdf 1. Model latar belakang masalah besar

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

See all articles