Tafsiran konsep pengesanan sasaran dalam penglihatan komputer
Penjejakan objek ialah tugas penting dalam penglihatan komputer dan digunakan secara meluas dalam pemantauan trafik, robotik, pengimejan perubatan, pengesanan kenderaan automatik dan bidang lain. Ia menggunakan kaedah pembelajaran mendalam untuk meramal atau menganggarkan kedudukan objek sasaran dalam setiap bingkai berturut-turut dalam video selepas menentukan kedudukan awal objek sasaran. Penjejakan objek mempunyai pelbagai aplikasi dalam kehidupan sebenar dan sangat penting dalam bidang penglihatan komputer.
Penjejakan objek biasanya melibatkan proses pengesanan objek. Berikut ialah gambaran ringkas tentang langkah-langkah pengesanan objek:
1. Pengesanan Objek, di mana algoritma mengelaskan dan mengesan objek dengan mencipta kotak sempadan di sekelilingnya.
2. Berikan pengenalan unik (ID) kepada setiap objek.
3. Jejaki pergerakan objek yang dikesan dalam bingkai sambil menyimpan maklumat yang berkaitan.
Jenis penjejakan sasaran
Terdapat dua jenis penjejakan sasaran: penjejakan imej dan penjejakan video.
Penjejakan Imej
Penjejakan imej ialah tugas untuk mengenal pasti dan menjejak imej secara automatik. Terutamanya digunakan dalam bidang realiti tambahan (AR). Sebagai contoh, apabila diberi imej 2D melalui kamera, algoritma mengesan imej satah 2D, yang kemudiannya boleh digunakan untuk menindih objek grafik 3D.
Penjejakan Video
Penjejakan video ialah tugas menjejak objek bergerak dalam video. Idea penjejakan video adalah untuk mengaitkan atau mewujudkan hubungan antara objek sasaran seperti yang muncul dalam setiap bingkai video. Dalam erti kata lain, penjejakan video menganalisis bingkai video secara berurutan dan menggabungkan lokasi masa lalu objek dengan lokasi semasa dengan meramalkan dan mencipta kotak sempadan di sekelilingnya.
Penjejakan video digunakan secara meluas dalam pemantauan lalu lintas, kereta pandu sendiri dan keselamatan kerana ia boleh memproses rakaman secara langsung.
4 Fasa Proses Penjejakan Sasaran
Fasa 1: Permulaan Sasaran
Melibatkan penentuan objek atau sasaran. Digabungkan dengan proses melukis kotak sempadan di sekeliling bingkai awal video. Penjejak kemudiannya mesti menganggarkan atau meramalkan kedudukan objek dalam bingkai yang tinggal semasa melukis kotak sempadan.
Fasa Kedua: Pemodelan Rupa
Pemodelan rupa melibatkan pemodelan rupa visual objek. Apabila objek sasaran melalui pelbagai senario seperti keadaan pencahayaan, sudut, kelajuan, dsb., ia mungkin mengubah rupa objek dan boleh menyebabkan maklumat ralat dan algoritma kehilangan penjejakan objek. Oleh itu, pemodelan rupa adalah perlu supaya algoritma pemodelan dapat menangkap pelbagai perubahan dan herotan yang diperkenalkan apabila objek sasaran bergerak.
Pemodelan rupa terdiri daripada dua bahagian:
- Perwakilan visual: Ia memfokuskan pada membina ciri dan perwakilan yang teguh yang boleh menerangkan objek
- Pemodelan statistik: Ia menggunakan teknik pembelajaran statistik untuk membina model bagi model pengecaman objek secara berkesan.
Fasa 3: Anggaran Pergerakan
Anggaran gerakan biasanya mengekstrapolasi keupayaan ramalan model untuk meramalkan lokasi objek pada masa hadapan dengan tepat.
Fasa 4: Penyetempatan sasaran
Setelah lokasi objek dianggarkan, kita boleh menggunakan model visual untuk mengunci pada lokasi sebenar sasaran.
Tahap Penjejakan Objek
Penjejakan objek boleh ditakrifkan sebagai dua peringkat:
Penjejakan Objek Tunggal (SOT)
Penjejakan Objek Tunggal (SOT) bertujuan untuk menjejaki objek tunggal dan bukannya satu kelas objek. Kadang-kadang dipanggil penjejakan objek visual. Dalam SOT, kotak sempadan objek sasaran ditakrifkan dalam bingkai pertama. Matlamat algoritma ini adalah untuk mencari objek yang sama dalam bingkai yang tinggal.
SOT termasuk dalam kategori pengesanan bebas pengesanan kerana kotak sempadan pertama mesti disediakan secara manual kepada penjejak. Ini bermakna bahawa penjejak objek tunggal harus dapat menjejaki sebarang objek yang diberikan, walaupun objek yang tiada model klasifikasi tersedia untuk latihan.
Penjejakan Objek Berbilang (MOT)
Penjejakan Objek Berbilang (MOT) merujuk kepada kaedah algoritma penjejakan menjejaki setiap objek yang diminati dalam video. Pada mulanya, algoritma penjejakan menentukan bilangan objek dalam setiap bingkai dan kemudian menjejaki identiti setiap objek dari satu bingkai ke bingkai seterusnya sehingga mereka meninggalkan bingkai.
Kaedah penjejakan sasaran berasaskan pembelajaran mendalam
Penjejakan sasaran telah memperkenalkan banyak kaedah untuk meningkatkan ketepatan dan kecekapan model penjejakan. Sesetengah kaedah melibatkan kaedah pembelajaran mesin klasik seperti jiran k-hampir atau mesin vektor sokongan. Di bawah ini kita membincangkan beberapa algoritma pembelajaran mendalam untuk tugas penjejakan sasaran.
MDNet
Algoritma penjejakan sasaran yang dilatih menggunakan data berskala besar. MDNet terdiri daripada pra-latihan dan penjejakan visual dalam talian.
Pra-latihan: Dalam pra-latihan, rangkaian perlu mempelajari perwakilan berbilang domain. Untuk mencapai matlamat ini, algoritma dilatih pada berbilang video beranotasi untuk mempelajari perwakilan dan ciri spatial.
Penjejakan visual dalam talian: Setelah pra-latihan selesai, lapisan khusus domain dialih keluar dan rangkaian hanya tinggal lapisan kongsi yang mengandungi perwakilan yang dipelajari. Semasa inferens, lapisan klasifikasi binari ditambah, yang dilatih atau diperhalusi dalam talian.
Teknik ini menjimatkan masa, dan ia telah terbukti sebagai algoritma penjejakan berasaskan dalam talian yang berkesan.
GOTURN
Rangkaian regresi mendalam ialah model berdasarkan latihan luar talian. Algoritma mempelajari hubungan umum antara gerakan objek dan rupa dan boleh digunakan untuk menjejak objek yang tidak muncul dalam set latihan.
Penjejakan Objek Universal menggunakan Rangkaian Regresi atau GOTURN menggunakan kaedah berasaskan regresi untuk menjejak objek. Pada asasnya, mereka mundur terus untuk mencari objek sasaran dalam hanya satu laluan suapan hadapan melalui rangkaian. Rangkaian menerima dua input: kawasan carian bingkai semasa dan sasaran bingkai sebelumnya. Rangkaian kemudian membandingkan imej ini untuk mencari objek sasaran dalam imej semasa.
ROLO
ROLO ialah gabungan rangkaian saraf berulang dan YOLO. Secara amnya, LSTM lebih sesuai digunakan bersama dengan CNN.
ROLO menggabungkan dua rangkaian saraf: satu ialah CNN, digunakan untuk mengekstrak maklumat spatial; satu lagi ialah rangkaian LSTM, digunakan untuk mencari trajektori objek sasaran. Pada setiap langkah masa, maklumat spatial diekstrak dan dihantar ke LSTM, yang kemudiannya mengembalikan lokasi objek yang dijejaki.
DeepSORT
DeepSORT ialah salah satu algoritma penjejakan sasaran yang paling popular dan ia merupakan lanjutan daripada SORT.
SORT ialah algoritma penjejakan berasaskan dalam talian yang menggunakan penapis Kalman untuk menganggarkan kedudukan objek berdasarkan kedudukan sebelumnya. Penapis Kalman sangat berkesan terhadap oklusi.
Selepas memahami SORT, kami boleh menggabungkan teknologi pembelajaran mendalam untuk meningkatkan algoritma SORT. Rangkaian saraf dalam membolehkan SORT menganggarkan lokasi objek dengan lebih ketepatan kerana rangkaian ini kini boleh menerangkan ciri-ciri imej sasaran.
SiamMask
direka untuk menambah baik proses latihan luar talian rangkaian Siam konvolusi sepenuhnya. Rangkaian Siam menerima dua input: imej terpotong dan imej carian yang lebih besar untuk mendapatkan perwakilan ciri spatial yang padat.
Rangkaian Siam menghasilkan output yang mengukur persamaan dua imej input dan menentukan sama ada objek yang sama terdapat dalam kedua-dua imej. Dengan meningkatkan kerugian menggunakan tugas pembahagian binari, rangka kerja ini sangat berkesan untuk penjejakan objek.
JDE
JDE ialah pengesan tembakan tunggal yang direka untuk menyelesaikan masalah pembelajaran berbilang tugas. JDE mempelajari pengesanan objek dan pembenaman penampilan dalam model kongsi.
JDE menggunakan Darknet-53 sebagai tulang belakang untuk mendapatkan perwakilan ciri pada setiap lapisan. Perwakilan ciri ini kemudiannya digabungkan menggunakan pensampelan naik dan sambungan baki. Pengepala ramalan kemudiannya dilampirkan di atas perwakilan ciri bercantum, menghasilkan peta ramalan yang padat. Untuk melaksanakan penjejakan objek, JDE menjana kelas kotak sempadan dan benam penampilan daripada kepala ramalan. Benam penampilan ini dibandingkan dengan benam objek yang dikesan sebelum ini menggunakan matriks perkaitan.
Tracktor++
Tracktor++ ialah algoritma penjejakan dalam talian. Ia menggunakan kaedah pengesanan objek untuk melaksanakan pengesanan dengan melatih rangkaian saraf hanya pada tugas pengesanan. Pada asasnya meramalkan lokasi objek dalam bingkai seterusnya dengan mengira regresi kotak sempadan. Ia tidak melakukan sebarang latihan atau pengoptimuman pada data penjejakan.
Pengesan objek Tracktor++ biasanya R-CNN yang Lebih Pantas dengan 101 lapisan ResNet dan FPN. Ia menggunakan cabang regresi Faster R-CNN untuk mengekstrak ciri daripada bingkai semasa.
Atas ialah kandungan terperinci Tafsiran konsep pengesanan sasaran dalam penglihatan komputer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Pengesanan objek adalah tugas penting dalam bidang penglihatan komputer, digunakan untuk mengenal pasti objek dalam imej atau video dan mencari lokasinya. Tugasan ini biasanya dibahagikan kepada dua kategori algoritma, satu peringkat dan dua peringkat, yang berbeza dari segi ketepatan dan keteguhan. Algoritma pengesanan sasaran satu peringkat Algoritma pengesanan sasaran satu peringkat menukarkan pengesanan sasaran kepada masalah klasifikasi Kelebihannya ialah ia pantas dan boleh menyelesaikan pengesanan hanya dalam satu langkah. Walau bagaimanapun, disebabkan terlalu memudahkan, ketepatan biasanya tidak sebaik algoritma pengesanan objek dua peringkat. Algoritma pengesanan sasaran satu peringkat biasa termasuk YOLO, SSD dan FasterR-CNN. Algoritma ini biasanya mengambil keseluruhan imej sebagai input dan menjalankan pengelas untuk mengenal pasti objek sasaran. Tidak seperti algoritma pengesanan sasaran dua peringkat tradisional, mereka tidak perlu menentukan kawasan terlebih dahulu, tetapi meramalkan secara langsung

Pemulihan foto lama ialah kaedah menggunakan teknologi kecerdasan buatan untuk membaiki, menambah baik dan menambah baik foto lama. Menggunakan penglihatan komputer dan algoritma pembelajaran mesin, teknologi ini secara automatik boleh mengenal pasti dan membaiki kerosakan dan kecacatan pada foto lama, menjadikannya kelihatan lebih jelas, lebih semula jadi dan lebih realistik. Prinsip teknikal pemulihan foto lama terutamanya merangkumi aspek-aspek berikut: 1. Penyahnosian dan penambahbaikan imej Apabila memulihkan foto lama, foto itu perlu dibunyikan dan dipertingkatkan terlebih dahulu. Algoritma dan penapis pemprosesan imej, seperti penapisan min, penapisan Gaussian, penapisan dua hala, dsb., boleh digunakan untuk menyelesaikan masalah bunyi dan bintik warna, dengan itu meningkatkan kualiti foto. 2. Pemulihan dan pembaikan imej Dalam foto lama, mungkin terdapat beberapa kecacatan dan kerosakan, seperti calar, retak, pudar, dsb. Masalah ini boleh diselesaikan dengan algoritma pemulihan dan pembaikan imej

Pembinaan semula imej resolusi super ialah proses menjana imej resolusi tinggi daripada imej resolusi rendah menggunakan teknik pembelajaran mendalam seperti rangkaian neural convolutional (CNN) dan rangkaian adversarial generatif (GAN). Matlamat kaedah ini adalah untuk meningkatkan kualiti dan perincian imej dengan menukar imej resolusi rendah kepada imej resolusi tinggi. Teknologi ini mempunyai aplikasi yang luas dalam banyak bidang, seperti pengimejan perubatan, kamera pengawasan, imej satelit, dsb. Melalui pembinaan semula imej resolusi super, kami boleh mendapatkan imej yang lebih jelas dan terperinci, membantu menganalisis dan mengenal pasti sasaran dan ciri dalam imej dengan lebih tepat. Kaedah pembinaan semula Kaedah pembinaan semula imej resolusi super secara amnya boleh dibahagikan kepada dua kategori: kaedah berasaskan interpolasi dan kaedah berasaskan pembelajaran mendalam. 1) Kaedah berasaskan interpolasi Pembinaan semula imej resolusi super berdasarkan interpolasi

Algoritma Scale Invariant Feature Transform (SIFT) ialah algoritma pengekstrakan ciri yang digunakan dalam bidang pemprosesan imej dan penglihatan komputer. Algoritma ini telah dicadangkan pada tahun 1999 untuk meningkatkan pengecaman objek dan prestasi pemadanan dalam sistem penglihatan komputer. Algoritma SIFT adalah teguh dan tepat dan digunakan secara meluas dalam pengecaman imej, pembinaan semula tiga dimensi, pengesanan sasaran, penjejakan video dan medan lain. Ia mencapai invarian skala dengan mengesan titik utama dalam ruang skala berbilang dan mengekstrak deskriptor ciri tempatan di sekitar titik utama. Langkah-langkah utama algoritma SIFT termasuk pembinaan ruang skala, pengesanan titik utama, kedudukan titik utama, penetapan arah dan penjanaan deskriptor ciri. Melalui langkah-langkah ini, algoritma SIFT boleh mengekstrak ciri yang teguh dan unik, dengan itu mencapai pemprosesan imej yang cekap.

Penjejakan objek ialah tugas penting dalam penglihatan komputer dan digunakan secara meluas dalam pemantauan trafik, robotik, pengimejan perubatan, pengesanan kenderaan automatik dan bidang lain. Ia menggunakan kaedah pembelajaran mendalam untuk meramal atau menganggarkan kedudukan objek sasaran dalam setiap bingkai berturut-turut dalam video selepas menentukan kedudukan awal objek sasaran. Penjejakan objek mempunyai pelbagai aplikasi dalam kehidupan sebenar dan sangat penting dalam bidang penglihatan komputer. Penjejakan objek biasanya melibatkan proses pengesanan objek. Berikut ialah gambaran ringkas tentang langkah-langkah pengesanan objek: 1. Pengesanan objek, di mana algoritma mengelaskan dan mengesan objek dengan mencipta kotak sempadan di sekelilingnya. 2. Berikan pengenalan unik (ID) kepada setiap objek. 3. Jejaki pergerakan objek yang dikesan dalam bingkai sambil menyimpan maklumat yang berkaitan. Jenis Sasaran Penjejakan Sasaran

Dalam bidang pembelajaran mesin dan penglihatan komputer, anotasi imej ialah proses menggunakan anotasi manusia pada set data imej. Kaedah anotasi imej boleh dibahagikan terutamanya kepada dua kategori: anotasi manual dan anotasi automatik. Anotasi manual bermaksud anotasi manusia menganotasi imej melalui operasi manual. Kaedah ini memerlukan anotasi manusia untuk mempunyai pengetahuan dan pengalaman profesional serta dapat mengenal pasti dan menganotasi objek sasaran, adegan atau ciri dalam imej dengan tepat. Kelebihan anotasi manual ialah hasil anotasi boleh dipercayai dan tepat, tetapi kelemahannya ialah ia memakan masa dan kos yang tinggi. Anotasi automatik merujuk kepada kaedah menggunakan program komputer untuk menganotasi imej secara automatik. Kaedah ini menggunakan pembelajaran mesin dan teknologi penglihatan komputer untuk mencapai anotasi automatik oleh model latihan. Kelebihan pelabelan automatik adalah kelajuan pantas dan kos rendah, tetapi kelemahannya ialah keputusan pelabelan mungkin tidak tepat.

Pembelajaran mendalam telah mencapai kejayaan besar dalam bidang penglihatan komputer, dan salah satu kemajuan penting ialah penggunaan rangkaian neural convolutional dalam (CNN) untuk klasifikasi imej. Walau bagaimanapun, CNN dalam biasanya memerlukan sejumlah besar data berlabel dan sumber pengkomputeran. Untuk mengurangkan permintaan untuk sumber pengiraan dan data berlabel, penyelidik mula mengkaji cara menggabungkan ciri cetek dan ciri mendalam untuk meningkatkan prestasi klasifikasi imej. Kaedah gabungan ini boleh mengambil kesempatan daripada kecekapan pengiraan yang tinggi bagi ciri cetek dan keupayaan perwakilan yang kuat bagi ciri mendalam. Dengan menggabungkan kedua-duanya, kos pengiraan dan keperluan pelabelan data boleh dikurangkan sambil mengekalkan ketepatan klasifikasi yang tinggi. Kaedah ini amat penting untuk senario aplikasi di mana jumlah data adalah kecil atau sumber pengkomputeran adalah terhad. Dengan kajian mendalam tentang kaedah gabungan ciri cetek dan ciri mendalam, kita boleh lebih lanjut

Embedding ialah model pembelajaran mesin yang digunakan secara meluas dalam bidang seperti pemprosesan bahasa semula jadi (NLP) dan penglihatan komputer (CV). Fungsi utamanya adalah untuk mengubah data berdimensi tinggi kepada ruang benam berdimensi rendah sambil mengekalkan ciri dan maklumat semantik data asal, dengan itu meningkatkan kecekapan dan ketepatan model. Model terbenam boleh memetakan data yang serupa dengan ruang benam yang serupa dengan mempelajari korelasi antara data, supaya model dapat memahami dan memproses data dengan lebih baik. Prinsip model terbenam adalah berdasarkan idea perwakilan yang diedarkan, yang mengodkan maklumat semantik data ke dalam ruang vektor dengan mewakili setiap titik data sebagai vektor. Kelebihan ini ialah anda boleh memanfaatkan sifat ruang vektor Sebagai contoh, jarak antara vektor boleh
