


Di manakah 'kecerdasan yang terkandung' yang difokuskan oleh Li Feifei telah sampai?
Pada tahun 2009, Li Feifei, seorang saintis komputer yang bekerja di Universiti Princeton pada masa itu, mengetuai pembinaan set data yang mengubah sejarah kecerdasan buatan - ImageNet. Ia mengandungi berjuta-juta imej berlabel yang boleh digunakan untuk melatih model pembelajaran mesin yang kompleks untuk mengecam objek dalam imej.
Pada tahun 2015, mesin mengatasi manusia dalam keupayaan pengecaman. Li Feifei tidak lama kemudian beralih kepada matlamat baharu, mencari apa yang dipanggilnya "Bintang Utara" yang lain ("Polaris" di sini merujuk kepada masalah saintifik utama yang difokuskan oleh penyelidik untuk menyelesaikannya, yang boleh membangkitkan semangat Penyelidikan mereka dan membuat kemajuan terobosan).
Dia menemui ilham dengan melihat ke belakang 530 juta tahun ke ledakan kehidupan Kambrium, apabila banyak spesies haiwan darat mula-mula muncul. Satu teori yang berpengaruh mencadangkan bahawa letupan spesies baru didorong sebahagiannya oleh kemunculan mata, yang membolehkan makhluk melihat dunia di sekeliling mereka buat kali pertama. Li Feifei percaya bahawa penglihatan haiwan tidak berlaku secara berasingan, tetapi "tertanam secara mendalam dalam keseluruhan yang perlu bergerak, mengemudi, bertahan, memanipulasi dan berubah dalam persekitaran yang cepat berubah," katanya, "jadi saya Ia adalah lumrah untuk berpaling. kepada bidang AI yang lebih aktif. dunia maya tiga dimensi dan berinteraksi dengan persekitaran sekeliling.
Ini ialah matlamat luas bidang baharu yang dipanggil "AI yang terkandung." Ia bertindih dengan robotik kerana robot boleh dilihat sebagai persamaan fizikal bagi ejen AI yang terkandung dan pembelajaran pengukuhan di dunia nyata. Li Feifei dan yang lain percaya bahawa AI yang terkandung mungkin membawa kita satu transformasi besar, daripada keupayaan pembelajaran mesin yang mudah seperti mengecam imej, kepada mempelajari cara melaksanakan tugasan seperti manusia yang kompleks melalui pelbagai langkah, seperti membuat nasi goreng. Telur gulung.
Interaktiviti ini memberi ejen cara baharu—dan dalam banyak kes lebih baik—untuk memahami dunia. Ini bersamaan dengan fakta bahawa sebelum ini anda hanya memerhatikan kemungkinan hubungan antara dua objek, tetapi kini anda boleh mencuba dan membuat hubungan ini berlaku sendiri. Dengan pemahaman baru ini, idea dipraktikkan dan kebijaksanaan yang lebih besar akan menyusul. Dengan set dunia maya baharu dan berjalan, ejen AI yang terkandung telah mula menyedari potensi ini, membuat kemajuan ketara dalam persekitaran baharu mereka.
"Buat masa ini, kami tidak mempunyai sebarang bukti untuk kecerdasan yang tidak belajar dengan berinteraksi dengan dunia," kata penyelidik AI yang terkandung dalam Viviane Clay dari Universiti Osnebrück di Jerman. Ke arah simulasi yang sempurnaWalaupun penyelidik telah lama ingin mencipta dunia maya sebenar untuk diterokai oleh ejen AI, mereka hanya dicipta selama kira-kira lima tahun. Keupayaan ini datang daripada penambahbaikan dalam grafik dalam industri filem dan permainan video. Pada 2017, ejen AI boleh menggambarkan ruang dalaman secara realistik seolah-olah mereka berada di dalam rumah—"rumah" maya tetapi literal. Para saintis komputer di Institut Allen untuk Kepintaran Buatan membina simulator yang dipanggil AI2-Thor yang membolehkan ejen berkeliaran di sekitar dapur semula jadi, bilik mandi, ruang tamu dan bilik tidur. Ejen boleh mempelajari pandangan tiga dimensi yang berubah semasa mereka bergerak, dengan simulator menunjukkan sudut baharu apabila mereka memutuskan untuk melihat dengan lebih dekat. Dunia baharu ini juga memberi peluang kepada ejen untuk memikirkan perubahan dalam "masa" dimensi baharu. "Itu satu perubahan besar," kata Manolis Savva, penyelidik grafik komputer di Universiti Simon Fraser "Dalam tetapan AI yang terkandung, anda mempunyai aliran maklumat yang koheren secara sementara yang boleh anda kawal." kini cukup baik untuk melatih ejen untuk menyelesaikan tugasan baharu sepenuhnya. Bukan sahaja mereka boleh mengecam objek, mereka boleh berinteraksi dengannya, mengambilnya dan mengemudi di sekelilingnya. Langkah-langkah yang kelihatan kecil ini diperlukan untuk mana-mana ejen memahami persekitarannya. Pada tahun 2020, ejen maya mempunyai keupayaan untuk melampaui penglihatan dan mendengar bunyi yang dibuat oleh benda maya, memberikan perspektif baharu tentang memahami objek dan cara ia beroperasi di dunia. Ejen AI termaktub yang boleh berjalan dalam dunia maya (persekitaran ManipulaTHOR) belajar dengan cara yang berbeza dan mungkin lebih sesuai untuk Tugasan yang lebih kompleks seperti manusia .Walau bagaimanapun, simulator juga mempunyai batasannya sendiri. "Malah simulator terbaik adalah jauh kurang realistik daripada dunia sebenar," kata Daniel Yamins, seorang saintis komputer di Universiti Stanford. Yamins membangunkan bersama ThreeDWorld dengan rakan sekerja di MIT dan IBM, sebuah projek yang memfokuskan pada simulasi fizik kehidupan sebenar dalam dunia maya, seperti gelagat cecair dan bagaimana sesetengah objek tegar di satu kawasan dan tegar di kawasan yang lain .
Ini adalah tugas yang sangat mencabar yang memerlukan AI untuk belajar dengan cara baharu.
Bandingkan dengan Rangkaian Neural
Cara mudah untuk mengukur kemajuan AI yang terkandung setakat ini ialah membandingkan prestasi ejen yang terkandung dengan mereka yang dilatih pada algoritma tugas imej statik yang lebih mudah untuk perbandingan. Perbandingan itu tidak sempurna, kata para penyelidik, tetapi keputusan awal menunjukkan bahawa AI yang terkandung belajar secara berbeza dan kadangkala lebih baik daripada pendahulunya.
Dalam kertas kerja baru-baru ini ("Interactron: Embodied Adaptive Object Detection"), penyelidik mendapati bahawa ejen AI yang terkandung adalah lebih tepat dalam mengesan objek tertentu, hampir 12% lebih baik daripada kaedah tradisional . "Ia mengambil masa lebih daripada tiga tahun untuk bidang pengesanan objek untuk mencapai tahap peningkatan ini," kata pengarang bersama kajian Roozbeh Mottaghi, seorang saintis komputer di Institut Allen untuk Kepintaran Buatan "Dan kami telah mencapai begitu banyak hanya dengan berinteraksi dengan dunia. "
Makalah lain telah menunjukkan bahawa apabila anda mengambil bentuk AI yang diwujudkan dan meminta mereka meneroka ruang maya atau berjalan-jalan untuk mengumpul berbilang paparan objek, algoritma Majulah.
Penyelidik juga mendapati bahawa algoritma yang terkandung belajar sama sekali berbeza daripada algoritma tradisional. Untuk menunjukkan ini, pertimbangkan rangkaian saraf, bahan asas di sebalik keupayaan pembelajaran setiap algoritma yang terkandung dan banyak algoritma tanpa badan. Rangkaian saraf terdiri daripada banyak lapisan nod neuron buatan yang disambungkan dan dimodelkan secara longgar mengikut rangkaian dalam otak manusia. Dalam dua kertas yang berasingan, penyelidik mendapati bahawa lebih sedikit neuron bertindak balas kepada maklumat visual dalam rangkaian saraf agen yang terkandung, bermakna setiap neuron individu lebih selektif dalam cara ia bertindak balas. Rangkaian tanpa badan adalah kurang cekap, memerlukan lebih banyak neuron untuk kekal aktif pada kebanyakan masa. Satu pasukan penyelidik (diketuai oleh profesor NYU yang akan datang, Grace Lindsay) malah membandingkan rangkaian neural yang diwujudkan dan yang tidak diwujudkan dengan aktiviti neuron dalam otak yang hidup (korteks visual tikus) dan mendapati bahawa rangkaian neural yang terkandung Internet adalah perkara yang paling hampir dengan kehidupan. badan.
Lindsay dengan cepat menyatakan bahawa ini tidak semestinya bermakna versi yang terkandung adalah lebih baik, ia hanya berbeza. Tidak seperti kertas pengesanan objek, kajian Lindsay et al. membandingkan potensi perbezaan rangkaian saraf yang sama, membolehkan ejen menyelesaikan tugas yang sama sekali berbeza, jadi mereka mungkin memerlukan rangkaian saraf yang berfungsi secara berbeza untuk mencapai matlamat mereka.
Walaupun membandingkan rangkaian neural yang terkandung dengan rangkaian neural yang tidak terkandung adalah satu cara untuk mengukur penambahbaikan, perkara yang benar-benar ingin dilakukan oleh penyelidik adalah tidak meningkatkan prestasi ejen yang terkandung pada tugasan sedia ada, matlamat sebenar mereka adalah untuk mempelajari lebih kompleks , lebih banyak tugas seperti manusia. Inilah yang paling menggembirakan penyelidik, dan mereka melihat kemajuan yang mengagumkan, terutamanya dalam tugas navigasi. Dalam tugasan ini, ejen mesti mengingati matlamat jangka panjang destinasinya sambil merangka rancangan untuk ke sana tanpa tersesat atau terlanggar objek.
Hanya dalam beberapa tahun, pasukan yang diketuai oleh Dhruv Batra, pengarah penyelidikan di Meta AI dan saintis komputer di Institut Teknologi Georgia, telah mengusahakan tugas navigasi khusus yang dipanggil "navigasi titik-matlamat." Banyak kemajuan telah dicapai. Dalam tugasan ini, ejen diletakkan dalam persekitaran yang benar-benar baharu dan mesti pergi ke koordinat tertentu (seperti "Pergi ke titik iaitu 5 meter utara dan 10 meter timur") tanpa peta.
Batra berkata bahawa mereka melatih ejen itu dalam dunia maya Meta yang dipanggil "AI Habitat" dan memberikannya GPS dan kompas, dan mendapati ia boleh memperoleh 99.9% pada set data standard. Baru-baru ini, mereka telah berjaya melanjutkan keputusan mereka kepada senario yang lebih sukar dan realistik - tanpa kompas atau GPS. Hasilnya, ejen itu mencapai ketepatan 94% dalam menganggar kedudukannya menggunakan hanya aliran piksel yang dilihatnya semasa bergerak.
Alam maya "AI Habitat" yang dicipta oleh pasukan Meta AI Dhruv Batra. Mereka berharap dapat meningkatkan kelajuan simulasi sehingga AI yang terkandung dapat mencapai pengalaman simulasi selama 20 tahun dalam masa 20 minit sahaja.
Mottaghi berkata, "Ini adalah peningkatan yang hebat, tetapi ini tidak bermakna masalah navigasi diselesaikan sepenuhnya. Kerana banyak jenis tugas navigasi lain memerlukan penggunaan arahan bahasa yang lebih kompleks, seperti "melepasi dapur" Dapatkan cermin mata di atas meja sisi katil di bilik tidur anda," dan ketepatannya masih hanya kira-kira 30% hingga 40%.
Tetapi navigasi kekal sebagai salah satu tugas paling mudah dalam AI yang terkandung, kerana ejen tidak perlu memanipulasi apa-apa semasa ia bergerak melalui persekitaran. Setakat ini, ejen AI yang terkandung jauh daripada menguasai sebarang tugas berkaitan objek. Sebahagian daripada cabaran ialah apabila ejen berinteraksi dengan objek baharu, ia boleh membuat banyak ralat dan ralat boleh bertimbun. Pada masa ini, kebanyakan penyelidik menangani masalah ini dengan memilih tugasan dengan hanya beberapa langkah, tetapi kebanyakan aktiviti seperti manusia, seperti membakar atau mencuci pinggan mangkuk, memerlukan urutan tindakan yang panjang pada berbilang objek. Untuk mencapai matlamat ini, ejen AI perlu membuat kemajuan yang lebih besar.
Dalam hal ini, Fei-Fei Li mungkin berada di barisan hadapan sekali lagi, kerana pasukannya membangunkan set data simulasi, BEHAVIOR, yang berharap dapat dilakukan untuk AI yang terkandung seperti yang dilakukan oleh projek ImageNetnya untuk pengecaman objek .
Set data ini mengandungi lebih daripada 100 aktiviti manusia untuk dilengkapkan oleh ejen, dan ujian boleh diselesaikan dalam mana-mana persekitaran maya. Set data baharu pasukan Fei-Fei Li akan membolehkan komuniti menilai dengan lebih baik kemajuan ejen AI maya dengan mencipta metrik yang membandingkan ejen yang melaksanakan tugas ini dengan video sebenar manusia yang melakukan tugas yang sama.
Setelah ejen berjaya menyelesaikan tugasan kompleks ini, Li Feifei percaya bahawa tujuan simulasi adalah untuk melatih untuk ruang kendalian terakhir-dunia nyata.
"Pada pendapat saya, simulasi adalah salah satu bidang yang paling penting dan menarik dalam penyelidikan robotik."
Sempadan baharu dalam penyelidikan robotik
Robot pada asasnya merangkumi kecerdasan. Mereka mendiami sejenis badan fizikal di dunia nyata dan mewakili bentuk ejen AI yang paling ekstrem. Tetapi ramai penyelidik mendapati bahawa ejen sedemikian boleh mendapat manfaat daripada latihan di dunia maya.
Mottaghi berkata algoritma paling maju dalam robotik, seperti pembelajaran pengukuhan, selalunya memerlukan berjuta-juta lelaran untuk mempelajari sesuatu yang bermakna. Oleh itu, melatih robot sebenar untuk melaksanakan tugas yang sukar boleh mengambil masa bertahun-tahun.
Robot boleh menavigasi rupa bumi yang tidak menentu di dunia nyata. Penyelidikan baharu menunjukkan bahawa latihan dalam persekitaran maya boleh membantu robot menguasai kemahiran ini dan kemahiran lain.
Tetapi jika anda melatih mereka di dunia maya dahulu, ia akan menjadi lebih pantas. Beribu-ribu ejen boleh dilatih serentak di beribu-ribu bilik yang berbeza. Selain itu, latihan maya adalah lebih selamat untuk kedua-dua robot dan manusia.
Pada 2018, penyelidik OpenAI menunjukkan bahawa kemahiran yang dipelajari oleh ejen di dunia maya boleh dipindahkan ke dunia nyata, jadi ramai pakar robotik mula memberi lebih perhatian kepada simulator. Mereka melatih tangan robot untuk memanipulasi kiub yang hanya dilihat dalam simulasi. Penyelidikan terkini juga termasuk membolehkan dron belajar mengelak perlanggaran di udara, menempatkan kereta pandu sendiri dalam persekitaran bandar di dua benua yang berbeza, dan membolehkan anjing robot berkaki empat melengkapkan pendakian selama satu jam di Swiss Alps (dan Ia). mengambil masa yang sama seperti manusia).
Pada masa hadapan, penyelidik juga mungkin menghantar manusia ke ruang maya melalui set kepala realiti maya, sekali gus merapatkan jurang antara simulasi dan dunia sebenar. Dieter Fox, pengarah kanan penyelidikan robotik di Nvidia dan seorang profesor di Universiti Washington, menegaskan bahawa matlamat utama penyelidikan robotik adalah untuk membina robot yang berguna kepada manusia di dunia nyata. Tetapi untuk melakukan ini, mereka mesti terlebih dahulu didedahkan dan belajar bagaimana untuk berinteraksi dengan manusia.
Menggunakan teknologi realiti maya untuk meletakkan manusia ke dalam persekitaran simulasi ini dan kemudian meminta mereka membuat pembentangan dan berinteraksi dengan robot akan menjadi pendekatan yang sangat berkuasa, kata Fox.
Sama ada mereka dalam simulasi atau dunia nyata, ejen AI yang terkandung sedang belajar untuk menjadi lebih seperti manusia dan menyelesaikan tugasan yang lebih seperti tugas manusia. Bidang ini semakin maju dalam semua aspek, termasuk dunia baharu, tugas baharu dan algoritma pembelajaran baharu.
"Saya melihat gabungan pembelajaran mendalam, pembelajaran robot, penglihatan dan juga bahasa," kata Li Feifei "Sekarang saya fikir melalui 'moonshot' atau 'North Star' untuk AI yang terkandung, kita akan Belajar. teknologi asas kecerdasan benar-benar boleh membawa kejayaan besar."
Artikel Li Feifei membincangkan masalah "Bintang Utara" penglihatan komputer. Pautan: https://www.amacad.org/publication/searching-computer-vision-north-stars
Atas ialah kandungan terperinci Di manakah 'kecerdasan yang terkandung' yang difokuskan oleh Li Feifei telah sampai?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Dengan kebolehan tiruan AI yang begitu kuat, ia benar-benar mustahil untuk menghalangnya, sama sekali mustahil untuk menghalangnya. Adakah pembangunan AI mencapai tahap ini sekarang? Kaki hadapan anda membuat ciri-ciri wajah anda terbang, dan pada kaki belakang anda, ekspresi yang sama direproduksi Menatap, mengangkat kening, mencebik, tidak kira betapa berlebihan ekspresi itu, semuanya ditiru dengan sempurna. Tingkatkan kesukaran, angkat kening lebih tinggi, buka mata lebih luas, malah bentuk mulutnya bengkok, dan avatar watak maya dapat menghasilkan semula ekspresi dengan sempurna. Apabila anda melaraskan parameter di sebelah kiri, avatar maya di sebelah kanan juga akan menukar pergerakannya dengan sewajarnya untuk memberikan gambaran dekat mulut dan mata Tiruan itu tidak boleh dikatakan sama, tetapi ungkapan itu betul-betul sama (paling kanan). Penyelidikan ini datang dari institusi seperti Universiti Teknikal Munich, yang mencadangkan GaussianAvatars, yang

Pengesanan objek adalah tugas penting dalam bidang penglihatan komputer, digunakan untuk mengenal pasti objek dalam imej atau video dan mencari lokasinya. Tugasan ini biasanya dibahagikan kepada dua kategori algoritma, satu peringkat dan dua peringkat, yang berbeza dari segi ketepatan dan keteguhan. Algoritma pengesanan sasaran satu peringkat Algoritma pengesanan sasaran satu peringkat menukarkan pengesanan sasaran kepada masalah klasifikasi Kelebihannya ialah ia pantas dan boleh menyelesaikan pengesanan hanya dalam satu langkah. Walau bagaimanapun, disebabkan terlalu memudahkan, ketepatan biasanya tidak sebaik algoritma pengesanan objek dua peringkat. Algoritma pengesanan sasaran satu peringkat biasa termasuk YOLO, SSD dan FasterR-CNN. Algoritma ini biasanya mengambil keseluruhan imej sebagai input dan menjalankan pengelas untuk mengenal pasti objek sasaran. Tidak seperti algoritma pengesanan sasaran dua peringkat tradisional, mereka tidak perlu menentukan kawasan terlebih dahulu, tetapi meramalkan secara langsung

Pembinaan semula imej resolusi super ialah proses menjana imej resolusi tinggi daripada imej resolusi rendah menggunakan teknik pembelajaran mendalam seperti rangkaian neural convolutional (CNN) dan rangkaian adversarial generatif (GAN). Matlamat kaedah ini adalah untuk meningkatkan kualiti dan perincian imej dengan menukar imej resolusi rendah kepada imej resolusi tinggi. Teknologi ini mempunyai aplikasi yang luas dalam banyak bidang, seperti pengimejan perubatan, kamera pengawasan, imej satelit, dsb. Melalui pembinaan semula imej resolusi super, kami boleh mendapatkan imej yang lebih jelas dan terperinci, membantu menganalisis dan mengenal pasti sasaran dan ciri dalam imej dengan lebih tepat. Kaedah pembinaan semula Kaedah pembinaan semula imej resolusi super secara amnya boleh dibahagikan kepada dua kategori: kaedah berasaskan interpolasi dan kaedah berasaskan pembelajaran mendalam. 1) Kaedah berasaskan interpolasi Pembinaan semula imej resolusi super berdasarkan interpolasi

Pemulihan foto lama ialah kaedah menggunakan teknologi kecerdasan buatan untuk membaiki, menambah baik dan menambah baik foto lama. Menggunakan penglihatan komputer dan algoritma pembelajaran mesin, teknologi ini secara automatik boleh mengenal pasti dan membaiki kerosakan dan kecacatan pada foto lama, menjadikannya kelihatan lebih jelas, lebih semula jadi dan lebih realistik. Prinsip teknikal pemulihan foto lama terutamanya merangkumi aspek-aspek berikut: 1. Penyahnosian dan penambahbaikan imej Apabila memulihkan foto lama, foto itu perlu dibunyikan dan dipertingkatkan terlebih dahulu. Algoritma dan penapis pemprosesan imej, seperti penapisan min, penapisan Gaussian, penapisan dua hala, dsb., boleh digunakan untuk menyelesaikan masalah bunyi dan bintik warna, dengan itu meningkatkan kualiti foto. 2. Pemulihan dan pembaikan imej Dalam foto lama, mungkin terdapat beberapa kecacatan dan kerosakan, seperti calar, retak, pudar, dsb. Masalah ini boleh diselesaikan dengan algoritma pemulihan dan pembaikan imej

Algoritma Scale Invariant Feature Transform (SIFT) ialah algoritma pengekstrakan ciri yang digunakan dalam bidang pemprosesan imej dan penglihatan komputer. Algoritma ini telah dicadangkan pada tahun 1999 untuk meningkatkan pengecaman objek dan prestasi pemadanan dalam sistem penglihatan komputer. Algoritma SIFT adalah teguh dan tepat dan digunakan secara meluas dalam pengecaman imej, pembinaan semula tiga dimensi, pengesanan sasaran, penjejakan video dan medan lain. Ia mencapai invarian skala dengan mengesan titik utama dalam ruang skala berbilang dan mengekstrak deskriptor ciri tempatan di sekitar titik utama. Langkah-langkah utama algoritma SIFT termasuk pembinaan ruang skala, pengesanan titik utama, kedudukan titik utama, penetapan arah dan penjanaan deskriptor ciri. Melalui langkah-langkah ini, algoritma SIFT boleh mengekstrak ciri yang teguh dan unik, dengan itu mencapai pemprosesan imej yang cekap.

Artikel ini dicetak semula dengan kebenaran daripada akaun awam Autonomous Driving Heart. Sila hubungi sumber untuk mencetak semula. Tajuk asal: MotionLM: Multi-Agent Motion Forecasting as Language Modelling Paper pautan: https://arxiv.org/pdf/2309.16534.pdf Gabungan pengarang: Waymo Conference: ICCV2023 Idea kertas: Untuk perancangan keselamatan kenderaan autonomi, ramalkan tingkah laku masa hadapan dengan pasti ejen jalan raya adalah penting. Kajian ini mewakili trajektori berterusan sebagai jujukan token gerakan diskret dan menganggap ramalan gerakan berbilang agen sebagai tugas pemodelan bahasa. Model yang kami cadangkan, MotionLM, mempunyai kelebihan berikut: Pertama

Dalam bidang pembelajaran mesin dan penglihatan komputer, anotasi imej ialah proses menggunakan anotasi manusia pada set data imej. Kaedah anotasi imej boleh dibahagikan terutamanya kepada dua kategori: anotasi manual dan anotasi automatik. Anotasi manual bermaksud anotasi manusia menganotasi imej melalui operasi manual. Kaedah ini memerlukan anotasi manusia untuk mempunyai pengetahuan dan pengalaman profesional serta dapat mengenal pasti dan menganotasi objek sasaran, adegan atau ciri dalam imej dengan tepat. Kelebihan anotasi manual ialah hasil anotasi boleh dipercayai dan tepat, tetapi kelemahannya ialah ia memakan masa dan kos yang tinggi. Anotasi automatik merujuk kepada kaedah menggunakan program komputer untuk menganotasi imej secara automatik. Kaedah ini menggunakan pembelajaran mesin dan teknologi penglihatan komputer untuk mencapai anotasi automatik oleh model latihan. Kelebihan pelabelan automatik adalah kelajuan pantas dan kos rendah, tetapi kelemahannya ialah keputusan pelabelan mungkin tidak tepat.

Penjejakan objek ialah tugas penting dalam penglihatan komputer dan digunakan secara meluas dalam pemantauan trafik, robotik, pengimejan perubatan, pengesanan kenderaan automatik dan bidang lain. Ia menggunakan kaedah pembelajaran mendalam untuk meramal atau menganggarkan kedudukan objek sasaran dalam setiap bingkai berturut-turut dalam video selepas menentukan kedudukan awal objek sasaran. Penjejakan objek mempunyai pelbagai aplikasi dalam kehidupan sebenar dan sangat penting dalam bidang penglihatan komputer. Penjejakan objek biasanya melibatkan proses pengesanan objek. Berikut ialah gambaran ringkas tentang langkah-langkah pengesanan objek: 1. Pengesanan objek, di mana algoritma mengelaskan dan mengesan objek dengan mencipta kotak sempadan di sekelilingnya. 2. Berikan pengenalan unik (ID) kepada setiap objek. 3. Jejaki pergerakan objek yang dikesan dalam bingkai sambil menyimpan maklumat yang berkaitan. Jenis Sasaran Penjejakan Sasaran
