Computer Vision, biasanya dirujuk sebagai CV, ialah bidang penyelidikan yang menggunakan teknologi untuk membantu komputer "melihat" dan "memahami" imej, seperti membolehkan komputer memahami foto atau video. kandungan.
Artikel ini akan memberikan pengenalan keseluruhan kepada penglihatan komputer. Artikel ini terbahagi kepada enam bahagian iaitu:
Secara fisiologi, penglihatan bermula dengan keseronokan sel reseptor organ visual, dan terbentuk selepas sistem saraf visual memproses maklumat yang dikumpul. Kita manusia menggunakan penglihatan untuk memahami secara intuitif bentuk dan keadaan sesuatu di hadapan kita. Kebanyakan kita bergantung pada penglihatan untuk menyelesaikan memasak, berunding tentang halangan, membaca papan tanda jalan, menonton video dan banyak lagi tugasan lain. Malah, jika bukan kerana kumpulan istimewa seperti orang buta, sebahagian besar orang memperoleh maklumat luaran melalui penglihatan, dan perkadaran ini adalah setinggi 80%. sebilangan besar eksperimen yang 83% daripada maklumat yang diperoleh manusia berasal daripada penglihatan, 11% daripada pendengaran, dan baki 6% daripada bau, sentuhan dan rasa. Oleh itu, bagi manusia, penglihatan sudah pasti deria yang paling penting.
Bukan sahaja manusia adalah "haiwan visual", tetapi bagi kebanyakan haiwan, penglihatan juga memainkan peranan yang sangat penting. Melalui penglihatan, manusia dan haiwan melihat saiz, cahaya dan naungan, warna, dan pergerakan objek luar, dan memperoleh pelbagai maklumat yang penting untuk kelangsungan hidup badan Melalui maklumat ini, mereka dapat mempelajari bagaimana dunia sekeliling dan bagaimana untuk berinteraksi dengan dunia.
Sebelum kemunculan penglihatan komputer, imej berada dalam keadaan kotak hitam untuk komputer. Bagi komputer, imej hanyalah fail atau rentetan data. Komputer tidak tahu apa kandungan gambar itu Ia hanya tahu saiz gambar itu, berapa banyak memori yang didudukinya, dalam format apa ia, dsb.
Jika komputer dan kecerdasan buatan mahu memainkan peranan penting dalam dunia nyata, mereka mesti memahami gambar! Oleh itu, selama setengah abad, saintis komputer telah cuba memikirkan bagaimana untuk membuat komputer melihat, menimbulkan bidang "penglihatan komputer."
Perkembangan pesat Internet juga menjadikan penglihatan komputer amat penting. Angka di bawah ialah carta arah aliran jumlah data baharu pada rangkaian sejak 2020. Grafik kelabu ialah data berstruktur, grafik biru ialah data tidak berstruktur (kebanyakannya gambar dan video). Adalah jelas bahawa bilangan gambar dan video berkembang pada kadar eksponen.
Internet terdiri daripada teks dan imej. Mencari teks agak mudah, tetapi untuk mencari imej, algoritma perlu mengetahui kandungan imej tersebut. Untuk masa yang lama, manusia tidak mempunyai teknologi yang mencukupi untuk memahami kandungan imej dan video, dan hanya boleh bergantung pada anotasi manual untuk mendapatkan penerangan imej atau video. Bagaimana untuk membolehkan komputer memahami maklumat imej ini dengan lebih baik adalah cabaran utama yang dihadapi oleh teknologi komputer masa kini. Untuk menggunakan sepenuhnya data imej atau video, anda perlu membiarkan komputer "melihat" imej atau video dan memahami kandungannya.
4. Prinsip asas penglihatan komputer
5. Tugas biasa penglihatan komputer
Klasifikasi imejKlasifikasi imej digunakan secara meluas dalam banyak bidang, seperti: pengecaman muka dan analisis video pintar dalam bidang keselamatan, pengecaman pemandangan lalu lintas dalam medan pengangkutan dan berasaskan Internet Pengambilan semula imej kandungan dan pengelasan automatik album foto, pengecaman imej dalam bidang perubatan, dsb.
Matlamat tugas pengesanan objek adalah untuk memberikan imej atau bingkai video, biarkan komputer mencari kedudukan semua objek di dalamnya dan berikan setiap kategori khusus objek. Seperti yang ditunjukkan dalam rajah di bawah, mengambil pengiktirafan dan pengesanan orang sebagai contoh, sempadan digunakan untuk menandakan kedudukan semua orang dalam imej.
Dalam pengesanan sasaran berbilang kategori, sempadan warna yang berbeza biasanya digunakan untuk menandakan kedudukan objek yang dikesan yang berbeza, seperti ditunjukkan dalam rajah di bawah.
Segmentasi semantik ialah tugas asas dalam penglihatan komputer Dalam segmentasi semantik kita perlu membahagikan input visual Kategori yang boleh ditafsir semantik yang berbeza. Ia membahagikan keseluruhan imej kepada kumpulan piksel, yang kemudiannya dilabel dan dikelaskan. Sebagai contoh, kita mungkin perlu membezakan semua piksel dalam imej yang dimiliki oleh kereta dan mewarnai piksel tersebut dengan biru. Seperti yang ditunjukkan di bawah, imej dibahagikan kepada label orang (merah), pokok (hijau gelap), rumput (hijau muda), dan langit (biru).
Segmentasi instance Segmentasi instance ialah gabungan pengesanan sasaran dan segmentasi semantik Sasaran dikesan dalam imej (pengesanan sasaran), dan kemudian setiap piksel dilabelkan (semantik segmentasi ). Membandingkan angka di atas dan di bawah, kita dapat melihat bahawa jika sasaran manusia digunakan, segmentasi semantik tidak membezakan contoh yang berbeza yang tergolong dalam kategori yang sama (semua orang ditandakan dengan warna merah), manakala segmentasi contoh membezakan contoh yang berbeza dalam kategori yang sama (berbeza. warna digunakan untuk membezakan orang yang berbeza).
Penjejakan sasaran Penjejakan sasaran merujuk kepada pengesanan, pengekstrakan, pengenalpastian dan penjejakan sasaran bergerak dalam jujukan imej, mendapatkan parameter gerakan sasaran bergerak, pemprosesan dan analisis, dan mencapai Pemahaman Tingkah laku mengenai sasaran yang bergerak untuk menyelesaikan tugas pengesanan peringkat lebih tinggi.
Senario aplikasi visi komputer adalah sangat luas . · Pengecaman muka untuk kawalan akses dan Alipay
Pada masa ini, teknologi penglihatan komputer berkembang pesat dan mempunyai keupayaan awal. skala industri. Pembangunan teknologi penglihatan komputer pada masa hadapan terutamanya menghadapi cabaran berikut: Pertama, bagaimana untuk menggabungkannya dengan lebih baik dengan teknologi lain dalam bidang aplikasi yang berbeza boleh menggunakan data besar secara meluas apabila menyelesaikan masalah tertentu secara beransur-ansur mengatasi manusia, dan Walau bagaimanapun, adalah mustahil untuk mencapai ketepatan yang tinggi pada beberapa masalah; yang kedua ialah bagaimana untuk mengurangkan masa pembangunan dan kos buruh algoritma penglihatan komputer Pada masa ini, algoritma penglihatan komputer memerlukan sejumlah besar data dan anotasi manual, dan memerlukan kitaran penyelidikan dan pembangunan yang panjang untuk mencapai keperluan bidang aplikasi Ketepatan yang diperlukan dan memakan masa yang ketiga adalah bagaimana untuk mempercepatkan reka bentuk dan pembangunan algoritma baru Dengan kemunculan perkakasan pengimejan dan cip kecerdasan buatan , reka bentuk dan pembangunan algoritma penglihatan komputer untuk cip yang berbeza dan peralatan pemerolehan data juga merupakan salah satu cabaran.
Penglihatan komputer adalah salah satu teknologi yang paling pesat berkembang dan digunakan secara meluas dalam bidang kecerdasan buatan Ia seperti "mata" kecerdasan buatan, menangkap imej untuk semua kehidupan dan menganalisis lebih banyak maklumat. Dengan perubahan algoritma, peningkatan kuasa pengkomputeran perkakasan, ledakan data, dan rangkaian berkelajuan tinggi yang dibawa oleh pembangunan teknologi 5G pada masa hadapan, visi komputer juga akan mempunyai ruang pembangunan yang lebih luas dari segi aplikasi. Mari kita tunggu dan lihat!
Atas ialah kandungan terperinci Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!