Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna
1. Pengenalan
Computer Vision, biasanya dirujuk sebagai CV, ialah bidang penyelidikan yang menggunakan teknologi untuk membantu komputer "melihat" dan "memahami" imej, seperti membolehkan komputer memahami foto atau video. kandungan.
Artikel ini akan memberikan pengenalan keseluruhan kepada penglihatan komputer. Artikel ini terbahagi kepada enam bahagian iaitu:
- Mengapa penglihatan komputer penting
- Apakah itu penglihatan komputer
- Prinsip asas penglihatan komputer
- Tugas biasa penglihatan komputer
- Senario aplikasi penglihatan komputer dalam kehidupan seharian
- Cabaran yang dihadapi penglihatan komputer
2 Mengapa penglihatan komputer penting
Secara fisiologi, penglihatan bermula dengan keseronokan sel reseptor organ visual, dan terbentuk selepas sistem saraf visual memproses maklumat yang dikumpul. Kita manusia menggunakan penglihatan untuk memahami secara intuitif bentuk dan keadaan sesuatu di hadapan kita. Kebanyakan kita bergantung pada penglihatan untuk menyelesaikan memasak, berunding tentang halangan, membaca papan tanda jalan, menonton video dan banyak lagi tugasan lain. Malah, jika bukan kerana kumpulan istimewa seperti orang buta, sebahagian besar orang memperoleh maklumat luaran melalui penglihatan, dan perkadaran ini adalah setinggi 80%. sebilangan besar eksperimen yang 83% daripada maklumat yang diperoleh manusia berasal daripada penglihatan, 11% daripada pendengaran, dan baki 6% daripada bau, sentuhan dan rasa. Oleh itu, bagi manusia, penglihatan sudah pasti deria yang paling penting.
Bukan sahaja manusia adalah "haiwan visual", tetapi bagi kebanyakan haiwan, penglihatan juga memainkan peranan yang sangat penting. Melalui penglihatan, manusia dan haiwan melihat saiz, cahaya dan naungan, warna, dan pergerakan objek luar, dan memperoleh pelbagai maklumat yang penting untuk kelangsungan hidup badan Melalui maklumat ini, mereka dapat mempelajari bagaimana dunia sekeliling dan bagaimana untuk berinteraksi dengan dunia.
Sebelum kemunculan penglihatan komputer, imej berada dalam keadaan kotak hitam untuk komputer. Bagi komputer, imej hanyalah fail atau rentetan data. Komputer tidak tahu apa kandungan gambar itu Ia hanya tahu saiz gambar itu, berapa banyak memori yang didudukinya, dalam format apa ia, dsb.
Jika komputer dan kecerdasan buatan mahu memainkan peranan penting dalam dunia nyata, mereka mesti memahami gambar! Oleh itu, selama setengah abad, saintis komputer telah cuba memikirkan bagaimana untuk membuat komputer melihat, menimbulkan bidang "penglihatan komputer."
Perkembangan pesat Internet juga menjadikan penglihatan komputer amat penting. Angka di bawah ialah carta arah aliran jumlah data baharu pada rangkaian sejak 2020. Grafik kelabu ialah data berstruktur, grafik biru ialah data tidak berstruktur (kebanyakannya gambar dan video). Adalah jelas bahawa bilangan gambar dan video berkembang pada kadar eksponen.
Internet terdiri daripada teks dan imej. Mencari teks agak mudah, tetapi untuk mencari imej, algoritma perlu mengetahui kandungan imej tersebut. Untuk masa yang lama, manusia tidak mempunyai teknologi yang mencukupi untuk memahami kandungan imej dan video, dan hanya boleh bergantung pada anotasi manual untuk mendapatkan penerangan imej atau video. Bagaimana untuk membolehkan komputer memahami maklumat imej ini dengan lebih baik adalah cabaran utama yang dihadapi oleh teknologi komputer masa kini. Untuk menggunakan sepenuhnya data imej atau video, anda perlu membiarkan komputer "melihat" imej atau video dan memahami kandungannya.
3. Apakah itu komputer visi? Contohnya: Adakah haiwan peliharaan dalam gambar itu kucing atau anjing? Adakah orang dalam gambar itu Lao Zhang atau Lao Wang? Apakah yang dilakukan oleh orang dalam video itu? Tambahan pula, penglihatan komputer merujuk kepada penggunaan kamera dan komputer dan bukannya mata manusia untuk mengenal pasti, menjejak dan mengukur sasaran, dan seterusnya melakukan pemprosesan grafik untuk mendapatkan imej yang lebih sesuai untuk pemerhatian mata manusia atau penghantaran kepada instrumen untuk pengesanan. Sebagai disiplin saintifik, penglihatan komputer mengkaji teori dan teknologi yang berkaitan, cuba membina sistem kecerdasan buatan yang boleh mendapatkan maklumat peringkat tinggi daripada imej atau data berbilang dimensi. Dari perspektif kejuruteraan, ia berusaha untuk memanfaatkan sistem automatik untuk meniru sistem visual manusia untuk menyelesaikan tugas. Matlamat utama penglihatan komputer adalah untuk membolehkan komputer memerhati dan memahami dunia melalui penglihatan seperti yang dilakukan oleh manusia, dan mempunyai keupayaan untuk menyesuaikan diri dengan persekitaran secara autonomi. Tetapi sangat sukar untuk benar-benar menyedari bahawa komputer boleh melihat dunia melalui kamera, kerana walaupun imej yang ditangkap oleh kamera adalah sama seperti yang biasa kita lihat, untuk komputer, sebarang imej hanyalah susunan dan gabungan piksel. nilai sekumpulan nombor tegar. Cara membenarkan komputer membaca petunjuk visual yang bermakna daripada nombor tegar ini adalah masalah yang harus diselesaikan oleh penglihatan komputer.
4. Prinsip asas penglihatan komputer
Sesiapa yang pernah menggunakan kamera atau telefon bimbit tahu bahawa komputer pandai mengambil gambar dengan ketelitian dan perincian yang menakjubkan. penglihatan" jauh lebih kuat daripada keupayaan visual semula jadi manusia. Tetapi seperti yang biasa kita katakan "mendengar tidak bermakna memahami", "melihat" tidak bermaksud "memahami". Imej ialah grid piksel yang besar, setiap piksel mempunyai warna dan warna adalah gabungan tiga warna utama: merah, hijau dan biru. Dengan menggabungkan keamatan tiga warna - dipanggil nilai RGB - kita boleh mendapatkan sebarang warna. Algoritma penglihatan komputer yang paling mudah dan paling sesuai untuk bermula ialah: untuk menjejak objek berwarna, seperti bola merah jambu, kita mula-mula perhatikan warna bola, simpan nilai RGB piksel tengah, dan kemudian suapkan imej ke program , membiarkan program mencari piksel yang paling hampir dengan warna ini. Algoritma boleh bermula dari sudut kiri atas, memeriksa setiap piksel, dan mengira perbezaan daripada warna sasaran. Selepas menyemak setiap piksel, bahagian piksel yang paling dekat mungkin ialah piksel tempat bola itu berada. Algoritma ini tidak terhad kepada berjalan pada imej tunggal ini, kita boleh menjalankan algoritma pada setiap bingkai video untuk mengesan kedudukan bola. Sudah tentu, disebabkan oleh pengaruh cahaya, bayang-bayang dan faktor lain, warna bola akan berubah Ia tidak akan sama dengan nilai RGB yang kami simpan, tetapi ia akan menjadi sangat hampir. Walau bagaimanapun, dalam beberapa kes ekstrem, seperti perlawanan bola sepak pada waktu malam, kesan penjejakan mungkin sangat lemah dan jika salah satu jersi pasukan berwarna sama dengan bola, algoritma akan "pengsan" sepenuhnya; Oleh itu, melainkan persekitaran boleh dikawal dengan ketat, algoritma penjejakan warna sedemikian jarang digunakan secara praktikal. Pada masa kini, lebih banyak algoritma penglihatan komputer yang digunakan secara amnya melibatkan kaedah dan teknologi "Pembelajaran Dalam" Antaranya, Convolutional Neural Network (CNN) adalah yang paling banyak digunakan kerana prestasinya yang unggul. Memandangkan pengetahuan yang terlibat dalam "pembelajaran mendalam" terlalu luas, artikel ini tidak akan menerangkannya dengan lebih terperinci. Jika anda ingin mengetahui lebih lanjut mengenai "pembelajaran mendalam", anda juga boleh melihat kursus AI pengenalan - "Kursus Elementary Suite Alat Intel® OpenVINO™". Ia bermula dengan konsep asas AI, memperkenalkan pengetahuan berkaitan kecerdasan buatan dan aplikasi penglihatan, dan membantu pengguna memahami dengan cepat konsep asas dan senario aplikasi suite alat Intel® OpenVINO™. Keseluruhan kursus merangkumi pemprosesan video, pengetahuan yang berkaitan dengan pembelajaran mendalam, pecutan inferens untuk aplikasi kecerdasan buatan, dan demonstrasi Demo bagi suite alat Intel® OpenVINO™ Ia membawa anda langkah demi langkah untuk menguasai pembelajaran mendalam dari yang lebih cetek kepada yang lebih mendalam.
5. Tugas biasa penglihatan komputer
Klasifikasi imej- Pengkelasan imej adalah untuk membezakan kategori imej yang berbeza berdasarkan maklumat semantiknya komputer Teras penglihatan ialah asas untuk tugas visual peringkat tinggi yang lain seperti pengesanan objek, pembahagian imej, penjejakan objek, analisis tingkah laku dan pengecaman muka. Contohnya, dalam gambar di bawah, melalui pengelasan imej, komputer mengecam orang, pokok, rumput dan langit dalam imej.
Klasifikasi imej digunakan secara meluas dalam banyak bidang, seperti: pengecaman muka dan analisis video pintar dalam bidang keselamatan, pengecaman pemandangan lalu lintas dalam medan pengangkutan dan berasaskan Internet Pengambilan semula imej kandungan dan pengelasan automatik album foto, pengecaman imej dalam bidang perubatan, dsb.
- Pengesanan objek
Matlamat tugas pengesanan objek adalah untuk memberikan imej atau bingkai video, biarkan komputer mencari kedudukan semua objek di dalamnya dan berikan setiap kategori khusus objek. Seperti yang ditunjukkan dalam rajah di bawah, mengambil pengiktirafan dan pengesanan orang sebagai contoh, sempadan digunakan untuk menandakan kedudukan semua orang dalam imej.
Dalam pengesanan sasaran berbilang kategori, sempadan warna yang berbeza biasanya digunakan untuk menandakan kedudukan objek yang dikesan yang berbeza, seperti ditunjukkan dalam rajah di bawah.
- Segmentasi semantik
Segmentasi semantik ialah tugas asas dalam penglihatan komputer Dalam segmentasi semantik kita perlu membahagikan input visual Kategori yang boleh ditafsir semantik yang berbeza. Ia membahagikan keseluruhan imej kepada kumpulan piksel, yang kemudiannya dilabel dan dikelaskan. Sebagai contoh, kita mungkin perlu membezakan semua piksel dalam imej yang dimiliki oleh kereta dan mewarnai piksel tersebut dengan biru. Seperti yang ditunjukkan di bawah, imej dibahagikan kepada label orang (merah), pokok (hijau gelap), rumput (hijau muda), dan langit (biru).
Segmentasi instance Segmentasi instance ialah gabungan pengesanan sasaran dan segmentasi semantik Sasaran dikesan dalam imej (pengesanan sasaran), dan kemudian setiap piksel dilabelkan (semantik segmentasi ). Membandingkan angka di atas dan di bawah, kita dapat melihat bahawa jika sasaran manusia digunakan, segmentasi semantik tidak membezakan contoh yang berbeza yang tergolong dalam kategori yang sama (semua orang ditandakan dengan warna merah), manakala segmentasi contoh membezakan contoh yang berbeza dalam kategori yang sama (berbeza. warna digunakan untuk membezakan orang yang berbeza).
Penjejakan sasaran Penjejakan sasaran merujuk kepada pengesanan, pengekstrakan, pengenalpastian dan penjejakan sasaran bergerak dalam jujukan imej, mendapatkan parameter gerakan sasaran bergerak, pemprosesan dan analisis, dan mencapai Pemahaman Tingkah laku mengenai sasaran yang bergerak untuk menyelesaikan tugas pengesanan peringkat lebih tinggi.
6. Senario aplikasi visi komputer dalam kehidupan seharian
Senario aplikasi visi komputer adalah sangat luas . · Pengecaman muka untuk kawalan akses dan Alipay
- Pengiktirafan plat lesen untuk tempat letak kereta dan stesen tol
- Pengenalpastian risiko apabila memuat naik video ke tapak web atau APP
- Pelbagai alat swafoto pada Douyin dan APP lain (diperlukan Mula-mula kenal pasti kedudukan muka)
7. Cabaran yang dihadapi oleh penglihatan komputer
Pada masa ini, teknologi penglihatan komputer berkembang pesat dan mempunyai keupayaan awal. skala industri. Pembangunan teknologi penglihatan komputer pada masa hadapan terutamanya menghadapi cabaran berikut: Pertama, bagaimana untuk menggabungkannya dengan lebih baik dengan teknologi lain dalam bidang aplikasi yang berbeza boleh menggunakan data besar secara meluas apabila menyelesaikan masalah tertentu secara beransur-ansur mengatasi manusia, dan Walau bagaimanapun, adalah mustahil untuk mencapai ketepatan yang tinggi pada beberapa masalah; yang kedua ialah bagaimana untuk mengurangkan masa pembangunan dan kos buruh algoritma penglihatan komputer Pada masa ini, algoritma penglihatan komputer memerlukan sejumlah besar data dan anotasi manual, dan memerlukan kitaran penyelidikan dan pembangunan yang panjang untuk mencapai keperluan bidang aplikasi Ketepatan yang diperlukan dan memakan masa yang ketiga adalah bagaimana untuk mempercepatkan reka bentuk dan pembangunan algoritma baru Dengan kemunculan perkakasan pengimejan dan cip kecerdasan buatan , reka bentuk dan pembangunan algoritma penglihatan komputer untuk cip yang berbeza dan peralatan pemerolehan data juga merupakan salah satu cabaran.
8. Kesimpulan
Penglihatan komputer adalah salah satu teknologi yang paling pesat berkembang dan digunakan secara meluas dalam bidang kecerdasan buatan Ia seperti "mata" kecerdasan buatan, menangkap imej untuk semua kehidupan dan menganalisis lebih banyak maklumat. Dengan perubahan algoritma, peningkatan kuasa pengkomputeran perkakasan, ledakan data, dan rangkaian berkelajuan tinggi yang dibawa oleh pembangunan teknologi 5G pada masa hadapan, visi komputer juga akan mempunyai ruang pembangunan yang lebih luas dari segi aplikasi. Mari kita tunggu dan lihat!
Atas ialah kandungan terperinci Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Kedudukan Utama Sains Komputer Kebangsaan 2024CSRankings baru sahaja dikeluarkan! Tahun ini, dalam ranking universiti CS terbaik di Amerika Syarikat, Carnegie Mellon University (CMU) berada di antara yang terbaik di negara ini dan dalam bidang CS, manakala University of Illinois di Urbana-Champaign (UIUC) telah menduduki tempat kedua selama enam tahun berturut-turut. Georgia Tech menduduki tempat ketiga. Kemudian, Universiti Stanford, Universiti California di San Diego, Universiti Michigan, dan Universiti Washington terikat di tempat keempat di dunia. Perlu diingat bahawa kedudukan MIT jatuh dan jatuh daripada lima teratas. CSRankings ialah projek ranking universiti global dalam bidang sains komputer yang dimulakan oleh Profesor Emery Berger dari Pusat Pengajian Sains Komputer dan Maklumat di Universiti Massachusetts Amherst. Kedudukan adalah berdasarkan objektif

Perkhidmatan Desktop Jauh Windows membolehkan pengguna mengakses komputer dari jauh, yang sangat mudah untuk orang yang perlu bekerja dari jauh. Walau bagaimanapun, masalah boleh dihadapi apabila pengguna tidak dapat menyambung ke komputer jauh atau apabila Desktop Jauh tidak dapat mengesahkan identiti komputer. Ini mungkin disebabkan oleh isu sambungan rangkaian atau kegagalan pengesahan sijil. Dalam kes ini, pengguna mungkin perlu menyemak sambungan rangkaian, memastikan komputer jauh berada dalam talian dan cuba menyambung semula. Selain itu, memastikan bahawa pilihan pengesahan komputer jauh dikonfigurasikan dengan betul adalah kunci untuk menyelesaikan isu tersebut. Masalah sedemikian dengan Perkhidmatan Desktop Jauh Windows biasanya boleh diselesaikan dengan menyemak dan melaraskan tetapan dengan teliti. Desktop Jauh tidak boleh mengesahkan identiti komputer jauh kerana perbezaan masa atau tarikh. Sila pastikan pengiraan anda

Kadangkala, sistem pengendalian mungkin tidak berfungsi apabila menggunakan komputer. Masalah yang saya hadapi hari ini ialah apabila mengakses gpedit.msc, sistem menggesa objek Dasar Kumpulan tidak boleh dibuka kerana kebenaran yang betul mungkin tiada. Objek Dasar Kumpulan pada komputer ini tidak dapat dibuka Penyelesaian: 1. Apabila mengakses gpedit.msc, sistem menggesa bahawa objek Dasar Kumpulan pada komputer ini tidak boleh dibuka kerana kekurangan kebenaran. Butiran: Sistem tidak dapat mengesan laluan yang ditentukan. 2. Selepas pengguna mengklik butang tutup, tetingkap ralat berikut muncul. 3. Semak rekod log dengan segera dan gabungkan maklumat yang direkodkan untuk mendapati bahawa masalahnya terletak pada fail C:\Windows\System32\GroupPolicy\Machine\registry.pol

Kertas StableDiffusion3 akhirnya di sini! Model ini dikeluarkan dua minggu lalu dan menggunakan seni bina DiT (DiffusionTransformer) yang sama seperti Sora. Ia menimbulkan kekecohan apabila ia dikeluarkan. Berbanding dengan versi sebelumnya, kualiti imej yang dijana oleh StableDiffusion3 telah dipertingkatkan dengan ketara Ia kini menyokong gesaan berbilang tema, dan kesan penulisan teks juga telah dipertingkatkan, dan aksara bercelaru tidak lagi muncul. StabilityAI menegaskan bahawa StableDiffusion3 ialah satu siri model dengan saiz parameter antara 800M hingga 8B. Julat parameter ini bermakna model boleh dijalankan terus pada banyak peranti mudah alih, dengan ketara mengurangkan penggunaan AI

Ramalan trajektori memainkan peranan penting dalam pemanduan autonomi Ramalan trajektori pemanduan autonomi merujuk kepada meramalkan trajektori pemanduan masa hadapan kenderaan dengan menganalisis pelbagai data semasa proses pemanduan kenderaan. Sebagai modul teras pemanduan autonomi, kualiti ramalan trajektori adalah penting untuk kawalan perancangan hiliran. Tugas ramalan trajektori mempunyai timbunan teknologi yang kaya dan memerlukan kebiasaan dengan persepsi dinamik/statik pemanduan autonomi, peta ketepatan tinggi, garisan lorong, kemahiran seni bina rangkaian saraf (CNN&GNN&Transformer), dll. Sangat sukar untuk bermula! Ramai peminat berharap untuk memulakan ramalan trajektori secepat mungkin dan mengelakkan perangkap Hari ini saya akan mengambil kira beberapa masalah biasa dan kaedah pembelajaran pengenalan untuk ramalan trajektori! Pengetahuan berkaitan pengenalan 1. Adakah kertas pratonton teratur? A: Tengok survey dulu, hlm

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.

Jika anda menghadapi masalah menyalin data dari desktop jauh ke komputer setempat anda, artikel ini boleh membantu anda menyelesaikannya. Teknologi desktop jauh membolehkan berbilang pengguna mengakses desktop maya pada pelayan pusat, menyediakan perlindungan data dan pengurusan aplikasi. Ini membantu memastikan keselamatan data dan membolehkan syarikat mengurus aplikasi mereka dengan lebih cekap. Pengguna mungkin menghadapi cabaran semasa menggunakan Desktop Jauh, salah satunya adalah ketidakupayaan untuk menyalin data dari Desktop Jauh ke komputer tempatan. Ini mungkin disebabkan oleh faktor yang berbeza. Oleh itu, artikel ini akan memberikan panduan untuk menyelesaikan masalah ini. Mengapa saya tidak boleh menyalin dari desktop jauh ke komputer tempatan saya? Apabila anda menyalin fail pada komputer anda, ia disimpan sementara di lokasi yang dipanggil papan keratan. Jika anda tidak boleh menggunakan kaedah ini untuk menyalin data dari desktop jauh ke komputer tempatan anda

Sila ambil perhatian bahawa lelaki persegi ini berkerut dahi, memikirkan identiti "tetamu tidak diundang" di hadapannya. Ternyata dia berada dalam situasi berbahaya, dan apabila dia menyedari perkara ini, dia segera memulakan pencarian mental untuk mencari strategi untuk menyelesaikan masalah itu. Akhirnya, dia memutuskan untuk melarikan diri dari tempat kejadian dan kemudian mendapatkan bantuan secepat mungkin dan mengambil tindakan segera. Pada masa yang sama, orang di seberang sana memikirkan perkara yang sama seperti dia... Terdapat adegan sedemikian dalam "Minecraft" di mana semua watak dikawal oleh kecerdasan buatan. Setiap daripada mereka mempunyai latar identiti yang unik Contohnya, gadis yang disebutkan sebelum ini adalah seorang kurier berusia 17 tahun tetapi bijak dan berani. Mereka mempunyai daya ingatan dan pemikiran serta hidup seperti manusia di bandar kecil yang terletak di Minecraft ini. Apa yang mendorong mereka adalah sesuatu yang baru,
