Adakah visi komputer mencipta semula dirinya semula?
Ryad Benosman, seorang profesor oftalmologi di Universiti Pittsburgh dan seorang profesor tambahan di Institut Robotik CMU, berpendapat perkara ini memang berlaku. Sebagai salah seorang pengasas teknologi penglihatan berasaskan acara, Benosman menjangkakan penglihatan neuromorfik—penglihatan komputer berdasarkan kamera berasaskan acara—untuk menjadi arah seterusnya dalam penglihatan komputer.
"Penglihatan komputer telah dicipta semula berkali-kali," kata Benosman. "Saya telah melihatnya dicipta semula sekurang-kurangnya dua kali
Benosman memetik peralihan daripada pemprosesan imej dengan sedikit fotogrametri kepada kaedah berasaskan geometri pada tahun 1990-an, dan kemudian kemajuan pesat dalam pembelajaran mesin hari ini. Walaupun terdapat perubahan ini, teknologi penglihatan komputer moden masih berasaskan penderia imej—kamera yang menghasilkan imej yang serupa dengan yang dilihat oleh mata manusia.
Menurut Benosman, paradigma penderiaan imej akan menghalang inovasi dalam teknologi alternatif sehingga ia tidak lagi berguna. Pembangunan pemproses berprestasi tinggi (cth., GPU) melengahkan keperluan untuk mencari penyelesaian alternatif, sekali gus memanjangkan kesan ini.
"Mengapa kita menggunakan imej untuk penglihatan komputer? Itulah soalan berjuta-juta dolar," katanya. "Kami tidak mempunyai sebab untuk menggunakan imej - ia hanya kerana momentum sejarah. Walaupun sebelum ada kamera, imej mempunyai momentum
Sejak kemunculan kamera lubang jarum di dalam." abad kelima B.C. Kamera imej telah wujud sejak tahun 1500-an, dengan artis menggunakan peranti bersaiz bilik untuk mengesan imej orang atau pemandangan di luar bilik ke atas kanvas. Selama bertahun-tahun, lukisan itu digantikan dengan filem untuk merakam imej. Inovasi seperti fotografi digital akhirnya memudahkan kamera imej menjadi asas teknologi penglihatan komputer moden.
Walau bagaimanapun, Benosman percaya bahawa teknologi penglihatan komputer berdasarkan kamera imej adalah amat tidak cekap. Analoginya adalah sistem pertahanan istana zaman pertengahan: pengawal yang diletakkan di sekeliling dinding melihat keluar untuk menghampiri musuh. Pemain dram itu memukul dengan mantap, dan dengan setiap pukulan, setiap pengawal menjerit apa yang mereka lihat. Betapa mudahnya untuk mendengar seorang pengawal melihat musuh di pinggir hutan yang jauh di tengah-tengah kekecohan?
Perkakasan abad ke-21 yang setara dengan pukulan dram ialah isyarat jam elektronik, dan pengawalnya ialah piksel. Sebilangan besar data dicipta dan mesti disemak setiap kitaran jam, yang mengakibatkan sejumlah besar maklumat berlebihan dan dengan itu memerlukan banyak pengiraan yang tidak perlu.
"Orang ramai membakar begitu banyak tenaga, ia mengambil keseluruhan kuasa pengkomputeran istana untuk melindungi diri mereka sendiri," kata Benosman. Jika peristiwa menarik ditemui - diwakili oleh musuh dalam analogi ini - "anda perlu bergerak mengumpul maklumat yang tidak berguna, orang ramai menjerit di mana-mana, jadi terdapat banyak lebar jalur... Sekarang bayangkan anda mempunyai istana yang kompleks. Semua orang ini mesti didengari. ”
Masukkan Penglihatan Neuromorfik. Idea asas diilhamkan oleh cara sistem biologi berfungsi, iaitu untuk mengesan perubahan dalam dinamik adegan dan bukannya menganalisis keseluruhan adegan secara berterusan. Dalam analogi istana kami, ini bermakna menjaga pengawal senyap sehingga mereka melihat sesuatu yang menarik, kemudian memanggil lokasi mereka untuk meningkatkan penggera. Dalam bentuk elektronik, ini bermakna membiarkan piksel individu menentukan sama ada mereka melihat sesuatu yang berkaitan.
"Pixel boleh memutuskan sendiri maklumat yang harus mereka hantar," kata Benosman.
"Daripada mendapatkan maklumat sistem, mereka boleh mencari maklumat yang bermakna - ciri. Itulah yang membezakannya." kit dibangunkan dengan kerjasama Sony. Benosman ialah pengasas bersama Prophesee.
Pendekatan berasaskan peristiwa ini boleh menjimatkan kuasa yang ketara dan mengurangkan kependaman berbanding pemerolehan sistem frekuensi tetap.
"Anda mahukan sesuatu yang lebih adaptif, dan itulah perubahan relatif [penglihatan berasaskan peristiwa] memberi anda - kekerapan pemerolehan adaptif," katanya. "Apabila anda melihat perubahan amplitud, jika sesuatu bergerak sangat pantas, kami akan mendapat banyak sampel. Jika sesuatu tidak berubah, anda akan mendapat hampir sifar, jadi anda melaraskan kekerapan pemerolehan anda berdasarkan dinamik adegan itu . Itulah sebabnya ia adalah reka bentuk yang baik." Benosman memasuki bidang penglihatan neuromorfik pada tahun 2000 dengan kepercayaan bahawa penglihatan komputer canggih tidak akan berfungsi kerana imej tidak. Cara yang betul. "Peralihan terbesar ialah mengatakan bahawa kita boleh melihat tanpa skala kelabu dan tanpa imej, yang sesat pada akhir 2000-an - benar-benar sesat," katanya. Teknologi yang dicadangkan oleh Benosman - asas penderiaan berasaskan peristiwa hari ini - sangat berbeza sehingga kertas kerja yang diserahkan kepada jurnal penglihatan komputer IEEE yang paling penting pada masa itu ditolak tanpa semakan. Malah, barulah pembangunan Dynamic Vision Sensor (DVS) pada tahun 2008 barulah teknologi itu mula mendapat momentum.Teknologi Neuromorfik ialah teknologi yang diilhamkan oleh sistem biologi, termasuk komputer muktamad: otak dan neuronnya, atau elemen pengiraan. Masalahnya ialah tiada siapa yang memahami sepenuhnya bagaimana neuron berfungsi. Walaupun kita tahu bahawa neuron bertindak balas kepada isyarat elektrik masuk yang dipanggil pancang, sehingga baru-baru ini, penyelidik telah menggambarkan neuron sebagai agak tergesa-gesa, dengan mengandaikan bahawa hanya bilangan pancang yang penting. Hipotesis ini berterusan selama beberapa dekad, tetapi kerja baru-baru ini telah membuktikan bahawa masa pancang ini benar-benar kritikal dan otak distrukturkan untuk membuat kelewatan dalam pancang ini untuk mengekod maklumat.
Rangkaian neural spiking hari ini mensimulasikan pancang yang dilihat dalam otak dan merupakan versi ringkas bagi perkara sebenar—biasanya perwakilan binari bagi pancang. "Saya menerima 1, saya bangun, saya mengira, saya tidur," jelas Benosman. Realitinya jauh lebih kompleks. Apabila spike tiba, neuron mula mengintegrasikan nilai spike dari semasa ke semasa neuron juga bocor, bermakna hasilnya adalah dinamik. Selain itu, terdapat kira-kira 50 jenis neuron yang berbeza dengan 50 profil integrasi yang berbeza.
Versi elektronik semasa tidak mempunyai laluan dinamik bersepadu, ketersambungan antara neuron dan berat serta kelewatan yang berbeza. "Masalahnya ialah untuk membuat produk yang berfungsi, anda tidak boleh [meniru] semua kerumitan kerana kami tidak memahaminya," katanya. "Jika kami mempunyai teori otak yang baik, kami akan menyelesaikannya. Masalahnya, kami tidak tahu
Bensoman menjalankan makmal unik yang khusus untuk memahami matematik di sebalik pengiraan kortikal, bertujuan untuk." sebelum mencipta model matematik baharu dan mereplikasinya ke dalam peranti silikon. Ini melibatkan pemantauan langsung pancang dari retina sebenar.
Pada masa ini, Bensoman menentang setia mereplikasi neuron biologi, memanggil pendekatan itu ketinggalan zaman.
"Idea untuk mereplikasi neuron dalam silikon tercetus kerana orang melihat transistor dan melihat mekanisme yang kelihatan seperti neuron sebenar, jadi terdapat beberapa pemikiran di sebaliknya pada mulanya," katanya. "Kami tidak mempunyai sel; kami mempunyai silikon. Anda perlu menyesuaikan substrat pengkomputeran anda, bukan sebaliknya... Jika saya tahu apa yang saya pengkomputeran dan saya mempunyai cip, saya boleh mengoptimumkan persamaan ini dan melakukannya pada kos terendah, penggunaan kuasa terendah, Latensi terendah untuk menjalankannya ”
Kesedaran bahawa replika neuron yang tepat tidak diperlukan dan pembangunan kamera DVS adalah pemacu. kuasa di sebalik sistem penglihatan hari ini. Walaupun sistem sudah tersedia secara komersial, kemajuan diperlukan sebelum penglihatan sepenuhnya seperti manusia boleh digunakan secara komersial.
Benosman berkata kamera DVS asal mempunyai "piksel yang besar dan tebal" kerana komponen yang mengelilingi fotodiod itu sendiri sangat mengurangkan faktor isian. Walaupun pelaburan dalam membangunkan kamera ini telah mempercepatkan teknologi, Benosman menjelaskan bahawa kamera kejadian hari ini hanyalah penambahbaikan pada peralatan penyelidikan asal yang dibangunkan pada tahun 2000. Kamera DVS paling canggih daripada Sony, Samsung dan Omnivision mempunyai piksel kecil yang menggabungkan teknologi canggih seperti susun 3D dan mengurangkan hingar. Kebimbangan Benosman ialah sama ada jenis penderia yang digunakan hari ini boleh berjaya skala.
"Masalahnya, sebaik sahaja anda meningkatkan bilangan piksel, anda mendapat banyak data kerana anda masih sangat pantas," katanya. "Anda mungkin masih boleh memprosesnya dalam masa nyata, tetapi anda akan mendapat terlalu banyak perubahan relatif daripada terlalu banyak piksel. Itu membunuh semua orang sekarang kerana mereka melihat potensi, tetapi mereka tidak mempunyai pemproses yang sesuai untuk menyokongnya."
Contoh aplikasi pelanggan Prophesee ini menunjukkan perbezaan antara kamera imej (sudut kiri atas setiap kotak) dan output sensor DVS.
Pemproses neuromorfik tujuan am ketinggalan berbanding rakan kamera DVS mereka. Usaha oleh beberapa pemain terbesar industri (IBM Truenorth, Intel Loihi) masih diteruskan. Pemproses yang betul dan sensor yang betul akan menjadi gabungan yang tiada tandingan, kata Benosman.
"Penderia [DVS hari ini] sangat pantas, mempunyai lebar jalur ultra rendah dan mempunyai julat dinamik yang tinggi supaya anda boleh melihat di dalam dan di luar," kata Benosman. "Ini adalah masa depan. Adakah ia akan berlepas? Benar-benar
"Sesiapa yang boleh meletakkan pemproses di sana dan menghantar tindanan penuh menang kerana ia akan menjadi tiada tandingan," tambahnya road.
Atas ialah kandungan terperinci Teknologi penglihatan komputer akan mengalami perubahan besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!