


Anugerah kertas ICCV'23 'Fighting of Gods'! Meta Divide Everything dan ControlNet telah dipilih secara bersama, dan terdapat satu lagi artikel yang mengejutkan para hakim
ICCV 2023, persidangan penglihatan komputer teratas yang diadakan di Paris, Perancis, baru sahaja berakhir!
Anugerah Kertas Terbaik tahun ini hanyalah "pergaduhan antara tuhan".
Sebagai contoh, dua kertas yang memenangi Anugerah Kertas Terbaik termasuk karya yang meruntuhkan bidang Vincentian AI - ControlNet.
Sejak sumber terbuka, ControlNet telah menerima 24k bintang di GitHub. Sama ada untuk model resapan atau keseluruhan bidang penglihatan komputer, anugerah kertas ini amat wajar
Penghargaan untuk Anugerah Kertas Terbaik telah dianugerahkan kepada satu lagi kertas kerja yang sama terkenal, Meta's “Split Everything” model SAM.
Sejak pelancarannya, "Segmen Semuanya" telah menjadi "penanda aras" untuk pelbagai model AI segmentasi imej, termasuk banyak FastSAM, LISA dan SegGPT yang datang dari belakang, yang semuanya menggunakannya sebagai penanda aras rujukan untuk ujian keberkesanan.
Pencalonan kertas semuanya sangat berat.
ICCV 2023 menyerahkan sejumlah 8068 kertas, tetapi hanya kira-kira satu perempat, iaitu, 2160 kertas diterima
Hampir 10% kertas kerja adalah dari China, selain universiti, terdapat juga banyak institusi perindustrian, seperti SenseTime 49 kertas daripada sains dan teknologi serta makmal bersama telah dipilih untuk ICCV 2023, dan 14 kertas daripada Megvii telah dipilih.
Mari kita lihat kertas mana yang memenangi anugerah ICCV 2023
ControlNet memenangi kertas terbaik dalam ICCV
Mari kita lihat dahulu dua kertas yang memenangi anugerah kertas terbaik (Marr Award) tahun ini
ICCV kertas terbaik Juga dikenali sebagai Marr Prize (Marr Prize), dipilih setiap dua tahun dan dikenali sebagai salah satu penghormatan tertinggi dalam bidang penglihatan komputer.
Anugerah ini dinamakan sempena David Marr, seorang perintis dalam bidang penglihatan komputer dan pengasas neurosains pengiraan
Pemenang Anugerah Kertas Terbaik pertama ialah "Menambah Kawalan Bersyarat untuk Model Resapan Teks-ke-Imej" daripada Stanford
Kertas kerja ini mencadangkan model yang dipanggil ControlNet, yang boleh mengawal butiran penjanaannya dengan hanya menambah input tambahan pada model resapan yang telah dilatih.
Input di sini boleh terdiri daripada pelbagai jenis, termasuk lakaran, imej tepi, imej segmentasi semantik, ciri titik utama badan manusia, garis lurus pengesanan transformasi Hough, peta kedalaman, tulang manusia, dll. Apa yang dipanggil "AI boleh menarik tangan ", teras Teknologi datang daripada artikel ini.
Idea dan seni binanya adalah seperti berikut:
Rangkaian kawalan mula-mula menyalin berat model penyebaran untuk mendapatkan "salinan boleh dilatih"
Sebaliknya, model penyebaran asal telah dilatih terlebih dahulu pada berbilion-bilion images , jadi parameter "dikunci". Dan "salinan boleh dilatih" ini hanya perlu dilatih pada set data kecil tugas khusus untuk mempelajari kawalan bersyarat.
Walaupun jumlah data sangat kecil (tidak melebihi 50,000 imej), kawalan bersyarat yang dihasilkan oleh model selepas latihan adalah sangat baik.
Disambungkan melalui lapisan konvolusi 1×1, "model terkunci" dan "salinan boleh dilatih" membentuk struktur yang dipanggil "0 lapisan konvolusi". Berat dan berat sebelah lapisan konvolusi 0 ini dimulakan kepada 0, supaya kelajuan yang sangat pantas boleh diperolehi semasa proses latihan, hampir dengan kelajuan penalaan halus model resapan, malah boleh dilatih pada peranti peribadi
Sebagai contoh, jika anda menggunakan 200,000 data imej untuk melatih NVIDIA RTX 3090TI, ia hanya akan mengambil masa kurang daripada seminggu
Zhang Lvmin ialah pengarang pertama kertas ControlNet dan kini merupakan pelajar kedoktoran di Universiti Stanford. Selain ControlNet, beliau juga mencipta karya terkenal seperti Style2Paints dan Fooocus
Alamat kertas: https://arxiv.org/abs/2302.05543
Kertas kedua "Passive Ultra-Wideband Single-Photon lmaging", daripada Universiti Toronto.
Kertas kerja ini dipanggil "kertas paling mengejutkan mengenai topik" oleh jawatankuasa pemilihan, sehinggakan salah seorang hakim berkata "hampir mustahil untuk dia berfikir untuk mencuba perkara sedemikian."
Abstrak kertas adalah seperti berikut:
Artikel ini membincangkan cara mengawal adegan dinamik Pengimejan secara serentak memerlukan pengimejan secara pasif (tanpa aktif menghantar sejumlah besar isyarat cahaya) dan dalam keadaan cahaya yang sangat jarang, dan tidak bergantung pada sebarang isyarat pemasaan daripada sumber cahaya.
Memandangkan teknik penganggaran aliran optik sedia ada untuk kamera foton tunggal gagal dalam julat ini, makalah ini membangunkan teori pengesanan aliran optik yang menggunakan idea kalkulus stokastik kepada aliran optik yang berubah-ubah masa yang dibina semula. piksel dalam aliran cap waktu pengesanan foton yang semakin monoton.
Berdasarkan teori ini, kertas kerja ini melakukan tiga perkara:
(1) Menunjukkan bahawa dalam keadaan aliran optik yang rendah, kamera pengesan panjang gelombang foton tunggal yang berjalan bebas pasif mempunyai lebar jalur Frekuensi yang boleh dicapai , merangkumi keseluruhan spektrum dari DC hingga 31 GHz;
(2) Terbitkan algoritma pembinaan semula aliran optik domain Fourier untuk mengimbas data cap masa untuk frekuensi dengan sokongan ketara secara statistik; model masih sah walaupun pada kiraan foton yang sangat rendah atau masa mati yang tidak boleh diabaikan.
(1) Sekiranya tiada penyegerakan (seperti mentol lampu, projektor, laser berbilang nadi ) , adegan pengimejan diterangi serentak oleh sumber cahaya yang berjalan pada kelajuan yang berbeza
(2) Koleksi video bukan garis pandang pasif # (3) Video jalur lebar ultra dirakam dan boleh dimainkan semula di 30 Hz untuk menunjukkan pergerakan setiap hari, tetapi juga boleh dimainkan semula pada satu bilion saat untuk menunjukkan cara cahaya bergerak.
Penulis pertama kertas kerja ialah Mian Wei, seorang pelajar kedoktoran di Universiti Toronto terletak pada peningkatan algoritma penglihatan komputer berdasarkan teknologi pengimejan pencahayaan aktif.
"Split Everything" menerima penghormatanPada persidangan ini, selain ControNet yang dinanti-nantikan, model Meta "Split Everything" turut memenangi penghormatan Kertas Terbaik Pencalonan Anugerah menjadi topik berprofil tinggi pada masa itu
Kertas ini bukan sahaja mencadangkan set data segmentasi imej terbesar pada masa ini, dengan 11J imej Terdapat lebih banyak daripada 1 bilion topeng, dan model SAM telah dilatih untuk tujuan ini, yang boleh membahagikan imej yang tidak kelihatan dengan cepat. Model sumber terbuka ini pada masa ini telah menerima 38.8k bintang di GitHub, yang boleh dikatakan sebagai "penanda aras" dalam bidang segmentasi semantik
Dalam kerja pelajar, model Google "jejaki segala-galanya" menonjol
Sama seperti tajuk artikel, model ini boleh menjejak apa sahaja dalam imej di masa yang sama dari mana-mana sahaja# 🎜🎜#(Berbilang)Objek dijejaki pada tahap piksel.
Pengarang pertama projek itu ialah Qianqian Wang, Ph.D Cina dari Universiti Cornell, yang kini sedang menjalankan penyelidikan pasca doktoral di UCB.
#🎜🎜🎜##🎜🎜🎜 Laman utama projek: https://omnimotion.github.io/
Pada majlis perasmian, anugerah khas yang disumbangkan oleh ahli jawatankuasa PAMIC turut diumumkan, yang turut menyumbangkan anugerah untuk dua persidangan lapangan visi komputer, CVPR dan WACV
Empat anugerah berikut disertakan:
- hai Mkhize Award: Kertas kerja ICCV yang memberi impak besar kepada penyelidikan penglihatan komputer sepuluh tahun yang lalu
- Anugerah Everingham: Kemajuan dalam bidang penglihatan komputer
- Penyelidik Cemerlang: Penyelidik yang telah memberikan sumbangan besar kepada kemajuan visi komputer
- Anugerah Pencapaian Sepanjang Hayat Rosenfeld: Penyelidik yang telah membuat sumbangan besar dalam bidang penglihatan komputer sepanjang kerjaya mereka yang panjang
Para saintis yang memenangi Hadiah Helmholtz ialah saintis China Heng Wang dan Cordelia Schmid Google, yang merupakan ahli Meta AI
Mereka memenangi anugerah untuk kertas kerja yang mereka terbitkan pada 2013 mengenai pengiktirafan tindakan.
Pada masa itu, kedua-dua mereka bekerja di makmal Lear di bawah Institut Pengkomputeran dan Automasi Kebangsaan Perancis (singkatan bahasa Perancis: INRIA), dan Schmid adalah ketua makmal itu pada masa itu.
Sila klik pautan berikut untuk melihat kertas kerja: https://ieeexplore.ieee.org/document/6751553
Hadiah Everingham telah dianugerahkan kepada dua pasukan
Pemenang kumpulan pertama ialah Samer daripada Google Agarwal, Keir Mierle dan pasukan mereka
Kedua-dua pemenang masing-masing lulus dari Universiti Washington dan Universiti Toronto Pencapaian mereka adalah untuk membangunkan perpustakaan C++ sumber terbuka Ceres Solver
projek yang digunakan secara meluas. dalam bidang visi komputer Pautan halaman utama: http://ceres-solver.org/
Satu lagi keputusan yang memenangi anugerah ialah set data COCO, yang mengandungi sejumlah besar imej dan anotasi, mempunyai kandungan dan tugas yang kaya, dan merupakan data penting untuk menguji set model penglihatan komputer.
Set data ini dicadangkan oleh Microsoft. Pengarang pertama kertas yang berkaitan ialah saintis Cina Tsung-Yi Lin Dia lulus dari Universiti Cornell dengan Ph.D dan kini bekerja sebagai penyelidik di NVIDIA Labs.
Alamat kertas: https://arxiv.org/abs/1405.0312
Laman utama projek: https://cocodataset.org/
Penyelidikan yang cemerlang dan yang terbaik Profesor Max Planck Jerman Michael Black dari Institut dan Rama Chellappa dari Universiti Johns Hopkins.
Profesor Ted Adelson dari MIT memenangi Anugerah Pencapaian Sepanjang Hayat
Adakah kertas kerja anda telah diterima oleh ICCV 2023? Apakah pendapat anda tentang pemilihan anugerah tahun ini?
Atas ialah kandungan terperinci Anugerah kertas ICCV'23 'Fighting of Gods'! Meta Divide Everything dan ControlNet telah dipilih secara bersama, dan terdapat satu lagi artikel yang mengejutkan para hakim. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.
