Pada awal pagi 20 Jun, waktu Beijing, CVPR 2024, persidangan visi komputer antarabangsa terkemuka yang diadakan di Seattle, secara rasmi mengumumkan kertas kerja terbaik dan anugerah lain.
Sebanyak 10 kertas memenangi anugerah tahun ini, termasuk 2 kertas terbaik, 2 kertas pelajar terbaik, selain 2 pencalonan kertas terbaik dan 4 pencalonan kertas pelajar terbaik.
Persidangan teratas dalam bidang visi komputer (CV) ialah CVPR, yang menarik sejumlah besar institusi penyelidikan dan universiti untuk mengambil bahagian setiap tahun. Mengikut statistik, sebanyak 11,532 kertas telah diserahkan tahun ini, 2,719 daripadanya diterima, dengan kadar penerimaan 23.6%.
Menurut analisis statistik data CVPR 2024 Institut Teknologi Georgia, dari segi topik penyelidikan, bilangan kertas kerja terbesar ialah topik sintesis dan penjanaan Imej dan video, dengan jumlah 329 kertas kerja.
Jumlah peserta tahun ini adalah lebih tinggi berbanding tahun-tahun sebelumnya, dan semakin ramai orang memilih untuk menyertai luar talian.
Kertas Terbaik
Kertas 1: Dinamik Imej Generatif
Pengarang: Zhengqi Li, Richard Tucker, Noah Snavely
Zhengqi Li ialah seorang saintis penyelidikan di Google DeepMind. Sebelum ini, beliau menerima PhD dalam Sains Komputer dari Cornell University, di mana beliau belajar di bawah Profesor Noah Snavely. Penyelidikan beliau telah menerima beberapa anugerah, termasuk 2020 Google PhD Fellowship, 2020 Adobe Research Fellowship, CVPR 2019 dan CVPR 2023 Best Paper Honors, dan ICCV 2023 Best Student Paper Award.
Abstrak: Kajian ini mencadangkan kaedah terdahulu ruang imej untuk memodelkan gerakan adegan. Sebelum ini dipelajari daripada koleksi trajektori gerakan yang diekstrak daripada jujukan video sebenar, yang menggambarkan dinamik ayunan semula jadi objek seperti pokok, pakaian, dsb. bergoyang ditiup angin. Kajian itu memodelkan gerakan jangka panjang yang padat dalam domain Fourier sebagai volum spektrum, yang didapati oleh pasukan itu sangat sesuai untuk ramalan dengan model resapan.
Memandangkan satu imej, model yang dilatih dalam kajian ini menggunakan proses pensampelan resapan diselaraskan frekuensi untuk meramalkan isipadu spektrum, yang juga boleh ditukar kepada tekstur gerakan yang merangkumi keseluruhan video.运动 Kajian ini boleh mengurangkan (atas) atau zum (bawah) gerakan animasi dengan melaraskan amplitud tekstur gerakan.
Bersama-sama dengan modul pemaparan berasaskan imej, perwakilan gerakan yang diramalkan boleh digunakan dalam banyak aplikasi hiliran, seperti menukar imej pegun kepada video gelung yang lancar atau membenarkan pengguna berinteraksi dengan objek dalam imej sebenar, menghasilkan dinamik simulasi yang realistik . . California, kampus Cawangan San Diego, Penyelidikan Google, Universiti California Selatan, Universiti Cambridge, Universiti Brandeis
Alamat kertas: https://arxiv.org/pdf/2312.10240
Daripada pengarang ruangan kertas kerja, kita dapat dilihat bahawa ramai orang Cina yang mengambil bahagian dalam penyelidikan ini Antaranya, Youwei Liang merupakan pelajar kedoktoran di Jabatan Kejuruteraan Elektrik dan Komputer di Universiti California, San Diego seorang pelajar sarjana dalam jurusan Sains Komputer dan Maklumat di South China Agricultural University. Beliau berasal dari Google sebelum ini lulus dengan ijazah sarjana dari Universiti Tsinghua.
Abstrak: Baru-baru ini, model generatif teks-ke-imej (T2I) telah mencapai kemajuan yang ketara, yang mampu menjana imej resolusi tinggi daripada huraian teks. Walau bagaimanapun, banyak imej yang dijana masih mengalami artifak/tidak boleh dipercayai, ketidakkonsistenan fakta dan estetika yang buruk.
Diinspirasikan oleh kejayaan penggunaan pembelajaran pengukuhan dengan maklum balas manusia (RLHF) untuk model bahasa yang besar, penyelidikan ini memperkayakan isyarat maklum balas dengan:
menanda kawasan imej yang tidak boleh dipercayai atau tidak sejajar dengan teks perkataan dalam gesaan teks diherotkan atau tiada pada imej.
Institusi: Universiti Peking, Universiti Jiao Tong Shanghai, dsb.
Alamat kertas: https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Cometric_Real-Time_2 24_paper.pdf
20.pdf
Kertas Pelajar Terbaik
Kertas 1: BioCLIP : A Vision Foundation Model for the Tree of Life
Authors: Samuel Stevens , Jiaman Wu , Matthew J Thompson , Elizabeth G Campolongo , Chan Hee Song , David Edward Carlyn , Li Dong , Wasila M Dahdul , Charles Stewart , Tanya Berger -Wolf , Wei-Lun Chao, Yu Su
Institusi: Ohio State University, Microsoft Research, University of California, Irvine, Rensselaer Polytechnic Institute
Alamat kertas: https://arxiv.org/pdf/2311.18803
Abstrak
: Imej alam semula jadi yang dikumpul oleh kamera daripada dron hingga telefon bimbit peribadi semakin menjadi sumber maklumat biologi yang kaya. Terdapat letupan kaedah dan alat pengiraan, terutamanya penglihatan komputer, untuk mengekstrak maklumat yang berkaitan secara biologi daripada imej saintifik dan pemuliharaan. Walau bagaimanapun, kebanyakannya ialah kaedah tersuai yang direka untuk tugasan tertentu dan tidak mudah disesuaikan atau diperluaskan kepada masalah, konteks dan set data baharu. Penyelidik memerlukan model visual untuk masalah biologi am organisma pada imej dengan segera.Untuk mencapai matlamat ini, penyelidikan menyusun dan mengeluarkan TREEOFLIFE-10M, set data imej biologi sedia ML yang terbesar dan paling pelbagai. Berdasarkan ini, penyelidik membangunkan model asas BIOCLIP, yang digunakan terutamanya untuk membina pokok kehidupan (pokok kehidupan), menggunakan sifat unik biologi yang ditangkap oleh TREEOFLIFE-10M, iaitu, kekayaan dan kepelbagaian tumbuhan, imej haiwan dan kulat, dan pelbagai pengetahuan biologi berstruktur. Gambar rajah pokok 108 pintu dalam TREEOFLIFE-10M.
Institusi: Universiti Tübingen, Pusat Kecerdasan Buatan Tübingen, Universiti Sains dan Teknologi Shanghai, Breitning, Universiti Teknikal Czech di Prague
Alamat kertas: https://arxiv.org/abs/2311.16493
Abstrak
: Baru-baru ini, teknik percikan Gaussian 3D telah menunjukkan hasil yang mengagumkan dalam sintesis paparan novel, mencapai tahap kesetiaan dan kecekapan yang tinggi. Walau bagaimanapun, apabila menukar kadar pensampelan (contohnya dengan menukar jarak fokus atau jarak kamera), artifak kuat mungkin muncul.Percikan Gaussian 3D berfungsi dengan mewakili objek 3D sebagai fungsi Gaussian 3D yang ditayangkan pada satah imej, diikuti dengan pelebaran 2D dalam ruang skrin, seperti yang ditunjukkan dalam Rajah (a). Pincang pengecutan yang wujud bagi kaedah ini menyebabkan fungsi Gaussian 3D yang merosot melebihi had pensampelan, seperti yang ditunjukkan oleh fungsi δ dalam Rajah (b), manakala ia menjadi serupa dengan 2D disebabkan oleh operasi pelebaran. Walau bagaimanapun, apabila menukar kadar pensampelan (sama ada melalui jarak fokus atau jarak kamera), kesan pelebaran kuat (c) dan artifak frekuensi tinggi (d) diperhatikan.
Pasukan penyelidik mendapati bahawa sebab fenomena ini boleh dikaitkan dengan kekurangan kekangan frekuensi 3D dan penggunaan penapis pelebaran 2D. Untuk menyelesaikan masalah ini, mereka memperkenalkan penapis pelicinan 3D yang mengekang saiz primitif Gaussian 3D mengikut kekerapan pensampelan maksimum yang disebabkan oleh paparan input, sekali gus menghapuskan artifak frekuensi tinggi apabila mengezum masuk. Selain itu, pasukan pengarang menggantikan penapis pelebaran 2D dengan penapis Mip 2D, yang menyerupai penapis kotak 2D dan berkesan mengurangkan masalah pengalianan dan pengembangan. Para penyelidik mengesahkan keberkesanan kaedah ini berdasarkan penilaian, termasuk senario seperti latihan pada imej skala tunggal dan ujian berbilang skala. Naib Johan untuk Kertas Pelajar TerbaikPautan : https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf
Pautan: https://openaccess.thecvf.com/content/CVPR2024_NN_Process_Reaction_R_Process/CVPR2024_R_Supers solution_CVPR_2024_paper. pdf
Persidangan itu juga mengumumkan anugerah PAMI TC, termasuk Anugerah Longuet-Higgins, Anugerah Penyiasat Muda dan Anugerah Memorial Thomas S. Huang.
Kertas yang memenangi anugerah tahun ini ialah "Hierarki Ciri Kaya untuk Pengesanan Objek Tepat dan Segmentasi Semantik".
Authors: Ross Girshick, Jeff Donahue, Trevor Darrell dan Jitendra Malik
institution: UC Berkeley
paper Link: https://arxiv.org/abs/1311.2524
Anugerah Penyelidik Muda
Anugerah Penyelidik Muda bertujuan untuk mengiktiraf saintis muda dan menggalakkan mereka untuk terus membuat kerja terobosan. Kriteria pemilihan ialah penerima mempunyai pengalaman PhD kurang daripada 7 tahun.
Pemenang tahun ini ialah Angjoo Kanazawa (UC Berkeley) dan Carl Vondrick (Universiti Columbia).
Selain itu, Katie Bouman (Caltech) menerima penghormatan untuk Anugerah Penyiasat Muda.
Anugerah Memorial Thomas Huang
Di CVPR 2020, sebagai mengenang Profesor Thomas S. Huang (Huang Xutao), Jawatankuasa Anugerah PAMITC meluluskan penubuhan Anugerah Memorial Thomas S. Huang sebagai pengiktirafan terhadap penyelidikan CV , pendidikan dan perkhidmatan Penyelidik yang diiktiraf sebagai role model. Anugerah itu akan diberikan mulai tahun 2021. Penerima perlu mempunyai PhD mereka sekurang-kurangnya 7 tahun, sebaik-baiknya pada pertengahan kerjaya (tidak melebihi 25 tahun).
Pemenang tahun ini ialah profesor Universiti Oxford Andrea Vedaldi.
Untuk maklumat lanjut, sila rujuk: https://media.eventhosts.cc/Conferences/CVPR2024/OpeningRemarkSlides.pdf
Pautan rujukan:
.com /views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2
🎜Atas ialah kandungan terperinci Semua anugerah CVPR 2024 diumumkan! Hampir 10,000 orang menghadiri persidangan itu di luar talian dan seorang penyelidik Cina dari Google memenangi anugerah kertas terbaik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!