


Semua anugerah CVPR 2024 diumumkan! Hampir 10,000 orang menghadiri persidangan itu di luar talian dan seorang penyelidik Cina dari Google memenangi anugerah kertas terbaik
Pada awal pagi 20 Jun, waktu Beijing, CVPR 2024, persidangan visi komputer antarabangsa terkemuka yang diadakan di Seattle, secara rasmi mengumumkan kertas kerja terbaik dan anugerah lain.
Sebanyak 10 kertas memenangi anugerah tahun ini, termasuk 2 kertas terbaik, 2 kertas pelajar terbaik, selain 2 pencalonan kertas terbaik dan 4 pencalonan kertas pelajar terbaik.
Persidangan teratas dalam bidang visi komputer (CV) ialah CVPR, yang menarik sejumlah besar institusi penyelidikan dan universiti untuk mengambil bahagian setiap tahun. Mengikut statistik, sebanyak 11,532 kertas telah diserahkan tahun ini, 2,719 daripadanya diterima, dengan kadar penerimaan 23.6%.
Menurut analisis statistik data CVPR 2024 Institut Teknologi Georgia, dari segi topik penyelidikan, bilangan kertas kerja terbesar ialah topik sintesis dan penjanaan Imej dan video, dengan jumlah 329 kertas kerja.
Jumlah peserta tahun ini adalah lebih tinggi berbanding tahun-tahun sebelumnya, dan semakin ramai orang memilih untuk menyertai luar talian.
Kertas Terbaik
Kertas 1: Dinamik Imej Generatif
Pengarang: Zhengqi Li, Richard Tucker, Noah Snavely
- Alamat kertas : https://arxiv.org/pdf/2309.07906
Zhengqi Li ialah seorang saintis penyelidikan di Google DeepMind. Sebelum ini, beliau menerima PhD dalam Sains Komputer dari Cornell University, di mana beliau belajar di bawah Profesor Noah Snavely. Penyelidikan beliau telah menerima beberapa anugerah, termasuk 2020 Google PhD Fellowship, 2020 Adobe Research Fellowship, CVPR 2019 dan CVPR 2023 Best Paper Honors, dan ICCV 2023 Best Student Paper Award.
: Kajian ini mencadangkan kaedah terdahulu ruang imej untuk memodelkan gerakan adegan. Sebelum ini dipelajari daripada koleksi trajektori gerakan yang diekstrak daripada jujukan video sebenar, yang menggambarkan dinamik ayunan semula jadi objek seperti pokok, pakaian, dsb. bergoyang ditiup angin. Kajian itu memodelkan gerakan jangka panjang yang padat dalam domain Fourier sebagai volum spektrum, yang didapati oleh pasukan itu sangat sesuai untuk ramalan dengan model resapan.
Memandangkan satu imej, model yang dilatih dalam kajian ini menggunakan proses pensampelan resapan diselaraskan frekuensi untuk meramalkan isipadu spektrum, yang juga boleh ditukar kepada tekstur gerakan yang merangkumi keseluruhan video.运动 Kajian ini boleh mengurangkan (atas) atau zum (bawah) gerakan animasi dengan melaraskan amplitud tekstur gerakan.
Bersama-sama dengan modul pemaparan berasaskan imej, perwakilan gerakan yang diramalkan boleh digunakan dalam banyak aplikasi hiliran, seperti menukar imej pegun kepada video gelung yang lancar atau membenarkan pengguna berinteraksi dengan objek dalam imej sebenar, menghasilkan dinamik simulasi yang realistik . . California, kampus Cawangan San Diego, Penyelidikan Google, Universiti California Selatan, Universiti Cambridge, Universiti Brandeis
Alamat kertas: https://arxiv.org/pdf/2312.10240
Daripada pengarang ruangan kertas kerja, kita dapat dilihat bahawa ramai orang Cina yang mengambil bahagian dalam penyelidikan ini Antaranya, Youwei Liang merupakan pelajar kedoktoran di Jabatan Kejuruteraan Elektrik dan Komputer di Universiti California, San Diego seorang pelajar sarjana dalam jurusan Sains Komputer dan Maklumat di South China Agricultural University. Beliau berasal dari Google sebelum ini lulus dengan ijazah sarjana dari Universiti Tsinghua.
Abstrak: Baru-baru ini, model generatif teks-ke-imej (T2I) telah mencapai kemajuan yang ketara, yang mampu menjana imej resolusi tinggi daripada huraian teks. Walau bagaimanapun, banyak imej yang dijana masih mengalami artifak/tidak boleh dipercayai, ketidakkonsistenan fakta dan estetika yang buruk.
Diinspirasikan oleh kejayaan penggunaan pembelajaran pengukuhan dengan maklum balas manusia (RLHF) untuk model bahasa yang besar, penyelidikan ini memperkayakan isyarat maklum balas dengan:
menanda kawasan imej yang tidak boleh dipercayai atau tidak sejajar dengan teks perkataan dalam gesaan teks diherotkan atau tiada pada imej.
Institusi: Universiti Peking, Universiti Jiao Tong Shanghai, dsb.
- Pengarang: David Charatan, Sizhe Lester Li, Andrea Tagliasacchi MIT, Simon Fraser Universiti, Universiti Toronto
- Alamat kertas: https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR2024
20.pdf
Kertas Pelajar Terbaik
Kertas 1: BioCLIP : A Vision Foundation Model for the Tree of Life
Authors: Samuel Stevens , Jiaman Wu , Matthew J Thompson , Elizabeth G Campolongo , Chan Hee Song , David Edward Carlyn , Li Dong , Wasila M Dahdul , Charles Stewart , Tanya Berger -Wolf , Wei-Lun Chao, Yu Su
Institusi: Ohio State University, Microsoft Research, University of California, Irvine, Rensselaer Polytechnic Institute
Alamat kertas: https://arxiv.org/pdf/2311.18803
Abstrak
Untuk mencapai matlamat ini, penyelidikan menyusun dan mengeluarkan TREEOFLIFE-10M, set data imej biologi sedia ML yang terbesar dan paling pelbagai. Berdasarkan ini, penyelidik membangunkan model asas BIOCLIP, yang digunakan terutamanya untuk membina pokok kehidupan (pokok kehidupan), menggunakan sifat unik biologi yang ditangkap oleh TREEOFLIFE-10M, iaitu, kekayaan dan kepelbagaian tumbuhan, imej haiwan dan kulat, dan pelbagai pengetahuan biologi berstruktur. Gambar rajah pokok 108 pintu dalam TREEOFLIFE-10M.
- Para penyelidik menanda aras kaedah kami dengan teliti pada pelbagai tugas pengelasan biologi yang terperinci dan mendapati bahawa BIOCLIP secara konsisten menunjukkan prestasi yang lebih baik daripada garis dasar sedia ada (16% hingga 17% lebih tinggi dalam nilai mutlak). Penilaian intrinsik menunjukkan bahawa BIOCLIP telah mempelajari perwakilan hierarki yang konsisten dengan Pokok Kehidupan, mendedahkan keluasannya yang kukuh.
- Kertas 2: Mip-Splatting: Percikan Gaussian 3D tanpa alias
- Pengarang kertas: Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger
Institusi: Universiti Tübingen, Pusat Kecerdasan Buatan Tübingen, Universiti Sains dan Teknologi Shanghai, Breitning, Universiti Teknikal Czech di Prague
Alamat kertas: https://arxiv.org/abs/2311.16493
Abstrak
: Baru-baru ini, teknik percikan Gaussian 3D telah menunjukkan hasil yang mengagumkan dalam sintesis paparan novel, mencapai tahap kesetiaan dan kecekapan yang tinggi. Walau bagaimanapun, apabila menukar kadar pensampelan (contohnya dengan menukar jarak fokus atau jarak kamera), artifak kuat mungkin muncul.Percikan Gaussian 3D berfungsi dengan mewakili objek 3D sebagai fungsi Gaussian 3D yang ditayangkan pada satah imej, diikuti dengan pelebaran 2D dalam ruang skrin, seperti yang ditunjukkan dalam Rajah (a). Pincang pengecutan yang wujud bagi kaedah ini menyebabkan fungsi Gaussian 3D yang merosot melebihi had pensampelan, seperti yang ditunjukkan oleh fungsi δ dalam Rajah (b), manakala ia menjadi serupa dengan 2D disebabkan oleh operasi pelebaran. Walau bagaimanapun, apabila menukar kadar pensampelan (sama ada melalui jarak fokus atau jarak kamera), kesan pelebaran kuat (c) dan artifak frekuensi tinggi (d) diperhatikan.
Pasukan penyelidik mendapati bahawa sebab fenomena ini boleh dikaitkan dengan kekurangan kekangan frekuensi 3D dan penggunaan penapis pelebaran 2D. Untuk menyelesaikan masalah ini, mereka memperkenalkan penapis pelicinan 3D yang mengekang saiz primitif Gaussian 3D mengikut kekerapan pensampelan maksimum yang disebabkan oleh paparan input, sekali gus menghapuskan artifak frekuensi tinggi apabila mengezum masuk. Selain itu, pasukan pengarang menggantikan penapis pelebaran 2D dengan penapis Mip 2D, yang menyerupai penapis kotak 2D dan berkesan mengurangkan masalah pengalianan dan pengembangan. Para penyelidik mengesahkan keberkesanan kaedah ini berdasarkan penilaian, termasuk senario seperti latihan pada imej skala tunggal dan ujian berbilang skala. Naib Johan untuk Kertas Pelajar TerbaikPautan : https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf
- Kertas: Pemprosesan Imej GNN: Memecah Ketegaran dalam Resolusi Super
- Pengarang: Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang
- Institusi: Universiti Peking, Makmal Bahtera Nabi Nuh Huawei
Pautan: https://openaccess.thecvf.com/content/CVPR2024_NN_Process_Reaction_R_Process/CVPR2024_R_Supers solution_CVPR_2024_paper. pdf
- Kertas: Objek sebagai jilid: Pandangan geometri stokastik pepejal legap
- Pengarang: Bailey Miller, Hanyu Chen, Alice Lai : Universiti Carnegie Mellon
- Pautan: https://arxiv.org/pdf/2312.15406v2
- Kertas: Membandingkan Mekanisme Membuat Keputusan oleh Transformers dan Kaedah CNN🜎🜎 Jiang , Saeed Khorram, Li Fuxin
- Institusi: Oregon State University
- Pautan: https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_and_CNNism 24_paper .pdf
Persidangan itu juga mengumumkan anugerah PAMI TC, termasuk Anugerah Longuet-Higgins, Anugerah Penyiasat Muda dan Anugerah Memorial Thomas S. Huang.
- Anugerah Longuet-Higgins
- Anugerah Longuet-Higgins ialah "Anugerah Sumbangan Fundamental Visi Komputer" yang dianugerahkan oleh Jawatankuasa Teknikal Analisis Corak Masyarakat Komputer dan Perisikan Mesin (PAMI) IEEE di CVPR tahunan, sebagai pengiktirafan daripada sumbangan kepada visi komputer sepuluh tahun yang lalu yang telah memberi impak yang besar terhadap penyelidikan visi komputer. Anugerah ini dinamakan untuk ahli kimia teori dan saintis kognitif H. Christopher Longuet-Higgins.
Authors: Ross Girshick, Jeff Donahue, Trevor Darrell dan Jitendra Malik
institution: UC Berkeley
paper Link: https://arxiv.org/abs/1311.2524
Kertas yang memenangi anugerah tahun ini ialah "Hierarki Ciri Kaya untuk Pengesanan Objek Tepat dan Segmentasi Semantik".
Anugerah Penyelidik Muda
Anugerah Penyelidik Muda bertujuan untuk mengiktiraf saintis muda dan menggalakkan mereka untuk terus membuat kerja terobosan. Kriteria pemilihan ialah penerima mempunyai pengalaman PhD kurang daripada 7 tahun.
Pemenang tahun ini ialah Angjoo Kanazawa (UC Berkeley) dan Carl Vondrick (Universiti Columbia).
Selain itu, Katie Bouman (Caltech) menerima penghormatan untuk Anugerah Penyiasat Muda.
Anugerah Memorial Thomas Huang
Di CVPR 2020, sebagai mengenang Profesor Thomas S. Huang (Huang Xutao), Jawatankuasa Anugerah PAMITC meluluskan penubuhan Anugerah Memorial Thomas S. Huang sebagai pengiktirafan terhadap penyelidikan CV , pendidikan dan perkhidmatan Penyelidik yang diiktiraf sebagai role model. Anugerah itu akan diberikan mulai tahun 2021. Penerima perlu mempunyai PhD mereka sekurang-kurangnya 7 tahun, sebaik-baiknya pada pertengahan kerjaya (tidak melebihi 25 tahun).
Pemenang tahun ini ialah profesor Universiti Oxford Andrea Vedaldi.
Untuk maklumat lanjut, sila rujuk: https://media.eventhosts.cc/Conferences/CVPR2024/OpeningRemarkSlides.pdf
Pautan rujukan:
.com /views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2
🎜Atas ialah kandungan terperinci Semua anugerah CVPR 2024 diumumkan! Hampir 10,000 orang menghadiri persidangan itu di luar talian dan seorang penyelidik Cina dari Google memenangi anugerah kertas terbaik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Kimi: Hanya dalam satu ayat, dalam sepuluh saat sahaja, PPT akan siap. PPT sangat menjengkelkan! Untuk mengadakan mesyuarat, anda perlu mempunyai PPT; untuk menulis laporan mingguan, anda perlu mempunyai PPT untuk membuat pelaburan, anda perlu menunjukkan PPT walaupun anda menuduh seseorang menipu, anda perlu menghantar PPT. Kolej lebih seperti belajar jurusan PPT Anda menonton PPT di dalam kelas dan melakukan PPT selepas kelas. Mungkin, apabila Dennis Austin mencipta PPT 37 tahun lalu, dia tidak menyangka satu hari nanti PPT akan berleluasa. Bercakap tentang pengalaman sukar kami membuat PPT membuatkan kami menitiskan air mata. "Ia mengambil masa tiga bulan untuk membuat PPT lebih daripada 20 muka surat, dan saya menyemaknya berpuluh-puluh kali. Saya rasa ingin muntah apabila saya melihat PPT itu." ialah PPT." Jika anda mengadakan mesyuarat dadakan, anda harus melakukannya

Penyebaran bukan sahaja boleh meniru lebih baik, tetapi juga "mencipta". Model resapan (DiffusionModel) ialah model penjanaan imej. Berbanding dengan algoritma yang terkenal seperti GAN dan VAE dalam bidang AI, model resapan mengambil pendekatan yang berbeza. Idea utamanya ialah proses menambah hingar pada imej dan kemudian secara beransur-ansur menolaknya. Cara mengecilkan dan memulihkan imej asal adalah bahagian teras algoritma. Algoritma akhir mampu menghasilkan imej daripada imej bising rawak. Dalam beberapa tahun kebelakangan ini, pertumbuhan luar biasa AI generatif telah membolehkan banyak aplikasi menarik dalam penjanaan teks ke imej, penjanaan video dan banyak lagi. Prinsip asas di sebalik alat generatif ini ialah konsep resapan, mekanisme pensampelan khas yang mengatasi batasan kaedah sebelumnya.

Pada awal pagi 20 Jun, waktu Beijing, CVPR2024, persidangan penglihatan komputer antarabangsa teratas yang diadakan di Seattle, secara rasmi mengumumkan kertas kerja terbaik dan anugerah lain. Pada tahun ini, sebanyak 10 kertas memenangi anugerah, termasuk 2 kertas terbaik dan 2 kertas pelajar terbaik Selain itu, terdapat 2 pencalonan kertas terbaik dan 4 pencalonan kertas pelajar terbaik. Persidangan teratas dalam bidang visi komputer (CV) ialah CVPR, yang menarik sejumlah besar institusi penyelidikan dan universiti setiap tahun. Mengikut statistik, sebanyak 11,532 kertas telah diserahkan tahun ini, 2,719 daripadanya diterima, dengan kadar penerimaan 23.6%. Menurut analisis statistik data CVPR2024 Institut Teknologi Georgia, dari perspektif topik penyelidikan, bilangan kertas terbesar ialah sintesis dan penjanaan imej dan video (Imageandvideosyn

Kami tahu bahawa LLM dilatih pada kelompok komputer berskala besar menggunakan data besar-besaran Tapak ini telah memperkenalkan banyak kaedah dan teknologi yang digunakan untuk membantu dan menambah baik proses latihan LLM. Hari ini, perkara yang ingin kami kongsikan ialah artikel yang mendalami teknologi asas dan memperkenalkan cara menukar sekumpulan "logam kosong" tanpa sistem pengendalian pun menjadi gugusan komputer untuk latihan LLM. Artikel ini datang daripada Imbue, sebuah permulaan AI yang berusaha untuk mencapai kecerdasan am dengan memahami cara mesin berfikir. Sudah tentu, mengubah sekumpulan "logam kosong" tanpa sistem pengendalian menjadi gugusan komputer untuk latihan LLM bukanlah proses yang mudah, penuh dengan penerokaan dan percubaan dan kesilapan, tetapi Imbue akhirnya berjaya melatih LLM dengan 70 bilion parameter proses terkumpul

Mula Pantas dengan PyCharm Edisi Komuniti: Tutorial Pemasangan Terperinci Analisis Penuh Pengenalan: PyCharm ialah persekitaran pembangunan bersepadu (IDE) Python yang berkuasa yang menyediakan set alat yang komprehensif untuk membantu pembangun menulis kod Python dengan lebih cekap. Artikel ini akan memperkenalkan secara terperinci cara memasang Edisi Komuniti PyCharm dan menyediakan contoh kod khusus untuk membantu pemula bermula dengan cepat. Langkah 1: Muat turun dan pasang Edisi Komuniti PyCharm Untuk menggunakan PyCharm, anda perlu memuat turunnya dari tapak web rasminya terlebih dahulu

Editor Laporan Kuasa Mesin: Yang Wen Gelombang kecerdasan buatan yang diwakili oleh model besar dan AIGC telah mengubah cara kita hidup dan bekerja secara senyap-senyap, tetapi kebanyakan orang masih tidak tahu cara menggunakannya. Oleh itu, kami telah melancarkan lajur "AI dalam Penggunaan" untuk memperkenalkan secara terperinci cara menggunakan AI melalui kes penggunaan kecerdasan buatan yang intuitif, menarik dan padat serta merangsang pemikiran semua orang. Kami juga mengalu-alukan pembaca untuk menyerahkan kes penggunaan yang inovatif dan praktikal. Pautan video: https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ Baru-baru ini, vlog kehidupan seorang gadis yang tinggal bersendirian menjadi popular di Xiaohongshu. Animasi gaya ilustrasi, ditambah dengan beberapa perkataan penyembuhan, boleh diambil dengan mudah dalam beberapa hari sahaja.

Tajuk: Wajib dibaca untuk pemula teknikal: Analisis kesukaran bahasa C dan Python, memerlukan contoh kod khusus Dalam era digital hari ini, teknologi pengaturcaraan telah menjadi keupayaan yang semakin penting. Sama ada anda ingin bekerja dalam bidang seperti pembangunan perisian, analisis data, kecerdasan buatan, atau hanya belajar pengaturcaraan kerana minat, memilih bahasa pengaturcaraan yang sesuai ialah langkah pertama. Di antara banyak bahasa pengaturcaraan, bahasa C dan Python adalah dua bahasa pengaturcaraan yang digunakan secara meluas, masing-masing mempunyai ciri tersendiri. Artikel ini akan menganalisis tahap kesukaran bahasa C dan Python

Retrieval-augmented generation (RAG) ialah teknik yang menggunakan perolehan semula untuk meningkatkan model bahasa. Secara khusus, sebelum model bahasa menjana jawapan, ia mendapatkan semula maklumat yang berkaitan daripada pangkalan data dokumen yang luas dan kemudian menggunakan maklumat ini untuk membimbing proses penjanaan. Teknologi ini boleh meningkatkan ketepatan dan perkaitan kandungan dengan banyak, mengurangkan masalah halusinasi dengan berkesan, meningkatkan kelajuan kemas kini pengetahuan, dan meningkatkan kebolehkesanan penjanaan kandungan. RAG sudah pasti salah satu bidang penyelidikan kecerdasan buatan yang paling menarik. Untuk butiran lanjut tentang RAG, sila rujuk artikel lajur di tapak ini "Apakah perkembangan baharu dalam RAG, yang pakar dalam menebus kekurangan model besar?" Ulasan ini menerangkannya dengan jelas." Tetapi RAG tidak sempurna, dan pengguna sering menghadapi beberapa "titik kesakitan" apabila menggunakannya. Baru-baru ini, penyelesaian AI generatif termaju NVIDIA
