Tous les prix CVPR 2024 annoncés ! Près de 10 000 personnes ont assisté à la conférence hors ligne et un chercheur chinois de Google a remporté le prix du meilleur article.-IA-php.cn

Tôt le matin du 20 juin, heure de Pékin, CVPR 2024, la plus grande conférence internationale sur la vision par ordinateur qui s'est tenue à Seattle, a officiellement annoncé le meilleur article et d'autres récompenses.

Au total, 10 articles ont remporté des prix cette année, dont 2 meilleurs articles, 2 meilleurs articles étudiants, en plus de 2 nominations pour les meilleurs articles et 4 nominations pour les meilleurs articles étudiants.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

La principale conférence dans le domaine de la vision par ordinateur (CV) est la CVPR, qui attire chaque année un grand nombre d'instituts de recherche et d'universités. Selon les statistiques, un total de 11 532 articles ont été soumis cette année, dont 2 719 ont été acceptés, avec un taux d'acceptation de 23,6 %.

Selon l'analyse statistique des données CVPR 2024 du Georgia Institute of Technology, en termes de sujets de recherche, le plus grand nombre d'articles est le thème de la synthèse et de la génération d'images et de vidéos, avec un total de 329 articles.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Le nombre total de participants cette année est plus élevé que les années précédentes, et de plus en plus de personnes choisissent de participer hors ligne.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Meilleur article

Article 1 : Dynamique des images génératives
Auteurs : Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski
Institution : Google Research
Adresse papier : https://arxiv.org/pdf/2309.07906

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Zhengqi Li est chercheur scientifique chez Google DeepMind. Auparavant, il a obtenu son doctorat en informatique à l'Université Cornell, où il a étudié auprès du professeur Noah Snavely. Ses recherches ont reçu plusieurs prix, dont la Google PhD Fellowship 2020, la Adobe Research Fellowship 2020, les CVPR 2019 et CVPR 2023 Best Paper Honors et le ICCV 2023 Best Student Paper Award.

Résumé : Cette étude propose une méthode préalable dans l'espace image pour modéliser le mouvement d'une scène. L'a priori est appris à partir d'une collection de trajectoires de mouvement extraites de séquences vidéo réelles, illustrant la dynamique d'oscillation naturelle d'objets tels que des arbres, des vêtements, etc. se balançant dans le vent. L’étude modélise le mouvement dense à long terme dans le domaine de Fourier sous la forme d’un volume spectral, que l’équipe a trouvé bien adapté à la prédiction avec des modèles de diffusion.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

À partir d'une seule image, le modèle formé dans cette étude utilise un processus d'échantillonnage par diffusion coordonné en fréquence pour prédire le volume spectral, qui peut également être converti en une texture de mouvement qui s'étend sur l'intégralité de la vidéo.运动 Cette étude peut réduire (en haut) ou zoomer (en bas) le mouvement d'animation en ajustant l'amplitude de la texture de mouvement.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Avec le module de rendu basé sur l'image, la représentation du mouvement prédit peut être utilisée dans de nombreuses applications en aval, telles que la transformation d'images fixes en vidéos en boucle transparente, ou la possibilité pour les utilisateurs d'interagir avec des objets dans des images réelles, produisant une dynamique simulée réaliste. .

Article 2 : Commentaires humains riches pour la génération de texte en image

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Auteurs : Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, etc.

Institution : Université of California, San Diego Branch campus, Google Research, University of Southern California, University of Cambridge, Brandeis University
Adresse papier : https://arxiv.org/pdf/2312.10240
De l'auteur Dans la colonne du journal, on peut voir que de nombreux Chinois ont participé à cette recherche. Parmi eux, Youwei Liang est doctorant au Département de génie électrique et informatique de l'Université de Californie à San Diego. un étudiant de premier cycle en informatique et informatique à l'Université agricole de Chine du Sud ; Junfeng vient de Google. Il a précédemment obtenu une maîtrise de l'Université Tsinghua.

Résumé : Récemment, les modèles génératifs texte-image (T2I) ont fait des progrès significatifs, capables de générer des images haute résolution à partir de descriptions textuelles. Cependant, de nombreuses images générées souffrent encore d’artefacts, d’incohérences factuelles et d’une mauvaise esthétique.

Inspirée par l'utilisation réussie de l'apprentissage par renforcement avec feedback humain (RLHF) pour les grands modèles de langage, cette recherche enrichit le signal de feedback en :
- marquage des zones d'image non fiables ou mal alignées avec du texte
- paires Annoter les situations où ; les mots de l'invite de texte sont déformés ou manquants sur l'image.
Cette étude a créé l'ensemble de données d'images générées par 18K RichHF-18K, collecté de riches commentaires humains sur RichHF-18K et formé un transformateur multimodal pour prédire automatiquement les commentaires. L'étude démontre que les commentaires humains prédits peuvent être utilisés pour améliorer la génération d'images, par exemple en sélectionnant des données d'entraînement de haute qualité pour affiner et améliorer les modèles génératifs, ou en créant des masques pour réparer les zones d'image problématiques.

Meilleur article finaliste
- Article 1 : EventPS : Stéréo photométrique en temps réel à l'aide d'une caméra d'événement
- Auteurs : Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang , Boxin Shi
- Institutions : Université de Pékin, Université Jiao Tong de Shanghai, etc.
- Adresse papier : https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper. pdf
- Article 2 : pixelSplat : Splats gaussiens 3D à partir de paires d'images pour une reconstruction 3D généralisable et évolutive
- Auteurs : David Charatan, Sizhe Lester Li, Andrea Tagliasacchi, Vincent Sitzmann
- Institution : MIT , Simon Fraser Université de Toronto
- Meilleur article d'étudiant
Article 1 : BioCLIP : Un modèle de fondation de vision pour l'arbre de vie

Auteurs : Samuel Stevens , Jiaman Wu , Matthew J Thompson , Elizabeth G Campolongo , Chan Hee Song , David Edward Carlyn , Li Dong , Wasila M Dahdul , Charles Stewart , Tanya Berger -Wolf, Wei-Lun Chao, Yu Su
- Institution : Ohio State University, Microsoft Research, Université de Californie, Irvine, Rensselaer Polytechnic Institute
- Adresse papier : https://arxiv.org/pdf/2311.18803
- Abstrait
  : Les images du monde naturel collectées par des caméras allant des drones aux téléphones portables personnels deviennent de plus en plus une riche source d'informations biologiques. On assiste à une explosion de méthodes et d’outils informatiques, en particulier la vision par ordinateur, pour extraire des informations biologiquement pertinentes à partir d’images scientifiques et de conservation. Cependant, la plupart d’entre elles sont des méthodes personnalisées conçues pour des tâches spécifiques et ne sont pas facilement adaptées ou étendues à de nouveaux problèmes, contextes et ensembles de données. Les chercheurs ont besoin de toute urgence d’un modèle visuel des problèmes biologiques généraux des organismes sur des images.
- Pour atteindre cet objectif, la recherche a organisé et publié TREEOFLIFE-10M, l'ensemble de données d'images biologiques le plus vaste et le plus diversifié prêt pour le ML. Sur cette base, les chercheurs ont développé le modèle de base BIOCLIP, qui est principalement utilisé pour construire l'arbre de vie (arbre de vie), en utilisant les attributs uniques de la biologie capturés par TREEOFLIFE-10M, c'est-à-dire la richesse et la diversité des images de des plantes, des animaux et des champignons, ainsi qu'une richesse de connaissances biologiques structurées. Diagramme arborescent de 108 portes dans TREEOFLIFE-10M.
Les chercheurs ont rigoureusement comparé notre méthode sur diverses tâches de classification biologique à grain fin et ont constaté que BIOCLIP fonctionnait systématiquement bien mieux que les références existantes (16 % à 17 % de plus en valeur absolue).
L'évaluation intrinsèque montre que BIOCLIP a appris une représentation hiérarchique cohérente avec l'Arbre de Vie, révélant sa forte généralité.

Article 2 : Mip-Splatting : Éclaboussures gaussiennes 3D sans alias

Auteurs de l'article : Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger
Institutions : Université de Tübingen, Centre d'intelligence artificielle de Tübingen, Université des sciences et technologies de Shanghai, Breitning, Université technique tchèque de Prague
Adresse papier : https://arxiv.org/abs/2311.16493

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Résumé : Récemment, les techniques d'éclaboussures gaussiennes 3D ont démontré des résultats impressionnants dans la synthèse de nouvelles vues, atteignant des niveaux de fidélité et d'efficacité élevés. Cependant, lors de la modification du taux d'échantillonnage (par exemple en modifiant la distance focale ou la distance de la caméra), de forts artefacts peuvent apparaître.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

^{Les éclaboussures gaussiennes 3D fonctionnent en représentant un objet 3D comme une fonction gaussienne 3D projetée sur le plan de l'image, suivie d'une dilatation 2D dans l'espace de l'écran, comme le montre la figure (a). Le biais de retrait inhérent à cette méthode amène la fonction gaussienne 3D dégénérée à dépasser la limite d'échantillonnage, comme le montre la fonction δ sur la figure (b), alors qu'elle rend un rendu similaire à la 2D en raison de l'opération de dilatation. Cependant, lors de la modification du taux d'échantillonnage (soit via la distance focale, soit via la distance de la caméra), de forts effets de dilatation (c) et des artefacts haute fréquence (d) sont observés.}

L'équipe de recherche a découvert que la raison de ce phénomène peut être attribuée au manque de contraintes de fréquence 3D et à l'utilisation d'un filtre de dilatation 2D. Pour résoudre ce problème, ils ont introduit un filtre de lissage 3D qui contraint la taille des primitives gaussiennes 3D en fonction de la fréquence d'échantillonnage maximale induite par la vue d'entrée, éliminant ainsi les artefacts haute fréquence lors d'un zoom avant.

De plus, l'équipe d'auteurs a remplacé le filtre de dilatation 2D par un filtre Mip 2D, qui simule le filtre boîte 2D et atténue efficacement les problèmes d'alias et d'expansion. Les chercheurs ont vérifié l’efficacité de cette méthode sur la base d’évaluations, notamment de scénarios tels que la formation sur des images à une seule échelle et des tests à plusieurs échelles.

Finaliste du meilleur article d'étudiant

Article : SpiderMatch : correspondance de formes 3D avec optimalité globale et cohérence géométrique
Auteur : Paul Roetzer, Florian Bernard
Institution : Université de Bonn
Lien : https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Pa par : Traitement d'images GNN : Briser la rigidité en super-résolution
Auteur : Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang
Institution : Université de Pékin, Laboratoire Huawei Noah's Ark
Lien : https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024 _papier. pdf

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Papier : Les objets en tant que volumes : Une vue géométrique stochastique des solides opaques
Auteurs : Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas
Institution : Carnegie Mellon University
Lien : https://arxiv.org/pdf/2312.15406v2

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Article : Comparaison des mécanismes de prise de décision par les transformateurs et les CNN via des méthodes d'explication
Auteur : Mingqi , Saeed Khorram et Li Fuxin _paper .pdf
Autres Prix

La conférence a également annoncé les prix PAMI TC, notamment le prix Longuet-Higgins, le prix du jeune chercheur et le prix commémoratif Thomas S. Huang.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Prix Longuet-Higgins

Le prix Longuet-Higgins est le "Computer Vision Fundamental Contribution Award" décerné par le comité technique de l'IEEE Computer Society Pattern Analysis and Machine Intelligence (PAMI) lors du CVPR annuel, en reconnaissance des contributions à la vision par ordinateur il y a dix ans. Les articles du CVPR ont eu un impact significatif sur la recherche en vision par ordinateur. Le prix porte le nom du chimiste théoricien et scientifique cognitif H. Christopher Longuet-Higgins.

L'article primé de cette année est "Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation".

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Auteurs : Ross Girshick, Jeff Donahue, Trevor Darrell et Jitendra Malik
Institution : UC Berkeley
Lien papier : https://arxiv.org/abs/1311.2524

Prix du jeune chercheur

Les Prix du jeune chercheur visent à récompenser les jeunes scientifiques et à les encourager à continuer à réaliser des travaux révolutionnaires. Le critère de sélection est que le récipiendaire ait moins de 7 ans d'expérience en doctorat.

Les gagnants de cette année sont Angjoo Kanazawa (UC Berkeley) et Carl Vondrick (Columbia University).

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Aussi, Katie Bouman (Caltech) a reçu une mention honorable pour le Prix du jeune chercheur.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Prix commémoratif Thomas Huang

Lors du CVPR 2020, à la mémoire du professeur Thomas S. Huang (Huang Xutao), le comité des prix PAMITC a approuvé la création du prix commémoratif Thomas S. Huang en reconnaissance de la recherche sur le CV , éducation et service Des chercheurs reconnus comme des modèles. Le prix sera décerné à partir de 2021. Les titulaires doivent être titulaires de leur doctorat depuis au moins 7 ans, de préférence en milieu de carrière (pas plus de 25 ans).

Le gagnant de cette année est Andrea Vedaldi, professeur à l’Université d’Oxford.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖