


Prix papier ICCV'23 'Combat des Dieux' ! Meta Divide Everything et ControlNet ont été sélectionnés conjointement, et un autre article a surpris les juges.
ICCV 2023, la plus grande conférence sur la vision par ordinateur qui s'est tenue à Paris, en France, vient de se terminer !
Le prix du meilleur article de cette année est tout simplement un « combat entre dieux ».
Par exemple, les deux articles qui ont remporté le prix du meilleur article incluent le travail qui a bouleversé le domaine de l'IA vincentienne - ControlNet.
Depuis l'open source, ControlNet a reçu 24 000 étoiles sur GitHub. Que ce soit pour le modèle de diffusion ou pour l'ensemble du domaine de la vision par ordinateur, le prix de cet article est bien mérité
La mention honorable pour le Best Paper Award a été décernée à un autre article tout aussi célèbre, Meta's « Split Everything » modèle SAM.
Depuis son lancement, « Segment Everything » est devenu la « référence » pour divers modèles d'IA de segmentation d'images, dont de nombreux FastSAM, LISA et SegGPT venus de derrière, qui l'utilisent tous comme référence de référence pour les tests d'efficacité.
Les nominations papier sont toutes si lourdes. À quel point la concurrence est-elle féroce dans cet ICCV 2023 ?
L'ICCV 2023 a soumis un total de 8 068 articles, mais seulement environ un quart, soit 2 160 articles ont été acceptés.
Près de 10 % des articles provenaient de Chine. En plus des universités, il existe également de nombreuses institutions industrielles, telles que. SenseTime 49 articles issus de la science et de la technologie et de laboratoires communs ont été sélectionnés pour l'ICCV 2023, et 14 articles de Megvii ont été sélectionnés.
Jetons un coup d'œil aux articles qui ont remporté les prix de l'ICCV 2023
ControlNet a remporté le meilleur article de l'ICCV
Jetons d'abord un coup d'œil aux deux articles qui ont remporté le prix du meilleur article (Marr Award) cette année
Meilleur article ICCV Également connu sous le nom de Marr Prize (Marr Prize), sélectionné tous les deux ans et est connu comme l'une des plus hautes distinctions dans le domaine de la vision par ordinateur.
Ce prix porte le nom de David Marr, pionnier dans le domaine de la vision par ordinateur et fondateur des neurosciences computationnelles
Le premier lauréat du prix du meilleur article est "Adding Conditional Control for Text-to-Image Diffusion Models" de Stanford
Cet article propose un modèle appelé ControlNet, qui peut contrôler les détails de sa génération en ajoutant simplement une entrée supplémentaire au modèle de diffusion pré-entraîné.
Les entrées ici peuvent être de différents types, notamment des croquis, des images de contour, des images de segmentation sémantique, des caractéristiques des points clés du corps humain, des lignes droites de détection de transformation de Hough, des cartes de profondeur, des os humains, etc. Ce qu'on appelle « l'IA peut dessiner des mains ", le noyau La technologie vient de cet article.
Son idée et son architecture sont les suivantes :
Le réseau de contrôle copie d'abord les poids du modèle de diffusion pour obtenir une "copie entraînable"
En revanche, le modèle de diffusion original a été pré-entraîné sur des milliards de images , donc les paramètres sont "verrouillés". Et cette « copie entraînable » n'a besoin que d'être entraînée sur un petit ensemble de données d'une tâche spécifique pour apprendre le contrôle conditionnel.
Même si la quantité de données est très faible (pas plus de 50 000 images), le contrôle conditionnel généré par le modèle après entraînement est très bon.
Connectés via une couche convolutive 1×1, le « modèle verrouillé » et la « copie entraînable » forment une structure appelée « couche convolutive 0 ». Les poids et biais de cette couche convolutive 0 sont initialisés à 0, de sorte qu'une vitesse très rapide puisse être obtenue pendant le processus d'entraînement, proche de la vitesse de réglage fin du modèle de diffusion, et peut même être entraînée sur des appareils personnels
Par exemple, si vous utilisez 200 000 données d'image pour entraîner une NVIDIA RTX 3090TI, cela ne prendra que moins d'une semaine
Zhang Lingmin est le premier auteur de l'article ControlNet et est actuellement doctorant à l'Université de Stanford. En plus de ControlNet, il a également créé des œuvres célèbres telles que Style2Paints et Fooocus
Adresse papier : https://arxiv.org/abs/2302.05543
Le deuxième article "Passive Ultra-Wideband Single-Photon lmaging", de Université de Toronto.
Cet article a été qualifié de "l'article le plus surprenant sur le sujet" par le comité de sélection, à tel point que l'un des juges a déclaré "qu'il lui était presque impossible de penser à essayer une telle chose".
Le résumé de l'article est le suivant :
Cet article explique comment imager simultanément des scènes dynamiques à des échelles de temps extrêmes (de quelques secondes à picosecondes) tout en nécessitant une imagerie passive (sans envoyer activement de grandes quantités de signaux lumineux) et est effectué dans des conditions de très faible luminosité et ne repose sur aucun signal de synchronisation provenant de la source lumineuse.
Étant donné que les techniques existantes d'estimation du flux optique pour les caméras à photon unique échouent dans cette plage, cet article développe une théorie de détection du flux optique qui s'appuie sur l'idée du calcul stochastique pour partir de temps de détection de photons à augmentation monotone. pixels reconstruits dans le flux poke.
Basé sur cette théorie, l'article fait principalement trois choses :
(1) Montre que dans des conditions de faible flux optique, une caméra passive à détection de longueur d'onde à photon unique à fonctionnement libre a une bande passante de fréquence réalisable s'étendant de DC à 31 GHz sur l'ensemble spectre de la plage ;
(2) dériver un nouvel algorithme de reconstruction de flux optique dans le domaine de Fourier pour analyser les données d'horodatage pour des fréquences avec un support statistiquement significatif
(3) garantir que le modèle de bruit de l'algorithme est toujours efficace avec un faible nombre de photons ou non ; temps morts négligeables.
Les auteurs ont démontré expérimentalement le potentiel de cette méthode d'imagerie asynchrone, y compris des capacités sans précédent :
(1) Traitement d'images à différentes vitesses sans synchronisation (par exemple, ampoules, projecteurs, lasers multi-impulsions) Imagerie de la scène éclairée par une lumière courante sources en même temps ;
(2) Collection vidéo passive sans visibilité directe ;
(3) Enregistrement de vidéo ultra-large bande, qui peut être lue à une fréquence de 30 Hz, montrant le mouvement quotidien, mais peut également être relu au milliardième de seconde pour montrer comment la lumière se déplace.
Mian Wei, le premier auteur de l'article, est étudiant au doctorat à l'Université de Toronto. Son domaine de recherche est la photographie computationnelle. Son intérêt actuel en matière de recherche réside dans l'amélioration des algorithmes de vision par ordinateur basés sur la technologie d'imagerie par illumination active.
Veuillez cliquer sur le lien suivant pour consulter l'article : https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
"Dividing Everything" a reçu une mention honorable
à cette conférence, en plus du très attendu ControNet, le modèle "Split Everything" de Meta a également reçu une mention honorable pour le Best Paper Award, devenant ainsi un sujet très attendu à l'époque. Cet article proposait non seulement l'un des plus grands courants L'image. L'ensemble de données de segmentation contient plus d'un milliard de masques sur 11 millions d'images, et un modèle SAM a été formé à cet effet, qui peut segmenter rapidement les images invisibles.
Par rapport aux modèles de segmentation d'images fragmentées précédents, on peut dire que SAM a « unifié » les fonctions de cette série de modèles et a montré de bonnes performances dans diverses tâches.
Ce modèle open source compte actuellement 38,8k étoiles sur GitHub, ce qui peut être considéré comme la "référence" dans le domaine de la segmentation sémantique
Dans les travaux des étudiants, le modèle « suivre tout » de Google se démarque
Tout comme le titre de l'article, ce modèle peut suivre simultanément des objets dans des images à n'importe quel endroit Suivi au niveau des pixels de n'importe quel (plusieurs)
Le premier auteur de ce projet est Qianqian Wang, un docteur chinois de l'Université Cornell, qui effectue actuellement des recherches postdoctorales à l'UCB.
Lors de la cérémonie d'ouverture, des prix spéciaux offerts par les membres du comité PAMITC ont également été annoncés, qui ont également décerné des prix pour deux conférences sur le domaine de la vision par ordinateur, CVPR et WACV. Les quatre prix suivants ont été inclus : Les scientifiques qui ont remporté le prix Helmholtz sont le scientifique chinois Heng Wang et Cordelia Schmid de Google, qui sont membres de Meta AI Ils ont remporté le prix pour un article publié en 2013 sur la reconnaissance de l'action. À cette époque, tous deux travaillaient au laboratoire Lear de l'Institut national de l'informatique et de l'automatisation (INRIA), et Schmid était à l'époque le responsable du laboratoire. Veuillez cliquer sur le lien suivant pour consulter l'article : https://ieeexplore.ieee.org/document/6751553 Le prix Everingham a été décerné à deux équipes Le gagnant du premier groupe est Samer de Google Agarwal, Keir Mierle et leur équipe Les deux gagnants sont respectivement diplômés de l'Université de Washington et de l'Université de Toronto. Leur réussite est de développer un projet de bibliothèque C++ open source Ceres Solver largement utilisé. dans le domaine de la vision par ordinateur. Lien vers la page d'accueil : http://ceres-solver.org/ Un autre résultat primé est l'ensemble de données COCO, qui contient un grand nombre d'images et d'annotations, a un contenu et des tâches riches. , et constituent des données importantes pour tester l'ensemble de modèles de vision par ordinateur. Cet ensemble de données a été proposé par Microsoft. Le premier auteur de l'article concerné est le scientifique chinois Tsung-Yi Lin. Il est diplômé de l'Université Cornell et travaille maintenant comme chercheur aux NVIDIA Labs. Adresse papier : https://arxiv.org/abs/1405.0312 Celui qui a remporté l'honneur de chercheur exceptionnel était le Les professeurs allemands Max Planck Michael Black de l'Institut et Rama Chellappa de l'Université Johns Hopkins. Le professeur Ted Adelson du MIT a remporté le Lifetime Achievement Award Votre article a-t-il été accepté par l'ICCV 2023 ? Que pensez-vous de la sélection des prix de cette année ?
Page d'accueil du projet : https://cocodataset.org/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds



Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.
