ICCV 2023 annoncé : des articles populaires tels que ControlNet et SAM ont remporté des prix-IA-php.cn

Table des matières

Best Paper-Marr Award

Nomination pour le meilleur article : SAM

Meilleur article étudiant

Maison

Périphériques technologiques

ICCV 2023 annoncé : des articles populaires tels que ControlNet et SAM ont remporté des prix

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 04, 2023 pm 09:37 PM

产业 iccv

La Conférence internationale sur la vision par ordinateur (ICCV) s'est ouverte cette semaine à Paris, en France

En tant que conférence universitaire la plus importante au monde dans le domaine de la vision par ordinateur, l'ICCV se tient tous les deux ans.

La popularité de l'ICCV a toujours été comparable à celle du CVPR, établissant de nouveaux sommets à plusieurs reprises

Lors de la cérémonie d'ouverture d'aujourd'hui, l'ICCV a officiellement annoncé les données papier de cette année : un total de 8 068 soumissions ont été soumises à l'ICCV de cette année, dont 2 160 ont été acceptées. le taux d'acceptation est de 26,8%, ce qui est légèrement supérieur au taux d'acceptation du précédent ICCV 2021 de 25,9%

En termes de sujets de papier, le responsable a également annoncé des données pertinentes : la technologie 3D avec de multiples perspectives et capteurs est la plus populaire

La partie la plus importante de la cérémonie d'ouverture d'aujourd'hui est sans aucun doute la remise des prix. Ensuite, nous annoncerons un par un les gagnants du meilleur article, de la meilleure nomination d'article et du meilleur article étudiant

Best Paper-Marr Award

Le meilleur article de cette année (Marr Award) compte deux articles qui ont remporté le prix

La première étude a été menée par des chercheurs de l'Université de Toronto. Wei, Sotiris Nousias, Rahul Gulve, David B. Lindell, Kiriakos N. Kutulakos

Résumé : Cet article considère des échelles de temps extrêmes, le problème de l'imagerie simultanée d'une scène dynamique (de quelques secondes à picosecondes), et ce de manière passive, sans beaucoup de lumière et sans aucun signal de synchronisation de la source lumineuse qui l'émet. Étant donné que les techniques d'estimation de flux existantes pour les caméras à photon unique échouent dans ce cas, nous développons une théorie de détection de flux qui tire des enseignements du calcul stochastique pour permettre le flux variable dans le temps des pixels reconstruits dans un flux d'horodatages de détection de photons.

Cet article exploite cette théorie pour (1) montrer que les caméras SPAD passives à fonctionnement libre ont une bande passante de fréquence réalisable dans des conditions de faible flux, couvrant toute la plage DC jusqu'à 31 GHz, (2) dériver un nouvel algorithme de reconstruction de flux dans le domaine Fu Leaf. , et (3) garantir que le modèle de bruit de l'algorithme reste valide même pour un nombre de photons très faible ou des temps morts non négligeables.

Des articles populaires tels que ControlNet et SAM ont remporté des prix, et les prix des articles ICCV 2023 ont été annoncés. Cet article démontre expérimentalement le potentiel de ce mécanisme d'imagerie asynchrone : (1) pour imager des scènes éclairées simultanément par des sources lumineuses (ampoules, projecteurs, lasers pulsés multiples) fonctionnant à des vitesses significativement différentes, sans synchronisation, (2) Passif non linéaire -acquisition vidéo à vue ; (3) Enregistrez une vidéo ultra-large bande qui peut ensuite être lue à 30 Hz pour montrer les mouvements quotidiens, mais aussi un milliard de fois plus lente pour montrer la propagation de la lumière elle-même

Le contenu qui doit être réécrit est : Le deuxième article est ce que nous connaissons sous le nom de ControNet

Adresse papier :

Écrivains : Zhang Lumin, Rao Anyi, Maneesh Agrawala

Résumé : Cet article propose une architecture de réseau neuronal de bout en bout ControlNet, qui peut contrôler le modèle de diffusion (tel que la diffusion stable) en ajoutant des conditions supplémentaires pour améliorer l'effet de génération de graphiques et il peut générer des -colorez les images à partir de dessins au trait, générez des images avec la même structure de profondeur et optimisez la génération de la main grâce aux points clés de la main.

L'idée principale de ControlNet est d'ajouter des conditions supplémentaires à la description du texte pour contrôler le modèle de diffusion (comme la diffusion stable), contrôlant ainsi mieux la pose du personnage, la profondeur, la structure de l'image et d'autres informations de l'image générée.

Réécrit comme : Nous pouvons saisir des conditions supplémentaires sous forme d'images pour permettre au modèle d'effectuer la détection des bords Canny, la détection de profondeur, la segmentation sémantique, la détection de ligne de transformation de Hough, la détection globale des bords imbriqués (HED), la reconnaissance de la posture humaine, etc. opérations et conserver ces informations dans l’image résultante. En utilisant ce modèle, nous pouvons convertir directement des dessins au trait ou des graffitis en images en couleur et générer des images avec la même structure de profondeur. En même temps, nous pouvons également optimiser la génération de mains de personnages à travers les points clés des mains

Veuillez vous référer au rapport d'introduction détaillé sur ce site : La réduction de la dimensionnalité de l'IA frappe les peintres humains, les graphiques vincentiens sont introduits dans ControlNet et les informations de profondeur et de bord sont entièrement réutilisables

Nomination pour le meilleur article : SAM

En avril prochain L'année dernière, Meta a publié un article intitulé « Le modèle d'IA de Separate Everything (SAM), qui peut générer des masques pour les objets dans n'importe quelle image ou vidéo. Cette technologie a choqué les chercheurs dans le domaine de la vision par ordinateur, et certains l'ont même qualifié de "Le CV n'existe plus"

Maintenant, cet article très médiatisé a été nominé pour le meilleur article.

Adresse papier : https://arxiv.org/abs/2304.02643

Contenu réécrit : Institution : Meta AI

Contenu réécrit : Pour la solution au problème de segmentation, il existe actuellement environ deux méthodes. La première est la segmentation interactive, qui peut être utilisée pour segmenter n’importe quelle classe d’objets mais nécessite qu’un humain guide la méthode en affinant le masque de manière itérative. La seconde est la segmentation automatique, qui peut être utilisée pour segmenter des catégories d'objets spécifiques prédéfinies (comme des chats ou des chaises), mais nécessite un grand nombre d'objets annotés manuellement pour l'entraînement (comme des milliers, voire des dizaines de milliers d'exemples de chats segmentés). . Aucune de ces deux méthodes ne propose une méthode de segmentation universelle et entièrement automatique

Le SAM proposé par Meta résume bien ces deux méthodes. Il s'agit d'un modèle unique qui peut facilement effectuer une segmentation interactive et une segmentation automatique. L'interface d'invite du modèle permet aux utilisateurs de l'utiliser de manière flexible. Il suffit de concevoir les invites appropriées pour le modèle (clic, sélection de zone, texte, etc.) pour effectuer un large éventail de tâches de segmentation

Pour résumer, ces fonctionnalités font de SAM peut s’adapter à de nouvelles tâches et domaines. Cette flexibilité est unique dans le domaine de la segmentation d'images

Veuillez vous référer au rapport de ce site pour plus de détails : Le CV n'existe plus ? Meta publie le modèle d'IA « Split Everything », CV pourrait inaugurer le moment GPT-3

Meilleur article étudiant

La recherche a été réalisée conjointement par des chercheurs de l'Université Cornell, Google Research et UC Berkeley. C'est Qianqian Wang, un doctorant de Cornell Tech. Ils ont proposé conjointement OmniMotion, une représentation de mouvement complète et globalement cohérente, et ont proposé une nouvelle méthode d'optimisation du temps de test pour effectuer une estimation précise et complète du mouvement pour chaque pixel de la vidéo.

Adresse papier :https://arxiv.org/abs/2306.05422
Page d'accueil du projet :https://omnimotion.github.io/

Dans le domaine de la vision par ordinateur, il Il existe deux types de méthodes d'estimation de mouvement couramment utilisées : le suivi de caractéristiques clairsemées et le flux optique dense. Cependant, les deux méthodes présentent certains inconvénients. Le suivi de caractéristiques clairsemées ne peut pas modéliser le mouvement de tous les pixels, tandis que le flux optique dense ne peut pas capturer les trajectoires de mouvement pendant de longues périodes

OmniMotion est une nouvelle technologie proposée par la recherche qui utilise des volumes canoniques quasi-3D pour caractériser les vidéos. OmniMotion est capable de suivre chaque pixel via une bijection entre l'espace local et l'espace canonique. Cette méthode de représentation garantit non seulement la cohérence globale et le suivi des mouvements même lorsque les objets sont masqués, mais est également capable de modéliser n'importe quelle combinaison de mouvements de caméra et d'objets. Des expériences ont prouvé que la méthode OmniMotion est nettement meilleure que la méthode SOTA existante en termes de performances

Veuillez vous référer au rapport sur ce site pour une introduction détaillée : Suivez chaque pixel à tout moment, n'importe où, même s'il est bloqué, le " suivez tout" algorithme vidéo Nous voilà

Bien sûr, en plus de ces articles primés, il existe de nombreux articles exceptionnels de l'ICCV cette année qui méritent votre attention. Enfin, voici une première liste de 17 articles primés.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

4 Il y a quelques semaines By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7675

Tutoriel CakePHP

1393

Tutoriel C#

1207

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

Afficher plus

Related knowledge

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

See all articles