


Indispensables pour les débutants, les notes d'étude NeRF donnent un aperçu de tout !
Qu'est-ce que exactement le champ de rayonnement neuronal ?
Champ de rayonnement : La distribution d'énergie formée lors de la propagation et de la réflexion de la lumière émise par la source lumineuse dans la scène. En termes simples, il s'agit d'une fonction qui enregistre les informations de rayonnement dans une certaine direction à un certain endroit dans l'espace. Les informations de rayonnement (ou distribution d'énergie) sont en fait des informations sur la couleur, la luminosité, l'ombre et d'autres. La direction ici nécessite une attention particulière, c'est l'un des facteurs importants pour que NeRF réalise une véritable reconstruction !
Cela conduit au concept de champ de rayonnement neuronal.
Champ de rayonnement neuronal : utilisez le réseau neuronal pour stocker la espacepositionradiation dans n'importe quelle direction. La description dans l'article original est la suivante :
La formule la plus standardisée est exprimée comme suit :
Saisissez la position 3D (x, y, z) et la direction de visualisation 2D (), et la sortie est densité de couleur et de volume
NeRF Les résultats spécifiques du réseau se réfèrent au texte original comme suit :
- Coordonnée 3D x entrée dans le premier réseau fσ, comprenant 8 couches entièrement connectées, 256 neurones par couche, activation ReLU ; Le réseau fσ génère la densité volumique σ et un vecteur à 256 dimensions, qui est envoyé à fc (une couche, 128 canaux, activation ReLU) avec la direction de visualisation d pour prédire RVB
méthode de visualisationou méthode de rendu est appelée rendu de volume.
Avant de regarder le rendu du volume. Jetons d'abord un coup d'œil à l'effet du réseau :Le cœur de NeRF : le rendu de volume
Entrons dans le deuxième point essentiel du rendu de volume NeRF. Le rendu de volume est une méthode utilisée pour restituer la couleur et la densité dans des images 2D !- Émettez un rayon pénétrant chaque pixel depuis le centre optique de la caméra et prenez un point d'échantillonnage tridimensionnel sur le rayon ;
- Envoyez le point d'échantillonnage ; les coordonnées et la direction de l'angle de vue dans MLP calculent la densité de couleur et de volume
- intègre (empile) les informations de couleur par densité de volume pour former une image 2D
Processus de reconstruction implicite
Après avoir parlé des champs de rayonnement neuronal et du rendu du volume, nous commençons maintenant le processus de reconstruction complet~Avant de former un pipeline terminé, il reste encore deux problèmes à résoudre :On peut voir que sans codage de position, le modèle ne peut pas exprimer d'informations géométriques et de texture à haute fréquence~
Adoption multicouche :
Le processus de formation est le suivant :
Expérience et résumé
Indicateurs d'évaluation :
Paramètres expérimentaux :
Les résultats expérimentaux montrent que l'astigmatisme sur les billes de divers matériaux peut également être bien exprimé~
Ablation expérimenter :
Résumé
Le champ de rayonnement neuronal proposé dans cet article émet un rayon d'échantillonnage à travers le pixel depuis le centre optique de la caméra, sélectionne un point sur le rayon, utilise un MLP pour cartographier sa position tridimensionnelle et direction de visualisation vers la densité du volume et la couleur, puis utilisez l'empilement de rendu du volume pour échantillonner la densité du volume et la couleur sur les rayons afin d'obtenir les valeurs de pixels. L'erreur entre la valeur du pixel et l'image GT est calculée puis rétropropagée pour optimiser les paramètres MLP. Cet article utilise une telle méthode de reconstruction implicite pour obtenir une reconstruction et un rendu de modèle photoréalistes.
Défauts :
- Vitesse de rendu et d'entraînement lente ;
- exigences élevées en matière de nombre et de répartition des vues
- difficile d'étendre l'image à l'arrière-plan ou à des scènes plus grandes ;
Lien original : https://mp.weixin.qq.com/s/ctDBTaLWuHTM9MONrAor4g
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Écrit ci-dessus et compréhension personnelle de l'auteur Le Gaussiansplatting tridimensionnel (3DGS) est une technologie transformatrice qui a émergé dans les domaines des champs de rayonnement explicites et de l'infographie ces dernières années. Cette méthode innovante se caractérise par l’utilisation de millions de gaussiennes 3D, ce qui est très différent de la méthode du champ de rayonnement neuronal (NeRF), qui utilise principalement un modèle implicite basé sur les coordonnées pour mapper les coordonnées spatiales aux valeurs des pixels. Avec sa représentation explicite de scènes et ses algorithmes de rendu différenciables, 3DGS garantit non seulement des capacités de rendu en temps réel, mais introduit également un niveau de contrôle et d'édition de scène sans précédent. Cela positionne 3DGS comme un révolutionnaire potentiel pour la reconstruction et la représentation 3D de nouvelle génération. À cette fin, nous fournissons pour la première fois un aperçu systématique des derniers développements et préoccupations dans le domaine du 3DGS.

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

0. Écrit à l'avant&& Compréhension personnelle que les systèmes de conduite autonome s'appuient sur des technologies avancées de perception, de prise de décision et de contrôle, en utilisant divers capteurs (tels que caméras, lidar, radar, etc.) pour percevoir l'environnement et en utilisant des algorithmes et des modèles pour une analyse et une prise de décision en temps réel. Cela permet aux véhicules de reconnaître les panneaux de signalisation, de détecter et de suivre d'autres véhicules, de prédire le comportement des piétons, etc., permettant ainsi de fonctionner en toute sécurité et de s'adapter à des environnements de circulation complexes. Cette technologie attire actuellement une grande attention et est considérée comme un domaine de développement important pour l'avenir des transports. . un. Mais ce qui rend la conduite autonome difficile, c'est de trouver comment faire comprendre à la voiture ce qui se passe autour d'elle. Cela nécessite que l'algorithme de détection d'objets tridimensionnels du système de conduite autonome puisse percevoir et décrire avec précision les objets dans l'environnement, y compris leur emplacement,

L'article de StableDiffusion3 est enfin là ! Ce modèle est sorti il y a deux semaines et utilise la même architecture DiT (DiffusionTransformer) que Sora. Il a fait beaucoup de bruit dès sa sortie. Par rapport à la version précédente, la qualité des images générées par StableDiffusion3 a été considérablement améliorée. Il prend désormais en charge les invites multithèmes, et l'effet d'écriture de texte a également été amélioré et les caractères tronqués n'apparaissent plus. StabilityAI a souligné que StableDiffusion3 est une série de modèles avec des tailles de paramètres allant de 800M à 8B. Cette plage de paramètres signifie que le modèle peut être exécuté directement sur de nombreux appareils portables, réduisant ainsi considérablement l'utilisation de l'IA.

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

Titre original : SIMPL : ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Lien article : https://arxiv.org/pdf/2402.02519.pdf Lien code : https://github.com/HKUST-Aerial-Robotics/SIMPL Affiliation de l'auteur : Université des sciences de Hong Kong et technologie Idée DJI Paper : cet article propose une base de référence de prédiction de mouvement (SIMPL) simple et efficace pour les véhicules autonomes. Par rapport au cent agent traditionnel

Au cours du mois dernier, pour des raisons bien connues, j'ai eu des échanges très intensifs avec divers professeurs et camarades de classe du secteur. Un sujet inévitable dans l'échange est naturellement le populaire Tesla FSDV12 de bout en bout. Je voudrais profiter de cette occasion pour trier certaines de mes pensées et opinions en ce moment pour votre référence et votre discussion. Comment définir un système de conduite autonome de bout en bout et quels problèmes devraient être résolus de bout en bout ? Selon la définition la plus traditionnelle, un système de bout en bout fait référence à un système qui saisit les informations brutes des capteurs et génère directement les variables pertinentes pour la tâche. Par exemple, en reconnaissance d'images, CNN peut être appelé de bout en bout par rapport à la méthode traditionnelle d'extraction de caractéristiques + classificateur. Dans les tâches de conduite autonome, saisir les données de divers capteurs (caméra/LiDAR

Écrit à l'avant et point de départ Le paradigme de bout en bout utilise un cadre unifié pour réaliser plusieurs tâches dans les systèmes de conduite autonome. Malgré la simplicité et la clarté de ce paradigme, les performances des méthodes de conduite autonome de bout en bout sur les sous-tâches sont encore loin derrière les méthodes à tâche unique. Dans le même temps, les fonctionnalités de vue à vol d'oiseau (BEV) denses, largement utilisées dans les méthodes de bout en bout précédentes, rendent difficile l'adaptation à davantage de modalités ou de tâches. Un paradigme de conduite autonome de bout en bout (SparseAD) centré sur la recherche clairsemée est proposé ici, dans lequel la recherche clairsemée représente entièrement l'ensemble du scénario de conduite, y compris l'espace, le temps et les tâches, sans aucune représentation BEV dense. Plus précisément, une architecture clairsemée unifiée est conçue pour la connaissance des tâches, notamment la détection, le suivi et la cartographie en ligne. De plus, lourd
