Les systèmes de conduite autonome doivent faire face à divers scénarios complexes dans des applications pratiques, en particulier les Corner Cases (situations extrêmes) qui imposent des exigences plus élevées en matière de perception et de capacités de prise de décision de la conduite autonome. Corner Case fait référence à des situations extrêmes ou rares qui peuvent survenir lors de la conduite réelle, telles que des accidents de la route, des conditions météorologiques extrêmes ou des conditions routières complexes. La technologie BEV améliore les capacités de perception des systèmes de conduite autonome en offrant une perspective globale, qui devrait fournir un meilleur soutien dans la gestion de ces situations extrêmes. Cet article explorera comment la technologie BEV (Bird's Eye View) peut aider le système de conduite autonome à faire face à Corner Case et à améliorer la fiabilité et la sécurité du système.
Picture
Transformer en tant qu'apprentissage profond basé sur un modèle de mécanisme d'auto-attention, qui a été utilisé pour la première fois dans les tâches de traitement du langage naturel. L'idée principale est de capturer les dépendances à longue distance dans la séquence d'entrée via un mécanisme d'auto-attention, améliorant ainsi la capacité du modèle à traiter les données de séquence.
La combinaison efficace des deux ci-dessus est également une technologie émergente très populaire dans les stratégies de conduite autonome.
BEV est une méthode qui projette des informations environnementales tridimensionnelles en deux -dimensionnel Une approche planaire qui affiche les objets et le terrain dans l'environnement dans une perspective descendante. Dans le domaine de la conduite autonome, BEV peut aider le système à mieux comprendre l'environnement et à améliorer la précision de la perception et de la prise de décision. Au stade de la perception de l'environnement, BEV peut fusionner des données multimodales telles que le lidar, le radar et la caméra sur le même avion. Cette méthode peut éliminer les problèmes d’occlusion et de chevauchement entre les données et améliorer la précision de la détection et du suivi des objets. Dans le même temps, BEV peut fournir une représentation claire de l’environnement pour les étapes ultérieures de prévision et de prise de décision, ce qui contribue à améliorer les performances globales du système.
Tout d'abord, la technologie BEV peut fournir un perspective globale La perception environnementale contribue à améliorer les performances des systèmes de conduite autonome dans des scénarios complexes. Cependant, le lidar offre une plus grande précision en termes de distance et d’informations spatiales.
Deuxièmement, la technologie BEV capture des images via des caméras et peut obtenir des informations sur la couleur et la texture, alors que les performances du lidar à cet égard sont faibles.
De plus, le coût de la technologie BEV est relativement faible et adapté à un déploiement commercial à grande échelle.
La caméra traditionnelle à vue unique est un dispositif de détection de véhicule couramment utilisé qui peut capturer des informations environnementales autour du véhicule. Cependant, les caméras à vue unique présentent certaines limites en termes de champ de vision et d'acquisition d'informations. La technologie BEV intègre les images de plusieurs caméras pour offrir une perspective globale et une compréhension plus complète de l'environnement autour du véhicule. La technologie BEV est relativement efficace dans des scénarios complexes et des conditions météorologiques extrêmes. Les caméras à vue unique ont de meilleures capacités de perception de l'environnement, car BEV est capable de fusionner les informations d'image sous différents angles, améliorant ainsi la perception de l'environnement par le système.
La technologie BEV peut aider le système de conduite autonome à mieux gérer les situations difficiles, telles que les conditions routières complexes, les routes étroites ou obstruées, etc., et les caméras à vue unique peuvent aider dans ces situations, les performances peuvent être médiocres.
Bien sûr, en termes de coût et d'occupation des ressources, puisque BEV doit effectuer la perception, la reconstruction et l'épissage d'images sous différentes perspectives, il consomme plus de puissance de calcul et de ressources de stockage . Bien que la technologie BEV nécessite le déploiement de plusieurs caméras, le coût global reste inférieur à celui du lidar et ses performances sont considérablement améliorées par rapport aux caméras à vue unique.
En résumé, la technologie BEV présente certains avantages par rapport aux autres technologies de perception dans le domaine de la conduite autonome. En particulier lorsqu'il s'agit de traiter les Corner Cases, la technologie BEV peut fournir une perspective globale de la perception de l'environnement, contribuant ainsi à améliorer les performances des systèmes de conduite autonome dans des scénarios complexes. Cependant, afin de tirer pleinement parti des avantages de la technologie BEV, des recherches et développements supplémentaires sont encore nécessaires pour améliorer les performances des capacités de traitement d’images, de la technologie de fusion de capteurs et de la prédiction des comportements anormaux. Dans le même temps, en combinaison avec d'autres technologies de perception (telles que le lidar) et des algorithmes d'apprentissage profond et d'apprentissage automatique, la stabilité et la sécurité du système de conduite autonome dans divers scénarios peuvent être encore améliorées.
En même temps, Bird's Eye View ( BEV), en tant que méthode efficace de perception de l'environnement, joue un rôle important dans les systèmes de conduite autonome. En combinant les avantages de Transformer et BEV, nous pouvons construire un système de conduite autonome de bout en bout pour obtenir une perception, une prédiction et une prise de décision de haute précision. Cet article explorera également comment Transformer et BEV peuvent être efficacement combinés et appliqués dans le domaine de la conduite autonome pour améliorer les performances du système.
Les étapes spécifiques sont les suivantes :
Tout d'abord, nous devons convertir les données multimodales telles que le lidar, le radar et la caméra au format BEV. Pour les données de nuage de points lidar, nous pouvons projeter le nuage de points tridimensionnel sur un plan bidimensionnel, puis pixelliser le plan pour générer une carte de hauteur ; pour les données radar, nous pouvons convertir les informations de distance et d'angle en une carte de hauteur. Les coordonnées Karl sont ensuite rastérisées sur le plan BEV ; pour les données de la caméra, nous pouvons projeter les données d'image sur le plan BEV pour générer une carte de couleur ou d'intensité.
Photo
2. Module de perception :Utilisez le modèle Transformer pour extraire des fonctionnalités des données BEV afin de détecter et de localiser les obstacles.
Superposez ces données au format BEV ensemble pour former une image BEV multicanal. Supposons que la carte de hauteur BEV du lidar est H(x, y), la carte de portée BEV du radar est R(x, y) et la carte d'intensité BEV de la caméra est I(x, y), alors le L'image multicanal BEV peut être exprimée comme suit: :
B(x, y) = [H(x, y), R(x, y), I( x, y)]
Où B(x, y) représente la valeur en pixels de l'image BEV multicanal aux coordonnées (x, y), [] représente superposition des canaux.
3. Module de prédiction :
Plus précisément, nous utilisons d'abord Transformer pour extraire des fonctionnalités d'images BEV multicanaux. En supposant que l'image BEV d'entrée est B(x, y), nous pouvons extraire la caractéristique F(x, y) via un mécanisme d'auto-attention multicouche et un codage de position :
#🎜 🎜# F(x, y) = Transformer(B(x, y))
où F(x, y) représente la carte des caractéristiques, aux coordonnées (x , y) valeurs propres à.
Ensuite, nous utilisons les caractéristiques extraites F(x, y) pour prédire les comportements et les trajectoires des autres usagers de la route. Le décodeur de Transformer peut être utilisé pour générer des résultats de prédiction, comme indiqué ci-dessous :
P(t) = Decoder(F(x, y), t)#🎜🎜 #
où P(t) représente le résultat de la prédiction au temps t, et Decoder représente le décodeur Transformer.
Grâce aux étapes ci-dessus, nous pouvons réaliser la fusion de données et la prédiction basées sur Transformer et BEV. La structure spécifique du Transformer et les réglages des paramètres peuvent être ajustés en fonction des scénarios d'application réels pour obtenir des performances optimales.
4. Module de prise de décision :
Photo
En intégrant des informations environnementales, des règles de circulation et des modèles de dynamique des véhicules dans le modèle, Transformer est capable d'apprendre des stratégies de conduite efficaces et sûres. Tels que la planification de chemin, la planification de vitesse, etc. De plus, grâce au mécanisme d'auto-attention multi-têtes de Transformer, les pondérations entre les différentes sources d'informations peuvent être efficacement équilibrées pour prendre des décisions plus raisonnables dans des environnements complexes.
Voici les étapes spécifiques pour adopter cette méthode :
Tout d'abord, une grande quantité de données de conduite doivent être collectées, notamment des informations sur l'état du véhicule (telles que la vitesse, l'accélération, l'angle du volant, etc.), informations sur l'état de la route (telles que le type de route, les panneaux de signalisation, les voies, etc.), les lignes, etc.), les informations sur l'environnement environnant (telles que les autres véhicules, les piétons, les vélos, etc.) et les actions entreprises par le conducteur. Ces données sont prétraitées, y compris le nettoyage des données, la normalisation et l'extraction de fonctionnalités.
Encodez les données collectées dans un formulaire de saisie de modèle Transformer approprié. . Cela implique généralement la discrétisation de données numériques continues et la conversion des données discrétisées sous forme vectorielle. Dans le même temps, les données doivent être sérialisées afin que le modèle Transformer puisse gérer les informations de synchronisation.
2.1, Encodeur de transformateur
Encodeur de transformateur par Il se compose de sous-couches avec la même couche, et chaque sous-couche contient deux parties : l'attention multi-têtes et le réseau neuronal à action directe.
Auto-attention multi-têtes : divisez d'abord la séquence d'entrée en h têtes différentes, calculez l'auto-attention de chaque tête séparément, puis divisez la sortie de celles-ci se dirige vers Ensemble. Cela capture les dépendances à différentes échelles dans la séquence d'entrée.
Photo
La formule de calcul de l'auto-attention du taureau est : #🎜🎜 #
MHA(X) = Concat(head_1, head_2, ..., head_h) * W_Owhere MHA ( X) représente le résultat de l'auto-attention multi-têtes, head_i représente le résultat de la i-ème tête et W_O est la matrice de poids de sortie.
Réseau neuronal feedforward : Ensuite, la sortie de l'auto-attention multi-têtes est transmise au réseau neuronal feedforward. Les réseaux de neurones Feedforward contiennent généralement deux couches entièrement connectées et une fonction d'activation (telle que ReLU). La formule de calcul du réseau de neurones feedforward est :
FFN(x) = max(0, xW_1 + b_1) * W_2 + b_2
#🎜🎜 # où FFN(x) représente la sortie du réseau neuronal feedforward, W_1 et W_2 sont des matrices de poids, b_1 et b_2 sont des vecteurs de biais et max(0, x) représente la fonction d'activation ReLU.
De plus, chaque sous-couche de l'encodeur contient des connexions résiduelles et une normalisation de couche (normalisation de couche), ce qui contribue à améliorer la stabilité d'entraînement du modèle et la vitesse de convergence .
2.2, le décodeur de transformateur
est similaire à l'encodeur, Le décodeur Transformer est également composé de plusieurs sous-couches identiques, chaque sous-couche contient trois parties : l'auto-attention multi-têtes, l'attention codeur-décodeur (Encoder-Decoder Attention) et le réseau neuronal à action directe.
Auto-attention multi-têtes : identique à l'auto-attention multi-têtes dans l'encodeur, utilisée pour calculer le degré de corrélation entre chaque élément dans le décodeur séquence d’entrée.
Attention codeur-décodeur : permet de calculer le degré de corrélation entre la séquence d'entrée du décodeur et la séquence de sortie du codeur. La méthode de calcul est similaire à l'auto-attention, sauf que le vecteur de requête provient de la séquence d'entrée du décodeur et que le vecteur clé et le vecteur de valeur proviennent de la séquence de sortie du codeur.
Réseau neuronal Feedforward : identique au réseau neuronal feedforward dans l'encodeur. Chaque sous-couche du décodeur contient également des connexions résiduelles et une normalisation de couche. En empilant plusieurs couches d'encodeurs et de décodeurs, Transformer est capable de gérer des données de séquence avec des dépendances complexes.
3. Construisez un modèle Transformer :
Tout d'abord, le vecteur de caractéristiques est obtenu par MLP pour obtenir un vecteur de faible dimension, qui est transmis au réseau de points de chemin de régression automatique implémenté par GRU et utilisé pour initialiser l'état caché de GRU. De plus, la position actuelle et la position cible sont également saisies, ce qui permet au réseau de se concentrer sur le contexte pertinent de l'état caché.
image
Utilisez un GRU monocouche et utilisez une couche linéaire pour prédire le décalage du point de chemin par rapport à l'état caché pour obtenir le point de chemin prédit . L'entrée du GRU est l'origine.
Le contrôleur utilise deux contrôleurs PID pour effectuer un contrôle horizontal et longitudinal respectivement en fonction des points de trajectoire prédits afin d'obtenir les valeurs de direction, de freinage et d'accélérateur. Effectuez une moyenne pondérée des vecteurs de points de trajet de trame continue, puis l'entrée du contrôleur longitudinal est la longueur de son module et l'entrée du contrôleur transversal est son orientation.
Calculez la perte L1 du point de trajectoire expert et du point de trajectoire de trajectoire prédit dans le système de coordonnées de l'auto-véhicule du cadre actuel, c'est-à-dire
. Utilisez l’ensemble de données collectées Former le modèle Transformer. Au cours du processus de formation, le modèle doit être validé pour vérifier sa capacité de généralisation. L'ensemble de données peut être divisé en ensembles de formation, de validation et de test pour évaluer le modèle.
Dans les applications réelles, le modèle Transformer pré-entraîné est saisi en fonction de l'état actuel du véhicule, des informations sur l'état de la route et des informations sur l'environnement environnant. Le modèle générera des stratégies de conduite telles que l'accélération, la décélération, la direction, etc. sur la base de ces entrées.
Transmettez la stratégie de conduite générée au système de conduite autonome pour contrôler le véhicule. Dans le même temps, les données du processus d'exécution réel sont collectées pour une optimisation et une itération ultérieures du modèle.
Grâce aux étapes ci-dessus, une méthode basée sur le modèle Transformer peut être utilisée pour générer une stratégie de conduite appropriée dans la phase de prise de décision en matière de conduite autonome. Il convient de noter qu'en raison des exigences de sécurité élevées dans le domaine de la conduite autonome, il est nécessaire de garantir les performances et la sécurité du modèle dans différents scénarios lors du déploiement réel.
Dans cette section, nous présenterons en détail trois exemples de technologie BEV résolvant un cas de coin, impliquant respectivement des conditions routières complexes, des conditions météorologiques extrêmes et la prévision d'un comportement anormal. . La figure suivante montre quelques scénarios de cas extrêmes en matière de conduite autonome. L'utilisation de la technologie Transformer+BEV permet d'identifier et de traiter efficacement la plupart des scènes périphériques actuellement identifiables.
Photos
Dans des conditions routières complexes, telles que des embouteillages, des intersections complexes ou des surfaces routières irrégulières, la technologie Transformer+BEV peut fournir une perception environnementale plus complète. En intégrant des images de plusieurs caméras autour du véhicule, les BEV génèrent une perspective aérienne continue, permettant au système de conduite autonome d'identifier clairement les lignes de voie, les obstacles, les piétons et les autres usagers de la route. Par exemple, à une intersection complexe, la technologie BEV peut aider le système de conduite autonome à identifier avec précision l'emplacement et la direction de chaque participant à la circulation, fournissant ainsi une base fiable pour la planification des itinéraires et la prise de décision.
Dans des conditions météorologiques extrêmes, telles que la pluie, la neige, le brouillard, etc., les caméras et lidar traditionnels peuvent être affectés, réduisant les capacités de perception du système de conduite autonome. La technologie Transformer+BEV présente encore certains avantages dans ces situations car elle peut fusionner les informations d'image sous différents angles pour améliorer la perception de l'environnement par le système. Afin d'améliorer encore les performances de la technologie Transformer+BEV dans des conditions météorologiques extrêmes, vous pouvez envisager d'utiliser des équipements auxiliaires tels que des caméras infrarouges ou des caméras thermiques pour compléter les carences des caméras à lumière visible dans ces situations.
Dans les environnements routiers réels, les piétons, les cyclistes et les autres usagers de la route peuvent présenter un comportement anormal, comme traverser soudainement la route, enfreignant le code de la route, etc. La technologie BEV peut aider les systèmes de conduite autonome à mieux prédire ces comportements anormaux. Dans une perspective mondiale, BEV peut fournir des informations environnementales complètes, permettant au système de conduite autonome de suivre et de prédire avec plus de précision la dynamique des piétons et des autres usagers de la route. De plus, en combinant des algorithmes d'apprentissage automatique et d'apprentissage profond, la technologie Transformer+BEV peut encore améliorer la précision de la prédiction des comportements anormaux, permettant au système de conduite autonome de prendre des décisions plus raisonnables dans des scénarios complexes.
Dans les environnements routiers étroits ou bloqués, les caméras et lidar traditionnels peuvent ont du mal à obtenir suffisamment d’informations pour une sensibilisation efficace à l’environnement. Cependant, la technologie Transformer+BEV peut entrer en jeu dans ces situations car elle peut intégrer des images capturées par plusieurs caméras pour générer une vue plus complète. Cela permet au système de conduite autonome de mieux comprendre l’environnement autour du véhicule, d’identifier les obstacles dans les passages étroits et de naviguer en toute sécurité dans ces scénarios.
Dans des scénarios tels que les autoroutes, les systèmes de conduite autonome doivent faire face avec des tâches complexes telles que la fusion des véhicules et la fusion du trafic. Ces tâches imposent des exigences élevées aux capacités de perception du système de conduite autonome, car le système doit évaluer la position et la vitesse des véhicules environnants en temps réel pour garantir une fusion et une fusion du trafic en toute sécurité. Grâce à la technologie Transformer+BEV, le système de conduite autonome peut obtenir une perspective globale et comprendre clairement les conditions de circulation autour du véhicule. Cela aidera le système de conduite autonome à développer une stratégie de fusion appropriée pour garantir que le véhicule se fond en toute sécurité dans le flux de circulation.
Dans les situations d'urgence, telles que les accidents de la route, les fermetures de routes ou les urgences En cas d'incident, le système de conduite autonome doit prendre des décisions rapides pour garantir la sécurité de conduite. Dans ces cas, la technologie Transformer+BEV peut fournir une perception environnementale complète et en temps réel pour le système de conduite autonome, aidant ainsi le système à évaluer rapidement les conditions routières actuelles. En combinant des données en temps réel et des algorithmes avancés de planification de trajectoire, les systèmes de conduite autonome peuvent développer des stratégies d'urgence appropriées pour éviter les risques potentiels.
A travers ces exemples, nous pouvons voir que la technologie Transformer+BEV a un grand potentiel pour traiter les Corner Case. Cependant, afin de tirer pleinement parti des avantages de la technologie Transformer+BEV, des recherches et développements supplémentaires sont encore nécessaires pour améliorer les performances en matière de capacités de traitement d'images, de technologie de fusion de capteurs et de prédiction de comportements anormaux.
Cet article résume les principes et les applications de la technologie Transformer et BEV dans la conduite autonome. Surtout comment résoudre le problème du Corner Case. En offrant une perspective globale et une perception environnementale précise, la technologie Transformer+BEV devrait améliorer la fiabilité et la sécurité des systèmes de conduite autonome face à des situations extrêmes. Cependant, la technologie actuelle présente encore certaines limites, comme la dégradation des performances en cas de conditions météorologiques défavorables. Les recherches futures devraient continuer à se concentrer sur l’amélioration de la technologie BEV et son intégration avec d’autres technologies de détection pour atteindre un niveau plus élevé de sécurité de conduite autonome.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!