Table des matières
1. Modèle ASR multilingue
2. Objets de sortie standardisés riches
3. L'ASR à grande échelle pour tous
4. Collaboration homme-machine
5. ASR responsable
Maison Périphériques technologiques IA Au cours des dix prochaines années, la reconnaissance vocale IA se développera dans ces cinq directions

Au cours des dix prochaines années, la reconnaissance vocale IA se développera dans ces cinq directions

Apr 11, 2023 pm 08:10 PM
领域 技术 asr

​Auteur | Migüel Jetté

Compilé | bluemin

Éditeur | Chen Caixian

Au cours des deux dernières années, la reconnaissance automatique de la parole (Automatic Speech Recognition, ASR) a connu un développement important dans l'utilisation commerciale. Plusieurs modèles ASR au niveau de l'entreprise entièrement basés sur des réseaux de neurones ont été lancés avec succès, tels qu'Alexa, Rev, AssemblyAI, ASAPP, etc. En 2016, Microsoft Research a publié un article annonçant que son modèle avait atteint des performances de niveau humain (mesurées par le taux d'erreur de mots) sur l'ensemble de données « Switchboard » vieux de 25 ans. La précision de l'ASR continue de s'améliorer, atteignant des performances de niveau humain sur davantage d'ensembles de données et de cas d'utilisation.

未来十年,AI 语音识别将朝着这五个方向发展

Source de l'image : article de blog d'Awni Hannun "La reconnaissance vocale n'est pas résolue"

Comme la précision de la reconnaissance de la technologie ASR s'est considérablement améliorée et que les scénarios d'application sont devenus de plus en plus abondants, nous pensons que : ce n'est pas le cas maintenant l'apogée de l'utilisation commerciale de l'ASR, la recherche et les applications commerciales dans ce domaine restent à explorer. Nous prévoyons que la recherche et les systèmes commerciaux liés à l'IA vocale se concentreront sur les cinq domaines suivants au cours des dix prochaines années :

1. Modèle ASR multilingue

"Au cours des dix prochaines années, nous déploierons de véritables modèles ASR. dans les environnements de production Des modèles multilingues qui permettent aux développeurs de créer des applications que tout le monde peut comprendre dans n'importe quelle langue, libérant véritablement la puissance de la reconnaissance vocale dans le monde entier »

未来十年,AI 语音识别将朝着这五个方向发展

Source : Alexis Conneau et al. article d'apprentissage de représentation pour la reconnaissance vocale

Les modèles ASR commerciaux d'aujourd'hui utilisent principalement des ensembles de données en anglais pour la formation, ils ont donc une plus grande précision pour la saisie en anglais. L’anglais suscite un plus grand intérêt à long terme dans le monde universitaire et industriel en raison de la disponibilité des données et de la demande du marché. Bien que la précision de reconnaissance des langues commerciales populaires telles que le français, l'espagnol, le portugais et l'allemand soit également raisonnable, il existe clairement une longue traîne de langues avec des données de formation limitées et une qualité de sortie ASR relativement faible.

De plus, la plupart des systèmes d'entreprise sont basés sur un seul langage, qui ne peut pas être appliqué aux scénarios multilingues propres à de nombreuses sociétés. Le multilinguisme peut prendre la forme de langues dos à dos, comme la programmation médiatique dans les pays bilingues. Amazon a fait de grands progrès pour résoudre ce problème en lançant récemment un produit intégrant l'identification de la langue (LID) et l'ASR. En revanche, le translangage (également connu sous le nom de changement de code) est un système linguistique utilisé par un individu pour combiner des mots et la grammaire de deux langues dans la même phrase. C’est un domaine dans lequel le monde universitaire continue de faire des progrès intéressants.

Tout comme le domaine du traitement du langage naturel adopte une approche multilingue, nous verrons l’ASR emboîter le pas au cours de la prochaine décennie. À mesure que nous apprendrons à tirer parti des technologies émergentes de bout en bout, nous formerons des modèles multilingues à grande échelle capables de transférer l’apprentissage entre plusieurs langues. Le XLS-R de Meta en est un bon exemple : dans une démo, les utilisateurs pouvaient parler n'importe laquelle des 21 langues sans spécifier de langue, et le modèle serait finalement traduit en anglais. En comprenant et en appliquant les similitudes entre les langues, ces systèmes ASR plus intelligents fourniront une disponibilité ASR de haute qualité pour les cas d'utilisation de langues à faibles ressources et de langues mixtes et permettront des applications de qualité commerciale.

2. Objets de sortie standardisés riches

« Au cours de la prochaine décennie, nous pensons que les systèmes ASR commerciaux produiront des objets de transcription plus riches contenant plus que de simples mots. De plus, nous prévoyons que cette sortie plus riche sera reconnue. par des organismes de normalisation tels que le W3C afin que toutes les API renvoient des résultats construits de manière similaire. Cela libérera davantage le potentiel des applications vocales pour tout le monde dans le monde

" Bien que le National Institute of Standards and Technology (NIST). Il y a un long chemin à parcourir. tradition d'exploration de la « transcription riche », mais les efforts visant à l'incorporer dans des formats standardisés et évolutifs pour la sortie ASR sont encore relativement superficiels. Le concept de transcription riche impliquait initialement la majuscule, la ponctuation et la journalisation, mais s'est dans une certaine mesure étendu aux rôles du locuteur et à une gamme d'événements vocaux non verbaux. Les innovations attendues incluent la transcription de discours superposés de différents locuteurs, d'émotions variables et d'autres caractéristiques paralinguistiques, ainsi qu'une gamme de scènes et d'événements de parole non linguistiques, voire non humains, ainsi que la transcription de la diversité textuelle ou linguistique. Tanaka et al. décrivent un scénario dans lequel un utilisateur peut souhaiter choisir parmi des options de transcription de richesse variable, et évidemment la quantité et la nature des informations supplémentaires que nous prévoyons sont spécifiables, en fonction de l'application en aval.

Les systèmes ASR traditionnels sont capables de générer une grille de multiples hypothèses dans le processus de reconnaissance des mots prononcés, ce qui s'est avéré très utile dans la transcription assistée par l'homme, les systèmes de dialogue parlé et la recherche d'informations. L'inclusion des n meilleures informations dans un format de sortie riche encouragera davantage d'utilisateurs à utiliser le système ASR, améliorant ainsi l'expérience utilisateur. Bien qu'il n'existe actuellement aucune norme pour structurer ou stocker les informations supplémentaires actuellement ou potentiellement générées lors du décodage vocal, l'Open Speech Transcription Standard (OVTS) de CallMiner constitue une étape solide dans cette direction, permettant aux entreprises d'explorer et de choisir facilement plusieurs fournisseurs ASR.

Nous prévoyons qu'à l'avenir, les systèmes ASR produiront des sorties plus riches dans des formats standard, permettant des applications en aval plus puissantes. Par exemple, un système ASR peut générer l'ensemble complet des maillages possibles, et une application peut utiliser ces données supplémentaires pour effectuer une transcription automatisée intelligente lors de l'édition de la transcription. De même, les transcriptions ASR qui incluent des métadonnées supplémentaires telles que les dialectes régionaux détectés, les accents, le bruit ambiant ou l'humeur peuvent permettre des applications de recherche plus puissantes.

3. L'ASR à grande échelle pour tous

« Au cours de cette décennie, l'ASR à grande échelle (c'est-à-dire privatisée, abordable, fiable et rapide) fera partie de la vie quotidienne de chacun. capable de rechercher des vidéos, d'indexer tous les contenus médiatiques auxquels nous participons et de rendre chaque vidéo accessible aux consommateurs malentendants du monde entier. ASR sera la clé pour rendre chaque audio et vidéo accessible et exploitable. "

未来十年,AI 语音识别将朝着这五个方向发展

. 未来十年,AI 语音识别将朝着这五个方向发展

Nous utilisons peut-être tous beaucoup de logiciels audio et vidéo : podcasts, streaming sur les réseaux sociaux, vidéos en ligne, discussions de groupe en temps réel, réunions Zoom, etc. Pourtant, le contenu pertinent est rarement retranscrit dans la pratique. Aujourd'hui, la transcription de contenu est devenue l'un des plus grands marchés pour les API ASR et connaîtra une croissance exponentielle au cours de la prochaine décennie, notamment en raison de leur précision et de leur prix abordable. Cela dit, la transcription ASR n'est actuellement utilisée que pour des applications spécifiques (diffusion vidéo, certaines conférences et podcasts, etc.). En conséquence, de nombreuses personnes ne peuvent pas accéder à ces contenus médiatiques et ont du mal à trouver des informations pertinentes après une diffusion ou un événement.

À l’avenir, cette situation va changer. Comme Matt Thompson l'avait prédit en 2010, à un moment donné, l'ASR deviendra suffisamment bon marché et suffisamment répandu pour que nous puissions expérimenter ce qu'il a appelé la « capacité de parole ». Nous prévoyons qu’à l’avenir, presque tous les contenus audio et vidéo seront transcrits et rendus instantanément accessibles, stockables et consultables à grande échelle. Mais le développement de l’ASR ne s’arrêtera pas là, nous espérons également que ces contenus seront exploitables. Nous espérons que chaque audio et vidéo consommé ou utilisé fournira un contexte supplémentaire, tel que des informations générées automatiquement à partir d'un podcast ou d'une conférence, ou un résumé automatique des moments clés de la vidéo, etc. Nous espérons que les systèmes NLP pourront routiniser le traitement ci-dessus.

4. Collaboration homme-machine

« D'ici la fin de ce siècle, nous aurons des systèmes ASR évolutifs qui sont comme un organisme vivant, apprenant constamment avec l'aide humaine ou l'autosupervision. Apprenez à partir de différents canaux dans le monde réel, comprenez de nouveaux mots et variantes linguistiques en temps réel plutôt que de manière asynchrone, auto-débogez et surveillez automatiquement différentes utilisations »

未来十年,AI 语音识别将朝着这五个方向发展

À mesure que l'ASR devient courant et couvre de plus en plus de cas d'utilisation. la collaboration homme-machine jouera un rôle clé. La formation du modèle ASR le reflète bien. Aujourd'hui, les ensembles de données open source et les modèles pré-entraînés réduisent les barrières à l'entrée pour les fournisseurs ASR. Cependant, le processus de formation reste assez simple : collecter des données, annoter les données, entraîner le modèle, évaluer les résultats, améliorer le modèle. Mais il s’agit d’un processus lent et, dans de nombreux cas, sujet aux erreurs en raison de difficultés de réglage ou de données insuffisantes. Garnerin et al. ont observé que l'absence de métadonnées et les incohérences dans la représentation entre les corpus rendent difficile la garantie d'une précision égale dans les performances ASR, ce qui est également le problème que Reid et Walker ont tenté de résoudre lors du développement de la norme de métadonnées.

À l'avenir, les humains superviseront efficacement la formation ASR grâce à des moyens intelligents et joueront un rôle de plus en plus important dans l'accélération de l'apprentissage automatique. Les approches humaines dans la boucle placent les évaluateurs humains dans la boucle d'apprentissage automatique/de rétroaction, permettant un examen et un ajustement continus des résultats du modèle. Cela rendra l’apprentissage automatique plus rapide et plus efficace, ce qui se traduira par une production de meilleure qualité. Plus tôt cette année, nous avons discuté de la manière dont les améliorations apportées à l'ASR permettraient aux transcripteurs humains de Rev (appelés « Revvers ») d'effectuer une post-édition des brouillons ASR, les rendant ainsi plus productifs. La transcription de Revver peut être directement entrée dans le modèle ASR amélioré, formant ainsi un cercle vertueux.

Un domaine dans lequel les experts en langage humain font partie intégrante de l'ASR est la normalisation de texte inverse (ITN), dans laquelle ils convertissent les chaînes reconnues (comme « cinq dollars ») dans leur forme écrite attendue (comme « 5 $ »). Pusateri et al. ont proposé une approche hybride utilisant « des modèles grammaticaux et statistiques faits à la main », et Zhang et al.

5. ASR responsable

« Comme tous les systèmes d'intelligence artificielle, les futurs systèmes ASR adhéreront à des principes éthiques plus stricts en matière d'intelligence artificielle afin que le système traite tout le monde de manière égale et ait un degré plus élevé d'explicabilité. et respecter la vie privée des utilisateurs et de leurs données. »

未来十年,AI 语音识别将朝着这五个方向发展

Les futurs systèmes ASR suivront les quatre principes de l'éthique de l'intelligence artificielle : l'équité, l'explicabilité, le respect de la vie privée et la responsabilité.

Équité : un système ASR équitable peut reconnaître la parole quels que soient les antécédents, le statut socio-économique ou d'autres caractéristiques de l'orateur. Il convient de noter que la construction d'un tel système nécessite d'identifier et de réduire les biais dans nos modèles et nos données de formation. Heureusement, les gouvernements, les ONG et les entreprises travaillent déjà à créer l’infrastructure nécessaire pour identifier et atténuer les préjugés.

Interprétabilité : les systèmes ASR ne seront plus des « boîtes noires » : ils expliqueront la collecte et l'analyse des données, les performances du modèle et les processus de sortie selon les besoins. Cette exigence de transparence supplémentaire permet une meilleure surveillance humaine de la formation et des performances des modèles. Comme Gerlings et al., nous envisageons l'interprétabilité du point de vue d'un large éventail de parties prenantes (notamment les chercheurs, les développeurs, les clients et, dans le cas de Rev, les transcripteurs). Les chercheurs voudront peut-être connaître la raison de la sortie d'un texte erroné afin d'atténuer le problème ; tandis que les transcripteurs voudront peut-être des preuves de la raison pour laquelle ASR pense qu'il agit ainsi pour les aider à évaluer son efficacité, en particulier dans les situations bruyantes où l'ASR peut être plus efficace que les personnes. "entendre" mieux. Weitz et al. ont fait des premiers pas importants vers l'interprétabilité pour les utilisateurs finaux dans le contexte de la reconnaissance de mots clés audio. Laguarta et Subirana ont incorporé l'interprétation guidée par un clinicien dans un système de biomarqueurs de la parole pour la détection de la maladie d'Alzheimer.

Respect de la vie privée : la « voix » est considérée comme des « données personnelles » en vertu de diverses lois américaines et internationales. Par conséquent, la collecte et le traitement des enregistrements vocaux sont soumis à une stricte protection de la vie privée. Chez Rev, nous fournissons déjà des capacités de sécurité et de contrôle des données, et les futurs systèmes ASR respecteront davantage la confidentialité des données des utilisateurs et celle des modèles. Dans de nombreux cas, cela impliquera très probablement de pousser le modèle ASR vers la périphérie (sur l'appareil ou le navigateur). Les défis liés à la confidentialité de la voix stimulent la recherche dans ce domaine, et de nombreuses juridictions, comme l'Union européenne, ont lancé des efforts législatifs. Le domaine de l’apprentissage automatique préservant la confidentialité promet d’attirer l’attention sur cet aspect critique de la technologie afin qu’elle puisse être largement acceptée et approuvée par le public.

Responsabilité : Nous surveillerons le système ASR pour nous assurer qu'il respecte les trois premiers principes. Cela nécessite à son tour un investissement en ressources et en infrastructures pour concevoir et développer les systèmes de surveillance nécessaires et pour prendre des mesures en réponse aux conclusions. Les entreprises déployant des systèmes ASR seront responsables de leur utilisation de la technologie et déploieront des efforts spécifiques pour adhérer aux principes éthiques de l’ASR. Il convient de mentionner que les humains, en tant que concepteurs, mainteneurs et consommateurs de systèmes ASR, seront responsables de la mise en œuvre et de l’application de ces principes – encore un autre exemple de collaboration homme-machine.

Lien de référence : https://thegradient.pub/the-future-of-speech-recognition/https://awni.github.io/speech-recognition/​

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le papier Stable Diffusion 3 est enfin publié, et les détails architecturaux sont révélés. Cela aidera-t-il à reproduire Sora ? Le papier Stable Diffusion 3 est enfin publié, et les détails architecturaux sont révélés. Cela aidera-t-il à reproduire Sora ? Mar 06, 2024 pm 05:34 PM

L'article de StableDiffusion3 est enfin là ! Ce modèle est sorti il ​​y a deux semaines et utilise la même architecture DiT (DiffusionTransformer) que Sora. Il a fait beaucoup de bruit dès sa sortie. Par rapport à la version précédente, la qualité des images générées par StableDiffusion3 a été considérablement améliorée. Il prend désormais en charge les invites multithèmes, et l'effet d'écriture de texte a également été amélioré et les caractères tronqués n'apparaissent plus. StabilityAI a souligné que StableDiffusion3 est une série de modèles avec des tailles de paramètres allant de 800M à 8B. Cette plage de paramètres signifie que le modèle peut être exécuté directement sur de nombreux appareils portables, réduisant ainsi considérablement l'utilisation de l'IA.

Avez-vous vraiment maîtrisé la conversion des systèmes de coordonnées ? Des enjeux multi-capteurs indispensables à la conduite autonome Avez-vous vraiment maîtrisé la conversion des systèmes de coordonnées ? Des enjeux multi-capteurs indispensables à la conduite autonome Oct 12, 2023 am 11:21 AM

Le premier article pilote et clé présente principalement plusieurs systèmes de coordonnées couramment utilisés dans la technologie de conduite autonome, et comment compléter la corrélation et la conversion entre eux, et enfin construire un modèle d'environnement unifié. L'objectif ici est de comprendre la conversion du véhicule en corps rigide de caméra (paramètres externes), la conversion de caméra en image (paramètres internes) et la conversion d'image en unité de pixel. La conversion de 3D en 2D aura une distorsion, une traduction, etc. Points clés : Le système de coordonnées du véhicule et le système de coordonnées du corps de la caméra doivent être réécrits : le système de coordonnées planes et le système de coordonnées des pixels Difficulté : la distorsion de l'image doit être prise en compte. La dé-distorsion et l'ajout de distorsion sont compensés sur le plan de l'image. 2. Introduction Il existe quatre systèmes de vision au total : système de coordonnées du plan de pixels (u, v), système de coordonnées d'image (x, y), système de coordonnées de caméra () et système de coordonnées mondiales (). Il existe une relation entre chaque système de coordonnées,

Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Feb 28, 2024 pm 07:20 PM

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! Mar 21, 2024 pm 05:21 PM

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.

Quels sont les cinq domaines les plus rentables du self-média ? Quelle est la direction du soutien de Douyin en 2024 ? Quels sont les cinq domaines les plus rentables du self-média ? Quelle est la direction du soutien de Douyin en 2024 ? Mar 22, 2024 am 10:11 AM

Avec le développement rapide d'Internet, l'industrie des médias personnels est devenue le centre d'attention de plus en plus de personnes. Dans cette industrie, certains domaines ont attiré beaucoup d’attention en raison de leurs vastes perspectives de marché et de leur rentabilité. Cet article vous dévoilera les cinq domaines les plus rentables du self-média, et discutera de l'orientation du soutien de Douyin en 2024 pour vous aider à mieux saisir les opportunités de développement du self-média. 1. Quels sont les cinq domaines les plus rentables du self-média ? Avec l’essor de l’éducation en ligne, le domaine de l’éducation et de la formation est devenu de plus en plus populaire. Les gens sont prêts à investir dans l’acquisition de connaissances et de compétences, non seulement dans les cours universitaires, mais également dans la formation professionnelle et l’avancement professionnel. Les créateurs auto-médias peuvent atteindre la rentabilité en créant du contenu éducatif de haute qualité pour inciter les étudiants à payer pour apprendre. Cette tendance montre que les gens sont intéressés par l'apprentissage tout au long de la vie.

Le premier modèle mondial de génération de vidéos de scènes de conduite autonomes multi-vues DrivingDiffusion : nouvelles idées pour les données et la simulation BEV Le premier modèle mondial de génération de vidéos de scènes de conduite autonomes multi-vues DrivingDiffusion : nouvelles idées pour les données et la simulation BEV Oct 23, 2023 am 11:13 AM

Quelques réflexions personnelles de l'auteur Dans le domaine de la conduite autonome, avec le développement de sous-tâches/solutions de bout en bout basées sur BEV, les données d'entraînement multi-vues de haute qualité et la construction de scènes de simulation correspondantes sont devenues de plus en plus importantes. En réponse aux problèmes des tâches actuelles, la « haute qualité » peut être divisée en trois aspects : des scénarios à longue traîne dans différentes dimensions : comme les véhicules à courte portée dans les données sur les obstacles et les angles de cap précis lors du découpage des voitures, et les données sur les lignes de voie. . Scènes telles que des courbes avec des courbures différentes ou des rampes/fusions/fusions difficiles à capturer. Celles-ci reposent souvent sur de grandes quantités de données collectées et sur des stratégies complexes d’exploration de données, qui sont coûteuses. Valeur réelle 3D - image hautement cohérente : l'acquisition actuelle des données BEV est souvent affectée par des erreurs d'installation/calibrage du capteur, des cartes de haute précision et l'algorithme de reconstruction lui-même. cela m'a amené à

GSLAM | Une architecture générale et un benchmark GSLAM | Une architecture générale et un benchmark Oct 20, 2023 am 11:37 AM

J'ai soudainement découvert un article vieux de 19 ans GSLAM : A General SLAM Framework and Benchmark open source code : https://github.com/zdzhaoyong/GSLAM Accédez directement au texte intégral et ressentez la qualité de ce travail ~ 1 Technologie SLAM abstraite a remporté de nombreux succès récemment et a attiré de nombreuses entreprises de haute technologie. Cependant, la question de savoir comment s'interfacer avec les algorithmes existants ou émergents pour effectuer efficacement des analyses comparatives en termes de vitesse, de robustesse et de portabilité reste une question. Dans cet article, une nouvelle plateforme SLAM appelée GSLAM est proposée, qui fournit non seulement des capacités d'évaluation, mais fournit également aux chercheurs un moyen utile de développer rapidement leurs propres systèmes SLAM.

'Minecraft' se transforme en une ville IA et les habitants des PNJ jouent comme de vraies personnes 'Minecraft' se transforme en une ville IA et les habitants des PNJ jouent comme de vraies personnes Jan 02, 2024 pm 06:25 PM

Veuillez noter que cet homme carré fronça les sourcils, pensant à l'identité des « invités non invités » devant lui. Il s’est avéré qu’elle se trouvait dans une situation dangereuse, et une fois qu’elle s’en est rendu compte, elle a rapidement commencé une recherche mentale pour trouver une stratégie pour résoudre le problème. Finalement, elle a décidé de fuir les lieux, de demander de l'aide le plus rapidement possible et d'agir immédiatement. En même temps, la personne de l'autre côté pensait la même chose qu'elle... Il y avait une telle scène dans "Minecraft" où tous les personnages étaient contrôlés par l'intelligence artificielle. Chacun d’eux a un cadre identitaire unique. Par exemple, la jeune fille mentionnée précédemment est une coursière de 17 ans mais intelligente et courageuse. Ils ont la capacité de se souvenir, de penser et de vivre comme des humains dans cette petite ville de Minecraft. Ce qui les anime est une toute nouvelle,

See all articles