Le son est omniprésent dans notre vie quotidienne et constitue un élément indispensable, et il en va de même dans le monde du métaverse. Afin d'obtenir une immersion complète dans les scènes du Metaverse, une mise à niveau et un développement continus de diverses technologies sonores sont nécessaires. Lors de la "AISummit Global Artificial Intelligence Technology Conference" organisée récemment par 51CTO, Wang Wenbing, le responsable de l'algorithme Rokid, a prononcé un discours d'ouverture sur le "Sound" sous AR dans "Wonderful" Land", il a présenté le concept, les principaux modules techniques, les difficultés techniques, les tendances de développement de la combinaison avec AR et l'intention originale de développer la technologie du champ sonore spatial 6DoF auto-développé par Rokid, et a expliqué l'incarnation importante de la technologie du champ sonore spatial dans le monde du métaverse.
Le contenu de la conférence est désormais organisé comme suit :
Quand on parle de ce problème, vous pouvez d'abord mettre de côté les limitations techniques et imaginer comment le son sur AR devrait être présenté. En fait, la plupart des téléviseurs et des téléphones portables que nous utilisons actuellement sont à deux canaux, comme la stéréo. Les cinémas maison utilisent déjà le multicanal. Les scènes professionnelles telles que les salles de cinéma disposent également de haut-parleurs dans la disposition spatiale.
Comment doit-il être présenté en AR ? Nous pouvons imaginer une scène, comme les réunions en ligne ou l'éducation en ligne, qui sont très populaires maintenant. Si vous voyez la personne numérique à droite dans le monde du métaverse parler tout le temps, mais que la voix vient de votre gauche, cela vous semble-t-il bizarre ? cette fois?
De plus, nous pouvons imaginer des jeux AR. Dans la vision 2D précédente, le son peut se déplacer avec le focus de la vision, mais dans la plage de 360 degrés de la scène 3D, les yeux humains ne peuvent pas saisir la scène entière. focalisation, tandis que le son a une focalisation globale. C'est pourquoi, dans de nombreux jeux, les joueurs changent de perspective en fonction du son. Par conséquent, nous pouvons voir certaines des caractéristiques que le son en RA doit avoir : il doit répondre à la haute sensibilité sonore des gens, à l'orientation globale du son et aux exigences de réalisme du son.
Ensuite, introduisons le développement de la forme sonore à partir de trois dimensions.
Tout d'abord, la dimension de l'expression spatiale. La dimension d'expression de l'ensemble du son va du mono/stéréo au multicanal dans un plan tel que 5.1/7.1/9.1/..., au multicanal dans un espace tel que 5.1. Il y en a de plus en plus, et. la position de placement a également augmenté du plan à l'espace
Deuxièmement, la dimension de la méthode d'encodage. Depuis le tout début, basé sur le canal (c'est-à-dire un encodage basé sur le canal, chaque canal aura une variété de sons, tels que nos expressions habituelles des canaux gauche et droit), jusqu'à l'objet (c'est-à-dire pour les objets qui se produisent sont codés), y compris les sources cinématographiques Dolby Atmos que tout le monde a regardé au cinéma. Par exemple, lorsqu'un boulet de canon est abattu, l'objet de ce boulet de canon est spécialement codé et sa trajectoire de mouvement est enregistrée dans les métadonnées, puis basée. sur la position du haut-parleur correspondante, mais notre objectif ultime est d'obtenir un effet entièrement basé sur la scène, similaire à la méthode sonore panoramique telle que HOA, non seulement les boulets de canon, mais aussi la chute des fleurs, de l'herbe et des feuilles. Nous espérons tous qu'il pourra avoir une sensation d'espace.
Troisièmement, la dimension de l'expérience XR. Dans le passé, le son virtuel et le monde réel étaient séparés. Aujourd'hui, en XR, en particulier en AR, ce que nous faisons est l'intégration du virtuel et de la réalité.
La raison pour laquelle les gens peuvent distinguer les sons avec autant de détails est due au mode binaural. Techniquement parlant, il s'agit de l'ITD et de l'ILD, qui correspondent à la différence de temps et d'intensité sonore entre les deux oreilles. Ces deux différences nous aideront à localiser rapidement la direction du son de l'objet.
Alors comment rendre le son 3D populaire ? Comment dépasser les limites des lieux ? Comment réduire les coûts de consommation des utilisateurs ? Comment tout le monde peut-il profiter de la technologie ? Le champ sonore spatial 6dof développé par Rokid aidera à résoudre ces problèmes.
Champ sonore spatial 6dof peut être divisé en deux parties à partir du nom : 6dof et champ sonore spatial. 6dof exprime principalement six degrés de liberté. Le gyroscope assure la rotation autour des trois directions de XYZ et l'accéléromètre fournit l'accélération dans les trois directions de XYZ.
6dof champ sonore spatial implique la génération, la propagation, le rendu, l'encodage et le décodage du son, ainsi que la fusion et l'interaction des sons virtuels et réels tout au long du processus.
Les principaux modules technologiques du champ sonore spatial 6dof comprennent les HRTF, le rendu du champ sonore et les effets sonores . Les HRTF sont la fonction d'impact de la source sonore du champ libre au tympan. Il s'agit du processus de transmission du son global à l'oreille humaine dans un environnement de chambre anéchoïque simulé. Le rendu du champ sonore peut donner aux utilisateurs la possibilité de distinguer la position des sons en écoutant et peut mélanger des objets virtuels et réels pour gérer parfaitement l'impact des objets réels sur les sources sonores virtuelles. L'effet sonore consiste à enrichir la qualité sonore en utilisant des haut-parleurs ouverts conçus pour l'intimité afin de réduire les fuites sonores et d'assurer le volume.
Le SDK en haut du diagramme d'architecture fournit des modules spatiaux externes, à savoir les exportations de moteur spatial et les exportations de moteur vocal. Les informations spatiales peuvent être acquises et modélisées, contribuant ainsi à intégrer les mondes numérique et physique.
De plus, nous avons également apporté quelques modifications à Room Effect. Son cadre global est similaire à la structure de réseau classique. Tout d'abord, le réseau est construit, puis un réseau théorique sans perte est généré. Ensuite, sur la base de cette théorie, divers paramètres liés à l'atténuation et aux pertes sont effectués, notamment l'absorption, l'occlusion, la réflexion, etc. En fait, notre objectif n'est pas de créer divers effets sonores. Nous fournissons simplement des effets sonores basés sur les scénarios d'utilisation du produit, tels que le théâtre ou la musique, afin que les utilisateurs puissent vivre une bonne expérience audiovisuelle. les lunettes AR de nouvelle génération Rokid Max.
Comparaison du champ sonore spatial 6dof. Le côté gauche est l'effet d'un SDK tiers lors d'une rotation de 0 degrés à 90 degrés, le changement de chaque fréquence n'est pas fluide, et la diminution est forte au début, et les changements ultérieurs sont très faibles. Le champ sonore spatial 6dof réalisé par Rokid à droite présente des changements évidents dans différentes bandes de fréquences à mesure que votre position change. L'image montre les performances de différents angles, différentes bandes de fréquences et différentes amplitudes.
Avec l'avènement de l'ère du métaverse et l'essor des technologies AR et VR, le développement des champs sonores spatiaux a également ouvert la voie à de nouvelles opportunités.
La tendance au développement des champs sonores spatiaux se reflète principalement dans trois aspects :
Premièrement, l'immersion, les gens peuvent fournir des commentaires basés sur le monde réel, mieux intégrer et interagir avec le virtuel et le réel, et réaliser véritablement un expérience immersive. Tous les sons du monde virtuel ne doivent pas être exempts de l'influence d'objets du monde réel, car cela donnera aux gens le sentiment qu'ils sont toujours séparés. En plus de l'intégration, une interaction est également requise. Par exemple, dans le monde virtuel, vous pouvez interagir avec le son amélioré sur le terminal AR via différentes méthodes telles que la voix et les gestes, pour choisir de mettre en pause, de lire ou de changer de fenêtre. niveaux et perspectives, ou pour ressentir votre propre chemin, des voix d'intérêt et plus encore.
Le second est le raffinement, qui implique une exploration et une pratique raffinées dans différents aspects tels que le HRTF, la résolution, les méthodes de test et la personnalisation. La chose la plus difficile à affiner est le passage de la tête, car la méthode de génération du passage de la tête elle-même prend plus de temps et est plus laborieuse. Elle doit jouer chaque point à différentes distances dans tout l'espace sphérique, puis échantillonner le conduit auditif. . Actuellement, certains chercheurs étudient comment générer le même degré de raffinement avec moins de points d'échantillonnage et comment obtenir une plus grande précision par interpolation ou d'autres moyens techniques. Dans une perspective à plus long terme, la limite de raffinement est personnalisée ; mise en œuvre.
Le troisième est l'intimité et les effets sonores, vivez le festin auditif apporté par les sons dans différentes bandes de fréquences. Différentes harmoniques ou différentes bandes de fréquences nous donnent des sensations différentes. Par exemple, une réverbération sévère affectera l'audition humaine, tandis qu'une réverbération appropriée apportera une expérience d'écoute riche en termes de qualité sonore, en particulier une réverbération précoce, elle est souvent utilisée pour juger du timbre, en dessous de 3K. La réverbération et la réflexion latérale aideront à créer une meilleure sensation de l'espace et la profondeur, tandis que la composante haute fréquence nous aidera à obtenir une sensation d'ambiance.
Pourquoi Rokid crée-t-il des champs sonores spatiaux ? Il y a trois raisons principales :
Premièrement, l'immersion. Nous poursuivons l'intégration du monde numérique et du monde physique, comme la vivacité lors des jeux, la réalité lors des réunions en ligne ou l'éducation en ligne.
Deuxièmement, l'interaction entre le virtuel et le réel. Nous pensons que l'avenir dans ce monde sera une fusion de réalité et de réalité. Sur la base de la fusion, de nombreuses interactions peuvent être réalisées, y compris le processus de perception spatiale, l'interaction de comportements subjectifs, etc. La perception spatiale fait référence à des aspects du monde tels que la taille des objets, la taille de l'espace, les matériaux, etc. Cette perception a alors un impact sur les sons virtuels ; l'interaction du comportement subjectif est l'intervention humaine, la sélection et l'interaction avec les sons ; le monde numérique communiquer.
Trois, qualité ultime. AR Glass est différent des téléphones mobiles, tablettes, téléviseurs et autres produits. Lorsque vous utilisez votre téléphone mobile, une déconnexion ou un décalage du réseau est tolérable, mais les exigences en temps réel pour les lunettes AR portées sur vos yeux sont très élevées. Comment pouvons-nous répondre à cette exigence élevée en temps réel ? Cela implique l'optimisation globale des algorithmes, de l'ingénierie, des systèmes, du matériel et des applications.
Ce sont les missions que nous poursuivons. Rokid espère promouvoir et vulgariser directement ces capacités auprès du public via les produits AR Glass. En même temps, nous espérons également publier ces technologies en tant que fonctionnalités de base dans notre système d'exploitation Yoda ; afin de toucher la majorité des utilisateurs. L'utilisation par les développeurs profite indirectement aux utilisateurs et responsabilise tous les horizons.
Maintenant que la rediffusion du discours de la conférence et le PPT sont en ligne, rendez-vous sur le site officiel pour voir le contenu passionnant (https://www.php.cn/link/53253027fef2ab5162a602f2acfed431)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!