Rokid算法负责人王文兵:AR下的“声”临“奇”境
声音在我们的日常生活中无处不在,是不可或缺的一部分,在元宇宙世界中亦如此。元宇宙的场景要想实现全方位的沉浸感,需要各种声音技术的不断升级和发展。在51CTO近日举办的“AISummit 全球人工智能技术大会”上,Rokid算法负责人王文兵发表了《AR下的“声”临“奇”境》主题演讲,介绍了Rokid自研6DoF空间声场的概念、主要技术模块、技术难点、与AR结合的发展趋势以及开发技术的初衷,诠释了空间声场技术在元宇宙世界中的重要体现。
现将演讲内容整理如下:
什么是6dof空间声场?
谈及这个问题时,可以先抛开技术的限制,想象一下AR上的声音应该以何种形态去呈现。其实我们现在用的TV、手机等大部分都是像stereo这种的双声道,家庭影院已经用上了multi-channel,电影院等专业场景还有空间布局上的喇叭。
在AR上它究竟应该如何去呈现呢?我们可以试想一个画面,比如现在很流行的在线会议或在线教育,如果在元宇宙世界里看到右边的数字人一直在说话,但这个声音从你的左边出来,这个时候是不是感觉很奇怪?
另外我们可以想象一下AR游戏,在以前这种2D的视觉里,声音跟着视觉的焦点去移动就可以,但是在3D场景的360度的范围下,人的双眼是无法抓住整个视觉焦点的,而声音是具备全局焦点的。这也是为什么在很多游戏里,人会跟着声音去切换视角。因此可以看到AR上声音所需具备的一些特性:需要满足人对声音的高灵敏度感觉、声音的全局性焦点作用、以及声音的真实感要求等。
接下来从三个维度介绍一下声音形态的发展之路。
第一,空间表达维度。整个声音的表达维度从mono/stereo到5.1/7.1/9.1/...这种平面下的多声道、再到5.1.x/7.1.x这种空间下的多声道等,喇叭越来越多,摆放位置也从平面上升到空间了;
第二,编码方式维度。从最开始的channel-based(也就是基于通道的编码,每个通道上会有各种各样的声音,比如我们平时常见的左右声道的表达方式),到object-based(也就是针对发生的对象进行编码),包括大家在电影院观看到的Dolby Atmos片源,比如当某个炮弹打下来的时候,那个炮弹的对象是专门编码的,metadata中记录了其运动的轨迹,然后根据对应的喇叭位置进行播放的;但我们最终的目标还是希望达到完全基于场景下的效果,类似于HOA这样的全景声方式,不只是炮弹,一花一草一树叶的掉落我们都希望它是具备空间感。
第三,XR体验维度。以前虚拟的声音和真实世界是割裂的,如今在XR里,尤其是AR方面,我们一直在做的事就是虚拟与现实的融合。
人之所以能够对声音有如此细力度的区分,是因为双耳模式,专业上来说是ITD和ILD,也就是双耳的时间差和音强差。这两种差别会帮助我们快速定位物体发声的方位。
那么如何让3D声音普及?如何突破场地局限性?如何降低用户消费成本?如何能够让每个人都享受科技?Rokid 自研的6dof空间声场将助力解决这些难题。
6dof空间声场从名字上可以分为两部分:6dof和空间声场。6dof主要表达六自由度,由陀螺仪提供绕XYZ三个方向的旋转,由加速度计提供XYZ三个方向的加速度。
6dof空间声场涉及声音的产生、传播、渲染、编解码以及整个过程中虚实声音融合和交互的过程。
6dof空间声场的主要技术
6dof空间声场的主要技术模块包含HRTFs、声场渲染以及音效。HRTFs是声源从自由场到耳膜的冲击函数,其是在模拟一个消音室的环境下,全方位的声音传到人耳的过程。声场渲染可以给予人听声辨位的能力,可以虚实融合,完美处理真实物体对虚拟声源的影响。音效是在私密性设计的开放式喇叭以减弱声音泄露、保障音量的同时,进行声音品质的丰富。
架构图最上面的SDK,对外提供了空间模块,即空间引擎出口以及语音引擎出口。可以对空间信息进行获取和建模,有助于数字世界和物理世界的融合。
此外,我们在Room Effect上也做了一些修改。其整体框架与经典的网络结构大同小异,首先是构建网络,然后生成理论下的无损的网络,之后在这个理论的基础上做各种衰减、损耗的相关设置,包括吸收、遮挡、反射等。其实我们本身的目的不是为了做各种音效,我们只是结合着产品的使用场景,比如影院或者音乐,提供音效以让用户达到良好的视听体验,这些都可以在下一代AR眼镜Rokid Max上体验到。
6dof空间声场对比。左边是一个第三方SDK的效果,当从0度到90度旋转时,每个频率的变化是不平滑的,而且最开始下降的很厉害,后面的变化非常小。右边的Rokid所做的6dof空间声场,不同的频率段跟着你的方位变换的时候有明显的变化,图中为不同角度、不同频率段、不同幅值的表现。
6dof空间声场的发展趋势
随着元宇宙时代的来临,AR、VR技术的兴起,空间声场的发展也迎来了新的机遇。
空间声场的发展趋势主要体现在三个方面:
一是沉浸感,人们可以根据真实的世界进行反馈,更好地进行虚实融合与交互,真正实现沉浸式体验。所有虚拟世界中的声音不应该放飞自我,不受真实世界中任何物体的影响,因为这样会让人觉得它本身还是割裂的。除了融合还要进行交互,比如在虚拟世界中可以通过语音、手势等不同方式去和AR终端上增强的声音进行交互,去选择暂停、播放、或切换不同层次、不同视角的窗口、或自己感兴趣的声音等等。
二是精细化,在HRTF、分辨率、测试方法、定制化等不同方面进行精细化的探索与实践。精细化比较难的是头传,因为头传本身的生成手段就比较费时费力,需要对整个球面空间上不同距离下的每个点进行播放,然后再耳道进行采样。当前也有些学者在研究如何用更少的采样点生成这种相同的精细化程度,以及如何通过插值或其他技术手段实现更高的精确度;同时,从更长远的角度来看,精细化的一个极限是私定制的实现。
三是私密性与音效,体验不同频段的声音带来的听觉盛宴。不同谐波或不同频段给我们带来的感觉是不一样的。比如,严重的混响是会影响人类的听感,而适宜的混响是会带来音质上的丰富听感;尤其是早期的混响,很多时候会被用于音色的判断,低于3K的混响和横向反射会有助于形成更好的空间感和深度感,而高频的分量会帮助我们实现环绕感。
探索空间声场的初衷
Rokid为何会做空间声场?主要有三个方面的原因:
一,沉浸感。我们一直在追求数字世界与物理世界的融合,比如玩游戏时的那种生动、在线会议或在线教育时的那种真实。
二,虚实交互。我们认为未来在这世界会是一种虚实的融合,在融合的基础上可以去做很多交互,包括空间感知的过程、主观行为的交互等。空间感知是指对于世界中比如物体的大小、空间的大小、材质等方面,这种感知之后则形成对虚拟声音的影响;主观行为的交互是人为地干预、选择、与数字世界中的声音做沟通。
三,极致品质。AR Glass与手机、平板、TV等产品是有所区别的。当你用手机时出现断网或者卡顿的情况是能够忍受的,但是对戴在眼睛上的AR Glass的实时性的要求却是非常高的。如何才能做到这种实时性的高要求?这涉及到算法、工程、系统、硬件以及应用等整体的优化。
这些是我们一直所追求的使命,Rokid希望通过AR Glass产品将这些能力直接推广并普及到大众;与此同时也希望将这些技术作为我们Yoda OS里的基本能力释放,从而通过广大开发者们的使用,间接的惠及到用户,赋能到各行各业。
现大会演讲回放及PPT已上线,进入官网查看精彩内容(https://www.php.cn/link/53253027fef2ab5162a602f2acfed431)
以上是Rokid算法负责人王文兵:AR下的“声”临“奇”境的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

通过将检索增强生成和语义记忆纳入AI编码助手,提升开发人员的生产力、效率和准确性。译自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。虽然基本AI编程助手自然有帮助,但由于依赖对软件语言和编写软件最常见模式的总体理解,因此常常无法提供最相关和正确的代码建议。这些编码助手生成的代码适合解决他们负责解决的问题,但通常不符合各个团队的编码标准、惯例和风格。这通常会导致需要修改或完善其建议,以便将代码接受到应

想了解更多AIGC的内容,请访问:51CTOAI.x社区https://www.51cto.com/aigc/译者|晶颜审校|重楼不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。LLM的应用范围非常广泛,它可以用于自然语言处理、文本生成、语音识别和推荐系统等领域。通过学习大量的数据,LLM能够生成文本

大型语言模型(LLM)是在巨大的文本数据库上训练的,在那里它们获得了大量的实际知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在训练结束时被“具体化”。在预训练结束时,模型实际上停止学习。对模型进行对齐或进行指令调优,让模型学习如何充分利用这些知识,以及如何更自然地响应用户的问题。但是有时模型知识是不够的,尽管模型可以通过RAG访问外部内容,但通过微调使用模型适应新的领域被认为是有益的。这种微调是使用人工标注者或其他llm创建的输入进行的,模型会遇到额外的实际知识并将其整合

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

机器学习是人工智能的重要分支,它赋予计算机从数据中学习的能力,并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用,从图像识别和自然语言处理到推荐系统和欺诈检测,它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论,其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学(Symbolism),又称为符号主义,强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程,通过已有的

编辑|KX在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「S

本站7月5日消息,格芯(GlobalFoundries)于今年7月1日发布新闻稿,宣布收购泰戈尔科技(TagoreTechnology)的功率氮化镓(GaN)技术及知识产权组合,希望在汽车、物联网和人工智能数据中心应用领域探索更高的效率和更好的性能。随着生成式人工智能(GenerativeAI)等技术在数字世界的不断发展,氮化镓(GaN)已成为可持续高效电源管理(尤其是在数据中心)的关键解决方案。本站援引官方公告内容,在本次收购过程中,泰戈尔科技公司工程师团队将加入格芯,进一步开发氮化镓技术。G
