真·3D创作来了,必须用手比划!这回AI总不能抢我饭碗了吧
在AR向前推进的这条路上。还会不断有新的行业角色、技术力量加入进来,共同推动AR驶向我们的终极想象:真正意义上面向大众的增强现实。
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
AR苦内容久矣。
过去一段时间来,AR厂商们都争相推出消费级AR眼镜,在重量、续航、功能上卷出新花样,但也逃不脱被人们诟病:
除了看片还能干啥?
当下的消费级AR到底是不是真·AR?
对于用户来说,AR眼镜的作用,如果只是将一台投影仪缩小到镜片大小架在眼前,很难长期满足消费者不断涌现的新需求。
一直和手机借内容生态?
似乎也不可取,毕竟AR最大的想象力就在于如何成为一个新型独立终端。更何况手机内容都局限在2D,和增强现实基本定义里反复提及的3D也有本质性区别。
所以应该怎么办?
卖空自家6万台AR眼镜库存的行业头部玩家,最近顶着元宇宙退潮交出了自家答卷:
通过一个AR应用,他们让普通人在10分钟内建造属于自己的AR数字空间。
而且还是必须要用手在物理空间里创作的那种,AI这回没话说了吧?
当然这是开玩笑,其背后真正的目的在于,能够让更多开发者、创作者,能够来AR空间内发挥自己的想象力,壮大AR内容生态,并进一步达到推动AR向大众层面铺开。
所以这款应用到底是什么?仅凭它就能实现如此宏大的目标吗?背后又揭示了AR行业的哪些暗涌?
灵境是什么?
Rokid创始人兼CEO 祝铭明表示,灵境是AR行业一个划时代的产品,可以让每一个人都参与到AR数字内容的创作中。
官方定义,灵境是一款AR空间创作工具,能做的事就是在3D空间内创作AR内容,而且门槛很低,人人可用。
具体操作步骤分为5步:
- 手机扫描空间
- 云端空间重建
- 在线场景布局
- 多端一键发布
- AR终端体验
也就是说,通过普通手机摄像头,灵境就能获取到空间信息,然后在云端进行重建。之后就可以按照自己的想法完成创作了。
创作好的AR内容可以直接发布在平台上,一个空间内可以有多个人发布自己的创作。最后只需戴上AR眼镜就能体验。
整个过程下来,一个10平米左右的空间,只需10分钟就能搞定。
据介绍,灵境的内容渲染也是基于Rokid自己的3D渲染引擎,这样可以极大降低整个内容创作、落地的时间和人力成本。
要知道,目前AR内容创作的落地过程,基本上都还是一个长链条流程。
需要有一定的产品资源、开发资源和内容创作资源,然后再由专业团队打包资源到现场测试,最后进行验收。常被使用的创作工具如Unity、UnrealEngine,在使用上也有门槛,要求用户具备一定的开发基础能力。
而且灵境还强调一大特点:协同合作。
不仅实现了多端一致,即在手机、PC、AR眼镜上都能看到创作内容空间;也实现了让多人参与到同一空间内的AR创作。
这个定位明显更偏向于大众化,行业内用户和普通消费者都能上手体验,与此同时也会提出一些新的要求,如高并发需求、终端算力、内容创作效果等。
那么问题来了——
灵境是如何实现的?
这背后其实是一整套技术栈的全方位升级,包括硬件、系统、云服务、算法等。
首先来看硬件方面,这一次配合灵境的发布,Rokid将AR眼镜从传统“双鱼眼+RGB三摄方案”升级为“单摄RGB轻量化SLAM”。
单目方案的好处很直接:结构简单、硬件设计复杂度降低、主板面积小、成本功耗比大幅降低,用户侧能直接感受到佩戴舒适度和续航能力上的提升。
在落地应用上,据悉灵境搭载的硬件也是只有一个摄像头的。
因为把相机数量压缩到最后一个,单目方案可以带来更低功耗、更简结构,更低成本等诸多优势,舒适的佩戴和更普惠的价格,符合灵境的“让AR更普惠”的需求。
但单目方案也确实有短板,比如它无法得到绝对的尺度信息,所以需要通过初始化恢复尺度信息,而初始化的好坏直接影响算法最终的精度。单目计算绝对尺度准确性不够高,尺度收敛也有不确定性,这些对单目SLAM算法开发带来很大的挑战,会直接影响到AR体验。
不过Rokid表示,目前行业内已经出现了相应的解决方案。
算法上,在IMU的辅助下,单目的静态初始化和动态初始化已经有了很多方案,初始化完毕以后基本上获得比较精确的绝对尺度先验。再结合比如基于滤波的算法,可以在后期使用过程中对各种SLAM参数持续优化,进一步提升算法的定位精度,同时基于深度学习的技术在SLAM算法上也有很多技术探索。
由此,也能感受到Rokid的理念是:AR产品不仅仅只是堆叠传感器,而是软件、硬件、算法和场景作为整体,给用户提供更舒适的AR综合体验。
软件方面的提升,主要体现在3D点云和SLAM方面。
并利用端云协同的方式平衡了算力、功耗和高并发几个方面的要求。
Rokid应用平台中心部门负责人Watson介绍说:
基于3D点云的视觉定位技术和设备端的SLAM技术(Simultaneous localization and mapping,同步定位和地图构建),可以类比自动驾驶中的道路高精地图和车辆空间感知。
在AR场景下,也有一些开发者拿点云作全局的粗定位,拿SLAM做局部精定位,两个松耦合在一起。
Rokid这次将这个松耦合,做了更深度的融合。实现了端上只做定位和跟踪,云上空间建图。
这种端云协同协作计算的方式,可以提升一些场景下的定位精度,如弱纹理、环境有变化的场景,同时也能降低移动端的计算功率。原理上主要利用了RTC(Real time communication,实时通信)在弱网对抗/低时延传输和视频图像压缩上具备的优势。
紧耦合的实现,依靠了Rokid全新升级的底层操作系统YodaOS-Master。
具体变化体现在XR系统、XR云服务和XR硬件三个层面。
系统全方位升级后,Rokid可以搭建一个更加完整闭环的OS生态,以此更好连接开发者和消费者。
深扒完灵境的技术栈后不难发现,Rokid此次发布是有备而来。
最核心的目的十分明确:降低AR内容创作门槛,壮大AR内容创作队伍。
仅需一部手机即可体验,耗时缩短到10分钟,这确实是每个人几乎都能满足的条件,还有机会感受到所谓“真正的AR”到底是什么形态。想一想,确实能吸引一波好奇者了。
由此也让人开始好奇,为什么要在此刻正式推出灵境?又为什么要主打降门槛?
答案还是要从市场需求、AR行业发展及行业玩家经验验证几个维度看起。
为什么要做灵境?
最直接的影响因素还是来自于市场需求。
Rokid副总裁、数字文化事业部负责人陈希表示,目前在文博文旅领域,对AR内容的需求非常突出,她给出了一个很惊人的数据来说明:
今年春节期间在文博场景体验过Rokid AR的人数达到了4万人。
全国范围内,如广东省博物馆、西安博物院、陕西自然博物馆、苏州博物馆、良渚古城遗址公园等都陆续推出了AR导览。
AR会在文博领域快速进入的原因也很好理解,它能极大程度上丰富3D空间内的内容丰富度,并将文化知识以更加直观、丰富、多样的方式呈现到参观者面前。
而全国登记在册的博物馆数量就超过了6000家,随着越来越多博物馆提出需求,过去长链条的内容生产模式,难以快速响应。更何况这种以方案落地的模式,对人力物力成本的要求也很高。
因此,市场上亟需一个能高效易上手的生产力工具,能够加速AR内容的创作,并降低成本。
另一边,在工业方面类似的情况。
Rokid副总裁、产品技术中心负责人江涛介绍说,和文博场景有些相似,在工业生产一线上,也希望能够在3D空间里尽可能展示更多信息。
这样一线人员进行操作时,不用再专门走到一些仪表前查看数据、核对情况,而是直接在工作现场就能看到所需信息。
用江涛的话来说,从工业元宇宙的大概念出发,完成数字化转型是做完了工业元宇宙的基建,将整合分析好的数据再重新反馈到现场,才真正走完了一整个闭环。
由于工业场景天然对降本增效提出更高要求,因此工业场景内AR的需求和市场可能会更大。
在很多工厂中,许多条真实的AR生产线已经被搭起来了:
此外,在教育领域,用上AR辅助教学也逐渐普及开来。
比如基于AR的安防教育,就不再只是书面、视频形式的灌输了。小朋友们可以在模拟的火灾场景里学习如何逃生,记忆点会更加深刻,教育的效果自然也会更好。
而在这一场景内,学校老师往往是需要基于课程要求,持续更新AR内容的,一个基于手机就能用的低门槛内容生产工具,也确实符合真实需求。
如上是市场方面带来的直接需求。
更深层的影响因素,是AR现阶段进化的要求。
一直以来,AR原生内容生态匮乏都常常被人吐槽,成为很多人不愿意体验AR设备的一大原因。
和手机借生态?虽然内容丰富度短期上来了,但是展现的内容更多局限在2D层面,真正的AR内容没有被展现出来,还会让人觉得AR眼镜的终途就是手机配件?
由此,对于AR行业而言,几乎所有人都意识到丰富内容生态是当下发展的重中之重。如苹果在最早期探索AR时,也是率先发布了AR Kit开发平台,把APP Store的打法继续用在AR领域。
毕竟只有内容丰富了,用户才会被吸引过来,AR才有机会向前更进一步。那么眼下的问题就变成了如何丰富AR原生内容。
仅凭AR厂商一己之力显然效率不够高,过去多年来探索出的AR交互场景还是非常有限。
号召更多开发者和创作者加入,正在逐渐成为行业内的共识,并且要把使用门槛和成本都打下来。
由此也就不难理解,作为行业内的资深玩家,Rokid选择推出灵境这样一个AR空间引擎。
但,为什么是现在?
Rokid给出的回答是:自身在文博领域的经验积累,验证了市场对于AR的真实需求。
陈希回忆起最初和良渚古城遗址公园的合作时,各种场景还历历在目。
她记得当Rokid和园方提出,可以利用AR来对文物遗址进行修复时,园方立刻表示很感兴趣。整个项目从最初提出到落地,前后经历了3个月左右,最终在2020年国庆期间和大众见面。
最开始,Rokid一天提供了200副AR眼镜的租赁,结果一个小时左右设备就全被租出了。并且对AR好奇的人群,很多都是老人和小孩,这也出乎了Rokid的预料。
而有了真实场景的应用,其实能从第一线积累到非常宝贵的开发经验。比如在设想里人们都会按照导览顺序参观,但实际不是如此,Rokid就要保证乱序参观也不会影响AR效果的展现。以及针对博物馆室内灯光条件不好的情况,技术团队也专门做了优化……最终这些优化和迭代,一并体现在了灵境的设计里。
陈希也感慨说,不可否认当下还不是所有人都愿意花上千元去购买一个专门的设备来体验AR,但是如果只花50块钱通过租借,是很多人都愿意尝试的。
那么等到未来,应用场景足够多时,价值就会慢慢体现,那个时候可能就到了AR真正走向C端的时刻。
由此也就不难理解,为什么灵境会在此刻推出。
因为它能通过一个小杠杆,撬动庞大的开发者和创作者群体,发动数以百计、数以千计的人,共同探索广阔的AR内容和应用场景。
并以此助推AR更快速走向大众群体,成长为真正意义上的下一代移动计算终端设备。
灵境会带来什么?
作为一款AR原生内容生产力工具,灵境的出现向行业内外传递了一个信号:
是时候发展AR的内容生态了。
并且不再是和手机或其他终端借生态,而是从AR自身出发,能够展示“什么叫真正的AR”。
一方面,参考目前移动计算终端的绝对霸主智能手机,它正是在出现了爆款内容应用后,才快速吸引了大量用户。
另一方面,AR原生内容和手机等终端内容有本质性区别,它需要是3D的。
如果一直和手机借生态,那最终大众对于AR的理解,可能只是手机的虚拟大屏,这会限制整个技术和产业发展的想象力,也会影响AR的独立发展。
由此,开发AR原生内容是当下必须做的事。
尽管目前在算力、硬件等条件的制约下,AR内容还无法一下达到大家的最终期待。但诚如Windows最初,不也是只有扫雷、蜘蛛纸牌这样的简单应用吗?
我们需要给予技术足够的耐心,等待变化发生。
更何况,端云一体的思路,确实为解决当下算力问题提供了新解法。
如果再从AR行业外的角度来看,灵境的出现也为广大开发者和创作者提供了一个新的机遇。毕竟每一代移动计算终端的崛起,都会伴随一大批非常优秀的内容应用和软件涌现。
总之,在AR向前推进的这条路上。还会不断有新的行业角色、技术力量加入进来,共同推动AR驶向我们的终极想象:真正意义上面向大众的增强现实。
你觉得呢?
以上是真·3D创作来了,必须用手比划!这回AI总不能抢我饭碗了吧的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

写在前面&笔者的个人理解三维Gaussiansplatting(3DGS)是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯,这与神经辐射场(NeRF)方法有很大的不同,后者主要使用隐式的基于坐标的模型将空间坐标映射到像素值。3DGS凭借其明确的场景表示和可微分的渲染算法,不仅保证了实时渲染能力,而且引入了前所未有的控制和场景编辑水平。这将3DGS定位为下一代3D重建和表示的潜在游戏规则改变者。为此我们首次系统地概述了3DGS领域的最新发展和关

您一定记得,尤其是如果您是Teams用户,Microsoft在其以工作为重点的视频会议应用程序中添加了一批新的3DFluent表情符号。在微软去年宣布为Teams和Windows提供3D表情符号之后,该过程实际上已经为该平台更新了1800多个现有表情符号。这个宏伟的想法和为Teams推出的3DFluent表情符号更新首先是通过官方博客文章进行宣传的。最新的Teams更新为应用程序带来了FluentEmojis微软表示,更新后的1800表情符号将为我们每天

0.写在前面&&个人理解自动驾驶系统依赖于先进的感知、决策和控制技术,通过使用各种传感器(如相机、激光雷达、雷达等)来感知周围环境,并利用算法和模型进行实时分析和决策。这使得车辆能够识别道路标志、检测和跟踪其他车辆、预测行人行为等,从而安全地操作和适应复杂的交通环境.这项技术目前引起了广泛的关注,并认为是未来交通领域的重要发展领域之一。但是,让自动驾驶变得困难的是弄清楚如何让汽车了解周围发生的事情。这需要自动驾驶系统中的三维物体检测算法可以准确地感知和描述周围环境中的物体,包括它们的位置、

写在前面&笔者的个人理解目前,在整个自动驾驶系统当中,感知模块扮演了其中至关重要的角色,行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后,才能让自动驾驶系统中的下游规控模块做出及时、正确的判断和行为决策。目前,具备自动驾驶功能的汽车中通常会配备包括环视相机传感器、激光雷达传感器以及毫米波雷达传感器在内的多种数据信息传感器来收集不同模态的信息,用于实现准确的感知任务。基于纯视觉的BEV感知算法因其较低的硬件成本和易于部署的特点,以及其输出结果能便捷地应用于各种下游任务,因此受到工业

当八卦开始传播新的Windows11正在开发中时,每个微软用户都对新操作系统的外观以及它将带来什么感到好奇。经过猜测,Windows11就在这里。操作系统带有新的设计和功能更改。除了一些添加之外,它还带有功能弃用和删除。Windows11中不存在的功能之一是Paint3D。虽然它仍然提供经典的Paint,它对抽屉,涂鸦者和涂鸦者有好处,但它放弃了Paint3D,它提供了额外的功能,非常适合3D创作者。如果您正在寻找一些额外的功能,我们建议AutodeskMaya作为最好的3D设计软件。如

ChatGPT给AI行业注入一剂鸡血,一切曾经的不敢想,都成为如今的基操。正持续进击的Text-to-3D,就被视为继Diffusion(图像)和GPT(文字)后,AIGC领域的下一个前沿热点,得到了前所未有的关注度。这不,一款名为ChatAvatar的产品低调公测,火速收揽超70万浏览与关注,并登上抱抱脸周热门(Spacesoftheweek)。△ChatAvatar也将支持从AI生成的单视角/多视角原画生成3D风格化角色的Imageto3D技术,受到了广泛关注现行beta版本生成的3D模型,

写在前面项目链接:https://nianticlabs.github.io/mickey/给定两张图片,可以通过建立图片之间的对应关系来估计它们之间的相机姿态。通常,这些对应关系是二维到二维的,而我们估计的姿态在尺度上是不确定的。一些应用,例如随时随地实现即时增强现实,需要尺度度量的姿态估计,因此它们依赖于外部的深度估计器来恢复尺度。本文提出了MicKey,这是一个关键点匹配流程,能够够预测三维相机空间中的度量对应关系。通过学习跨图像的三维坐标匹配,我们能够在没有深度测试的情况下推断出度量相对

对于自动驾驶应用来说,最终还是需要对3D场景进行感知。道理很简单,车辆不能靠着一张图像上得到感知结果来行驶,就算是人类司机也不能对着一张图像来开车。因为物体的距离和场景的和深度信息在2D感知结果上是体现不出来的,而这些信息才是自动驾驶系统对周围环境作出正确判断的关键。一般来说,自动驾驶车辆的视觉传感器(比如摄像头)安装在车身上方或者车内后视镜上。无论哪个位置,摄像头所得到的都是真实世界在透视视图(PerspectiveView)下的投影(世界坐标系到图像坐标系)。这种视图与人类的视觉系统很类似,
