(映维网Nweon 2023年09月18日)为了准确地表示人类用户的真实世界姿态,通常需要相对详细的关于用户身体部位位置和方向的信息,但这些信息并不总是可用。例如,当使用头戴式设备提供虚拟现实体验时,系统可能只能获取与用户头部和手部相关的空间信息。然而,在大多数情况下,这是不足以准确地重现人类用户的真实姿态的
所以在名为“Pose prediction for articulated object”的专利申请中,微软提出了一种预测铰接对象的姿态的技术。特别地,机器学习模型接收到铰接对象的n个不同关节的空间信息,其中n个关节小于铰接对象的所有关节。
在人类用户的情况下,n个关节可以包括人类用户的头部关节和/或一个或两个手腕关节,它们与详细说明用户头部和/或手的参数的空间信息相关联
机器学习模型已训练为接收铰接对象的n+m个关节的输入空间信息,其中m大于等于1。例如,在初始训练期间,机器学习模型会接收到与铰接对象的几乎所有关节相对应的输入数据。所述n+m个关节可包括所铰接对象的每一个关节。
在其他示例中,可能存在少于铰接对象的所有关节的情况下,有n+m个关节。在训练过程中,输入给机器学习模型的数据可能会逐渐被隐藏。可以用预定义的值来替换特定节点在m个节点中对应的输入数据,或者干脆省略
换句话说,机器学习模型训练成基于关于铰接对象的各种可移动部分的位置/方向的逐渐减少的信息来准确预测铰接对象的姿态。
使用这种方法,机器学习模型能够在运行时准确预测铰接物体的姿态,而且只需稀疏的输入数据。微软指出,这项技术可以精确地再现人类用户铰接物体在真实世界中的姿态,而无需大量关于每个关节方向的信息
换句话说,通过更准确地再现人类用户的真实世界姿势,发明可以提供改进人机交互的技术优势。这些技术优势包括提高虚拟现实体验的沉浸感,以及提高手势识别系统的准确性
另外,所述技术可以通过减少必须作为姿态预测过程的输入而收集的数据量,从而在准确地重现人类用户的真实姿态的同时减少计算资源的消耗。
示例方法200展示了用于预测铰接对象姿态的图2
在第202处,接收n个关节的空间信息,这些关节是用于铰接对象的。系统接收到铰接对象的n个关节的空间信息,其中包含的关节数量少于铰接对象的所有关节。将关节的空间信息表示为连接身体部分的六个自由度的位置和方向,这可以用来推断关节的状态
作为一个示例,所述n个关节可包括人体的头部关节,所述头部关节的空间信息可详细描述人体头部的参数。另外,所述n个关节可包括人体的一个或多个腕关节,所述一个或多个腕关节的空间信息可详细描述人体的一只或多只手的参数。
图3显示了人类用户。人类用户有一个头300和两只手302A和302B。计算系统可以接收人类用户的一个或多个关节的空间信息,其可以包括头部和/或手腕关节。
所述铰接对象的n个关节的空间信息可由一个或多个传感器输出的定位数据导出。传感器可以集成到一个或多个由人类用户的相应身体部位持有或佩戴的设备之中。
例如,传感器可以包括一个或多个集成到头戴式显示设备和/或手持控制器中的惯性测量单元。作为另一个例子,传感器可以包括一个或多个摄像头。
图3示意性地说明了不同类型的传感器,其中来自传感器的输出可以包括或可用于导出空间信息。具体地,人类用户在其头部300佩戴头戴式显示设备304。
另外,人类用户手持位置传感器306A和306B,所述位置传感器可配置为检测并向头显 304和/或配置为接收空间信息的另一计算系统报告用户手部的运动。
在图2中,我们回到了204的情境。我们将n个关节的空间信息传递给之前进行过训练的机器学习模型。这个模型接收n+m个关节的空间信息作为输入,其中m的值大于等于1。换句话说,相较于之前的训练模型,这个机器学习模型接收的关节空间信息要少一些
在206中,从机器学习模型接收作为输出的关节对象的姿态预测,所述预测至少基于n个关节的空间信息,并且不包含它们的关节的空间信息。换句话说,即便没有提供m个关节的空间信息,机器学习模型都可以预测关节对象的完整姿态。
示意图4展示了一个示例机器学习模型400,以说明这个过程
在图4中,机器学习模型接收到空间信息402,对应三个不同的关节J1、J2、J3。关节的空间信息可以采用任何合适的计算机数据的形式,而所述数据指定或可用于导出与关节相连的身体部位的位置和/或方向。
例如,空间信息可以直接指定身体部位的位置和方向,和/或空间信息可以指定关节相对于一个或多个旋转轴的一个或多个旋转。在图4中,关节J1、J2、J3对应于人类用户的头部关节404A和两个手腕关节404B/404C,如图用户身体上叠加的阴影圆圈所示。
在本例中,n个关节包括三个关节,分别对应人体的头部和手腕关节。基于所述输入空间信息402,所述机器学习模型输出所述铰接对象的预测位姿406。
另外,机器学习模型可以输出与虚拟铰接表示的关节相对应的预测空间信息。人类用户可以由具有卡通或非人类比例的虚拟化身Avatar表示。例如,预测的空间信息可能对应于SMPL表示的关节。
换句话说,铰接表示的虚拟表示的关节不必与铰接对象的关节具有1:1的对应关系。因此,机器学习模型预测的空间信息输出可以是针对与铰接对象的n+m个关节不直接对应的关节。例如,虚拟表示可能比铰接对象具有更少的脊柱关节。
机器学习模型可以用任何合适的方式进行训练。在一个实施例中,机器学习模型可能先前使用具有铰接对象的ground truth标签的训练输入数据进行训练。
换句话说,可以为机器学习模型提供铰接对象关节的训练空间信息,并标记为指定空间信息所对应的铰接对象的实际姿态的ground truth标签。
如上所述,可以训练机器学习模型以接收n+m个关节的空间信息作为输入。这包括,在第一次训练迭代中,为机器学习模型提供所有n+m个关节的训练输入数据。在随后的一系列训练迭代中,m个关节的训练输入数据可以逐渐被屏蔽。
例如,在第二次训练迭代中,m个关节中的第一个关节可以被屏蔽,其中训练数据集中关节的空间信息替换为表示被屏蔽关节的预定义值,或者干脆省略。
作为示例。在第三次训练迭代中,m个关节中的第二个关节可以被屏蔽,以此类推,直到m个关节都被屏蔽,并且只向机器学习模型提供了n个关节的空间信息。
这一过程用图5a-5d说明。具体而言,在图5A中,为机器学习模型400提供了一个训练输入数据集。在本实施例中,训练输入数据包括与所述铰接对象的多个不同姿态相对应的空间信息,包括第一姿态502A和第二姿态502B。
在图5A中,我们提供了n+m个关节的空间信息,用于机器学习模型的铰接对象。在人体的简化表示中,每个代表关节的圆圈都用白色填充模式来表示。然而,在图5B中,我们屏蔽了504A,如图所示,用黑色填充图案来表示接头504A的圆圈
换句话说,图5A表示了训练过程的初始迭代,其中提供了所有n+m个关节的空间信息给机器学习模型。而图5B则表示了训练过程的第二次迭代,其中屏蔽了m个关节中的第一个关节504A
在图5C中,所述铰接表示的m个关节中的第二关节504B被遮挡。同样,在图5D中,m个关节中的第三个关节被遮挡。可以持续进行多次训练迭代,直到m个关节中的每个关节的空间信息被屏蔽,并且只向机器学习模型提供n个关节的空间信息。
在上述场景中,我们描述了铰接对象为人体全身的情况。然而,铰接对象也可以采用其他形式
如图7所示,铰接对象是人手,而不是整个人体。具体而言,图7显示了一个示例机器学习模型700。
机器学习模型700接收关节J1、J2和J3的空间信息,它们对应于一个铰接物体的三个关节704A-C,在本例中采用人手706的形式。
在这种情况下,具体来说,n个关节包括人手的一个或多个手指关节。一个或多个手指关节的空间信息详细描述了人手的一个或多个手指或手指段的参数。例如,空间信息可以指定手的手指的位置/方向,和/或应用于手关节的旋转
可以使用任何合适的方法来收集关节空间信息,例如通过位置传感器708。举个例子,位置传感器可以采用配置为对手部进行成像的摄像头形式。另一个例子是,位置传感器可以包括适当的射频天线,其配置为将手部表面暴露在电磁场中,并评估导电人体皮肤的运动和接近对天线处电磁场阻抗的影响
根据输入的空间信息702,机器学习模型会输出一组预测的空间信息710。空间信息710可以用来构建预测的铰接对象的位姿。正如前面所述,这些空间信息可以表示铰接对象身体部位的位置和方向
相关专利:Microsoft Patent | Pose prediction for articulated object
微软最初在2022年6月提交了一份名为“Pose prediction for articulated object”的专利申请,并且该申请近日被美国专利商标局公布
以上是微软提出预测铰接对象姿态技术,用于AR/VR身体姿态捕捉的专利的详细内容。更多信息请关注PHP中文网其他相关文章!