众所周知,人体运动合成一直是一个复杂的、尚未满足的需求。现有技术因缺乏高质量的捕获数据而受到限制,而获取用于训练目的的数据可能成本高昂,特别是在当前技术限制(如人类慢动作视频)的情况下。
来自Nvidia、多伦多大学和矢量研究所的一个研究小组,开发了一种基于单目RGB视频生成人体运动的方法,该技术不需要像运动捕捉视频那样需要昂贵的设备。
新系统比同类系统中以前的系统更高效、更精确,它使用接触不变优化,通过计算自然相互作用的力来施加物理约束,从而细化基于图像的噪声姿态估计。
研究人员通过一个时间序列生成网络来完善模型,该网络综合了未来的运动和接触力。
通过引入平滑接触损失函数,团队可以在不使用单独训练的检测器或解决非线性规划问题的情况下优化姿势估计。该研究还表明,当与所提出的基于物理的优化相结合时,即使不访问运动捕捉数据集,仅通过视觉姿势估计训练的算法或模型仍然是可能和足够的。
在Human3.6m数据集上验证了所述方法,并证明与之前的工作(如PhysCap或HMR模型)相比,所提出的模型在定性和定量上改善了运动合成质量和物理合理性。
在本研究中,引入了一种新的框架,用于从原始视频姿势估计训练运动合成模型,而不使用任何昂贵且耗时的过程。
该框架通过接触不变性优化(包括接触力的计算)来强化物理约束,从而细化噪声姿态估计。
时间序列生成模型然后在细化的姿势上进行训练,综合未来运动和接触力。
对结果的详细分析表明,通过基于物理的细化和视频运动合成,姿势估计的性能得到显著提高。
参与评论
登录后参与讨论 0/1000