跨视频人体姿态迁移技术

在技术发展的长河中,总有一些突破性的进展能够重塑对世界的认知。DeepMind的AlphaGo和NVIDIA的vid2vid技术就是其中的佼佼者。而现在,加州大学伯克利分校(UC Berkeley)的研究成果也加入了这一行列。

只需观看文章末尾的视频,就能明白为何这项技术如此引人注目。伯克利的研究人员开创了一种在不同视频间转移人体动作的方法(请花几秒钟时间消化这个概念)。

这种方法需要两个视频:一个是目标人物的视频,其外观需要被“合成”;另一个是源人物的视频,其舞蹈姿势将被强加于目标人物身上。通过姿态检测技术,可以估计源人物的动作,然后相应地映射到目标人物的外观上。想象一下这个过程的复杂性——两个人的身体形状和大小不同,身体动作也不同。

上面的图片完美地说明了这一点。左上角的帧是源人物在做舞蹈动作,下面的帧显示了姿态检测,而右边的帧显示了动作转移到目标人物身上。动作的准确性令人难以置信。而且,不仅仅是一次性的一个姿势——姿势每秒钟都在动态变化,而这项技术却毫不动摇。

请查看下面提到的视频。注意伯克利技术覆盖的大量细节,如衣服上的皱纹、玻璃上的反射等:

已经多次观看这个视频,仍然对伯克利技术的复杂性和准确性感到震惊。本周早些时候,报道了NVIDIA的vid2vid技术,并认为那是颠覆性的,而现在已经将基准和标准提高到了一个新的水平。

不会惊讶地发现,生成对抗网络(GANs)是这项技术的核心。请务必阅读研究论文,它提供了研究人员采取的逐步方法,还包括了许多有用的资源。

订阅AVBytes,定期获取数据科学、机器学习和人工智能的最新更新!

关键词:

技术细节:

// 伪代码示例 function transferPose(sourceVideo, targetVideo) { // 1. 从源视频中提取姿态信息 var sourcePose = extractPose(sourceVideo); // 2. 将源姿态映射到目标人物的外观上 var targetPose = mapPoseToTarget(sourcePose, targetVideo); // 3. 生成新的视频,其中包含目标人物的新姿态 var合成视频 = generateVideoWithNewPose(targetVideo, targetPose); return合成视频; }
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485