在技术发展的长河中,总有一些突破性的进展能够重塑对世界的认知。DeepMind的AlphaGo和NVIDIA的vid2vid技术就是其中的佼佼者。而现在,加州大学伯克利分校(UC Berkeley)的研究成果也加入了这一行列。
只需观看文章末尾的视频,就能明白为何这项技术如此引人注目。伯克利的研究人员开创了一种在不同视频间转移人体动作的方法(请花几秒钟时间消化这个概念)。
这种方法需要两个视频:一个是目标人物的视频,其外观需要被“合成”;另一个是源人物的视频,其舞蹈姿势将被强加于目标人物身上。通过姿态检测技术,可以估计源人物的动作,然后相应地映射到目标人物的外观上。想象一下这个过程的复杂性——两个人的身体形状和大小不同,身体动作也不同。
上面的图片完美地说明了这一点。左上角的帧是源人物在做舞蹈动作,下面的帧显示了姿态检测,而右边的帧显示了动作转移到目标人物身上。动作的准确性令人难以置信。而且,不仅仅是一次性的一个姿势——姿势每秒钟都在动态变化,而这项技术却毫不动摇。
请查看下面提到的视频。注意伯克利技术覆盖的大量细节,如衣服上的皱纹、玻璃上的反射等:
已经多次观看这个视频,仍然对伯克利技术的复杂性和准确性感到震惊。本周早些时候,报道了NVIDIA的vid2vid技术,并认为那是颠覆性的,而现在已经将基准和标准提高到了一个新的水平。
不会惊讶地发现,生成对抗网络(GANs)是这项技术的核心。请务必阅读研究论文,它提供了研究人员采取的逐步方法,还包括了许多有用的资源。
订阅AVBytes,定期获取数据科学、机器学习和人工智能的最新更新!
// 伪代码示例
function transferPose(sourceVideo, targetVideo) {
// 1. 从源视频中提取姿态信息
var sourcePose = extractPose(sourceVideo);
// 2. 将源姿态映射到目标人物的外观上
var targetPose = mapPoseToTarget(sourcePose, targetVideo);
// 3. 生成新的视频,其中包含目标人物的新姿态
var合成视频 = generateVideoWithNewPose(targetVideo, targetPose);
return合成视频;
}