在数字图像处理领域,帧插值技术是一项重要的技术,它通过在给定的图像序列中生成中间帧来增加视频的帧率或实现慢动作效果。随着数字相机和智能手机的普及,经常快速拍摄多张照片以获得最佳效果。通过在这些“近乎相同”的照片之间进行帧插值,可以制作出展示场景运动的有趣视频,这些视频往往比原始照片更能传达那一刻的感觉。
帧插值技术的应用不仅限于增加视频的帧率,它还可以用于创建慢动作视频,这在体育赛事、电影制作和其他需要强调动作细节的场景中尤为重要。传统的帧插值方法在处理大场景运动时面临挑战,因为它们往往无法准确捕捉和再现快速运动中的细微变化。
为了解决这一问题,研究人员提出了一种名为FILM(Frame Interpolation for Large Motion)的架构。FILM是一个深度学习神经网络,它接受两张输入图像并生成/插值出一个中间图像。该网络在常规视频帧三元组上进行训练,以中间帧作为监督的真值。
FILM架构的核心在于其“尺度无关”的特征金字塔,它在不同尺度之间共享权重,使能够构建一个“尺度无关”的双向运动估计器,该估计器能够从正常运动的帧中学习,并很好地泛化到大运动的帧。为了处理由大场景运动引起的广泛不连续性,FILM通过匹配预训练的VGG-19特征的Gram矩阵进行监督,这有助于创建逼真的图像修复和清晰的图像。
FILM架构由以下三个主要部分组成:
FILM架构的优势在于它能够在处理大运动的同时,也处理小/中等运动,并产生时间上平滑、高质量的视频。在实验中,研究人员发现,结合三种损失函数(即绝对L1损失、感知损失和风格损失)与仅使用绝对L1损失和感知损失相比,大大提高了图像的锐度和保真度。