在人工智能领域,一项名为VLOGGER的创新技术正引起广泛关注。这项技术能够将静态图像转化为动态、栩栩如生的视频,标志着人工智能领域的一大飞跃,对多个行业产生了深远的影响。尽管VLOGGER带来了激动人心的可能性,但也引发了关于深度伪造和虚假信息的讨论。
谷歌团队在Enric Corona的带领下,利用扩散模型开发出了VLOGGER。与传统方法不同,这个AI不需要单独的训练或面部检测。通过扩展到视频领域并利用庞大的MENTOR数据集,VLOGGER实现了惊人的真实感,轻松地为多样化的主题制作动画。
VLOGGER通过一个两阶段的过程运作,将音频和图像无缝融合。第一阶段从音频中制作“身体运动控制”,第二阶段则使用时间图像到图像的转换模型生成相应的帧。尽管在处理大幅度动作或复杂环境时存在局限性,VLOGGER展示了卓越的图像质量和时间一致性。