VASA-1技术以其将静态图片转化为逼真会说话视频的能力而闻名,这一技术展示了人工智能在图像到视频转换领域的最新进展。一个展示VASA-1技术的视频,其中蒙娜丽莎在说唱,已经在网络上迅速传播,引起了广泛的关注和不同的反响。虽然一些观众对这种创意感到娱乐,但也有人对这项技术可能的滥用表示担忧,尤其是在制造深度伪造视频方面。
VASA-1技术通过结合单一静态图像和音频剪辑,生成令人着迷的会说话的人类面部视频。这些视频以其同步的唇部动作、富有表现力的面部细节和自然的头部动作而著称,创造出令人印象深刻的真实效果。该模型由微软通过研究博客展示,能够无缝处理从艺术照片到歌唱音频的多样化输入。