Vidu是由清华大学和盛舒AI联合开发的新一代AI视频生成模型,它标志着中国在AI视频生成技术领域的一大步。Vidu以其卓越的性能,能够轻松生成1080p分辨率的高清16秒视频片段,这一能力在业界引起了广泛关注。Vidu的核心是创新的通用视觉变换器(Universal Vision Transformer,简称U-ViT)架构,它巧妙地融合了变换器(Transformer)和扩散模型(Diffusion models),从而推动了AI在视频内容创作领域的边界。
Vidu的U-ViT架构是其技术突破的关键。这种架构不仅能够生成动态且逼真的视频内容,还为AI生成的视觉媒体设定了新的标准。Vidu在时间一致性方面表现出色,但在视觉质量方面与Sora相比仍有一些细微的差异。这表明Vidu在追求与Sora等成熟模型的平等地位时,仍有改进和完善的空间。