稳定扩散技术解析

稳定扩散技术是一种生成人工智能技术,它通过系统地添加并逆转噪声来创建图像。这种扩散模型包括一个将图像转换为噪声的正向过程和一个从噪声重建图像的逆向过程。正向过程逐步向图像添加高斯噪声,最终将其转变为纯噪声。为了提高效率,开发了比线性计划更有效的余弦计划。正向过程在图像生成、修复、超分辨率成像和数据增强等应用中至关重要。实施正向过程时,需要考虑选择合适的噪声计划、确保计算效率和保持数值稳定性。

扩散模型是什么?

扩散模型的概念并不新。在2015年的一篇名为“使用非平衡热力学进行深度无监督学习”的论文中,这样描述它:受到非平衡统计物理的启发,通过迭代的正向扩散过程系统地和缓慢地破坏数据分布中的结构。然后学习一个反向扩散过程,恢复数据中的结构,得到一个高度灵活和易于处理的数据生成模型。在这里,扩散过程被分为正向和反向扩散过程。正向扩散过程将图像转换为噪声,而反向扩散过程应该将该噪声再次转换回图像。

扩散模型中的正向过程

在正向扩散中,从一个具有非随机分布的图像开始。不知道分布是什么,但目标是通过向它添加噪声来破坏它。在过程结束时,应该拥有类似于纯噪声的噪声。让来看一个例子,将采用下面的图像。目标是破坏上述图像的分布,使其变得像下面这样纯噪声。

正向过程的逐步说明

以下是正向过程的步骤:第一步:取图像并生成一些噪声。第二步:将该噪声添加到图像中,使用线性调度器破坏分布。第三步:根据线性调度器重复这些步骤,直到图像被破坏并看起来像纯噪声。下面的图像表示噪声被添加了t+1次。经过11次迭代后,得到了一个完全被破坏的图像。

数学表述

let x0 represent the initial data (e.g., an image). The forward process generates a series of noisy versions of this data x1, x2, ..., xT through the following iterative equation: q(x1:T|x0) represents the joint distribution of the noisy data over all time steps. With that equation, we can calculate noise at any arbitrary step t without going through the process.
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485