自编码器在计算机视觉中的应用

在过去的几个月里,一直在研究一种名为自编码器的技术,并对其在计算机视觉领域中能够构建的众多应用感到印象深刻。本文的目的是解释自编码器的基本概念,使用自编码器可以构建的一些应用,未连接的编码器-解码器层的缺点,以及像U-Net这样的架构如何帮助提高自编码器的质量。

简而言之,自编码器是一种顺序神经网络,由编码器和解码器两个部分组成。以图像为例,编码器的任务是从图像中提取特征,同时减少图像的高度和宽度,但增加深度,即编码器为图像创建一个潜在的表示。解码器的任务是解码这个潜在的表示,并形成一个满足给定标准的图像。

语义分割是指给图像的每个像素分配一个标签,将属于同一对象的像素分组在一起。以下代码定义了用于此应用的自编码器架构。由于信息从编码器传递到解码器时会发生特征图的丢失,即使能够实现目标,输出的质量也不够好。因此,最合乎逻辑的方法是将解码器层与其在编码器中的对应层连接起来,以补偿在重建图像时丢失的特征,这就是像U-Net这样的架构所做的。

3.1 通过预测相关掩码进行图像分割

这是一个与上面提到的例子不同的分割问题。给定一个图像,需要预测图像中感兴趣对象的二进制掩码,当将这个预测的掩码与给定的图像相乘时,将得到感兴趣对象。这种预测模型可以用来找到癌细胞或肾结石的位置。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485