LeNet-5模型架构解析

在学习新知识时,可以选择从头开始自学,也可以选择向有经验的老师学习。显然,后者更为高效和便捷。迁移学习正是基于这样的思想,它利用在大型通用数据集上训练好的神经网络来解决其他问题。这些神经网络被称为预训练网络。

迁移学习的基本要求是有一个预训练网络。幸运的是,有多个由各自团队共享的最新深度学习网络。在计算机视觉领域,有LeNet-5、AlexNet、VGG16、Inception-v3和ResNet等预训练网络。本文将详细讨论LeNet-5。

LeNet-5是什么?

LeNet-5是由Yann LeCun等人在1998年提出的最早的预训练模型之一,他们在研究论文《Gradient-Based Learning Applied to Document Recognition》中使用了这种架构来识别手写和机器打印的字符。

这个模型之所以受欢迎,主要是因为它的架构简单直接。它是一个用于图像分类的多层卷积神经网络

模型架构

让来理解LeNet-5的架构。该网络有5层可学习的参数,因此得名LeNet-5。它有三组卷积层,结合平均池化层。在卷积和平均池化层之后,有两个全连接层。最后,一个Softmax分类器将图像分类到相应的类别。

输入模型的是32x32灰度图像,因此通道数为一。首先应用5x5的卷积操作,有6个这样的滤波器。结果,得到一个28x28x6的特征图。这里,通道数等于应用的滤波器数量。

在第一次池化操作后,应用平均池化,特征图的大小减半。注意,通道数保持不变。接下来,有一个16个5x5滤波器的卷积层。同样,特征图变为10x10x16。输出大小的计算方式类似。之后,再次应用平均池化或子采样层,再次将特征图的大小减半,即5x5x16。

然后有一个最终的5x5大小的卷积层,有120个滤波器。如上所述,留下1x1x120的特征图大小。之后,展平结果为120个值。

在这些卷积层之后,有一个84个神经元的全连接层。最后,有一个10个神经元的输出层,因为数据有10个类别。

架构细节

让更详细地了解架构。第一层是输入层,特征图大小为32x32x1。然后有第一个5x5大小的卷积层,有6个滤波器,步长为1。这一层使用的激活函数是tanh。输出特征图是28x28x6。

接下来,有一个2x2大小的平均池化层,步长为1。结果特征图是14x14x6。由于池化层不影响通道数。

之后是第二个5x5大小的16个滤波器的卷积层,步长为1。同样,激活函数是tanh。现在输出大小是10x10x16。再次是另一个2x2大小的步长为2的平均池化层。结果,特征图的大小减少到5x5x16。

最终的池化层有120个5x5大小的滤波器,步长为1,激活函数是tanh。现在输出大小是120。接下来是一个84个神经元的全连接层,结果输出为84个值,这里使用的激活函数再次是tanh。

最后一层是输出层,有10个神经元和Softmax函数。Softmax给出数据点属于特定类别的概率。最高值随后被预测。

这是LeNet-5模型的整个架构。这个架构的可训练参数数量大约是60000。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485