YOLOS模型:计算机视觉的新突破

YOLOS(You Only Look At One Sequence)是一种基于变换器架构的对象检测模型,它在2021年6月发表的一篇论文中被提出。这种模型的设计初衷是为了展示变换器在对象识别中的潜力。与传统的YOLO模型不同,YOLOS不依赖于卷积神经网络(CNN)来提取图像特征,而是采用了变换器架构,这种架构最初是在自然语言处理(NLP)领域提出的。

在下面的视频中,将详细讨论YOLOS的新颖之处,并解释它是如何工作的。视频和后续的段落将涵盖YOLOS的新特性以及其工作原理。

// 视频解释YOLOS的代码示例 // 这里可以放置一个视频播放器的HTML代码或一个链接到视频的超链接

在YOLOS之前,所有的YOLO模型都使用CNN作为其特征提取的骨干网络。尽管不同的YOLO模型在CNN的具体构建上存在分歧,但它们都是在CNN骨干网络上构建对象检测模型的“颈部”。

变换器的崛起始于著名的论文《Attention is All you Need》,这篇论文彻底改变了NLP领域,并被认为在建模数据和预测之间的任何数学变换方面具有更广泛的能力。变换器在NLP领域被广泛用于处理文本序列。

在过去的一年中,变换器已经将其应用范围扩展到计算机视觉领域,在图像分类方面树立了新的标准。例如,ViT(Vision Transformer)是第一个将图像像素块视为序列的模型,类似于在GPT和BERT等模型中熟悉的文本标记序列。

与基于CNN的YOLO模型不同,YOLOS的骨干网络是一个变换器块,类似于用于分类的第一个视觉变换器。下图展示了变换器编码器的结构。

// YOLOS模型架构的代码示例 // 这里可以放置一个描述YOLOS模型架构的伪代码或图表

除了视觉变换器之外,YOLOS还有一个检测器部分,它将生成的检测表示序列映射到类别和框预测。YOLOS是一个YOLO模型,因为它只查看图像块的序列一次,使其成为一个“只看一次”的模型。

除了这一事实之外,YOLOS的网络架构与以前的YOLO模型没有其他共同之处。

与其他YOLO模型相比,YOLOS的准确性并不是同类中最好的。这是可以预料的,因为研究论文的明确表示,该模型并不是为了在性能方面达到最先进的水平而设计的。相反,该模型是在计算机视觉任务中使用变换器的前沿探索。

出于研究目的,YOLOS值得一看,但还有其他适合生产用例的YOLO模型。否则,建议关注对象检测中变换器的未来迭代。

如果想在自己的数据上训练YOLOS,可以阅读文章,观看下面的视频,或者查看YOLOS的源代码仓库。

// 训练YOLOS的代码示例 // 这里可以放置训练YOLOS模型的代码或说明

如果只是在寻找自定义数据集上的最佳性能,建议从训练YOLOv5开始。

祝训练愉快,一如既往地祝检测愉快!

YOLOS在COCO上的表现如何?根据YOLOS GitHub论文摘要的发现,YOLOS-B模型在测试的YOLOS变体中表现最好,在COCO数据集上的平均精度(AP)得分为42.0,这是在1000个预训练周期和150个微调周期之后。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485