2023年4月,Meta Research推出了一款名为Segment Anything Model(简称SAM)的图像分割模型,该模型在图像分割领域引起了巨大轰动。SAM模型具备强大的分割能力,能够以高精度生成分割图像中对象的掩码。SAM模型的训练基于超过110亿个分割掩码的SA-1B数据集。
2024年7月29日,Meta AI发布了Segment Anything 2(简称SAM 2),这是一个新的图像和视频分割基础模型。据Meta称,SAM 2在图像分割任务上的准确性是原始SAM模型的6倍。本文将讨论FastSAM模型,它是由中国科学院图像与视频分析组发布的,训练数据仅为SAM模型的2%。通过数据集蒸馏和知识蒸馏技术,FastSAM在多个领域都能生成相对精确的掩码,尽管其精确度略低于标准的SAM模型。
FastSAM模型在计算需求上低于SAM模型,但仍然能够实现较高的准确性。在COCO 2017数据集上的实例分割测试结果显示,FastSAM的性能略低于SAM,但仍然表现出色。FastSAM的训练采用了Ultralytics YOLOv8实例分割架构,这表明原始SAM模型训练的数据集的强大之处:即使只使用部分数据集,研究人员也能够创建出能够以相对精确的边界分割图像中对象的模型。
FastSAM的报告称,该模型的运行时间比原始SAM模型快50倍,使得模型更加实用。FastSAM通过两阶段过程工作:首先,预训练的YOLOv8实例分割模型生成分割掩码;其次,可以指定文本提示以返回与提示相关的掩码。这是通过CLIP实现的,CLIP在每个掩码上运行,并返回与文本提示相似度较高的图像作为匹配项。FastSAM的还指出,该模型也可以用于零样本边缘检测和对象提议生成。
在特定领域任务中比较FastSAM和SAM,任务是为机械臂上的组件生成分割掩码。FastSAM的最大启示之一是,一个小型实时模型可以复制与SAM相似的输出。FastSAM还证明了SAM训练的数据集的强大之处:仅使用部分数据集,FastSAM就能够生成相对精确的掩码。
FastSAM可以作为训练YOLOv8模型的迁移学习检查点,鉴于模型实现的强性能。可以给FastSAM提供文本提示,以生成特定任务的掩码。尽管如此,FastSAM并不是SAM的替代品。虽然FastSAM在训练数据集较小的情况下与SAM相比实现了令人印象深刻的性能,但SAM能够生成更精确的分割掩码。
FastSAM是一个在Meta Research的SAM模型训练数据集的一部分上训练的图像分割模型。正如其名称所暗示的,FastSAM的推理速度比SAM模型快。Fast Segment Anything可以作为迁移学习的检查点,并展示了SAM数据集的质量。话虽如此,FastSAM生成的掩码比SAM生成的掩码精确度要低。
在实际应用中,FastSAM模型可以用于快速且相对准确的图像分割任务,尤其是在需要实时处理的场景中。例如,在监控系统中,FastSAM可以用于实时识别和跟踪人员或车辆;在医疗影像分析中,FastSAM可以帮助快速定位病变区域。此外,FastSAM的轻量级特性使其适合部署在资源受限的设备上,如移动设备或嵌入式系统。
尽管FastSAM在某些方面可能不如SAM模型精确,但其快速的推理速度和较低的计算需求使其成为一个有吸引力的选择,特别是在对实时性要求较高的应用场景中。FastSAM的成功也证明了通过数据集蒸馏和知识蒸馏技术,可以在保持相对高精度的同时,显著减少模型的计算资源消耗。
在研究和开发领域,FastSAM模型的发布为图像分割技术的进步提供了新的视角。研究人员可以利用FastSAM模型探索新的应用场景,或者将其作为基础模型进一步优化和改进。同时,FastSAM也为教育和学术研究提供了一个有价值的资源,帮助学生和研究人员理解图像分割技术的工作原理和挑战。