在2024年7月29日,Meta AI推出了 Segment Anything 2(简称 SAM 2),这是一个用于图像和视频分割的基础模型。根据 Meta 的声明,SAM 2 在图像分割任务上的精确度是原始 SAM 模型的6倍。本文将深入探讨 SAM 模型的训练过程,并预测它将对计算机视觉应用产生的影响。
自2018年BERT模型发布以来,基础模型在自然语言处理领域取得了重大进展,直至最近GPT-4的发布。计算机视觉领域一直在寻找一个能够提供丰富语义信息的无监督预训练任务,类似于文本中的下一个词遮蔽。遮蔽像素并没有产生相同的影响力。计算机视觉中最有效的预训练程序是多模态的,如CLIP,它在预训练过程中同时使用文本和图像。
Segment Anything 模型(简称 SAM)是由 Meta Research 开发的一个实例分割模型,并于2023年4月发布。SAM 在1100万张图像和11亿个分割掩模上进行了训练。使用 Segment Anything,可以上传一张图像并生成 SAM 能够识别的所有对象的分割掩模;提供点以指导 SAM 生成图像中特定对象的掩模;或者提供文本提示以检索与提示匹配的掩模(尽管在撰写本文时该功能尚未发布)。
Segment Anything 的为他们模型设置了一个训练任务,涉及预测给定提示的一组“有效掩模”。提示可以是点(可能来自实时标注器)和目标掩模的形式,或者是使用 CLIP 的语义特征的词。拥有这种可提示的预测意味着训练可以很容易地调节提示与真实值,向模型展示许多示例。
Segment Anything 模型分为两个部分。第一部分是一个特征化变换器块,它接收图像并将其压缩到一个256x64x64的特征矩阵。然后这些特征被传递到一个解码器头部,该头部还接受模型的提示,无论是粗略掩模、标记点还是文本提示(注意文本提示并未与模型的其余部分一起发布)。
Segment Anything 发布了一个开源数据集,包含1100万张图像和超过10亿个掩模,称为 SA-1B 数据集,这是迄今为止最大的掩模语料库。Segment Anything 数据集的通过三个阶段生产他们的数据集:辅助手动、半自动和全自动化。