计算机视觉领域中的数据集是进行研究和开发的基础资源。以下是一些主要的计算机视觉任务及其对应的数据集,这些数据集覆盖了从物体检测到姿态估计等多个方面。
物体检测是计算机视觉中的一个核心任务,它涉及在图像中定位和识别感兴趣的物体。例如,Argoverse数据集提供了丰富的城市环境3D追踪和运动预测的标注信息。COCO数据集是一个大规模的物体检测、分割和描述数据集,包含80个物体类别。LVIS数据集则包含1203个物体类别,适合进行更细粒度的物体检测和分割。
实例分割是另一种计算机视觉技术,它要求在图像中以像素级别的精度识别和定位物体。COCO数据集同样适用于实例分割任务,提供了超过20万张带有标签的图像。此外,还有专门针对道路和墙壁裂缝检测的Crack-seg数据集,以及针对汽车零件识别的Carparts-seg数据集。
姿态估计是计算机视觉中的另一个重要任务,它用于确定物体相对于相机或世界坐标系的相对姿态。COCO数据集也包含了人类姿态注释,适合进行姿态估计任务。Tiger-pose数据集则是一个专注于老虎的姿态估计的紧凑数据集,每只老虎平均有12个关键点被标注。
图像分类是计算机视觉中的一个基本任务,它涉及根据图像的视觉内容将其归类到一个或多个预定义的类别中。Caltech 101数据集包含了101个对象类别的图像,适合进行图像分类任务。CIFAR-10和CIFAR-100数据集则分别包含了10类和100类的图像,用于图像分类。Fashion-MNIST数据集则专注于时尚领域的图像分类,包含了10个时尚类别的70000张灰度图像。
定向边界框(Oriented Bounding Boxes,简称OBB)是计算机视觉中用于检测图像中具有角度的物体的一种技术,通常应用于航空和卫星图像。DOTA-v2是一个受欢迎的OBB航空图像数据集,包含了170万个实例和1万多张图像。DOTA8则是一个更小的数据集,包含了DOTAv1分割集的前8张图像,适合快速测试。
多目标跟踪是计算机视觉中的一个高级任务,它涉及在视频序列中检测和随时间跟踪多个目标。Argoverse数据集提供了丰富的城市环境3D追踪和运动预测的标注信息,适合进行多目标跟踪任务。VisDrone数据集则包含了由无人机拍摄的超过10K张图像和视频序列,适合进行物体检测和多目标跟踪。