数据集管理与模型训练指南

在现代的机器学习和深度学习领域,数据集的管理和有效利用是至关重要的。Ultralytics HUB提供了一个集成的平台,使得数据集的下载、管理和模型训练变得异常简单。通过这个平台,用户可以轻松地下载数据集,并立即用于模型的训练。这种无缝的过渡大大简化了整个流程,提高了工作效率。

在使用Ultralytics HUB之前,用户需要确保他们的数据集文件(YAML格式)被正确地放置在数据集目录的根目录下,并且数据集的YAML文件、目录和ZIP文件需要有相同的名称。例如,如果数据集名为“coco8”,那么应该在“coco8/”目录下有一个“coco8.yaml”文件,这样在压缩目录时就会生成“coco8.zip”文件。

zip -r coco8.zip coco8

可以下载示例数据集COCO8并解压,以查看如何正确地组织数据集。数据集的YAML格式与YOLOv5和YOLOv8的标准YAML格式相同。例如,COCO8的YAML文件如下所示:

# Ultralytics YOLO 🚀, AGPL-3.0 license # COCO8 dataset (first 8 images from COCO train2017) by Ultralytics # Documentation: https://docs.ultralytics.com/datasets/detect/coco8/ # Example usage: yolo train data=coco8.yaml # parent # ├── ultralytics # └── datasets # └── coco8 ← downloads here (1 MB) # Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..] path: ../datasets/coco8 # dataset root dir train: images/train # train images (relative to 'path') 4 images val: images/val # val images (relative to 'path') 4 images test: # test images (optional) # Classes names: 0: person 1: bicycle ...

在上传数据集到Ultralytics HUB之前,需要使用Ultralytics提供的check_dataset工具来验证数据集。这样可以确保数据集格式正确,避免上传后因格式问题被拒绝。

from ultralytics.hub import check_dataset check_dataset("path/to/dataset.zip", task="detect")

一旦数据集的ZIP文件准备好,就可以通过Ultralytics HUB的“数据集”页面上传数据集。上传后,可以在“数据集”页面查看和管理数据集,包括查看数据集的图像、分析数据集以及训练模型。

此外,Ultralytics HUB还提供了数据集的分享功能,允许用户轻松地与他人共享数据集。用户可以控制数据集的访问权限,设置为“私有”或“不列出”,以确保数据集的安全性。

如果需要修改或删除已上传的数据集,也可以通过“数据集”页面进行操作。如果不小心删除了数据集,还可以从“垃圾箱”页面恢复。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485