在现代的机器学习和深度学习领域,数据集的管理和有效利用是至关重要的。Ultralytics HUB提供了一个集成的平台,使得数据集的下载、管理和模型训练变得异常简单。通过这个平台,用户可以轻松地下载数据集,并立即用于模型的训练。这种无缝的过渡大大简化了整个流程,提高了工作效率。
在使用Ultralytics HUB之前,用户需要确保他们的数据集文件(YAML格式)被正确地放置在数据集目录的根目录下,并且数据集的YAML文件、目录和ZIP文件需要有相同的名称。例如,如果数据集名为“coco8”,那么应该在“coco8/”目录下有一个“coco8.yaml”文件,这样在压缩目录时就会生成“coco8.zip”文件。
zip -r coco8.zip coco8
可以下载示例数据集COCO8并解压,以查看如何正确地组织数据集。数据集的YAML格式与YOLOv5和YOLOv8的标准YAML格式相同。例如,COCO8的YAML文件如下所示:
# Ultralytics YOLO 🚀, AGPL-3.0 license
# COCO8 dataset (first 8 images from COCO train2017) by Ultralytics
# Documentation: https://docs.ultralytics.com/datasets/detect/coco8/
# Example usage: yolo train data=coco8.yaml
# parent
# ├── ultralytics
# └── datasets
# └── coco8 ← downloads here (1 MB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path:
../datasets/coco8
# dataset root dir
train:
images/train
# train images (relative to 'path') 4 images
val:
images/val
# val images (relative to 'path') 4 images
test:
# test images (optional)
# Classes
names:
0:
person
1:
bicycle
...
在上传数据集到Ultralytics HUB之前,需要使用Ultralytics提供的check_dataset工具来验证数据集。这样可以确保数据集格式正确,避免上传后因格式问题被拒绝。
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
一旦数据集的ZIP文件准备好,就可以通过Ultralytics HUB的“数据集”页面上传数据集。上传后,可以在“数据集”页面查看和管理数据集,包括查看数据集的图像、分析数据集以及训练模型。
此外,Ultralytics HUB还提供了数据集的分享功能,允许用户轻松地与他人共享数据集。用户可以控制数据集的访问权限,设置为“私有”或“不列出”,以确保数据集的安全性。
如果需要修改或删除已上传的数据集,也可以通过“数据集”页面进行操作。如果不小心删除了数据集,还可以从“垃圾箱”页面恢复。