在现代机器学习和人工智能领域,拥有高质量的数据集是至关重要的。Ultralytics HUB提供了一个集成平台,允许用户轻松管理自己的数据集,并直接用于模型训练。这种无缝的流程不仅简化了从数据集管理到模型训练的过渡,还大大提高了整个工作流程的效率。
数据集上传前的准备
在将数据集上传到Ultralytics HUB之前,需要确保数据集的结构和标签格式与YOLOv5和YOLOv8保持一致。这样做的好处是,用户可以轻松地利用现有的数据集结构,无需进行额外的调整。
在上传数据集之前,请确保数据集目录中包含了一个同名的YAML配置文件。例如,如果数据集名为“coco8”,那么应该在“coco8/”目录中创建一个名为“coco8.yaml”的文件。这个YAML文件将定义数据集的路径、训练、验证和测试图像集,以及类别名称等信息。
# Ultralytics YOLO 🚀, AGPL-3.0 license
# COCO8 dataset (first 8 images from COCO train2017) by Ultralytics
# Documentation: https://docs.ultralytics.com/datasets/detect/coco8/
# Example usage: yolo train data=coco8.yaml
path: ../datasets/coco8
train: images/train
val: images/val
test:
names:
0: person
1: bicycle
...
完成YAML文件的编辑后,需要将整个数据集目录压缩成一个ZIP文件。例如,如果数据集目录名为“coco8”,那么应该在命令行中执行以下命令来创建“coco8.zip”:
zip -r coco8.zip coco8
在上传数据集之前,建议先对ZIP文件进行验证,以确保数据集格式正确且无错误。Ultralytics HUB在上传后也会进行数据集验证,因此提前确保数据集的正确性可以避免因数据集被拒绝而导致的延误。
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
数据集的上传与使用
一旦数据集ZIP文件准备就绪,就可以通过Ultralytics HUB的“数据集”页面进行上传。在页面上点击“上传数据集”按钮,选择数据集ZIP文件,并为其设置一个名称和描述。完成后,点击“上传”按钮,数据集将被上传到平台并进行处理。
数据集上传并处理完成后,可以在“数据集”页面查看数据集,并按训练、验证、测试等分组查看图像。此外,还可以通过点击“概览”标签来分析数据集。
接下来,可以使用数据集来训练模型。此外,Ultralytics HUB还提供了数据集的下载、共享和编辑功能,允许用户根据需要进行相应的操作。
如果需要下载数据集,可以前往数据集页面,点击数据集的“下载”选项。这将启动数据集的下载过程。此外,Ultralytics HUB的共享功能允许用户轻松地与他人分享数据集,无论是现有用户还是尚未创建账户的用户。
用户可以控制数据集的访问权限,选择将其设置为“私有”或“不列出”。在“不列出”模式下,任何拥有直接链接的人都可以查看数据集,无论他们是否拥有Ultralytics HUB账户。要共享数据集,只需前往数据集页面,点击“共享”选项,然后设置访问权限为“未分类”并保存。
数据集的编辑与删除
如果需要编辑数据集,可以前往数据集页面,点击“编辑”选项。这将打开“更新数据集”对话框,允许进行所需的修改,并通过点击“保存”来确认更改。