在现代的机器学习实践中,数据集的管理与模型训练是两个密不可分的环节。Ultralytics HUB提供了一个集成的解决方案,使得从数据集管理到模型训练的转换变得无缝且高效。这种一体化的方法极大地简化了整个流程,让用户能够专注于模型的优化与训练,而不是繁琐的数据准备工作。
在上传数据集到Ultralytics HUB之前,需要确保数据集的根目录中包含了一个YAML格式的配置文件,并且数据集的名称、YAML文件的名称以及最终压缩包的名称都保持一致。例如,如果数据集名为“coco8”,需要创建一个名为“coco8.yaml”的YAML文件,并确保数据集目录被压缩成名为“coco8.zip”的压缩包。
以下是一个YAML配置文件的示例,它遵循了YOLOv5和YOLOv8的格式标准:
# Ultralytics YOLO 🚀, AGPL-3.0 license
# COCO8 dataset (first 8 images from COCO train2017) by Ultralytics
# Documentation: https://docs.ultralytics.com/datasets/detect/coco8/
# Example usage: yolo train data=coco8.yaml
path: ../datasets/coco8 # dataset root dir
train: images/train # train images (relative to 'path')
val: images/val # val images (relative to 'path')
test: # test images (optional)
names:
0: person
1: bicycle
...
79: toothbrush
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/coco8.zip
在数据集压缩完成后,需要在上传前验证数据集的有效性。Ultralytics HUB会在上传后进行数据集的有效性检查,因此提前确认数据集格式正确无误可以避免因数据集被拒绝而导致的延误。可以使用以下Python代码来检查数据集的有效性:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
数据集准备就绪后,可以通过Ultralytics HUB的侧边栏进入数据集页面,点击页面右上角的“数据集上传”按钮来上传数据集。在上传对话框中,选择数据集操作,上传数据集.zip文件,并可以设置Ultralytics HUB数据集的自定义名称和描述。确认数据集配置无误后,点击上传按钮。
数据集上传并处理完成后,可以在数据集页面访问数据集。可以按训练、验证、测试分组查看数据集中的图像,并可以点击放大每个图像以便更好地查看。此外,点击“概述”标签页可以对数据集进行分析。
接下来,可以开始使用上传的数据集来训练模型。Ultralytics HUB提供了一个简洁的用户界面,使得模型训练变得简单直观。可以根据需要选择不同的训练参数,并启动训练过程。训练完成后,可以评估模型的性能,并根据需要进行进一步的优化。
如果需要下载数据集,可以前往数据集页面,打开数据集操作下拉菜单并点击“下载”选项。这样就会开始数据集的下载过程。此外,Ultralytics HUB的共享功能允许方便地与他人共享数据集,无论是现有的Ultralytics HUB用户还是尚未创建账户的用户。
可以通过设置数据集的公共访问权限来控制谁可以访问数据集。可以将公共访问设置为“私有”,这样只有可以访问。或者,可以将公共访问设置为“公开”,这样任何拥有数据集直接链接的人都可以看到数据集,无论他们是否有Ultralytics HUB账户。
要共享数据集,前往想要共享的数据集页面,打开数据集操作下拉菜单并点击“共享”选项。这将触发数据集共享对话框。在对话框中设置公共访问权限为“私有”并点击保存。现在,任何拥有数据集直接链接的人都可以查看数据集。
如果需要编辑或删除数据集,也可以在数据集页面通过打开数据集操作下拉菜单来执行这些操作。编辑数据集时,可以对数据集进行所需的修改,然后点击保存以确认更改。删除数据集是一个永久性的操作,但如果改变主意,可以从Ultralytics HUB的回收站页面恢复数据集。
最后,Ultralytics HUB还提供了一些额外的功能,如数据集的版本控制和协作功能,使得团队成员可以共同管理和优化数据集,进一步提高工作效率。