在Ultralytics HUB上,可以轻松地上传和管理自己的数据集,以便于模型训练。一旦数据集上传完成,它们就可以立即用于模型训练。这种集成的方法使得从数据集管理到模型训练的过渡变得无缝,并且大大简化了整个过程。
在上传数据集之前,请确保数据集YAML文件位于数据集的根目录下,并且YAML文件、目录和ZIP文件的数据集名称相同。例如,如果数据集名为“coco8”,那么应该在“coco8/”目录下有一个名为“coco8.yaml”的文件,并且当打包时,ZIP文件也应命名为“coco8.zip”。可以下载并解压COCO8示例数据集,以查看如何组织数据集。
数据集的YAML文件遵循标准的YOLOv5和YOLOv8 YAML格式。以下是COCO8数据集的YAML文件示例:
# Ultralytics YOLO 🚀, AGPL-3.0 license
# COCO8 dataset (first 8 images from COCO train2017) by Ultralytics
# Documentation: https://docs.ultralytics.com/datasets/detect/coco8/
# Example usage: yolo train data=coco8.yaml
# parent
# ├── ultralytics
# └── datasets
# └── coco8 ← downloads here (1 MB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path:
: ../datasets/coco8
train:
: images/train
# train images (relative to 'path') 4 images
val:
: images/val
# val images (relative to 'path') 4 images
test:
# test images (optional)
# Classes
names:
0:
: person
1:
: bicycle
# ... 更多类别
download:
: https://github.com/ultralytics/assets/releases/download/v0.0.0/coco8.zip
在上传数据集到Ultralytics HUB之前,应该验证数据集ZIP文件。Ultralytics HUB在上传后会检查数据集,因此如果提前确保数据集格式正确且无误,可以避免因数据集被拒绝而导致的挫折。可以使用以下Python代码来验证数据集:
from ultralytics.hub import check_dataset
check_dataset(
"path/to/dataset.zip",
task="detect"
)
一旦数据集ZIP文件准备好,可以在Ultralytics HUB的“数据集”页面上传它。点击页面侧边栏的“数据集”按钮,然后在页面右上角点击“上传数据集”按钮。可以选择数据集任务并上传数据集.zip文件。还可以为Ultralytics HUB数据集设置自定义名称和描述。配置完成后,点击“上传”按钮。
上传并处理数据集后,可以在“数据集”页面访问它。可以按Splits(训练、验证、测试)查看数据集中的图像。每个图像都可以放大以便于更好地展示。此外,可以通过点击“概览”标签来分析数据集。
接下来,可以在数据集上训练模型。
要下载数据集,请导航到想要下载的数据集页面,打开数据集操作的下拉菜单,点击“下载”选项。这将启动数据集的下载。
Ultralytics HUB的分享功能提供了一种方便的方式来与他人分享数据集。这个功能适用于现有的Ultralytics HUB用户,以及那些尚未创建账户的人。控制着对数据集的公开访问权限。可以将公开访问设置为“私有”,这样只有可以访问它。或者,可以将公开访问设置为“未列出”,在这种情况下,任何拥有直接链接到数据集的人都可以查看它,无论他们是否有Ultralytics HUB账户。
要编辑数据集,请导航到要编辑的数据集页面,打开数据集操作的下拉菜单,点击“编辑”选项。这将触发“更新数据集”对话框。应用所需的更改并保存。要删除数据集,请导航到要删除的数据集页面,打开数据集操作的下拉菜单,点击“删除”选项。这将删除数据集。注意,如果改变主意,可以在“回收站”页面恢复数据集。