跳到主要内容

数据集

LLMOS 平台提供全面的数据集管理功能,允许您在仓库中存储、组织和管理机器学习数据集。数据集支持多版本管理、文件操作,并可以发布以供在笔记本和其他应用程序中使用。

datasets-list

概述

LLMOS 中的数据集作为管理机器学习数据资产的集中方式。您可以:

  • 在仓库中存储数据集:在私有仓库中上传和组织数据集文件
  • 多版本管理:通过完整的生命周期控制维护数据集的不同版本
  • 文件管理:通过直观的界面查看、上传和下载数据集文件
  • 发布:发布数据集版本使其不可变并准备用于生产
  • 笔记本集成:在 Notebooks 中直接挂载已发布的数据集进行数据分析

创建数据集

您可以从 AI 基础设施管理 > 模型管理 > 数据集 页面创建数据集。

通用配置

  1. 命名空间:选择数据集的命名空间。
  2. 名称:为您的数据集输入唯一名称。
  3. 仓库:选择将存储数据集的仓库。
  4. 数据集描述:提供更好地描述此数据集的描述。

dataset-create

管理数据集文件

创建数据集后,您可以通过数据集详情页面管理其文件。

文件操作

数据集文件管理界面提供多种操作:

  • 查看文件:浏览数据集的文件结构和内容
  • 上传文件:向数据集版本添加新文件
  • 下载文件:下载单个文件或整个文件夹
  • 创建文件夹:以分层结构组织文件
  • 删除文件:删除不必要的文件
  • 发布:使数据集版本不可变并准备用于生产

dataset-files

数据集版本控制

LLMOS 为数据集提供强大的版本管理,允许您跟踪更改并在数据的不同迭代中维护数据血缘。

版本生命周期

每个数据集版本经历以下状态:

  • 草稿:可编辑版本,您可以添加、修改或删除文件
  • 已发布:不可变版本,无法修改,准备用于生产

创建新版本

创建新数据集版本时,您有两个数据继承选项:

dataset-create-version

继承模式

在继承模式下,新版本将继承原始版本的所有数据,并可以基于此数据进行修改。这在以下情况下很有用:

  • 对现有数据集进行增量更新
  • 在保留现有文件的同时添加新文件
  • 修改或删除先前版本的特定文件
  • 创建现有数据集的变体

新建模式

新版本将为空,需要单独导入内容。这在以下情况下是理想的:

  • 使用相同名称结构创建完全不同的数据集
  • 使用新数据源重新开始
  • 为不同用例从头构建数据集

发布数据集

发布是一个关键功能,使数据集版本不可变并准备用于生产。

先决条件

注意

Ceph 存储要求

数据集发布功能依赖于系统 Ceph 存储。在发布数据集之前,您必须启用和配置 Ceph 存储。

发布过程

  1. 导航到您要发布的数据集版本
  2. 确保所有必需的文件都已上传和组织
  3. 在数据集文件界面中点击 发布 并等待其发布
  4. 版本变为不可变并准备使用

已发布数据集的优势

  • 不可变性:已发布的版本无法修改,确保数据一致性
  • 笔记本集成:可以直接在笔记本中挂载进行分析
  • 生产就绪:适用于训练和推理工作流程
  • 数据血缘:清楚跟踪实验中使用的数据集版本

与 Notebook 集成

已发布的数据集可以与 Notebooks 无缝集成,用于数据分析和机器学习工作流程。