数据集
LLMOS 平台提供全面的数据集管理功能,允许您在仓库中存储、组织和管理机器学习数据集。数据集支持多版本管理、文件操作,并可以发布以供在笔记本和其他应用程序中使用。
概述
LLMOS 中的数据集作为管理机器学习数据资产的集中方式。您可以:
- 在仓库中存储数据集:在私有仓库中上传和组织数据集文件
- 多版本管理:通过完整的生命周期控制维护数 据集的不同版本
- 文件管理:通过直观的界面查看、上传和下载数据集文件
- 发布:发布数据集版本使其不可变并准备用于生产
- 笔记本集成:在 Notebooks 中直接挂载已发布的数据集进行数据分析
创建数据集
您可以从 AI 基础设施管理 > 模型管理 > 数据集 页面创建数据集。
通用配置
- 命名空间:选择数据集的命名空间。
- 名称:为您的数据集输入唯一名称。
- 仓库:选择将存储数据集的仓库。
- 数据集描述:提供更好地描述此数据集的描述。
管理数据集文件
创建数据集后,您可以通过数据集详情页面管理其文件。
文件操作
数据集文件管理界面提供多种操作:
- 查看文件:浏览数据集的文件结构和内容
- 上传文件:向数据集版本添加新文件
- 下载文件:下载单个文件或整个文件夹
- 创建文件夹:以分层结构组织文件
- 删除文件:删除不必要的文件
- 发布:使数据集版本不可变并准备用于生产
数据集版本控制
LLMOS 为数据集提供强大的版本管理,允许您跟踪更改并在数据的不同迭代中维护数据血缘。
版本生命周期
每个数据集版本经历以下状态:
- 草稿:可编辑版本,您可以添加、修改或删除文件
- 已发布:不可变版本,无法修改,准备用于生产
创建新版本
创建新数据集版本时,您有两个数据继承选项:
继承模式
在继承模式下,新版本将继承原始版本的所有数据,并可以基于此数据进行修改。这在以下情况下很有用:
- 对现有数据集进行增量更新
- 在保留现有文件的同时添加新文件
- 修改或删除先前版本的特定文件
- 创建现有数据集的变体
新建模式
新版本将为空,需要单独导入内容。这在以下情况下是理想的:
- 使用相同名称结构创建完全不同的数据集
- 使用新数据源重新开始
- 为不同用例从头构建数据集
发布数据集
发布是一个关键功能,使数据集版本不可变并准备用于生产。
先决条件
注意
Ceph 存储要求
数据集发布功能依赖于系统 Ceph 存储。在发布数据集之前,您必须启用和配置 Ceph 存储。
发布过程
- 导航到您要发布的数据集版本
- 确保所有必需的文件都已上传和组织
- 在数据集文件界面中点击 发布 并等待其发布
- 版本变为不可变并准备使用
已发布数据集的优势
- 不可变性:已发布的版本无法修改,确保数据一致性
- 笔记本集成:可以直接在笔记本中挂载进行分析
- 生产就绪:适用于训练和推理工作流程
- 数据血缘:清楚跟踪实验中使用的数据集版本
与 Notebook 集成
已发布的数据集可以与 Notebooks 无缝集成,用于数据分析和机器学习工作流程。