机器学习集群
机器学习集群(ML Cluster)提供了一个分布式计算环境,用于运行机器学习工作负载。该集群基于 Ray 构建,Ray 是一个用于扩展 AI 和 Python 应用程序的统一框架,提供分布式运行时、并行处理以及一套 AI 库,以加速您的机器学习任务。
机器学习集群简化了 Ray 集群与现有集群工具(如监控、日志记录和 GPU 加速器)的集成和部署。这使您能够轻松管理单个和端到端的机器学习工作流程,利用以下功能:
- 统一仪表板: 从统一的界面监控和调试机器学习集群、应用程序和任务。
- 统一 API: 使用一致的 API 在独立或共享的机器学习集群上运行 ML 工作负载。
- 可扩展库: 访问 Ray 库以处理常见 ML 任务,包括数据预处理、分布式训练、超参数调整、强化学习和模型服务。
- Python 风格的分布式计算: 利用分布式计算原语并行化和扩展 Python 应用程序。
创建机器学习集群
备注
机器学习集群仅支持从 v1
版本开始的 KubeRay CRD。
要创建机器学习集群,请导航到 LLMOS 管理 > 机器学习集群 页面并点击 创建。
Head 组配置
- 指定集群名称,并选择所需的命名空间。
- 配置头节点的 CPU 和内存资源(默认:2 vCPU,4 GB)。
- (可选)点击