📄️ 节点
LLMOS 节点可以是虚拟机或物理机,具体取决于您的集群。集群中的第一个节点默认被指定为 cluster-init 节点。其他节点可以配置 为 server 节点或 worker 节点。
📄️ 机器学习集群
机器学习集群(ML Cluster)提供了一个分布式计算环境,用于运行机器学习工作负载。该集群基于 Ray 构建,Ray 是一个用于扩展 AI 和 Python 应用程序的统一框架,提供分布式运行时、并行处理以及一套 AI 库,以加速您的机器学习任务。
📄️ Notebooks
Notebooks 提供了一种在 LLMOS 集群内运行 JupyterLab、RStudio 和 VS Code 的轻量级基于 Web 的开发环境的方式,您可以在其中运行交互式代码、数据分析和机器学习任务。
📄️ 模型服务
LLMOS 平台通过 ModelService 简化了大语言模型(LLM)的部署, 为用户提供了简单,友好的配置和管理界面。推理服务利用强大的 vLLM 服务引擎。通过指定模型名称、Hugging Face 配置、资源要求等参数,用户可以轻松高效地设置和部署模型,并支持大规模运行。
🗃️ GPU 管理
2 个项目
🗃️ 监控与告警
3 个项目
🗃️ 存储
2 个项目
🗃️ 高级选项
2 个项目