LLMOS 概述
LLMOS 是一款开源的 AI 基础设施管理软件,专为加速 AI 应用开发并简化大型语言模型(LLM)的管理而设计。 它支持部署在公有云或私有的 AI 工作站和 GPU 服务器上。 通过LLMOS,您可以轻松部署、扩展并运行机器学习工作流,同时减少与AI开发和运维相关的复杂性。
LLMOS 架构
下图展示了 LLMOS 的高级架构:
- 管理节点: 管理节点可以是运行在云端或本地的机器,主要负责运行 LLMOS 系统组件以及经过我们优化的 Kubernetes 集群。
- 工作节点: 工作节点主要负责运行用户的工作负载和必要的节点组件(例如网络插件,节点监控等)。
- LLMOS-Operator: LLMOS-Operator 负责管理 LLMOS 平台的生命周期及其系统组件,包括 LLMOS API-Server、LLMOS-Controller 以及其他系统附加组件。
- LLMOS-Controller: LLMOS-Controller 主要负责大语言模型、Notebook、机器学习集群、以及其他任务的生命周期管理和配置参数。
- Redis: 一个用于存储 LLMOS 高可用配置和 API 聊天等信息的键值存储系统。
- 工作负载: 工作负载是运行在 LLMOS 基础设施上的计算任务,需要请求不同的资源(例如 CPU、GPU、内存和存储卷等)。
备注
服务器节点也可作为工作节点,但优先为系统组件分配资源。