跳到主要内容

LLMOS 概述

LLMOS 是一款开源的云原生基础设施软件,专为加速 AI 应用开发并简化大型语言模型(LLM)的管理而设计。 它支持部署在公有云或私有的 AI 工作站和 GPU 服务器上。 通过LLMOS,组织可以轻松部署、扩展并运行机器学习工作流,同时减少与AI开发和运维相关的复杂性。

LLMOS 架构

下图展示了 LLMOS 的高级架构:

LLMOS 架构

  • 管理节点: 管理节点可以是运行在云端或本地的机器,主要负责运行 LLMOS 系统组件以及经过我们优化的 Kubernetes 集群。
  • 工作节点: 工作节点主要负责运行用户的工作负载和必要的节点组件(例如网络插件,节点监控等)。
  • LLMOS-Operator: LLMOS-Operator 负责管理 LLMOS 平台的生命周期及其系统组件,包括 LLMOS API-Server、LLMOS-Controller 以及其他系统附加组件。
  • LLMOS-Controller: LLMOS-Controller 主要负责大语言模型、Notebook、机器学习集群、以及其他任务的生命周期管理和配置参数。
  • Redis: 一个用于存储 LLMOS 高可用配置和 API 聊天等信息的键值存储系统。
  • 工作负载: 工作负载是运行在 LLMOS 基础设施上的计算任务,需要请求不同的资源(例如 CPU、GPU、内存和存储卷等)。
备注

服务器节点也可作为工作节点,但优先为系统组件分配资源。

主要特性

  • 简单的安装:支持在 x86_64 和 ARM64 架构上简单安装,提供即开即用的用户体验。
  • 无缝的Notebook集成:集成了流行的Notebook环境,如 JupyterVSCodeRStudio,让数据科学家和开发者无需复杂配置即可在熟悉的工具中高效工作。
  • 用于 LLM 服务的 ModelService:通过与 OpenAI 兼容的 API,使用 ModelService 轻松部署私有化的LLM。
  • 机器学习集群:支持分布式计算,具有并行处理能力,并包含领先的 AI 库,提升机器学习工作流的性能,尤其适用于大规模模型调优和数据集处理等任务。
  • 内置的分布式存储:提供高性能、高冗余的内置分布式存储,适用于 AI 和 LLM 应用的需求,具备强大的可扩展块存储和文件系统存储。
  • 用户RBAC 管理:通过基于角色的访问控制(RBAC)和角色模板简化用户管理,确保资源分配的安全与效率。
  • 针对边缘和分支部署进行了优化:支持私有部署,优化了资源使用,使模型和工作负载能够在边缘和分支网络中运行,并支持横向扩展以满足未来的业务需求。

使用场景

  • AI 研究与开发:简化 LLM 和 AI 基础设施管理,使研究人员能够专注于创新而非操作复杂性。
  • 企业 AI 解决方案:通过可扩展的基础设施简化 AI 应用的部署,使管理模型、存储和资源跨多个团队变得更容易。
  • 数据科学工作流:通过Notebook集成和强大的集群计算功能,LLMOS 非常适合需要大规模运行复杂实验的数据科学家。
  • AI 驱动的产品:从聊天机器人到自动化内容生成,LLMOS 简化了部署 LLM 驱动产品的流程,使其能够为数百万用户提供服务,并支持横向扩展。

下一步

要开始使用 LLMOS,请参考快速开始指南。