跳到主要内容

配置需求

无论您是在虚拟机还是物理服务器上设置 LLMOS,每个运行 LLMOS 的节点都需要满足以下最低要求。这些要求涵盖 LLMOS 及其组件,但不包括您运行的工作负载所需的资源。

先决条件

  • 如果节点包含 NVIDIA GPU,请首先安装 NVIDIA 驱动程序
  • 两个节点不应具有相同的主机名。
  • 节点上不得运行任何现有的 Kubernetes 集群。
备注

要检查 NVIDIA 驱动程序是否正确安装,请运行以下命令:

nvidia-smi

输出应类似于以下内容:

+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 4090 Off | 00000000:01:00.0 Off | Off |
| 30% 41C P0 54W / 450W | 0MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| No running processes found |
+---------------------------------------------------------------------------------------+

支持的架构

LLMOS 支持以下系统架构:

  • x86_64
  • arm64/aarch64

支持的操作系统

虽然 LLMOS 预计可以在大多数现代 Linux 发行版上运行,但团队已正式测试并验证以下版本:

信息

建议关闭 firewalld。如果您保持启用状态,可能需要打开额外的端口。有关更多信息,请检查节点的入站规则 部分。

发行版版本
Ubuntu20.04 LTS 或更新
RHEL8.5 或更新
SLES/OpenSUSE15.3 (Leap) 或更新
Rocky Linux8.5 或更新
Debian11.0 或更新
Fedora37 或更新

硬件要求

硬件需求将根据您的部署规模而有所不同。以下是最低建议:

规格最低要求推荐规格
CPU4 核8 核
内存16 GB32 GB
系统磁盘空间100 GB200 GB
磁盘性能对于系统磁盘 (推荐SSD/NVMe),要求 5000+ 随机 IOPS与最低要求相同

磁盘类型

为了获得更好的性能,请使用 SSD/NVMe 作为 LLMOS 集群的存储介质。如果您使用的是云服务提供商,请选择合适的磁盘大小,并选用最大 IOPS 的磁盘类型。

网络

LLMOS 节点需要访问所有节点的 6443 和 8443 端口。

LLMOS 使用反向隧道,这意味着节点与服务器建立出站连接,所有节点间的流量通过该隧道运行。

如果需要使用 metrics 服务,请确保所有节点可以在 10250 端口上互相通信。

节点的入站规则

协议端口目的地描述
TCP2379-2380ServerServer需要用于具有嵌入式 etcd 的 HA 设置
TCP6443WorkerServerKubernetes API 服务
TCP8443所有节点所有节点LLMOS 仪表板和 API 服务
UDP8472所有节点所有节点用于系统 VXLAN 网络
TCP10250所有节点所有节点metrics 服务
TCP5001, 6443所有节点所有节点嵌入式分布式注册表 (Spegel)
TCP30000-32767所有节点所有节点NodePort 端口范围

通常,允许所有出站流量。根据您的操作系统,您可能需要调整防火墙设置。