启用监控
LLMOS Monitoring 通过预配置的 Grafana 仪表盘、Prometheus 规则和告警规则等功能,使集群和 GPU 指标的监控变得简单、易用。这一功能主要基于 Prometheus Operator 开发集成。
本页面将介绍如何配置与管理内置的 LLMOS Monitoring。
启用监控
要启用监控功能,管理员用户需访问 Cluster Tools 页面。点击 Install 后,您将被引导至 Monitoring 配置页面。
前置要求
- 如果您的集群是多节点集群并且需要为监控功能启用持久 存储,请先启用 Ceph 系统存储,然后再设置监控。
- 确保您的集群满足以下资源需求:
- CPU:至少
1250m
- 内存:至少
1210Mi
- 存储:至少
50Gi
- 详情请参考 资源限制与请求。
- CPU:至少
Prometheus 设置
- Admin API:启用 Prometheus Admin API,以使用快照和删除时间序列等高级功能。默认关闭。
- 抓取间隔:Prometheus 收集指标的频率。默认值:
30s
。 - 评估间隔:Prometheus 检查告警规则的频率。默认值:
30s
。 - 数据保留时间:指标保留的时长。默认值:
10d
。 - 保留大小:存储指标的最大大小。默认值:
50GiB
。 - 资源:为 Prometheus Pod 设置资源请求和限制。
- 持久存储:若需在部署和升级期间保留数据,为 Prometheus 配置持久存储。
- 推荐至少
50Gi
。
- 推荐至少