启用监控

LLMOS Monitoring 通过预配置的 Grafana 仪表盘、Prometheus 规则和告警规则等功能，使集群和 GPU 指标的监控变得简单、易用。这一功能主要基于 Prometheus Operator 开发集成。

本页面将介绍如何配置与管理内置的 LLMOS Monitoring。

要启用监控功能，管理员用户需访问 Cluster Tools 页面。点击 Install 后，您将被引导至 Monitoring 配置页面。

cluster-tools

如果您的集群是多节点集群并且需要为监控功能启用持久存储，请先启用 Ceph 系统存储，然后再设置监控。
确保您的集群满足以下资源需求：
- CPU：至少 1250m
- 内存：至少 1210Mi
- 存储：至少 50Gi
- 详情请参考资源限制与请求。

monitoring-edit-prometheus

备注

LLMOS Monitoring 提供的默认仪表盘不依赖持久化存储且无法直接修改。

monitoring-edit-grafana

monitoring-edit-alerting

您可以在安装过程中调整资源请求和限制。下表显示了默认的最低要求：

组件	CPU 请求	内存请求	CPU 限制	内存限制
prometheus-operator	100m	100Mi	500m	200Mi
prometheus	750m	750Mi	1000m	3000Mi
alertmanager	100m	100Mi	1000m	500Mi
grafana	100m	100Mi	200m	200Mi
kube-state-metrics	100m	130Mi	200m	200Mi
prometheus-node-exporter	100m	30Mi	200m	50Mi
总计	1250m	1210Mi	3100m	4150Mi

持久存储：Prometheus 至少需要 50Gi 的存储空间。

启用监控​