📄️ 启用监控
LLMOS Monitoring 通过预配置的 Grafana 仪表盘、Prometheus 规则和告警规则等功能,使集群和 GPU 指标的监控变得简单、易用。这一功能主要基于 Prometheus Operator 开发集成。
📄️ 卸载监控
禁用 LLMOS Monitoring 插件会删除所有监控数据,包括持久卷、监控规则和告警配置。
📄️ 监控管理
启用监控后,您可以通过 LLMOS Management > Monitoring 管理额外的 Prometheus 规则、告警以及访问仪表盘。