监控管理
启用监控后,您可以通过 LLMOS Management > Monitoring 管理额外的 Prometheus 规则、告警以及访问仪表盘。
监控管理
- 配置 (Config):查看并更新 LLMOS 监控设置。
- Prometheus 图表:访问 Prometheus 指标和图表。
- Grafana:探索 Grafana 仪表盘。
- Alertmanager:查看并管理告警配置。
ServiceMonitor 和 PodMonitor
ServiceMonitors
和 PodMonitors
是 Prometheus Operator 创建的自定义资源,用于定义 Prometheus 如何从端点收集指标。这些配置确保 Prometheus 知道从哪里抓取数据。
- ServiceMonitors:适用于大多数使用场景,常用于抓取服务端点的指标。
- PodMonitors:用于特定的 Pod 级别抓取需求。
更多详情:
PrometheusRules
PrometheusRules
允许您定义规则以生成告警或预计算指标。这些规则会被定期评估。
- 记录规则 (Recording Rules):通过组合或转换现有指标创建新指标。适用于预计算复杂查询。
- 告警规则 (Alerting Rules):运行查询以检查特定条件。如果查询返回非零值,则触发告警。
更多示例请参考 Prometheus Rules 文档。
Alertmanager 配置
Alertmanager
处理由 Prometheus 发送的告警,执行以下任务:
- 去重:移除重复告警。
- 分组:按相似特征组织告警。
- 路由:将告警发送到合适的渠道,例如邮件、Slack 或 Webhook。
- 静默:临时禁用告警。
- 跟踪:监控告警的状态(触发或已解决)。
创建 AlertmanagerConfig 资源
要在 Alertmanager 中设置告警接收器和路由:
- 前往 LLMOS Management > Monitoring > AlertmanagerConfigs。
- 点击 Create,填写名称和命名空间。
- 保存配置。
- 打开创建的配置,点击 Add Receiver:
- 给接收器命名。
- 选择通知类型(如 Slack、邮件)。
- 填写必需字段(如 Slack 的
api_url
和channel
)。
- 点击 Route 标签,添加接收器并设置路由配置到 AlertmanagerConfig。