监控告警

如何在 Pigsty 中监控 Node?如何使用 Node 本身的管控面板?有哪些告警规则值得关注?

Pigsty 中的 NODE 模块提供了 6 个监控面板和完善的告警规则。


监控面板

NODE 模块提供 6 个监控仪表板:

NODE Overview

展示当前环境所有主机节点的总体情况概览。

node-overview.jpg

NODE Cluster

显示特定主机集群的详细监控数据。

node-cluster.jpg

Node Instance

呈现单个主机节点的详细监控信息。

node-instance.jpg

NODE Alert

集中展示环境中所有主机的告警信息。

node-alert.jpg

NODE VIP

监控 L2 虚拟 IP 的详细状态。

node-vip.jpg

Node Haproxy

追踪 HAProxy 负载均衡器的运行情况。

node-haproxy.jpg


告警规则

Pigsty 针对 NODE 实现了以下告警规则:

可用性告警

规则级别说明
NodeDownCRIT节点离线
HaproxyDownCRITHAProxy 服务离线
PromtailDownWARN日志收集代理离线(Vector)
DockerDownWARN容器引擎离线
KeepalivedDownWARNKeepalived 守护进程离线

CPU 告警

规则级别说明
NodeCpuHighWARNCPU 使用率超过 70%

调度告警

规则级别说明
NodeLoadHighWARN标准化负载超过 100%

内存告警

规则级别说明
NodeOutOfMemWARN可用内存少于 10%
NodeMemSwappedWARNSwap 使用率超过 1%

文件系统告警

规则级别说明
NodeFsSpaceFullWARN磁盘使用率超过 90%
NodeFsFilesFullWARNInode 使用率超过 90%
NodeFdFullWARN文件描述符使用率超过 90%

磁盘告警

规则级别说明
NodeDiskSlowWARN读写延迟超过 32ms

网络协议告警

规则级别说明
NodeTcpErrHighWARNTCP 错误率超过 1/分钟
NodeTcpRetransHighWARNTCP 重传率超过 1%

时间同步告警

规则级别说明
NodeTimeDriftWARN系统时间未同步

最后修改 2025-12-20: update some docs to v4.0 (6c231c3)