被动故障检测
被动故障检测(节点宕机,网络分区)场景下的 RTO 时序分析
在 Patroni 中,根据故障检测的机制,有三条典型的 RTO 计算路径,本节将分情况讨论。
| 检测机制 | 检测主体 | 检测信号 | 典型故障 | 主要来源 |
|---|---|---|---|---|
| 被动检测 | DCS (etcd) | leader key TTL 到期 | 网络分区,节点崩溃,Patroni 宕机 | ttl |
| 主动探测 | Patroni 领导者 | pg_isready 失败 | PG 进程崩溃 | priamry_start_timeout |
| 手动触发 | 运维人员 | patronictl switchover/failover | 主动切换命令,维护操作 | haproxy_up |
检测到故障之后,恢复过程的 RTO 还需要包括恢复策略的耗时,以及 HAProxy 健康检查的耗时。
被动故障检测(节点宕机,网络分区)场景下的 RTO 时序分析
主动故障检测(Patroni 存活,PG 宕机)场景下的 RTO 计算逻辑与结果分析
人工触发 Failover / Switchover 下的的 RTO 计算逻辑与结果分析。