故障时序模型

详细分析三种经典故障检测/恢复路径下,最差,最优,平均 RTO 的计算逻辑与结果

在 Patroni 中,根据故障检测的机制,有三条典型的 RTO 计算路径,本节将分情况讨论。

检测机制检测主体检测信号典型故障主要来源
被动检测DCS (etcd)leader key TTL 到期网络分区,节点崩溃,Patroni 宕机ttl
主动探测Patroni 领导者pg_isready 失败PG 进程崩溃priamry_start_timeout
手动触发运维人员patronictl switchover/failover主动切换命令,维护操作haproxy_up

检测到故障之后,恢复过程的 RTO 还需要包括恢复策略的耗时,以及 HAProxy 健康检查的耗时。


被动故障检测

被动故障检测(节点宕机,网络分区)场景下的 RTO 时序分析

主动故障检测

主动故障检测(Patroni 存活,PG 宕机)场景下的 RTO 计算逻辑与结果分析

人工故障切换

人工触发 Failover / Switchover 下的的 RTO 计算逻辑与结果分析。