failover是指系统处理故障并恢复的过程,对于7*24小时的在线服务,为了保证高可用性(high availability),服务需要在出问题的时候能够自动恢复。现在多数分布式系统都实现了自动failover的功能。
依赖服务fail的恢复机制可以很简单,while(true) + sleep循环直到依赖的服务可用为止,参见refer2的介绍。对于服务本身的HA,可以采用集群/热备份(Hot Spare)的方法。
failover and switchover 的操作基本相同,差别是failover是自动恢复,switchover 是需要人介入的。
refer:
1、https://en.wikipedia.org/wiki/Failover
2、failover机制的小讨论:http://www.cnblogs.com/Creator/p/3189758.html