linux – 企业故障转移(例如google.com)如何实际运行？

2023年2月11日 199次阅读

我们有一些配置用于Web,FTP和电子邮件服务的fedora系统.我们想要反映这些服务,以便我们可以为用户提供接近100％的可靠性.我是一位经验丰富的
Linux管理员,但对冗余系统没有多少经验.

做这个的最好方式是什么？谷歌和亚马逊是如何做到的？ Google.com解析为多个IP地址,但如果我的本地桌面缓存其中一个无法访问的IP,我将收到失败的连接消息.他们如何防止这种情况发生？

如果其中一台服务器发生故障,如何在没有最终用户知道的情况下自动将其重定向到另一个系统？

我知道有故障转移设备,但它们只是用于故障系统本身,而不是完整的网络.

假设我们遇到了最糟糕的情况,例如我的主系统无法访问. Linux系统上用于提供此功能的基本组件是什么？

我正在寻找概念或方法,而不是像“查看openstack”这样的答案.构成解决方案的实际部分是什么？要实现此功能需要做些什么？

最佳答案谷歌或亚马逊发布的IP地址实际上不是他们的服务器,而是负载均衡器.负载均衡器动态地将传入的客户端连接转发到实际的服务器,并且可能有数百和数千个它们落后于单个IP地址.

您可能会问,如果负载均衡器本身出现故障？
好吧,他们通常工作集群 – 至少2,并且所有人共享相同的虚拟IP地址.如果一个发生故障,虚拟IP似乎仍然有效,因为此负载均衡器集群的另一个成员仍在提供该请求.

如果群集负载平衡器停止运行,它们会自动更改其DNS,以使此虚拟IP不再向DNS客户端通告.为了加快速度,这些IP上的典型TTL设置得相当低,几分钟或更短(对于google.com,它是5分钟).

当然,现实比这更复杂,但它应该给你粗略的想法.