在群集架构中消除SPoF的最佳实践
就像链条仅与其最薄弱的环节一样强大,高可用性集群的有效性受到其部署中存在的任何单点故障(SPOF)的限制。 为确保绝对最高级别的可用性,必须删除SPOF。 有一种简单的方法可以消除这些弱链接的集群。
迈出第一步
明智地,在需要消除群集架构中的SPoF时,识别存在的任何SPOF,特别注意服务器,网络连接和存储设备。 现代服务器具有冗余和纠错内存,跨硬盘和多个CPU的数据条带化,这消除了大多数硬件组件作为SPOF。 但是,软件和人为错误可能导致服务器或应用程序停机。 部署高可用性集群解决方案可监控服务器和关键应用程序的运行状况,并在发生故障时采取自动恢复操作,从而消除了此SPOF。 所有群集解决方案都提供基本的ping测试来验证服务器功能。但只有更高级的产品才能跟踪应用程序运行状况,并能够自动从检测到的故障中恢复。 更深层次的检测和恢复可最大限度地减少停机时间。为冗余构建集群的所有组件对于最大化正常运行时间至关重要。 与存储的连接通常代表SPOF,并且将多路径构建到任何共享存储配置中至关重要。 Linux DM Multipath(DM-MPIO)在路径发生故障时将块I / O重新路由到备用路径。这消除了从服务器到存储的路径中的所有组件作为潜在的SPOF,并在发生故障时提供自动恢复。