Date: 2月 23, 2026
高可用性思维的危险性:关掉它,再打开它——
“关机重启。” 任何有过电脑故障排除经验的人都听过这条建议。它臭名昭著,是最常见的技术解决方案,而且似乎能让每个人都变成IT故障排除高手。问题在于,它从来都不是真正的解决方案;它只是碰巧能解决大多数问题而已。通过关机重启,我们能迅速恢复运行,但却永远无法真正找到问题的根源。
为什么在高可用性系统中“关闭再重新启动”存在风险
此外,在高可用性的世界中,“关闭它”可能会造成巨大的问题。即使是几分钟的……停机时间对于那些必须确保关键基础设施持续运行的公司来说,这可能是一个重大问题。正因如此,作为SIOS的技术支持人员,我们很少给出这条臭名昭著的技术建议,但我们确实有自己的一套应对方法。
许多致电SIOS寻求技术支持的人都遇到了以下问题:Windows Data Keeper如果遇到镜像问题,系统会提示运行“cleanupmirror”命令。在特定情况下,该命令可以快速解决重大问题。它实际上会彻底删除镜像配置及其所有残留数据,以便我们可以重新创建镜像,摆脱之前存在的所有问题。请注意,此命令不会删除任何数据,只会删除系统间的镜像复制。
该命令无需停机,但意味着在镜像完成重新同步之前,系统可用性会受到影响。这是我们在技术支持中常用的故障排除步骤之一,但就像“重启”一样,它有时会掩盖更严重的潜在问题,而且有时也可能矫枉过正。
今天,我想谈谈这样一个案例:运行 cleanupmirror 命令虽然帮助客户解决了燃眉之急,但差点让我们忽略了一个相当严重的问题,这个问题可能会影响到很多客户,不过这个问题其实有一个非常简单的解决方法。
迁移过程中实际遇到的 DataKeeper 镜像问题
支持团队加入时,客户已经排查故障相当长一段时间了,他们开始感到恐慌。他们正在进行最后的尝试。切换在进行迁移测试时,DataKeeper镜像开始出现问题。此时,他们的关键基础设施瘫痪,他们担心这会影响业务运营。情况十分危急,但幸运的是,我们的支持工程师表现出色。他们权衡了压力、时间紧迫和寻找有效解决方案的迫切需求,运行了久经考验的“cleanupmirror”命令,随后重建了镜像并使其恢复正常运行。他们帮助客户摆脱了困境,一切又恢复了正常。值得庆幸的是,他们还要求客户发送日志,以“确保万无一失”。
此案的日志有些令人困惑。日志显示:某个卷册已调整大小但客户声称他们在通话中没有进行任何调整大小的操作。有时客户会遗漏重要信息,所以我们一开始以为他们可能在通话中漏掉了这个细节,但这次调整大小的操作实在令人费解。大小的变化非常小,而且所有卷都在第一次切换时同时发生了变化。客户不可能在第一次切换时,一次性减少不到 1GB 的空间来调整其 TB 级大容量硬盘的大小,这显然不合逻辑,所以我们进行了更深入的调查。结果发现,目标硬盘的容量略大于源硬盘,而我们的产品在处理容量不匹配的硬盘时存在问题。
找出根本原因可防止再次停机
一旦我们弄清这一点,就意识到解决这个问题只需要继续镜像即可。这是一个常见、快捷且简单的操作,只需几秒钟就能彻底修复问题。无需耗时数天重新同步,即可恢复高可用性。此外,一旦我们发现这个问题,在下一个产品版本中实现修复也非常快捷方便。
原来,客户的迁移场景比较特殊,由于目标系统的大小无法完全匹配,他们不得不将目标系统的大小略微扩大一些。他们还有几个系统需要迁移,如果我们只停留在“清理镜像”阶段,他们每次都会遇到这个问题。由于我们找到了根本原因,因此能够为他们提供一个快速简便的临时解决方案,以及一个更快捷的预防措施,让他们在执行首次切换之前就能采取。我们还发布了解决方案,以便下一个遇到类似问题的客户能够在几分钟内解决。
为什么根本原因分析在高可用性中至关重要
那么,“关机重启”到底有什么大问题呢?它掩盖了问题的根本原因。这是否意味着你永远都不应该使用它呢?它仍然是最好的技术建议之一。很多时候,你根本不需要知道问题的根本原因,而关机重启就能帮你快速摆脱困境。
对于IT专业人员来说,重要的是,在无需紧急处理问题且有时间先进行调查的情况下,应该这样做。如果时间紧迫,则应该稍后查看日志,尝试找出问题所在。
所以,请随意开关机。做个几分钟就解决问题的魔术师,让所有人都好奇你是怎么做到的。但是……偶尔……也应该花点时间想想,你为什么要开关机……并考虑一下,有没有更简单的解决方法。
要了解更多关于 SIOS DataKeeper 和高可用性解决方案如何帮助您避免此类隐藏问题的信息,申请演示今天我们团队的发言。
作者:Carter Chandler,SIOS Technology公司客户体验助理、软件工程师
经许可转载SIOS
