| 10月 21, 2025 |
如何降低 SQL Server HA/DR 成本并获得高级功能 |
||||||||||||||||
| 10月 14, 2025 |
灾难恢复 (DR) 与备用轮胎之间的共同点 |
| 优点(有备用件) | 缺点(无备用件) |
| 减少滞留 | 延误,滞留一夜 |
| 避免路边援助 | 路边服务可能需要数小时 |
| 再次移动以永久修复它 | 必须等待拖车或其他方式才能完成维修,这可能会很昂贵 |
| 优点(使用 DataKeeper) | 缺点(没有 DataKeeper) |
| 简化故障转移,无需人工干预 | 需要重建系统,手动恢复数据 |
| 降低数据丢失的风险 | 未满足 SLA、销售损失、罚款 |
| 维护客户信任 | 未能满足客户期望会降低信心 |
在这篇博客中,我们可以将 DataKeeper 集群环境中的灾难恢复 (DR) 与汽车中不起眼的“甜甜圈”轮胎进行巧妙的类比。
两者在危机时刻都充当着重要的安全网,确保您能够快速恢复并避免长时间停机。
为什么可靠的灾难恢复解决方案比以往任何时候都重要
就像备用轮胎确保你在爆胎后可以继续行驶一样,DR 节点提供了关键的备份基础设施在发生停电、网络攻击或自然灾害时,确保您的业务顺利运行。
在当今快节奏的数字世界中,停机时间可能导致收入损失、声誉受损,甚至法律责任——因此需要可靠的灾难恢复解决方案比以往任何时候都更加重要。
灾难恢复节点如同安全网,帮助企业快速恢复并最大程度地减少运营中断。对于客户而言,投资灾难恢复节点不仅是为了降低风险,更是为了确保安心无虞、保护宝贵数据,并维护与客户和利益相关者之间的信任。
使用 DataKeeper 保持您的业务顺利进行
简而言之,灾难恢复节点是企业韧性的基石,无论面临何种挑战,它都能帮助企业保持敏捷和专注。无论是备用轮胎还是灾难恢复节点,做好准备是确保在意外挑战来临时保持正常运转的关键。正如开车时没有备胎一样,运营企业也需要制定灾难恢复计划。申请演示了解 DataKeeper 如何保持您的操作顺利进行。
作者:Greg Tucker SIOS Technology 高级产品支持工程师
经许可转载SIOS
利用高可用性集群实现近乎零停机时间的补丁管理
利用高可用性集群实现近乎零停机时间的补丁管理
补丁管理是 IT 领域最艰难的平衡之举之一。每个月或每个季度,操作系统和应用程序供应商都会发布包含关键安全修复的更新。这些补丁需要快速测试和应用——但仓促发布会导致系统不稳定,而拖延则会增加漏洞。对于运行关键任务应用程序的组织来说,风险甚至更高。
这就是为什么 IT 领导者越来越多地转向高可用性 (HA) 集群简化补丁测试和部署,同时将停机时间降至最低。
为什么补丁管理如此具有挑战性
- 测试需要时间和资源。QA 环境并不总是可用的,团队可能会感到压力,需要简化测试才能跟上进度。
- 网络攻击进展迅速。零日漏洞在补丁发布后的数小时内就被武器化。根据波耐蒙研究所的数据,57% 的违规行为归因于未修补的漏洞。
- 停机成本高昂。无论计划内还是计划外,停机时间平均每分钟造成 5,600 美元损失(Gartner)。在以下行业中卫生保健,航空, 和制造业,即使是短暂的停电也可能造成重大的财务和安全影响。
挑战很明显:组织必须更快地修补、彻底测试并尽量减少中断。
HA 集群如何改变补丁管理
高可用性集群将主服务器节点与辅助节点配对。高级集群软件会持续监控环境——应用程序、操作系统、存储和网络。如果发生故障,操作将无缝转移到辅助节点,无需停机。
同样的架构可以实现“滚动升级”修补方法:
- 修补辅助节点而主节点继续运行。
- 测试更新在进行切换之前,在辅助节点上。
- 必要时进行故障恢复— 如果发现问题,操作将立即在主节点上继续。
- 如果成功则切换— 如果测试通过,操作将转移到辅助节点,然后可以修补主节点。
结果是:组织可以更快地应用更新,避免危险的捷径,并保持系统全天候可用。
利用 HA 集群增强安全性、合规性和 IT 弹性
现代法规,例如 HIPAA、PCI DSS 4.0 和 NIST 800-53,都要求及时修补。与此同时,一些备受瞩目的事件(例如 CrowdStrike 更新失败)也暴露了仓促且未经测试的更新所带来的风险。
通过将 HA 集群集成到补丁管理策略,IT 团队可以:
- 满足合规性要求,且不牺牲正常运行时间。
- 降低补丁相关故障的风险。
- 增强整体 IT 抵御网络威胁的能力。
针对关键任务应用程序的近乎零停机补丁管理
过去,补丁速度与稳定性之间的权衡已不复存在。借助高可用性集群,IT 团队可以快速修补、安全测试,并保持关键任务应用程序在线,同时将停机时间降至接近零。
如果您的组织在补丁管理方面遇到困难,那么 HA 集群可能是更安全更新和更强弹性的关键。
准备好消除修补过程中的停机时间了吗?请求 SIOS 高可用性集群的演示并了解您的团队如何更快地修补、保持合规性并保持关键应用程序全天候运行。
作者:Ben Roy,SIOS 营销专家
经许可转载SIOS
如何安全地将 DataKeeper for Linux 与备份和复制工具结合起来
如何安全地将 DataKeeper for Linux 与备份和复制工具结合起来
当使用其他备份或复制软件与 DataKeeper for Linux 一起使用时,数据管理员是在集群中的服务器之间复制数据,确保所有相关服务器都拥有最新的数据副本。当服务器遇到计划外故障时,这一点至关重要。停机时间, 和生命守护者能够确保关键应用程序高度可用,并能通过使用 DataKeeper 保持正常运行时间。
将 DataKeeper 与其他备份或复制软件结合使用时,务必确认兼容性以避免冲突。复制软件可能会干扰 DataKeeper 的重新同步,有时是由于复制过程的开始顺序造成的。虽然力求最大限度地正常运行时间和可用性是有益的,验证这些措施是否会使您的集群保持最佳状态至关重要。
如何使用备份和复制软件测试 Linux 版 DataKeeper
测试与 DataKeeper 一起使用的复制软件的兼容性以确保其功能至关重要。以下是您可以检查以验证功能的项目列表。
-
在 QA 集群上进行测试。
在生产集群上使用备份/复制软件之前,请使用 DataKeeper 创建 QA 集群环境来运行测试。
在将任何新功能引入生产集群之前,QA 集群有助于进行测试。这有助于通过主动捕获和/或修复 QA 集群中出现的任何问题来避免生产集群中可能出现的问题。
2.完成基本功能测试。
仅安装 DataKeeper 作为复制软件后,应完成一些基本测试。在继续使用其他软件之前,请进行一次健全性检查。
基本测试应包括切换和故障转移是否成功的测试。请访问以下链接,了解确认切换是否能够成功执行的步骤。
https://docs.us.sios.com/spslinux/9.9.1/en/topic/testing-your-datakeeper-resource-hierarchy
-
完成其他软件的基本功能测试。
在软件备份/复制数据时以及软件完成备份/复制数据后运行上述相同的测试。
为了能够将该软件与 DataKeeper 一起使用,通过所有这些功能测试非常重要。
使用 GenApp Resources 通过 DataKeeper for Linux 管理备份和复制过程
如果测试结果不成功,可以创建一个通用应用程序(GenApp)在切换期间启动和停止相关进程
- GenApp 可以在层次结构中用于恢复和删除复制软件所使用的过程,以处理软件运行的顺序。
- 层次结构决定了资源之间的关系。顶层资源依赖于底层资源,从而建立依赖关系。当层次结构停止服务时,LifeKeeper 会采用自上而下的方法,先移除顶层资源,然后再移除底层资源。当发出恢复命令时,LifeKeeper 会采用自下而上的方法,先恢复底层资源,然后再恢复顶层资源。
基于此,我们将创建两个 GenApp,一个作为顶层资源,另一个作为底层资源。此配置确保当层次结构投入使用时,底层 GenApp 将停止进程,而顶层 GenApp 将启动进程。当层次结构被移除时,底层资源只需停止进程即可。
- 在下面的链接中阅读有关创建 GenApp 的更多信息。
https://docs.us.sios.com/spslinux/9.9.1/en/topic/creating-a-generic-application-resource-hierarchy
确保 DataKeeper 集群兼容性并防止停机
最终,在将更多备份或复制软件引入 DataKeeper 集群之前,测试和验证至关重要。这些步骤旨在通过提供待完成项目列表来确保配置在引入生产环境之前井然有序,从而避免停机。在将其他备份或复制软件集成到 Linux DataKeeper 集群之前,彻底的测试和验证至关重要。完成这些步骤可确保您的配置正确设置,并有助于防止在引入生产环境时出现停机。
准备好了解 SIOS 如何帮助您简化高可用性并确保使用 DataKeeper for Linux 进行无缝备份和复制了吗?立即申请演示。
作者:Alexus Gore,客户体验软件工程师
经许可转载SIOS
编写脚本前请三思:Gen/App 恢复的最佳实践
编写脚本前请三思:Gen/App 恢复的最佳实践
SIOS 恢复套件提供了丰富的应用程序感知监控和恢复最佳实践。通常,每个 SIOS 恢复套件都提供了一种循序渐进的编程方法,用于根据以下要求恢复应用程序、数据库或服务:高可用性 (HA) 最佳实践SIOS 恢复套件提供在系统正常关闭、意外系统故障或崩溃,甚至应用程序、数据库或服务本身崩溃或不可用的情况下恢复运行所需的智能信息。此外,每次恢复都融入了二十多年来在该领域积累的经验智慧和改进。
但是,如果客户仍然需要编写自己的脚本来提供 HA,适用于 Windows 的 SIOS LifeKeeper和适用于 Linux 的 SIOS LifeKeeper包括通过脚本集成的选项通用应用程序 (Gen/App) 恢复工具包。
编写 Gen/App Recovery 脚本的最佳实践
-
使用现代的、受支持的脚本语言进行 Gen/App 恢复
现有解决方案的常见做法是在新系统和架构上使用旧的现有脚本。但是,务必确保使用的是现代且受支持的脚本语言。
-
避免在 Gen/App 脚本中使用硬编码值
使用硬编码值可能会导致可移植性问题,以及长期维护方面的挑战。请避免使用在未来部署中可能会发生变化的硬编码值,例如目录路径、用户名或类似值。
-
实践代码重用以提高 Gen/App 脚本质量
重复代码是客户开发的脚本中常见的问题。重复代码会造成质量、维护和故障排除方面的问题。请练习代码重用,例如继承、函数和子例程。
-
为函数和变量选择有意义的名称
描述性变量比“n”或“i”等单字符变量更有帮助。几个月或几年后再查看代码时,“n”这个变量的意义还会和“iReturnCode”一样重要吗?
-
删除未使用的函数和变量以防止代码膨胀
虽然函数和变量的命名很重要,但要避免使用未使用的变量和函数来扰乱代码。声明变量而不使用它们会在未来的更新和故障排除过程中造成混乱。虽然 8 MB 内存的时代早已过去,但额外添加一些重用性有限或没有额外价值的变量或函数仍然会造成负担,并导致代码膨胀。
-
验证所有输入参数以确保 Gen/App 可靠执行
急于让程序正常运行,不要忽略输入变量的验证。务必验证脚本和函数的所有输入。不要想当然地认为“我们做到了”,所有输入都是有效的。
-
记录有用且可操作的消息
考虑需要记录哪些输出以用于状态/进度、错误情况或故障排除。每条消息都应经过深思熟虑,并采用适当的措辞,以便为运维人员和未来的开发人员提供有用的反馈。
8.检查所有方法/函数/API调用的返回代码并采取防御措施
在脚本或函数主体内执行的命令将具有返回代码,明确表示为通过、失败或其他。请务必检查、记录并妥善处理方法、函数和 API 调用的预期和意外返回代码。
-
使用防御性编程技术
应用防御性编程的最佳实践,包括最小特权访问、输入验证、错误处理等。
-
测试 Gen/App 恢复脚本超越快乐路径
仅有可运行的代码是不够的。制定一个强大的验证计划,并对代码进行广泛的测试,尤其是在预期一切正常的情况下,更要超越“快乐路径”的范畴。
-
使用版本控制进行脚本管理和故障排除
使用版本控制和代码管理工具。版本控制对于故障排除、管理和跟踪脚本不可避免的修复至关重要。
-
通过代码检查和同行评审尽早发现错误
使用代码检查和同行评审来提高代码的弹性和稳健性。代码评审有助于及早发现问题,并降低后期故障和错误带来的成本、风险和负担。
-
验证在 Gen/App Recovery 中执行所需的权限
拥有组织良好、现代化、经过审查、检查、测试和控制的代码是精心编写的 gen/app 脚本的重要组成部分。然而,即使是编写得最好的脚本,如果没有正确的权限,也将无法执行。请确保脚本具有正确的权限,以便独立执行以及在高可用性解决方案的服务/用户帐户下执行。
-
清晰地注释代码以解释逻辑和业务用例
提供有助于解释业务逻辑和用例、描述预期函数输入和返回值并有助于整体理解的注释。即使代码编写良好,也需要注释,尤其是在业务逻辑或需求不明确的情况下。注释块示例如下:名称:
目的:
先决条件:
后置条件:
返回:
准备好自信地简化 Gen/App 恢复了吗?
不要让高可用性成为偶然。借助 SIOS LifeKeeper 和通用应用程序 (Gen/App) 恢复套件,您可以保护关键应用程序、简化恢复并减少停机时间。
立即申请演示了解 SIOS 如何帮助您实现可靠、经济高效的高可用性和灾难恢复。
作者:Cassius Rhue,SIOS 客户体验副总裁
经许可转载SIOS




