SIOS SANless clusters

SIOS SANless clusters High-availability Machine Learning monitoring

  • Home
  • 产品
    • SIOS DataKeeper for Windows
    • SIOS Protection Suite for Linux
  • 新闻与活动
  • 服务器集群简单化
  • 成功案例
  • 联系我们
  • English
  • 中文 (中国)
  • 中文 (台灣)
  • 한국어
  • Bahasa Indonesia
  • ไทย

使用 SIOS LifeKeeper 对非集群感知应用程序进行集群化

12月 4, 2025 by Jason Aw Leave a Comment

Clustering a Non-Cluster-Aware Application with SIOS LifeKeeper

使用 SIOS LifeKeeper 对非集群感知应用程序进行集群化

并非所有应用程序都是用这种方法构建的。聚类牢记这一点。事实上,大多数人并没有。但这并不意味着他们无法从中受益。高可用性由……提供的保护SIOS LifeKeeper如果你的应用程序可以停止、启动并在另一台服务器上运行,那么很有可能可以对其进行集群部署。

在着手实施之前,有一些关键的考虑因素,这些因素将决定集群实施是成功还是令人沮丧的反复试验。

  1. 将动态数据迁移到共享或复制存储

应用程序通常将日志、数据库、缓存和其他应用程序数据等动态数据存储在本地存储中。但在集群环境中,这种方式行不通。故障转移备用节点必须能够访问相同的数据,以便应用程序可以从上次中断的地方继续运行。

解决方案是将所有动态数据迁移到 SAN 环境中的共享磁盘或使用时的复制卷。SIOS 数据保管器静态文件(例如可执行文件)可以保留在本地,但任何在运行时发生变化的内容都应该存储在所有集群节点都可以访问的存储位置。

  1. 更新集群环境中的应用程序主机引用

许多应用程序通过名称、FQDN 或 IP 地址来引用本地系统。这在独立配置中没有问题,但在集群中,应用程序需要绑定到集群的虚拟 IP (VIP) 或通过其进行通信。

如果应用程序或其配置文件引用了:

  • 本地主机
  • 节点的主机名或完全限定域名
  • 节点的静态 IP 地址

您可能需要更改对 VIP 或解析到 VIP 的主机名的引用。通常需要检查的位置包括注册表项、配置文件以及应用程序用于连接自身或其他服务的任何连接字符串。

  1. 编写自定义启动、停止和监控脚本

集群感知型应用程序包含指示集群如何启动、停止和监控服务的逻辑。非集群感知型应用程序则不包含。这就是 SIOS LifeKeeper 应用程序恢复工具包 (ARK) 的用武之地。

如果你的应用程序没有现成的脚本,你可以创建自定义脚本:

  • 开始服务或流程
  • 停止切换前将其清理干净
  • 监视器例如,通过检查端口、日志文件或进程来评估其健康状况。

在某些情况下,保护应用程序就像启动和停止服务一样简单。针对这种情况,LifeKeeper 提供了快速服务保护 (QSP) 恢复工具包。使用 QSP,您只需选择要保护的服务,无需编写任何代码。LifeKeeper 将自动处理该服务的启动、停止和监控操作。

这些选项使得保护各种应用程序变得轻松便捷,从简单的应用程序到复杂的应用程序。视窗或者Linux在同一集群框架内,为复杂的多组件系统提供服务。

  1. 在所有集群节点上正确处理加密密钥

如果您的应用程序对静态数据进行加密,则集群中的每个节点都必须能够解密这些数据。这意味着加密密钥必须在所有节点上都可访问且保持一致。根据您的设置,这可能需要同步本地密钥库或使用集中式密钥管理解决方案。

关键在于,每个节点在激活时都必须能够安全且持续地访问加密密钥。否则,应用程序可能启动,但在故障转移后却无法访问其数据。

  1. 考虑故障转移后客户端如何重新连接

当应用程序从一个节点故障转移到另一个节点时,会有一个短暂的中断,因为新的活动节点需要接管 IP 地址并启动应用程序。对于连接到该服务的客户端,其行为完全取决于它们如何处理连接丢失。

如果客户端内置了重试逻辑,用户可能根本不会注意到中断。一旦VIP和服务恢复可用,客户端将自动重新连接。

如果客户端没有包含重试逻辑,用户在故障转移后可能需要手动刷新或重新启动连接。

了解客户端的行为方式并测试其在故障转移期间的响应至关重要。有时,只需添加一个简单的连接重试循环或调整连接超时设置,即可实现流畅的用户体验。

  1. 验证集群部署的应用程序许可要求

一个常被忽视的步骤是许可。当应用程序集群化时,它会安装在集群中的每个节点上,但一次只能运行一个实例,即活动实例。一些供应商提供专门的活动/被动集群许可,而另一些供应商则要求每个已安装的实例都需要一个许可。

部署前务必先咨询应用程序供应商。事先进行简短沟通可以避免日后花费大量时间处理许可问题。

  1. 对所有应用程序和集群组件进行全面测试

测试是任何集群项目中最重要但又最容易被忽视的环节之一。

不要只测试故障转移。在应用程序受到保护的情况下,测试其所有功能。这包括:

  • 启动和关闭顺序
  • 所有必需的服务和后台任务
  • 任何读取、写入或缓存数据的组件
  • 任何依赖于服务依赖项的进程
  • 故障转移前、故障转移期间和故障转移后的客户端行为

如果应用程序使用自定义脚本或快速服务流程 (QSP),请确保每个步骤在负载下都能正常运行。这不仅能及早发现问题,还能确保解决方案在实际事件中能够正确运行。

为非集群感知应用实现高可用性

使用 SIOS LifeKeeper 对非集群感知应用程序进行集群化并不难,但确实需要一些规划。将数据迁移到共享或复制存储,将所有节点指向集群的虚拟 IP 地址 (VIP),编写启动、停止和监控逻辑脚本(或在适当情况下使用 QSP),确保所有节点上都可用加密密钥,并确认许可要求。

不要忘记测试您的客户端对故障转移的响应情况,因为真正的高可用性意味着您的服务器和用户始终保持连接。

按照这些步骤操作,您会发现即使是最“独立”的应用程序也能实现企业级高可用性。立即申请演示了解 SIOS LifeKeeper 如何为非集群感知应用程序带来可靠的高可用性。

作者:David Bermingham,SIOS 高级技术推广专家

经许可转载SIOS

Filed Under: 新闻与活动

99.99% 正常运行时间:平衡高可用性和维护

11月 30, 2025 by Jason Aw Leave a Comment

99.99% Uptime Balancing High Availability and Maintenance

99.99% 正常运行时间:平衡高可用性和维护

“99.99% 正常运行时间”,通常被称为“四个九”,代表系统 99.99% 的时间都可用,每年仅允许约 52 分钟的停机时间。对于任何规模的组织而言,这都是一个“黄金”标准,旨在提供可靠的服务,最大限度地减少对用户的干扰。

达到四个九(99.99%)表明在该领域持续投入高可用性这对于电子商务等行业至关重要。卫生保健, 和金融停机可能会导致重大经济损失或客户信心受损。

然而,要维持这种级别的可靠性,核心挑战在于:如何在保证高可用性的同时,兼顾“强制性”的系统维护。系统需要更新,修补为了保持安全和持续运行,需要进行升级,但这些活动通常需要停机。

组织必须努力维持冗余等策略,故障转移/切换并通过滚动更新进行维护,确保正常运行时间不受影响。在这种平衡下,对于在竞争激烈的市场中维持客户信任和提供稳定可靠的服务至关重要。

什么是 99.99% 正常运行时间?为什么它如此重要?

作者:Alexus Gore,SIOS Technology 的客户体验软件工程师

正常运行时间正常运行时间代表服务可用且功能正常的时长。正常运行时间为 99.9% 的服务每年平均会有 8.77 小时的停机时间。如果一家医院的正常运行时间为 99.95%,这意味着每年将有 4.38 小时无法访问患者数据,从而延误患者的治疗,这显然不是理想的情况。

99.99% 的正常运行时间是金融、医疗保健、SaaS 等行业的常见基准,这些行业理想情况下每年停机时间不超过 52.60 分钟。这一正常运行时间值也更容易实现,并且是成本可承受的最高正常运行时间。考虑到停机可能带来的风险,99.99% 的正常运行时间是确保停机时间最短的理想选择。

一个99.99% 服务水平协议保证每年停机时间不会超过最低停机时间。确保履行此协议有助于建立客户信任,因为这样可以保证服务随时可用。反过来,这将有助于维护客户群并确保业务连续性。

高可用性 (HA) 在实现 99.99% 正常运行时间中的作用

作者:比尔·达内尔,SIOS Technology公司高级产品支持工程师

高可用性是一种系统设计方法,旨在确保应用程序和服务始终可访问,目标是实现 99.99% 的正常运行时间。它基于冗余硬件、分布式软件和弹性网络配置等关键组件构建而成。其目标是消除单点故障,即使主服务器发生故障,也能确保业务持续运行。

SIOS软件通过使用以下方式实现HA簇(多台服务器)中,每个节点都能执行相同的功能。这些服务器通过两条或多条通信路径连接。这创建了一个容错环境,从而确保服务的连续性。LifeKeeper 通过持续检查服务器、应用程序和服务是否存在故障来监控系统健康状况。如果一台服务器或节点发生故障,LifeKeeper 会自动将操作转移到备用服务器,最大限度地减少停机时间。

SIOS 支持数据库保护(SQL Server,甲骨文,SAP HANA)、文件系统和自定义应用程序。

正常运行时间的隐性成本:为什么维护至关重要

作者:Cassy Hendricks-Sinke,SIOS Technology公司客户体验首席软件工程师

为了追求最大限度的正常运行时间,许多组织会延迟或跳过例行维护,这种做法可能目光短浅,甚至造成危险。忽略更新或补丁会使系统面临严重的安全漏洞,降低性能效率,并增加违规风险。每次延迟更新都会使公司更容易受到攻击,并累积难以长期管理的“技术债务”。

然而,真正的挑战在于平衡正常运行时间和必要的维护。企业往往害怕停机,却没有意识到忽视更新会导致更大的破坏,例如数据泄露或大规模停机。解决这个问题的关键在于积极主动的规划!滚动更新采用冗余策略,以及采用允许热修补或零停机时间部署的工具,都是应对或最大限度减少关键维护造成的停机时间的方法。

真正的正常运行时间不仅仅是保持“在线”状态;它还包括保持安全、高效和合规。投资于智能维护策略,不仅能确保系统可用,还能确保其具有弹性和可靠性。

平衡 99.99% 正常运行时间和维护的策略

作者:Philip Merry,SIOS Technology公司客户体验软件工程师

通常,系统维护需要停机,以便不间断地执行维护活动。显然,追求高正常运行时间与安排停机维护窗口之间存在冲突。为了满足正常运行时间的要求,延迟或批量进行维护可能会导致系统长时间处于故障状态,而频繁的维护窗口则会大幅降低系统可用性指标。尽管存在这些冲突,但可以通过采用高可用性策略来平衡这些考量。

SIOS LifeKeeper 是一款高可用性工具,它允许在执行工作负载的系统之间实现冗余。当一个系统正在积极执行工作负载并运行业务应用程序时,另一个系统可以作为备用系统,在发生故障时接管工作负载。这种“主备”高可用性模型提供了一种简便的方法来应对维护和更新,同时确保业务应用程序的连续性。

在 LifeKeeper 这类高可用性工具的背景下,平衡正常运行时间和维护工作,无论从概念上还是实践上都非常简单。首先对备用系统进行维护。维护完成后,让活动系统和备用系统切换角色。此时,活动系统已完成必要的维护,并正在运行业务应用程序。之后,可以再次对备用系统进行维护。维护完成后,所有系统都已完成维护,并且在维护期间工作负载仍然可用。LifeKeeper 实现的这种“高可用性更新”策略,使得系统能够在保持维护和可用性的同时,避免任何一方的损失。

支持正常运行时间和维护的工具和技术

作者:Connor Toohey,SIOS Technology 高级产品支持工程师

实现高可用性和零停机部署需要战略性地组合多种技术以达到最佳性能。SIOS LifeKeeper 和 DataKeeper 是关键解决方案,可提供强大的故障转移集群和实时性。数据复制为了确保应用程序和数据在云端、混合环境和本地环境中的可用性,Kubernetes 通过容器编排和自动滚动更新实现零停机部署。Azure 负载均衡器和 AWS 弹性负载均衡器等负载均衡器能够高效地分配流量,从而降低服务中断的风险。

Dynatrace 或 Moogsoft 等 AIOps 平台利用 AI 驱动的异常检测和自动化问题修复功能,增强了运维稳定性。Rancher、Red Hat Satellite 或 WSUS 等工具支持服务器补丁的滚动更新,从而实现零停机维护。Prometheus、Grafana、Datadog 和 Splunk 等监控和日志平台则提供对系统正常运行时间和性能的实时可见性。这些技术共同构建了一个弹性基础设施,确保不间断、可靠的服务交付。

保持 99.99% 正常运行时间的最佳实践

作者:Aidan Macklen,SIOS Technology公司助理产品支持工程师

要实现 99.99% 的正常运行时间,需要采取积极主动的系统管理方法。我们不应在问题发生后才被动应对,而应着重于在潜在风险影响服务可用性之前识别并解决它们。主动维护,例如定期查看日志、进行容量规划和硬件检查,可以确保小问题不会演变成服务中断。

在部署任何更新或配置更改之前,务必在受控的测试环境中进行测试。这有助于在模拟生产条件下验证兼容性、稳定性和性能,从而降低计划外停机的风险。同样重要的是,要维护清晰且文档完善的事件响应和回滚计划,以便在发生事件时能够高效地恢复正常运行。

高可用性系统也受益于持续优化。定期审核系统性能、故障转移效率和冗余配置,以确保所有组件均按预期运行。随着时间的推移,这些审核可以发现可能影响正常运行时间的瓶颈、配置偏差或性能不佳的节点。

通过优先考虑预防、严格的测试和结构化的恢复计划,组织可以维持 99.99% 的正常运行时间基准,并提供用户期望从现代高可用性环境中获得的可靠性。

99.99% 正常运行时间解决方案,助力持续运营

作者:Trey Isaac,SIOS Technology 高级产品支持工程师

每一分钟的停机都会造成企业收入损失、声誉受损,并削弱客户信任。虽然 99.99% 的正常运行时间是一个至关重要的基准,但这却是一场与必要的维护、补丁和更新需求的持续斗争。关键不在于仅仅追求一个运行时间数字,而在于构建智能弹性,以确保您的业务持续稳定运行。

SIOS 正是在此方面助力您实现运营转型。我们的高可用性和灾难恢复解决方案旨在保护您最关键的应用程序,包括 SQL Server、Oracle 和 SAP。SIOS 采用自动化、应用感知型故障转移和实时数据复制技术,确保您的业务在突发故障、意外中断和计划内维护等各种情况下都能保持全面运行。

无论您的基础架构位于本地、云端还是混合环境中,SIOS 都能提供您所需的无缝保护。告别被动应对停机,主动保障业务持续运营、客户信心不减、生产力永不停歇。

摘要:实现并保持 99.99% 的正常运行时间

作者:Matthew Pollard,SIOS Technology 高级客户体验软件工程师,业余卡祖笛演奏家

无论您从事何种业务,或依赖哪些应用程序,高可用性都是确保业务持续运行的通用理念。力争达到 99.99% 的正常运行时间,是提升基础设施可靠性的有效途径,进而赢得客户的高度信任。然而,实现如此高的正常运行时间并非易事,因此关键在于做好调研,并与经验丰富的 HA 解决方案供应商(例如 SIOS)合作,以满足您的需求。SIOS LifeKeeper 能够保护您的企业级关键业务应用程序(例如 SAP、Oracle、SQL Server 等)免受计划外中断和停机的影响,同时最大限度地减少例行补丁或维护活动所需的停机时间。从简单的备用节点恢复到更强大的灾难恢复配置,SIOS 解决方案为您提供所需的一切工具。

不要等到系统宕机或故障频发才开始寻找高可用性解决方案;要积极主动!我们的专家随时准备帮助您构建更安全、更强大的环境,轻松应对各种挑战。您的 IT 团队、业务领导、合作伙伴和客户都会为此感谢您。立即申请演示了解 SIOS 如何帮助您实现正常运行时间目标。

经许可转载SIOS

Filed Under: 新闻与活动

如何评估我的网卡是否需要更换

5月 21, 2025 by Jason Aw Leave a Comment

How to Assess if My Network Card Needs Replacement

如何评估我的网卡是否需要更换

网络接口卡 (NIC),通常称为网卡,是任何服务器基础设施的重要组成部分。它使集群中的系统能够相互通信并与外界通信。如果您的 NIC 出现问题,可能会危及您的服务器的正常运行。簇导致虚假节点故障,或增加脑裂风险。及早识别网卡故障迹象可以节省时间,减少停机时间并保持高可用性。

在此博客中,我们将探讨如何评估您的网卡是否需要更换、需要注意的症状以及可以帮助您诊断问题的工具。

NIC 故障的常见症状

  1. 间歇性连接

NIC 故障的首要迹象之一是连接不稳定或断断续续。您可能会注意到丢包、高延迟或难以访问外部主机。这些问题可能会导致节点生命守护者集群暂时失去连接并触发不必要的故障转移。

  1. 网络速度下降

如果系统在执行网络相关任务时表现不佳,例如复制速度慢、应用程序响应迟缓或心跳通信延迟,则可能是由于网卡故障,导致其不再以额定速度运行(例如,1 Gbps 与 10 Gbps)。在集群环境中,复制速度慢尤其令人担忧,因为它会延迟节点之间的数据同步。这不仅会增加故障转移时的恢复时间,还会增加数据丢失或系统状态不一致的风险(如果在复制完成之前发生完全故障)。

3.系统日志显示网络错误

如果内核或系统日志中频繁出现与网卡驱动程序或接口相关的消息,例如“链路断开”、“网卡重置”或“设备无响应”,则表明操作系统在硬件或驱动程序层面与网卡通信存在问题。

  1. 异常发热或物理损坏

虽然并不常见,但物理检查可能会发现诸如烧焦痕迹或过热等损坏。这种级别的硬件问题可能会迅速降低性能甚至导致彻底故障,这在任何环境下都是不可取的。

5.虚拟或云环境中的问题

在虚拟化和云环境中,网卡行为不仅会受到底层硬件的影响,还会受到虚拟机管理程序或虚拟网络层配置的影响。例如,如果使用不兼容/过时的驱动程序,或者即使为虚拟机分配了未针对所需工作负载进行优化的适配器类型,通过 VMware 或 Hyper-V 分配的虚拟网卡的性能也可能会下降。

适用于 Windows 和 Linux 的网卡故障排除工具

尽早诊断 NIC 问题有助于最大限度地减少停机时间并避免不必要的故障转移。以下是识别硬件或驱动程序相关 NIC 问题的重要工具,包括适用于 Linux 和 Windows 环境的选项:

  • ethtool (Linux):使用此工具查看网卡统计信息、驱动程序信息和最新链路状态。大量的发送/接收错误、丢包或自动协商失败可能表明网卡性能下降。
  • PowerShell cmdlet(Windows):Get-NetAdapter 和 Get-NetAdapterStatistics 允许您检查 Windows 系统上的链接状态、速度和适配器健康状况。结合 Get-NetEventSession,您还可以跟踪与 NIC 行为相关的事件日志。
  • dmesg / journalctl(Linux)或事件查看器(Windows):这些工具有助于发现系统或内核级别的警报。查找诸如“网卡重置”、“链路断开”或“设备无响应”之类的消息。在 Windows 中,这些消息可能出现在“系统”或“应用程序”日志中,指示驱动程序崩溃或硬件无响应。
  • ping / iperf(跨平台):用于测试基本的连接和吞吐量。如果测试过程中出现丢包、抖动或意外的延迟峰值,则可能表明硬件或线缆存在故障。
  • 网络绑定故障转移行为:使用绑定或组合接口实现冗余时,请观察是否有一个接口比其他接口更频繁地触发故障转移事件。这可能意味着即使没有报告系统错误,故障网卡的性能也会悄无声息地下降。

何时更换 NIC?

如果出现以下情况,则可能需要更换 NIC:

  • 您观察到上述症状持续存在或恶化。
  • 日志和工具确认在驱动程序更新或固件重新安装后仍然存在的硬件或驱动程序问题。
  • 当 NIC 移动到另一个系统(如果可移动)时,问题就会随之出现。
  • 该卡已过时,并且不受当前操作系统或集群工具支持。
  • 您处于高可用性 (HA) 环境中,服务的连续性至关重要。在这种情况下,最佳做法是在故障排除的同时主动将服务或资源迁移到已验证网卡状态正常的节点,以避免出现故障转移延迟或意外停机的风险。

避免网卡故障的预防措施

为了避免与 NIC 相关的故障:

  • 使用冗余:跨多个 NIC 实现绑定或组合。
  • 保持固件更新:定期检查硬件供应商提供的驱动程序和固件更新。
  • 主动监控:使用工具和第三方网络监控来捕捉 NIC 性能下降的早期迹象。
  • 定期测试:作为定期集群健康检查的一部分,验证链接速度和延迟。

关于维护网络接口卡健康的最终思考

网卡可能并非最引人注目的硬件,但它的健康状况对于稳定、高可用性环境至关重要。了解何时以及如何评估网卡的性能有助于防止意外停机,确保无缝的故障转移行为,并保持集群通信的弹性。

SIOS 技术公司提供高可用性集群软件通过集群管理来保护和优化 IT 基础设施,以适应您最重要的应用程序。立即申请演示。

作者:Aidan Macklen,SIOS Technology Corp. 客户体验工程师实习生

经许可转载SIOS

Filed Under: 新闻与活动

为什么无存储/无节点仲裁对于集群可用性有害?

4月 3, 2025 by Jason Aw Leave a Comment

Why is StoragelessNodeless Quorum Dangerous for Cluster Availability

为什么无存储/无节点仲裁对于集群可用性有害?

一般来说,法定人数是指出席并作出决定的一群人或团体。

在 LifeKeeper 中,Quorum 强制达成共识,使用集群中节点的状态来执行处理集群内节点故障的下一步。LifeKeeperquorum 可以在三种模式下运行;存储、多数和 TCP 远程(TCP 远程仅适用于 LifeKeeper for Linux)。

  • 存储 Quorum 使用共享存储设备来跟踪集群中其他系统提供的更新,如果某个系统不提供更新,Quorum 会将该集群标记为失败。
  • 多数仲裁依赖于奇数个集群的结构其中一个节点充当见证节点,以确定集群中是否有一个或所有节点无法通信
  • 通过指定端口上的 TCP/IP 服务进行 TCP 远程连接,以验证集群中的节点是否可以相互通信。

了解集群中仲裁的重要性

Quorum 的目的是通过采取补救措施来应对意外情况,从而保持应用程序的可用性。它通过降低裂脑情况的风险并通过保持集群中所有节点之间的通信来减少停机时间来实现这一点。

集群中没有仲裁的情况下运行的风险

使用未配置 Quorum 的集群存在风险。以下场景将解决没有 Quorum 的影响以及实施 Quorum 的重要性。

场景 1:减少停机时间

当一个或多个系统由于不可避免的因素(例如崩溃或网络通信暂时故障)而无法使用时,可能会发生意外停机。

有了存储这样的仲裁或 TCP 远程配置,可以使用对存储设备和/或端口的访问来跟踪集群中的通信状态。此附加措施可以防止不必要的故障转移,从而避免造成长时间停机。在其他情况下,Quorum 将采取措施关闭或重新启动服务器以将其恢复到健康状态并避免更长的停机时间。

场景 2:脑裂

一个裂脑是指集群中的多个系统认为自己是主服务器。当主服务器与其辅助服务器失去通信,并且辅助服务器认为主系统已关闭时,就会发生这种情况。这会导致集群中出现两个活动的主系统。

如果配置了多数法定人数,则会提供另一个系统作为见证人,以投票决定哪个系统应该作为主系统,从而防止发生裂脑。

为什么适当的仲裁配置很重要

操作集群缺乏存储或多数仲裁是危险的,因为这会增加因裂脑和/或网络中断而导致数据丢失或长时间停机的风险。使用 Quroum 可以提供反制措施,确保集群始终健康,并适当处理任何不健康的系统。

立即联系 SIOS了解我们的高可用性解决方案如何帮助您以正确的方式配置仲裁并保护您的集群。

作者:Alexus Gore,SIOS Technology Corp. 客户体验软件工程师

经许可转载西欧斯

Filed Under: 新闻与活动

更新 LifeKeeper for Linux:成功检查清单

2月 23, 2025 by Jason Aw Leave a Comment

Updating LifeKeeper for Linux A Checklist for Success

更新 LifeKeeper for Linux:成功检查清单

保持 LifeKeeper for Linux 软件更新对于保持高可用性 (HA)、系统安全性、性能和兼容性至关重要。本博客将指导您完成一个结构化流程,以最小的风险执行软件更新。

遵循这些步骤可以确保更新过程顺利进行。

  1. 检查支持矩阵

在继续更新之前,请查阅 SIOS 的支持矩阵:

docs.us.sios.com/spslinux/9.9.0/en/topic/sios-protection-for-linux-support-matrix

本文档提供了重要的兼容性信息,包括:

  • 操作系统:确保您当前的操作系统版本支持新的软件版本。
  • 笔记:验证与特定内核以及任何特殊指令的兼容性。

无法验证兼容性可能会导致冲突或系统性能下降。如果您的设置不受支持,请考虑升级相关组件或延迟更新。

  1. 创建运行手册

操作手册是执行更新过程的详细指南。它可最大程度地减少混乱并确保每个步骤都得到考虑。关键要素应包括:

  • 更新前的任务:例如,禁用自动服务、通知用户以及根据需要安排停机时间。
  • 更新步骤:提供安装更新的分步指南。
  • 更新后验证:检查清单以确认更新是否成功。

确保参与该流程的所有团队成员都可以访问运行手册。

  1. 对层次结构进行备份:

在执行 LifeKeeper 或 OS 升级之前,请在所有节点上创建 Lifekeeper 层次结构的备份。

要创建备份,请运行以下命令:

/opt/LifeKeeper/bin/lkbackup –c

备份将创建在名为:的文件中。

/opt/LifeKeeper/config/archive.<日期时间戳>.tar.gz

  1. 在 QA 环境中测试

在将更新部署到生产环境之前,请务必在 QA 或临时环境中测试更新。此步骤可让您:

  • 在受控环境中检测错误或意外行为。
  • 评估更新对性能的影响。

记录出现的任何问题并相应地调整您的运行手册。

  1. 在生产系统上执行更新

准备工作完成后,继续更新:

  • 严格遵循操作手册。
  • 监视该过程是否有任何错误或警告。
  1. 验证并监控更新后情况

更新后,进行彻底验证:

  • 使用运行手册的清单确认系统功能。
  • 监控性能指标来识别潜在的瓶颈。
  • 让最终用户报告任何异常情况。

成功更新 LifeKeeper 的最佳实践

为了确保清晰和简单,我们建议一次实施一个更新或补丁,并在继续下一个更新或补丁之前测试其影响。这种方法有助于隔离每个操作的影响,从而更容易确定哪种方法最有效并避免潜在的并发症。

作为操作系统升级过程的一部分,我们建议重新运行 LifeKeeper for Linux 安装脚本,以确保所有配置都已更新并与新环境兼容。这有助于防止潜在问题并确保升级后一切正常运行。

如果您在升级前有任何问题,请联系support@us.sios.com或在支持门户中打开案例:

https://supportportal.us.sios.com/User/Login
通过遵循这些步骤,您可以最大限度地降低与软件更新相关的风险,同时确保系统稳定性和性能。如需更多信息或其他帮助,请访问我们的联系我们页面与我们的专家团队联系。

作者:

比尔达内尔

SIOS Technology Corp. 高级产品支持工程师

经许可转载西欧斯

Filed Under: 新闻与活动

  • 1
  • 2
  • 3
  • …
  • 84
  • Next Page »

最近的帖子

  • 使用 SIOS LifeKeeper 对非集群感知应用程序进行集群化
  • 99.99% 正常运行时间:平衡高可用性和维护
  • 视频:EGGER借助SIOS LifeKeeper for Linux实现99.99%正常运行时间
  • 携手共进:伙伴关系如何推动现代灾后重建
  • 掌握本地数据中心高可用性的三大关键要素

最热门的帖子

加入我们的邮件列表

Copyright © 2025 · Enterprise Pro Theme on Genesis Framework · WordPress · Log in