SIOS SANless clusters - 第2页共216页 - SIOS SANless clusters High-availability Machine Learning monitoring

3月 30, 2026

高可用性架构指南

主动-主动和主动-被动是两种不同的架构配置。高可用性集群中的服务器节点双活架构是指两台服务器都处于开机状态并处理数据。双被动架构则截然不同，它只有一台服务器处于活动状态处理数据，而备用服务器则处于非活动状态，以便在活动服务器发生故障时接管控制权。

高可用性系统和核心组件

高可用性其核心在于消除单点故障，这意味着，如果某个节点出现问题，另一个节点可以接手该节点的工作。

高可用性系统的关键组成部分：

一个带有内存和电源的主处理核心节点
一个带有内存和电源的备用处理核心节点
两个核心组件之间的通信链路
本地存储或核心组件之间共享的存储

主动-主动架构

在双活架构中，两台相同的服务器同时运行，均处于活动状态，且都能处理事务。事务可以由任一服务器处理。

主动-主动架构的优势

两台服务器始终处于运行状态，而其他配置中则存在一些在正常运行期间未使用的节点。潜在优势如下：

可扩展性，尤其是利用云平台，使得高峰使用问题成为过去。
可以平衡服务器的工作负载，避免单台服务器过载。
总体而言，在硬件数量相同的情况下，吞吐量有所提高。

可扩展性

在云平台上，双活架构具有很强的可扩展性。例如，可以使用 AWS AutoScale 按需添加更多 EC2 实例，使集群能够扩展以应对数据高峰。

负载均衡

可以在节点上游配置负载均衡器，将事务发送到负载较轻的服务器，从而确保集群内的流量均衡，以确保工作项的高吞吐量。

主动-主动用例

数据量大、事务处理量大以及多节点托管应用最适合采用主动/主动配置。以下是一些示例：

多节点、全球分布式数据库系统
用于实时应用的数学数据处理
大数据/数据仓库
高流量网站托管
电信网络和短信

主动-被动架构

在主备架构中，集群环境采用两台服务器。一台服务器被指定为活动模式，负责执行处理任务。另一台服务器则处于备用模式，不执行任何数据处理，但随时准备在需要时接管。故障转移来自活动节点或用户签发的切换来自活动节点。

主动-被动架构的优势

由于同一时间只有一台服务器处于活动状态，因此另一台服务器可以享受停机时间（开机但处于待机模式，主要负责满足活动服务器的数据复制需求，随时准备在需要时接管控制权，但实际上不处理任何实际工作）。潜在的优势如下：

集群的功耗降低
延长硬件寿命——组件在较低的负载下运行，且不会持续处于极限状态时，使用寿命更长。
制冷需求减少，制冷量降低，电费也随之降低。
简化的资源视图——资源将在活动节点上处于活动状态
不需要负载均衡器

主动-主动模式与主动-被动模式的成本效益比较

由于集群的处理能力只有一半被用于实际工作，因此在主动-被动配置中，硬件的总体成本相对于可以执行的处理量而言更高，所以其成本效益略低于主动-主动配置。

简化管理

资源将在活动节点上处于活动状态——无需猜测哪个节点当前正在积极托管特定资源。

主动-被动使用场景

必须保持低数据丢失率的重要系统，例如：

金融处理系统
后端零售系统
灾难恢复解决方案
关系型数据库
为中小企业提供成本更低的高可用性
需要简单托管解决方案的遗留系统

灾难恢复解决方案中的双活模式与双活模式

主动-主动模式与主动-被动模式的作用

双活灾难恢复 (DR) 系统部署在地理位置分散的节点上，两个节点都处理生产流量。如果其中一个节点发生故障，工作负载将转移到仍然运行的系统。停机时间虽然一个系统宕机时工作负载处理可能会下降到比正常水平低的程度，但用户中断几乎无法察觉。

主动-被动灾难恢复（DR）系统实现了一种灾难恢复解决方案备用系统会在主系统发生故障时接管。活动节点发生故障时，系统切换过程中会出现短暂的停机时间，但备用节点接管原活动系统后，工作负载水平应该与原系统没有明显差异。

与冗余系统集成

使用冗余系统实施灾难恢复策略，旨在提供一种将活动切换到同步备份系统的能力，该备份系统上的数据与原有活动系统上的数据保持相同状态，并且新的活动系统能够在短时间内上线。在选择实施冗余系统时，还应考虑硬件冗余、通信路径冗余和软件冗余（通过高可用性实现）。

为您的企业选择主动-主动架构还是主动-被动架构

需要考虑的因素

为您的企业选择合适的架构取决于以下因素：

成本，包括如果希望使用云托管节点，则需支付的持续云费用。
是关键任务系统，还是高交易数据系统？
用户对偶尔少量停机时间的容忍度，以及性能要求——例如，因正常运行时间不达标而受到的 FCC 处罚？
节点和存储的地理分散化可降低延迟，并能根据需求增加节点以满足峰值需求。

性能和正常运行时间要求

在确定架构之前，应先明确业务的性能和正常运行时间要求。

对于正常运行时间达到三个九（99.9%），每年仅允许 8 小时停机时间的服务提供方而言，如果故障转移迅速，并且系统得到良好的监控和维护，那么使用主动-被动模式当然可以实现这一点。四个九（99.99%）正常运行时间主要属于主动-主动系统的领域。

还应考虑事务处理级别。如果预计会有大量的连续数据事务处理，则双活配置可能更合适。

主动-主动架构 vs. 主动-被动架构：哪种架构更适合您的企业？

双活和双活系统各有优势。对于企业而言，关键系统（绝对不能宕机）可能更适合采用双活架构。而对于其他可以容忍偶尔停机的系统，双活架构或许是更合适的选择。混合使用多种技术或许更能满足所有系统的需求。企业可以根据自身需求选择合适的方案：规模较大、业务分散的企业可以受益于云托管双活系统的灵活性，而规模较小的企业则可以享受双活架构的简洁性和成本优势。总有一款解决方案适合您。

如果您正在评估双活架构和双活架构在高可用性策略中的应用，申请演示了解 SIOS 如何帮助您为您的企业设计合适的架构。

作者：Paul Scrutton，SIOS 软件系统工程师

经许可转载SIOS

3月 24, 2026

博通/VMware：是时候将高可用性与虚拟机管理程序解耦了

如果您是 IT 架构师、管理员或站点可靠性工程师 (SRE)在 VMware 上管理关键工作负载2026 年伊始，你的系统更新问题可能就让你头疼不已。自从被博通收购后，“博通税”就成了众所周知的成本。从取消永久许可、强制转向大规模订阅套餐，到苛刻的 72 核最低配置要求，“采用 VMware”实际上已经变成了一种强制过度配置。

但还有比价格上涨更大的风险：应用程序停机造成的损失。

“虚拟机重启”谬误：为什么 VMware HA 并非真正的高可用性

多年来，业界一直将“VMware HA”误认为是真正的高可用性。如果主机发生故障，VMware 会在另一台服务器上重启虚拟机。虽然这种重启速度很快，但它并非真正的高可用性。

VMware HA 仅监控物理服务器的“心跳”信号，以确定主机是否正常运行。它无法感知虚拟机内部的情况。因此，它无法检测到挂起的数据库、死锁的应用程序服务或不可用的存储。

当今的关键任务生态系统——SAP HANA，SQL Server，甲骨文而人工智能驱动的GPU系统——仅仅依靠“断电重启”是不够的，它们需要应用层面的保护。

SIOS LifeKeeper：通过应用感知智能实现真正的高可用性

SIOS LifeKeeper 提供对应用程序环境的全面可视性，涵盖网络、存储、操作系统和数据库层。它确保快速、应用感知的故障转移，并遵循特定应用程序的最佳实践，从而提供可靠的正常运行时间，而不仅仅是快速重启。

博通的许可模式实际上会限制您的增长，并将您束缚在其生态系统中，而SIOS则提供了真正的架构自由。我们与平台无关的许可模式允许您将工作负载迁移到AWS、Azure或其他虚拟机管理程序，而不会损失高可用性保护。使用SIOS，您购买的不仅仅是软件，更是摆脱供应商锁定的可靠退出策略。

VMware 价格调整后如何大幅降低总体拥有成本：保护应用程序，而非虚拟机管理程序

Broadcom 不仅要求您购买订阅许可证，而且通常还要求您升级整个 VMware 堆栈或购买臃肿的订阅级别，才能访问单个 Tier-1 应用程序所需的 HA 功能。

为什么要为了保护一个 SQL Server 或 SAP 实例而升级整个基础架构许可证？SIOS 提供企业级高可用性无论 VMware 采用哪种“捆绑”方式来满足 Broadcom 的要求，SIOS 都能与您的应用程序无缝集成。此外，SIOS 还允许您灵活选择购买订阅许可证或永久许可证。

消除SAN和vSAN依赖项的成本和复杂性

许多新的 VMware 套件都在向客户推广 vSAN，在那些每一毫秒都至关重要的环境中，这种趋势尤为明显。SIOS 数据保管器它允许您使用本地高性能 NVMe 存储构建集群。您既能获得集群的保护，又无需承担虚拟 SAN 的专有复杂性或“存储成本”。

SIOS 提供诸如高级数据复制等功能，而这些功能通常被 VMware 限制在其最昂贵的版本中。通过将高可用性与虚拟机管理程序分离，您可以使用更经济的 VMware 许可证来保持世界一流的正常运行时间，从而在下次续订时节省六位数甚至七位数的费用。

VMware HA 与 SIOS LifeKeeper 和 DataKeeper 的比较

特征	VMware HA（vSphere Foundation）	SIOS LifeKeeper 和 DataKeeper
故障转移触发器	仅限主机/硬件故障。	应用程序、操作系统、存储或网络故障。
应用智能	没有。这是一次“黑匣子”式的重启。	SAP、SQL、Oracle 等系统的恢复工具包。
云灵活性	需要特定的 VMware 云堆栈。	原生支持 AWS、Azure、GCP 或混合环境。
存储模型	依赖于 vSAN 或共享存储。	通过本地 NVMe/SSD 构建无 SAN 集群。
许可	复杂、基于核心、捆绑包较多。	可预测、便携、以应用为中心。您可以选择永久使用权或订阅制。

利用应用级高可用性，重获基础设施自由

SIOS 让您可以灵活地按照自己的方式保持高可用性，同时评估您与博通的长期合作关系。

选择 SIOS，您即可自由地在不同平台之间迁移工作负载。VMware，Nutanix或者，无需重写脚本或重新培训团队即可使用公有云。正常运行时间取决于应用程序环境的健康状况，而不仅仅是服务器的电源指示灯。

如果您感觉即将续约陷入僵局，那么是时候将高可用性从虚拟机管理程序转移到应用程序层了。

立即申请演示了解 SIOS 如何在 VMware、云和混合环境中提供应用级高可用性。

作者：Margaret Hoagland，SIOS全球销售和市场营销副总裁

经许可转载SIOS

3月 17, 2026

如何提高技术支持中的客户满意度

我们的客户遍布全球。我们说着不同的语言，身处不同的时区，分布在不同的国家。但在技术支持方面，我们有很多共同之处。我们都希望在遇到问题需要帮助时获得最佳支持。那么，我们究竟想要并期待获得最佳支持，这究竟意味着什么呢？支持实际上是指IT团队吗？

6 客户对技术支持团队的期望

以下是我们的客户告诉我们他们对技术支持团队的期望。

倾听客户的声音

客户（和其他人一样）都希望被倾听。与客户沟通时，重要的是让客户描述问题。作为支持工程师，请做好笔记，认真倾听客户的描述，并提出后续问题以收集重要信息。不要在客户说话时打断他们。为了确认您理解了客户的陈述，请总结客户所说内容。概括行动方案，确保每个人都理解一致。不要在客户描述问题之前就自以为知道问题所在。

与真人交谈

顾客仍然更喜欢与“真人”交谈而不是自动语音/人工智能/聊天机器人。客户喜欢直接与了解产品的客服人员对话，而不是听从脚本。没有什么比打电话寻求帮助时，却不得不经历多个自动化流程才能联系到“真人”更令人沮丧的了。很多时候，你最终会原地打转，回到最初的问题！宝贵的时间可能就这样白白浪费在试图联系到“真人”客服人员上。顾客来电寻求帮助我们强烈建议您通过视频会议与支持团队实时沟通问题。一图胜千言！根据我们的经验，如果无法提供直观的视觉信息，也无法让客户实时提问，那么解决问题所需的时间将会大大延长。

全天候24小时服务

我们的客户遍布全球，他们希望随时联系客服。我们提供每周7天、每天24小时全天候支持。为了满足这一需求，我们在全球各地设有多个团队，全天候24小时提供服务。客户需要我们的时候，我们随时待命。我们制定了相关流程，以便在我们的团队成员需要紧急协助时，及时升级处理案例。关键停机问题这会影响客户的业务。我们的客户使用我们的高可用性和灾难恢复软件，而我们的技术支持团队随时准备提供帮助，从而强化了这一目标。

经验丰富的支持工程师

客户没有时间跟无法提供帮助、需要把电话转接给其他人的客服人员通话。客户希望直接与能够解答他们疑问、解决问题的支持工程师沟通。SIOS我们始终致力于确保客户能够快速联系到我们经验丰富的技术支持团队成员，以便尽快解决问题。根据我们的客户调查，客户对我们的技术支持团队非常满意！我们的支持团队平均拥有16年的支持经验；这种专业技能使我们能够快速有效地解决各种问题。问题能够迅速得到解决，通常无需升级案件。转至另一组客户。客户很欣赏那些经验丰富的员工，他们可以通过视频会议提供基于多年经验的实时帮助。

保持透明

客户重视透明度，他们想了解真相。不要做出无法兑现的承诺。务必确保客户明白您将采取哪些措施来帮助他们解决问题，以及您何时会再次与他们联系。在推进过程中，向客户解释需要执行的步骤，并确保在执行任何步骤之前都已获得客户的批准。许多客户在对其系统进行更改之前都需要获得预先批准。系统为了保持透明度，及时向客户提供支持流程的最新进展至关重要。即使你的更新内容只是“我们仍在分析日志”，也要告知客户，让他们了解最新情况。不要说他们想听的话，要告诉他们真相。

客户调查

对于客户提交的每一个技术支持案例，案例结束后我们都会向客户发送一份调查问卷。这让客户有机会提供反馈，以便我们的团队能够持续改进产品、文档和支持服务。我们的支持团队每周至少查看一次客户填写的调查问卷，并回复客户的疑问、想法和改进建议，告知他们我们针对这些反馈采取了哪些措施。客户经常感谢我们快速解决他们的问题，并感谢我们认真对待他们在案例结束后留下的反馈，展现了我们对他们成功的承诺。

客户对全天候高可用性/灾难恢复技术支持团队的期望

客户联系技术支持HA/DR产品他们希望听到的是真人而非机器人的声音。他们期待与经验丰富的客服人员沟通，这些客服人员不仅能够解决他们的问题，而且在整个过程中都保持透明。通过提供全天候24小时的人工服务，我们向客户表明，无论何时何地，只要他们需要帮助，我们都会随时待命。如今的技术支持不仅仅是解决工单，更重要的是建立信任、倾听客户的需求，并在客户需要帮助时始终保持可靠和诚实。

正在寻找了解高可用性/灾难恢复 (HA/DR) 的技术支持团队？安排时间与SIOS HA专家会面了解我们如何实现高可用性、自动恢复和可靠的集群部署。

作者：桑迪·汉密尔顿SIOS产品支持工程总监

经许可转载SIOS

3月 13, 2026

保障建筑物安全：维护和安防系统的高可用性

在本集中TFiR：我们来谈谈，主持人 Swapnil Bhartiya 接受采访戴夫·伯明翰SIOS Technology 的客户成功总监谈到了高可用性和弹性为何对企业至关重要。楼宇维护和安保系统伯明翰解释了这些系统与其他楼宇技术的区别，以及它们之间经常存在的交互方式，并阐述了不间断运行对于保障居住者安全和楼宇功能的重要性。对话探讨了组织如何平衡安全性和可访问性，人工智能、机器学习和物联网等新兴技术在提升可靠性方面的作用，以及通过冗余、监控和风险规划来确保系统可用性的最佳实践。

作者：Beth Winkowski，SIOS Technology Corp. 公共关系部

经许可转载SIOS

3月 6, 2026

通过模块化和抽象化设计高可用性

迄今为止，本系列文章探讨了技术设计与修辞之间的相似之处。技术方案的“修辞”，即传达意义和目的的策略，是通过设计模式和概念来呈现的。设计模式和概念作为概念基础而存在，其意义在实施过程中转化为可应用的形式。

如前所述，这种连续性和完整性概念基础确保解决方案始终保持符合维护、改进和长期可靠性标准的要求至关重要。外部影响解决方案设计的因素挑战旨在维护解决方案设计中提出的概念基础的目标。这些外部因素可能与既定原则相冲突，因此，解决方案中使用的工具、应用程序和平台必须经过慎重选择。

在本博客系列的第三部分也是最后一部分中，我们将探讨模块化和抽象化作为一种设定界限的手段，以确保范围广泛的项目能够继续从结构良好、论证合理的设计中获益。

高可用性设计原则：为什么模块化和抽象化至关重要

在探讨模块化和抽象化这两种策略之前，首先需要理解为什么要实施它们。我们可以用一个类比来说明：演讲者为了说服听众接受自己的方案，首先需要阐述几个基本要点。这样，他们就能逐一提出并论证论点的各个支柱。

演讲者首先必须建立“A蕴含B”和“C蕴含D”的基础，在此基础上才能构建“B和D蕴含E”的论证。这种策略确保了“A蕴含B”的推理不会与“C蕴含D”这一独立论点相互干扰，从而避免削弱后者。这种策略之所以被广泛运用，是因为它允许演讲者论证的每个组成部分独立存在。即使“C蕴含D”的论证存在缺陷，也可以通过其他方式加以修正，而“A蕴含B”的论证仍然有效。

这种结构的原因与技术系统采用去中心化的原因相同——销售点系统的问题可以单独解决，而无需将修复工作扩展到数据库、API、网络架构等等。上述策略当然是指模块化和抽象的概念。

高可用性架构中的模块化

首先，谈到模块化，它指的是用自包含的组件构建系统。从修辞意义上讲，“A蕴含B”和“C蕴含D”这两个论证仅仅是推理模块，它们被组合成一个完整的论证。

更具体地说，模块化组件（例如前面例子中的销售点系统）允许在问题产生的模块内部完全解决问题。解决方案中的每个模块都像一个构建块，单个构建块中的问题无需拆卸整个解决方案即可解决。

抽象化作为可扩展基础设施设计的一种策略

与模块化密切相关的是“抽象”。抽象是指确保整体解决方案的设计独立于构成该整体解决方案的各个模块的设计，并且与这些模块的设计无关。

此外，抽象作为一种设计策略，其核心在于每个模块都是独立且与其他模块的设计无关的。当解决方案采用抽象元素时，这些元素可以被重用并应用于各种用例，从而在整个项目中加深理解。

设计“不碍事”的高可用性

当设计采用模块化组件时，需要划定边界。这些边界确保每个模块都能“互不干扰”。当组件被抽象化后，每个模块的内容就更容易理解。

反过来，这些边界构成了一种结构，通过这种结构可以理解设计；而边界内的抽象则为理解用例的基础提供了切入点。模块化和抽象所提供的结构，与修辞在构建理解目的的框架中所起的作用相呼应。

利用模块化高可用性解决方案管理复杂的网络架构

随着技术解决方案的不断开发以应对日益复杂的问题，对这些解决方案设计中稳固框架的需求也日益增长。网络架构通常是众多本身就十分复杂的解决方案的最终产物，它完美地诠释了日益复杂的问题以及对稳固设计框架日益增长的需求。此外，网络架构往往面临着持续增长的挑战，因为它必须整合为实现业务目标而不断扩展的庞大系统网络。

在此基础上，解决方案架构还必须采用以下解决方案：高可用性和/或灾难恢复这会造成设计冲突的发生，但可以通过模块化和抽象化的策略轻松缓解。

在SIOS高可用性软件中应用模块化和抽象化

好处高可用性软件无需繁琐的设计和临时拼凑的解决方案，即可实现高可用性。SIOS LifeKeeper 就是一个符合设计规范的高可用性工具示例，其运行原理能够与使用环境无缝集成。

LifeKeeper 采用模块化设计，不会对受 LifeKeeper 保护的系统之外的系统提出任何要求。LifeKeeper 还有助于将基础设施组件抽象成易于管理的小单元——协同工作以确保可用性的系统被分组到一个“集群”中。

通过这种抽象，环境的逻辑依然清晰——理解一个集群的构成是理解所有集群的基础。设计的各个层级可以根据其用途进行理解；无需对不同实现方式的差异进行特殊标注和考量。由于各个集群独立于其他集群或外部解决方案组件运行，因此可以划定一个边界，将每一层级的设计元素包含在其中，从而避免与其他基础设施层级发生冲突。

利用 SIOS 保护套件构建长期弹性基础设施

就像任何软件或工具一样，SIOS 保护套件SIOS LifeKeeper 和/或 SIOS DataKeeper 会影响其使用环境的设计。虽然这些模式的引入源于 LifeKeeper 和 DataKeeper 的保护环境，但 SIOS LifeKeeper 和 SIOS DataKeeper 精心挑选了所使用的模式，以确保这些模式能够实现整个解决方案的抽象和模块化。由于 LifeKeeper 和 DataKeeper 实现了分层抽象，这些实用程序的引入有助于与 IT 基础架构集成，从而保持解决方案设计的一致性。

由于采用了特定的设计模式，由 SIOS Protection Suite（LifeKeeper 和/或 DataKeeper）保护的集群构成了一个抽象且模块化的元素，能够无缝集成到现有的设计和解决方案中。LifeKeeper 和 DataKeeper 的功能远不止简化单个系统或各个集群的管理；它们还与部署过程中遵循的原则相契合。

借助 SIOS Protection Suite，基础设施的创建变得更加简单高效。该套件提供了一种简便的方法来理解系统在设计中的作用，同时还提供了一种简便的方法来实施高可用性和灾难恢复。管理员可以将 LifeKeeper 和 DataKeeper 作为工具，在未来数年内更好地理解、操作和改进解决方案。

了解高可用性如何在不增加复杂性的情况下支持您的基础架构设计。立即申请演示！

作者：Philip Merry，SIOS 的客户体验软件工程师

经许可转载SIOS

SIOS APAC Portal

主动-主动 vs. 主动-被动

主动-主动 vs. 主动-被动

高可用性架构指南

高可用性系统和核心组件

主动-主动架构

主动-主动架构的优势

可扩展性

负载均衡

主动-主动用例

主动-被动架构

主动-被动架构的优势

主动-主动模式与主动-被动模式的成本效益比较

简化管理

主动-被动使用场景

灾难恢复解决方案中的双活模式与双活模式

主动-主动模式与主动-被动模式的作用

与冗余系统集成

为您的企业选择主动-主动架构还是主动-被动架构

需要考虑的因素

性能和正常运行时间要求

主动-主动架构 vs. 主动-被动架构：哪种架构更适合您的企业？

博通/VMware：是时候将高可用性与虚拟机管理程序解耦了

博通/VMware：是时候将高可用性与虚拟机管理程序解耦了

“虚拟机重启”谬误：为什么 VMware HA 并非真正的高可用性

SIOS LifeKeeper：通过应用感知智能实现真正的高可用性

VMware 价格调整后如何大幅降低总体拥有成本：保护应用程序，而非虚拟机管理程序

消除SAN和vSAN依赖项的成本和复杂性

VMware HA 与 SIOS LifeKeeper 和 DataKeeper 的比较

利用应用级高可用性，重获基础设施自由

如何提高技术支持中的客户满意度

如何提高技术支持中的客户满意度

6 客户对技术支持团队的期望

倾听客户的声音

与真人交谈

全天候24小时服务

经验丰富的支持工程师

保持透明

客户调查

客户对全天候高可用性/灾难恢复技术支持团队的期望

保障建筑物安全：维护和安防系统的高可用性

保障建筑物安全：维护和安防系统的高可用性

通过模块化和抽象化设计高可用性

通过模块化和抽象化设计高可用性

高可用性设计原则：为什么模块化和抽象化至关重要

高可用性架构中的模块化

抽象化作为可扩展基础设施设计的一种策略

设计“不碍事”的高可用性

利用模块化高可用性解决方案管理复杂的网络架构

在SIOS高可用性软件中应用模块化和抽象化

利用 SIOS 保护套件构建长期弹性基础设施

加入我们的邮件列表

搜索