服务器集群简单化 Archives - 第2页共93页

网络研讨会：在云中实现 HA/DR 目标

注册参加点播网络研讨会

关于云 SLA 似乎仍然存在混淆。云可用性 SLA 涵盖基础设施可用性，但 SAP、SQL Server 和 Oracle 等应用程序呢？您的应用程序是否需要云中的可用性、高可用性或灾难恢复保护？此 Actual Tech Media MegaCast 会议介绍了如何在云中实现关键任务应用程序的 HA/DR 目标。

R经许可制作西欧斯

优化 IT 系统以实现高可用性的策略

保持 IT 系统的高可用性 (HA) 对组织的成功至关重要。从关键数据库管理到确保无缝客户体验，实现不间断运营面临着独特的挑战，需要战略规划。以下是组织可以利用的一些关键策略来优化其 IT 系统以实现高可用性。

优化 IT 系统以实现高可用性的常见挑战

有几个不同的领域开始对 IT 系统构成挑战。其中一个经常出现的问题是与防病毒 (AV) 解决方案的兼容性。问题往往源于防病毒软件对系统的过度保护以及隔离对应用程序或 HA 解决方案运行至关重要的文件。当然，验证解决方案之间的兼容性始终很重要，但更进一步来说，对于管理系统的每个人来说，熟悉 AV 解决方案的工作原理并了解配置/请求更改 AV 解决方案的程序总是有好处的，这样关键的应用程序就不会中断。

除了 AV 解决方案外，防火墙配置也很重要——HA 解决方案通常会通过网络传输额外的通信来协调集群行为。因此，通常需要添加特定规则来适应 HA 解决方案，以防止 HA 解决方案执行错误的集群恢复操作。

最后，在配置高可用性系统时，访问控制原则会变得稍微复杂一些。虽然各个团队（例如，数据库团队、SAP 团队、云团队 – 无论事物如何分布）都需要各自域的权限，但管理 HA 解决方案的任何管理员都可以看到他们拥有通过 HA 解决方案可访问的额外权限（例如，启动应用程序的故障转移、在节点之间建立通信、锁定/解锁存储等）。因此，在委派访问权限时，考虑通过 HA 解决方案可执行的操作非常重要。可能只允许根级用户使用 HA 控制，或者您可以定义通过 HA 解决方案采取行动的程序，以便通知团队并跟踪操作。无论如何，从最小特权原则的角度来看，HA 解决方案具有复杂性，应考虑到这一点，以确保应用程序和系统只能由委派方访问和更改。

故障转移和灾难恢复策略在确保系统正常运行中的作用

故障转移功能和灾难恢复 (DR) 策略都对关键系统的正常运行时间有重大影响。显然，HA 可以提供故障转移功能，以确保单服务器问题不会导致应用程序套件中断，并且如果配置正确，故障转移几乎可以无缝进行。这允许在故障系统上进行恢复，同时备用系统将发挥主要作用来承担负载。当然，灾难恢复可以与 HA 策略紧密交织在一起。如果已经配置了冗余，为什么不确保这种冗余存在于故障域中呢？如果观察得当，应用程序可以具有高可用性和容错能力。从 IT 角度分析这些结果时，正确配置的 HA 和 DR 策略可以确保系统得到最大程度的利用，同时将停机时间降至最低。托管应用程序的地区发生的自然灾害或技术故障不太可能传播到其他地区。将计划的冗余与灾难恢复计划结合起来，可以用更少的资源满足更多的功能需求——因为仔细的规划可以确保冗余和容错都由备用站点的部署来处理。

平衡成本效益和高可用性：组织策略

配置集群环境或高可用性系统的成本可能很高。通常，至少有一个备用系统与主系统一起运行，尽管没有处理工作负载，但仍然会产生成本——但这些成本是可以降低的。以下是我建议的几种方法：考虑使用托管共享存储解决方案。如果您不需要数据的冗余副本，则可以使用共享存储来节省存储空间。像 Amazon EFS 这样的解决方案可能意味着您只需支付一半的存储费用，而不是复制磁盘配置。

考虑 DR 系统的用例。通常，这些系统只是在主站点恢复期间的权宜之计。资源不会在 DR 站点上运行很长时间，因此 – 根据工作负载 – 您可能能够在 DR 站点上配置较小的系统以节省计算成本。当然，您需要与利益相关者沟通设计决策，以便每个人都知道 DR 站点不是长期托管解决方案 – 但只要您的工作负载和员工能够处理增加的限制，就可以节省实例大小。同样，不会托管工作负载而仅在集群内协调的编排器和/或仲裁系统可能比委派给的系统工作负载小得多。

考虑使用扩展或横向扩展的解决方案。扩展意味着增加单台机器的计算能力——在云环境中，这涉及当工作负载压倒较小实例时，将其资源池增加到较大实例的资源池。横向扩展意味着在需要计算能力时增加将共享应用程序负载的工作人员数量。显然，用例决定了何时何地扩展或横向扩展是更好的解决方案——但通过熟悉手头的软件和环境，您将能够做出决策并配置系统以在需要时采取适当的行动。扩展解决方案需要考虑的另一件事是考虑您的缩减规则的积极性。为了节省成本，确保实例将缩减到适当的资源池——并评估规定缩减行为的规则，以确保您不会将过多的资源配置时间延长到需要的时间。在 IT 团队、利益相关者、网络安全团队和 HA 供应商之间建立良好的沟通。确保有沟通的基础可以促进任何技术或环境升级的合作推出。此外，通过保持沟通畅通，所有团队将更了解系统上发生的活动。让所有团队保持最新状态至关重要，可以更轻松地诊断问题或在必要时开始回滚程序。最后，保持良好的沟通还可以确保团队之间有效地共享最佳实践，以便团队能够合作，而不是按照不同的原则运作。

实现高可用性：最佳实践

对于任何部署系统的人，我建议的第一个也是最重要的做法是维护一个测试环境。使测试环境尽可能接近生产环境，并对生产环境中将发生的任何程序进行试运行，以便团队在生产部署时熟悉程序和运行手册。这种做法也融入了我为系统提供的其他最佳实践中。通过维护您的测试环境，您还将维护一个可用于预先测试任何更改的系统。测试环境是验证产品兼容性和确保技术之间相互操作的任何考虑都得到充分建立的最佳场所。我一次又一次看到的一个很好的例子是配置防病毒软件的排除项——有些情况下这些排除项没有配置，生产环境会遭遇中断，因为防病毒软件可能会隔离一个访问频率非常高的文件。最后，确保您定期审核您的配置。检查安全组、访问控制、防火墙规则和软件兼容性（尤其是 HA、受保护的应用程序和防病毒软件之间的兼容性）等各个方面。保留一份完整的日志，记录这些审计结果以及由此做出的任何更改——跟踪这些详细信息可以提供可靠的记录，如果配置更改似乎导致问题，则可以查看这些记录。此外，在向供应商请求支持时，这些审计可以成为一种极好的工具，可以更快地进行全面的根本原因分析。最重要的是，这些审计将提供应如何配置的记录——如果与规定的配置有任何变化，可以参考过去的审计结果，重新调整系统以符合组织的系统配置标准。

SIOS 深知，优化 IT 系统以实现高可用性对于组织的成功至关重要。通过解决防病毒解决方案的兼容性挑战并微调防火墙配置，组织可以增强系统弹性和正常运行时间。今天与我们联系以获取更多信息。

经许可转载西欧斯

SIOS 技术有助于在高可用性和云成本之间取得平衡

5月 26, 2024 by Jason Aw Leave a Comment

SIOS 技术有助于在高可用性和云成本之间取得平衡

Watch this video on YouTube

在两者之间找到适当的平衡高可用性成本优化可能具有挑战性。 SIOS Technology 的高级技术布道师 Dave Bermingham 谈论了影响云成本的一些关键因素以及一些优化成本的策略。他说：“我们专注于实用且有效的策略，这些策略不仅有助于降低与部署高可用性相关的成本，而且除了最大限度地减少与计划维护相关的停机时间之外，还有助于最大限度地减少意外停机时间。”

影响云环境成本的关键因素

影响高可用性配置中的云成本和优化成本的关键因素包括高效的资源管理、战略架构决策和持续监控。
Bermingham 讨论了选择正确的实例、类型和大小来满足工作负载要求的重要性，以及自动扩展如何帮助降低成本和优化云支出。
伯明翰强调，如果跨多个时区部署高可用性解决方案，则考虑数据传输成本的重要性，并且您可以使用策略来最大限度地减少费用。
其他关键考虑因素包括优化存储以及实施有效的治理和成本管理政策。

在云中寻找高可用性和成本优化之间的平衡

Bermingham 解释说，虽然高可用性会产生一些费用，但这抵消了与任何停机相关的成本，而停机时间可能是巨大的。
通过创建模块化和可扩展的系统以及采用 DevOps 文化和利用 CI/CD 实践的运营策略，在高可用性和最小化云成本之间取得平衡非常重要。

云成本优化和高可用性挑战

Bermingham 强调了在不影响高可用性的情况下优化成本的常见陷阱，例如低估云成本管理的复杂性和忽视应用程序性能监控的重要性。
关于云成本优化最佳实践和实施 HA 解决方案的培训不足通常会导致资源利用效率低下和计划外停机。

SIOS Technology 的高可用性解决方案如何提供帮助

Bermingham 解释了 SIOS 技术如何通过 HA 解决方案帮助应对这些挑战，这些解决方案可简化和自动化不同云环境中的 HA，从而最大限度地降低成本、最大限度地减少停机时间并管理维护。

经许可转载安全操作系统

SIOS LifeKeeper for Linux v 9.8.1 改进了公司管理 HA/DR 的方式

5月 22, 2024 by Jason Aw Leave a Comment

SIOS LifeKeeper for Linux v 9.8.1 改进了公司管理 HA/DR 的方式

Watch this video on YouTube

在当今技术驱动的环境中，公司正在寻求创新的解决方案来有效维护其复杂的应用程序环境。在这个视频中，托德·多恩SIOS Technology 的销售工程师解释了最新版本如何适用于 Linux 的 SIOS LifeKeeper帮助公司保护关键企业系统免受停机和灾难的影响。 “该版本具有新的网页管理控制台。它是独立的，不需要额外的安装或第三方插件，”Doane 说。

经许可转载安全操作系统

在 GenApp 和 QSP 之间进行选择：为您的关键应用程序定制高可用性

5月 17, 2024 by Jason Aw Leave a Comment

在 GenApp 和 QSP 之间进行选择：为您的关键应用程序定制高可用性

GenApp 还是 QSP？这两种解决方案均受 LifeKeeper 支持，有助于防止关键应用程序停机，但了解这些解决方案之间的细微差别对于选择适合您的特定需求的解决方案非常重要。以下是一些功能、优点和潜在用例，供您决定哪些功能最适合您的环境。

GenApp,通用应用程序的缩写，是一种资源类型，允许您在 LifeKeeper 中管理自定义应用程序。借助灵活的框架，您可以使用自己的脚本来执行应用程序可能需要的各种任务，以自动执行故障转移和恢复过程。这种灵活性允许对 LifeKeeper 如何处理启动、关闭、监控、记录操作等进行精细控制，以确保应用程序的高可用性。

QSP或快速服务保护旨在成为保护操作系统服务的快速且简单的方法。 QSP 通过内置的可调整超时来自动执行这些应用程序的监控、故障转移和恢复。此外，您可以创建依赖关系，以便服务可以与需要该服务的其他应用程序一起启动和停止。

我如何选择正确的解决方案？

您需要确定的第一件事是是否可以通过停止并重新启动服务或守护程序来恢复您的应用程序。如果是这样，那么 QSP 可能是保持应用程序正常运行的最佳且最快的解决方案。这是因为它不需要编码，几分钟之内您就可以将应用程序添加为 LifeKeeper GUI 中的 QSP 资源。此外，它是核心产品的一部分，任何编码更新都包含在新产品版本中。但是，如果您的应用程序除了简单的运行状况检查和操作系统服务级别的重新启动功能之外还需要其他功能才能正确恢复，那么您将需要探索 GenApps。为 GenApp 资源类型创建自定义脚本将需要更深入的技术技能和长期维护，但是，执行保持应用程序平稳运行所需的任何任务的灵活性至关重要，尤其是对于利基应用程序。这些任务可以是监视、日志记录、清理任务或配置更改等任何任务。

想要更多技术细节吗？

Linux 和 Windows 版 LifeKeeper 均支持 GenApps 和 QSP，更多技术细节可在下面的链接中找到。

经许可转载安全操作系统