部署安全且高可用性 IT 系统的挑战
《智能 CIO》 11 月刊登了一篇引人注目的署名文章,作者是 SIOS 客户支持工程师 Phil Merry,他讨论了部署安全且高可用性 IT 系统所面临的挑战。
经许可转载西欧斯
SIOS SANless clusters High-availability Machine Learning monitoring
《智能 CIO》 11 月刊登了一篇引人注目的署名文章,作者是 SIOS 客户支持工程师 Phil Merry,他讨论了部署安全且高可用性 IT 系统所面临的挑战。
经许可转载西欧斯
在本期《Let’s Talk》中,SIOS Technology 的高级技术推广员 Dave Bermingham 讨论了视频管理系统 (VMS) 中高可用性 (HA) 对于安全应用的重要性,重点关注了保护重要组件等挑战。
经许可转载西欧斯
企业越来越多地使用多个云服务提供商来保持灵活性和可扩展性;然而,最近发生的 CrowdStrike 中断等事件凸显出,即使是顶级系统也会遇到问题,尤其是更新和安全补丁。本次网络研讨会讨论了实施多云高可用性 (HA) 解决方案的最佳实践,以确保您的关键任务应用程序在意外中断期间正常运行。它还介绍了防止因系统配置错误或有问题的补丁而导致停机的策略,确保您能够有效地管理云基础设施。
观看点播网络研讨会,了解如何在您的环境中实现 HA 并最大限度地减少可预防的停机时间。
经许可转载西欧斯
当我还是一名在坦克营服役的海军陆战队员时,我记得我们都做好了在发射炮弹前听到“开火”的准备。即使你没有听到其他人喊这个,我们也有无线电/通讯、手势/手臂信号、旗帜、信号弹等来表示一切“准备就绪”,炮弹正在射程内。我们都知道沟通至关重要。
如果您是数据库管理员、服务器工程师或负责集群上应用程序资源运行状况的 IT 通才 (数据管理员存储)方面,沟通对您来说也至关重要。例如,您如何通知其他人您扩展存储的努力?为了取得成功,您可能需要与团队中的其他几位成员就与您的源卷和目标卷相关的广泛主题进行沟通,其中包括:
当需要配置现有的 DataKeeper 镜像时,您的团队中谁会大喊“火在洞里”?您不想在之前和之后收到通知吗?
您的 DataKeeper 存储需要一些需要传达给所有利益相关者的事项;内部或外部(托管):
海军陆战队:“你准备好了吗?”
其他海军陆战队员:“是的!”(当然,有些脏话,我们是海军陆战队员!哈哈)
海军陆战队:“洞里有火”
DataKeeper 管理员:“暂停并解锁镜像”又名“洞中之火”
准备好优化您的存储以实现高可用性了吗?与 SIOS 专家联系今天确保您的集群大小调整顺利、高效且可扩展。
经许可转载西欧斯
作为客户支持组织,我们每天都会收到来自世界各地客户的消息。客户在遇到需要帮助的问题或问题时会打电话或发电子邮件向我们提出案例。有些案例最终成为新问题,而许多案例最终根本不是新问题。客户似乎一次又一次地遇到同样的问题。在从事客户支持工作 20 年并处理了数千个案例之后,我们仍然会看到从未报告过的新问题,这些问题也属于常见类别。这让我们的工作非常有趣!我们注意到的一件事是,客户报告的问题属于常见类别。
很多时候,客户需要更改集群中的 IP 地址。有时,更改网络配置的后果是无法实现的,或者事先没有计划好。更改网络后,集群可能会出现意想不到的问题。如果更改的 IP 地址用于 DataKeeper 和 LifeKeeper 配置(例如镜像端点或通信路径),则需要更改 DataKeeper 和 LifeKeeper 配置,以便产品能够感知到此更改。
提前计划
如果您知道需要进行网络更改,我们建议您提前规划网络更改。提前规划将避免任何不可预见的问题,并确保您已定义实施更改的步骤。
更新镜像 IP 地址
如果 IP 地址(镜像端点)发生变化,DataKeeper 将无法再使用原始镜像 IP 地址(因为它不再存在),并且无法在服务器之间镜像数据。DataKeeper 需要更新才能使用新的镜像 IP 地址。此场景已记录这里。
通常,所报告问题的根本原因最终都是配置问题。客户报告他们的配置无法正常工作,或者从产品 GUI 上看到的产品似乎无法正常工作。通常,配置问题是由于集群环境中的某些东西与原始集群配置不同,或者是由于产品首次安装时设置不正确而导致的。
报告的常见配置问题示例:
很多时候,客户需要扩展/增加卷。产品的关键要求之一是源卷必须等于或小于目标卷,否则产品将无法将数据从源重新同步到目标卷。虽然这似乎合乎逻辑,但经常被忽视。有时目标卷最终会小于源卷,这导致卷无法达到镜像状态。以下文档和视频解释了扩展卷的过程DataKeeper 卷。
安装 DataKeeper 时,系统会提示用户输入 DataKeeper 服务要使用的登录凭据。建议使用具有管理员权限的域帐户,大多数客户都会专门为 DataKeeper 创建帐户。必须将使用的域帐户添加到本地系统管理员组。此帐户必须在安装 DataKeeper 的每台服务器上都具有管理员权限。很多时候,帐户未添加到本地系统管理员组,这会阻止 DataKeeper 连接到自身和集群中的其他 DataKeeper 服务器。有关更多详细信息,请参阅位于这里。
大部分时间的配置问题需要对集群进行更改,以使 DataKeeper 或 LifeKeeper 产品再次恢复到工作环境。
我们建议在对集群环境进行更改之前联系支持人员,以便我们帮助确保您朝着正确的方向前进,并为您提供有关该主题的文档和视频。
升级是系统管理员的常见任务。每当有新版本发布时,总是需要升级系统中的某些内容:操作系统、应用程序软件、系统固件、数据库软件、安全软件等。如果您的系统需要进行多项升级,那么升级工作可能会非常繁重。
许多客户在计划升级 DataKeeper 或 LifeKeeper 时会联系支持人员,并在实际实施升级之前询问问题以确保他们了解升级过程。这正是我们希望看到的。我们确实看到一些客户在执行升级之前没有联系支持人员,从而导致意外问题的情况。许多人认为升级是例行公事;然而,有些升级会造成不兼容并可能导致问题。
升级规划
规划是升级的关键,同时还要了解具体升级需要做什么。在执行升级之前提出问题。确保在升级之前记录您的步骤。不要忘记在升级生产系统之前在测试或 QA 系统上执行升级。这是我们推荐的最佳做法,这样如果您在升级时遇到问题,问题将出现在测试服务器或 QA 服务器上,而不是生产服务器上。
什么是外部或操作系统相关问题?当报告的问题超出 DataKeeper 和 LifeKeeper 的范围时,我们将根本原因称为外部或操作系统相关问题。DataKeeper 和 LifeKeeper 使用许多服务器组件,例如:磁盘/卷和网络。如果操作系统无法“看到”磁盘或卷,则 DataKeeper 和 LifeKeeper 也无法“看到”磁盘或卷。乍一看,报告的问题似乎与 DataKeeper 或 LifeKeeper 有关,但是,在分析问题时,它被确定为 DataKeeper 或 LifeKeeper 所依赖的操作系统组件。
例如,为了使 DataKeeper 镜像正常运行,DataKeeper 要求卷对操作系统可见、在线、健康且具有有效的文件系统。如果不满足这些要求,DataKeeper 镜像将无法将数据从一个系统镜像到另一个系统。DataKeeper 将显示镜像处于暂停状态。调试此问题时,磁盘/卷的 Windows 磁盘管理工具显示卷处于脱机状态、不健康状态或为原始设备。纠正此问题后,DataKeeper 可以再次将数据从一个系统镜像到另一个系统。有关更多详细信息,请参阅视频“准备用于 DataKeeper 的存储”,位于这里。
另一个外部或操作系统相关问题的例子是 DataKeeper 卷无法锁定在目标系统上。DataKeeper 故意锁定目标系统上的卷,以防止在目标系统上发生写入。为了让 DataKeeper 锁定目标卷,卷上不能有操作系统页面文件。很多时候,系统在操作系统级别配置为“自动管理页面文件”,有时页面文件最终会被操作系统放置在 DataKeeper 卷上。为了解决这个问题,我们建议更改此操作系统设置。请参阅此链接了解更多详情。
客户还联系我们,希望通过镜像来改善镜像性能和系统性能,因为镜像无法进入镜像状态,或者产品降低了系统性能。第一个问题(镜像无法达到镜像状态)只需调整 DataKeeper 中的注册表项以匹配您的系统配置,使用可调整项(例如 WriteQueueHighWater、WriteQueueHighWaterSynchronous 和 BlockWritesonLimitReached)即可。这些可调整项是几个经常更改的可调整项。请参阅位于以下位置的这些可调整项的文档这里。
第二个问题(系统性能)只是移动 DataKeeper 位图的位置的问题。默认情况下,位图位于 C 驱动器上,可能需要重新定位到更快的驱动器。有关重新定位位图的信息,请参阅文档和视频这里。
系统和产品调优通常是为了最大限度地提高性能。这些变化的例子包括更改产品可调参数以更紧密地匹配客户的环境。有很多因素会影响 DataKeeper 和 LifeKeeper,包括操作系统、网络、存储设备等。DataKeeper 和 LifeKeeper 使用默认设置,可能需要根据客户的特定环境进行调整。我们确实提供验证和健康检查服务,以帮助客户确保实施 HA 最佳实践。访问此链接了解我们产品的详细信息。
我们推荐的关键策略是确保在投入生产之前完成测试,以便尽早发现和解决问题(包括性能问题)。测试通常在进入生产环境之前在测试或 QA 环境中进行。最好尝试在测试/QA 环境中模拟生产环境负载,以确保生产环境能够充分运行。我们建议您阅读我们关于性能的几篇博客,网址为我们的博客特别是在这里。
提前解决这些常见问题,确保您的系统平稳运行。需要专家指导吗?立即联系我们的支持团队帮助您避免将来的支持电话!
经许可转载西欧斯