SIOS SANless clusters

SIOS SANless clusters High-availability Machine Learning monitoring

  • Home
  • 产品
    • SIOS DataKeeper for Windows
    • SIOS Protection Suite for Linux
  • 新闻与活动
  • 服务器集群简单化
  • 成功案例
  • 联系我们
  • English
  • 中文 (中国)
  • 中文 (台灣)
  • 한국어
  • Bahasa Indonesia
  • ไทย

如何评估我的网卡是否需要更换

5月 21, 2025 by Jason Aw Leave a Comment

How to Assess if My Network Card Needs Replacement

如何评估我的网卡是否需要更换

网络接口卡 (NIC),通常称为网卡,是任何服务器基础设施的重要组成部分。它使集群中的系统能够相互通信并与外界通信。如果您的 NIC 出现问题,可能会危及您的服务器的正常运行。簇导致虚假节点故障,或增加脑裂风险。及早识别网卡故障迹象可以节省时间,减少停机时间并保持高可用性。

在此博客中,我们将探讨如何评估您的网卡是否需要更换、需要注意的症状以及可以帮助您诊断问题的工具。

NIC 故障的常见症状

  1. 间歇性连接

NIC 故障的首要迹象之一是连接不稳定或断断续续。您可能会注意到丢包、高延迟或难以访问外部主机。这些问题可能会导致节点生命守护者集群暂时失去连接并触发不必要的故障转移。

  1. 网络速度下降

如果系统在执行网络相关任务时表现不佳,例如复制速度慢、应用程序响应迟缓或心跳通信延迟,则可能是由于网卡故障,导致其不再以额定速度运行(例如,1 Gbps 与 10 Gbps)。在集群环境中,复制速度慢尤其令人担忧,因为它会延迟节点之间的数据同步。这不仅会增加故障转移时的恢复时间,还会增加数据丢失或系统状态不一致的风险(如果在复制完成之前发生完全故障)。

3.系统日志显示网络错误

如果内核或系统日志中频繁出现与网卡驱动程序或接口相关的消息,例如“链路断开”、“网卡重置”或“设备无响应”,则表明操作系统在硬件或驱动程序层面与网卡通信存在问题。

  1. 异常发热或物理损坏

虽然并不常见,但物理检查可能会发现诸如烧焦痕迹或过热等损坏。这种级别的硬件问题可能会迅速降低性能甚至导致彻底故障,这在任何环境下都是不可取的。

5.虚拟或云环境中的问题

在虚拟化和云环境中,网卡行为不仅会受到底层硬件的影响,还会受到虚拟机管理程序或虚拟网络层配置的影响。例如,如果使用不兼容/过时的驱动程序,或者即使为虚拟机分配了未针对所需工作负载进行优化的适配器类型,通过 VMware 或 Hyper-V 分配的虚拟网卡的性能也可能会下降。

适用于 Windows 和 Linux 的网卡故障排除工具

尽早诊断 NIC 问题有助于最大限度地减少停机时间并避免不必要的故障转移。以下是识别硬件或驱动程序相关 NIC 问题的重要工具,包括适用于 Linux 和 Windows 环境的选项:

  • ethtool (Linux):使用此工具查看网卡统计信息、驱动程序信息和最新链路状态。大量的发送/接收错误、丢包或自动协商失败可能表明网卡性能下降。
  • PowerShell cmdlet(Windows):Get-NetAdapter 和 Get-NetAdapterStatistics 允许您检查 Windows 系统上的链接状态、速度和适配器健康状况。结合 Get-NetEventSession,您还可以跟踪与 NIC 行为相关的事件日志。
  • dmesg / journalctl(Linux)或事件查看器(Windows):这些工具有助于发现系统或内核级别的警报。查找诸如“网卡重置”、“链路断开”或“设备无响应”之类的消息。在 Windows 中,这些消息可能出现在“系统”或“应用程序”日志中,指示驱动程序崩溃或硬件无响应。
  • ping / iperf(跨平台):用于测试基本的连接和吞吐量。如果测试过程中出现丢包、抖动或意外的延迟峰值,则可能表明硬件或线缆存在故障。
  • 网络绑定故障转移行为:使用绑定或组合接口实现冗余时,请观察是否有一个接口比其他接口更频繁地触发故障转移事件。这可能意味着即使没有报告系统错误,故障网卡的性能也会悄无声息地下降。

何时更换 NIC?

如果出现以下情况,则可能需要更换 NIC:

  • 您观察到上述症状持续存在或恶化。
  • 日志和工具确认在驱动程序更新或固件重新安装后仍然存在的硬件或驱动程序问题。
  • 当 NIC 移动到另一个系统(如果可移动)时,问题就会随之出现。
  • 该卡已过时,并且不受当前操作系统或集群工具支持。
  • 您处于高可用性 (HA) 环境中,服务的连续性至关重要。在这种情况下,最佳做法是在故障排除的同时主动将服务或资源迁移到已验证网卡状态正常的节点,以避免出现故障转移延迟或意外停机的风险。

避免网卡故障的预防措施

为了避免与 NIC 相关的故障:

  • 使用冗余:跨多个 NIC 实现绑定或组合。
  • 保持固件更新:定期检查硬件供应商提供的驱动程序和固件更新。
  • 主动监控:使用工具和第三方网络监控来捕捉 NIC 性能下降的早期迹象。
  • 定期测试:作为定期集群健康检查的一部分,验证链接速度和延迟。

关于维护网络接口卡健康的最终思考

网卡可能并非最引人注目的硬件,但它的健康状况对于稳定、高可用性环境至关重要。了解何时以及如何评估网卡的性能有助于防止意外停机,确保无缝的故障转移行为,并保持集群通信的弹性。

SIOS 技术公司提供高可用性集群软件通过集群管理来保护和优化 IT 基础设施,以适应您最重要的应用程序。立即申请演示。

作者:Aidan Macklen,SIOS Technology Corp. 客户体验工程师实习生

经许可转载SIOS

Filed Under: 新闻与活动

为什么无存储/无节点仲裁对于集群可用性有害?

4月 3, 2025 by Jason Aw Leave a Comment

Why is StoragelessNodeless Quorum Dangerous for Cluster Availability

为什么无存储/无节点仲裁对于集群可用性有害?

一般来说,法定人数是指出席并作出决定的一群人或团体。

在 LifeKeeper 中,Quorum 强制达成共识,使用集群中节点的状态来执行处理集群内节点故障的下一步。LifeKeeperquorum 可以在三种模式下运行;存储、多数和 TCP 远程(TCP 远程仅适用于 LifeKeeper for Linux)。

  • 存储 Quorum 使用共享存储设备来跟踪集群中其他系统提供的更新,如果某个系统不提供更新,Quorum 会将该集群标记为失败。
  • 多数仲裁依赖于奇数个集群的结构其中一个节点充当见证节点,以确定集群中是否有一个或所有节点无法通信
  • 通过指定端口上的 TCP/IP 服务进行 TCP 远程连接,以验证集群中的节点是否可以相互通信。

了解集群中仲裁的重要性

Quorum 的目的是通过采取补救措施来应对意外情况,从而保持应用程序的可用性。它通过降低裂脑情况的风险并通过保持集群中所有节点之间的通信来减少停机时间来实现这一点。

集群中没有仲裁的情况下运行的风险

使用未配置 Quorum 的集群存在风险。以下场景将解决没有 Quorum 的影响以及实施 Quorum 的重要性。

场景 1:减少停机时间

当一个或多个系统由于不可避免的因素(例如崩溃或网络通信暂时故障)而无法使用时,可能会发生意外停机。

有了存储这样的仲裁或 TCP 远程配置,可以使用对存储设备和/或端口的访问来跟踪集群中的通信状态。此附加措施可以防止不必要的故障转移,从而避免造成长时间停机。在其他情况下,Quorum 将采取措施关闭或重新启动服务器以将其恢复到健康状态并避免更长的停机时间。

场景 2:脑裂

一个裂脑是指集群中的多个系统认为自己是主服务器。当主服务器与其辅助服务器失去通信,并且辅助服务器认为主系统已关闭时,就会发生这种情况。这会导致集群中出现两个活动的主系统。

如果配置了多数法定人数,则会提供另一个系统作为见证人,以投票决定哪个系统应该作为主系统,从而防止发生裂脑。

为什么适当的仲裁配置很重要

操作集群缺乏存储或多数仲裁是危险的,因为这会增加因裂脑和/或网络中断而导致数据丢失或长时间停机的风险。使用 Quroum 可以提供反制措施,确保集群始终健康,并适当处理任何不健康的系统。

立即联系 SIOS了解我们的高可用性解决方案如何帮助您以正确的方式配置仲裁并保护您的集群。

作者:Alexus Gore,SIOS Technology Corp. 客户体验软件工程师

经许可转载西欧斯

Filed Under: 新闻与活动

更新 LifeKeeper for Linux:成功检查清单

2月 23, 2025 by Jason Aw Leave a Comment

Updating LifeKeeper for Linux A Checklist for Success

更新 LifeKeeper for Linux:成功检查清单

保持 LifeKeeper for Linux 软件更新对于保持高可用性 (HA)、系统安全性、性能和兼容性至关重要。本博客将指导您完成一个结构化流程,以最小的风险执行软件更新。

遵循这些步骤可以确保更新过程顺利进行。

  1. 检查支持矩阵

在继续更新之前,请查阅 SIOS 的支持矩阵:

docs.us.sios.com/spslinux/9.9.0/en/topic/sios-protection-for-linux-support-matrix

本文档提供了重要的兼容性信息,包括:

  • 操作系统:确保您当前的操作系统版本支持新的软件版本。
  • 笔记:验证与特定内核以及任何特殊指令的兼容性。

无法验证兼容性可能会导致冲突或系统性能下降。如果您的设置不受支持,请考虑升级相关组件或延迟更新。

  1. 创建运行手册

操作手册是执行更新过程的详细指南。它可最大程度地减少混乱并确保每个步骤都得到考虑。关键要素应包括:

  • 更新前的任务:例如,禁用自动服务、通知用户以及根据需要安排停机时间。
  • 更新步骤:提供安装更新的分步指南。
  • 更新后验证:检查清单以确认更新是否成功。

确保参与该流程的所有团队成员都可以访问运行手册。

  1. 对层次结构进行备份:

在执行 LifeKeeper 或 OS 升级之前,请在所有节点上创建 Lifekeeper 层次结构的备份。

要创建备份,请运行以下命令:

/opt/LifeKeeper/bin/lkbackup –c

备份将创建在名为:的文件中。

/opt/LifeKeeper/config/archive.<日期时间戳>.tar.gz

  1. 在 QA 环境中测试

在将更新部署到生产环境之前,请务必在 QA 或临时环境中测试更新。此步骤可让您:

  • 在受控环境中检测错误或意外行为。
  • 评估更新对性能的影响。

记录出现的任何问题并相应地调整您的运行手册。

  1. 在生产系统上执行更新

准备工作完成后,继续更新:

  • 严格遵循操作手册。
  • 监视该过程是否有任何错误或警告。
  1. 验证并监控更新后情况

更新后,进行彻底验证:

  • 使用运行手册的清单确认系统功能。
  • 监控性能指标来识别潜在的瓶颈。
  • 让最终用户报告任何异常情况。

成功更新 LifeKeeper 的最佳实践

为了确保清晰和简单,我们建议一次实施一个更新或补丁,并在继续下一个更新或补丁之前测试其影响。这种方法有助于隔离每个操作的影响,从而更容易确定哪种方法最有效并避免潜在的并发症。

作为操作系统升级过程的一部分,我们建议重新运行 LifeKeeper for Linux 安装脚本,以确保所有配置都已更新并与新环境兼容。这有助于防止潜在问题并确保升级后一切正常运行。

如果您在升级前有任何问题,请联系support@us.sios.com或在支持门户中打开案例:

https://supportportal.us.sios.com/User/Login
通过遵循这些步骤,您可以最大限度地降低与软件更新相关的风险,同时确保系统稳定性和性能。如需更多信息或其他帮助,请访问我们的联系我们页面与我们的专家团队联系。

作者:

比尔达内尔

SIOS Technology Corp. 高级产品支持工程师

经许可转载西欧斯

Filed Under: 新闻与活动

顶级科技领袖分享 2025 年视频预测

1月 24, 2025 by Jason Aw Leave a Comment

Top Tech Leaders Share 2025 Video Predictions

顶级科技领袖分享 2025 年视频预测

VMblog 发布了一段 2025 年预测视频,其中有玛格丽特·霍格兰 (Margaret Hoagland) 和其他行业领袖!

Margaret Hoagland,全球销售和营销副总裁SIOS 技术预测 IT 通才将承担起关键应用程序和数据库管理的更大责任,从而推动对更加自动化和用户友好的 HA 和 DR 解决方案的需求。

经许可转载西欧斯

Filed Under: 新闻与活动

SIOS 技术扩展了对 Linux 产品版本的支持

1月 9, 2025 by Jason Aw Leave a Comment

SIOS Technology Expands Support in Linux Product Release

SIOS 技术扩展了对 Linux 产品版本的支持

我们很高兴地宣布扩大对 SIOS LifeKeeper for Linux 9.9.0 版本的支持,包括:

  • RHEL 9.4 上的 SAP HANA 2.0
  • RHEL 9.4 上的 SAP
  • RHEL 9 上的 Watchdog 支持
  • 富士通软件企业 Postgres 16 SP1

这些新支持的配置与我们 Linux 产品的当前通用版本完全兼容,并将在未来版本中继续受支持。重要的是,无需软件更新即可利用这些新增功能。

请继续关注更多更新,我们将继续增强我们的解决方案以满足您的高可用性和灾难恢复需求。

经许可转载西欧斯

Filed Under: 新闻与活动

  • 1
  • 2
  • 3
  • …
  • 83
  • Next Page »

最近的帖子

  • 如何评估我的网卡是否需要更换
  • 与高可用性相关的应用程序智能
  • 在 Nutanix 环境中选择高可用性解决方案的 10 个注意事项
  • 我的服务器是一次性的吗?高可用性软件如何融入云最佳实践
  • 灾难频发世界的数据恢复策略

最热门的帖子

加入我们的邮件列表

Copyright © 2025 · Enterprise Pro Theme on Genesis Framework · WordPress · Log in