SIOS SANless clusters

SIOS SANless clusters High-availability Machine Learning monitoring

  • Home
  • 產品
    • SIOS DataKeeper for Windows
    • SIOS Protection Suite for Linux
  • 新闻与活动
  • 伺服器集群简单化
  • 成功案例
    • 台灣成功案例
  • 聯繫我們
  • English
  • 中文 (中国)
  • 中文 (台灣)
  • 한국어
  • Bahasa Indonesia
  • ไทย

如何評估我的網路卡是否需要更換

21 5 月, 2025 by Jason Aw Leave a Comment

How to Assess if My Network Card Needs Replacement

如何評估我的網路卡是否需要更換

網路介面卡(NIC),通常稱為網卡,是任何伺服器基礎架構的重要組成部分。它使集群中的系統能夠相互通訊並與外界通訊。如果您的 NIC 出現問題,可能會損害您的簇,導致錯誤的節點故障,或增加腦裂場景的風險。儘早識別 NIC 故障的跡象可以節省時間,減少停機時間並保持高可用性。

在此部落格中,我們將探討如何評估您的網路卡是否需要更換、需要注意的症狀以及可以幫助您診斷問題的工具。

NIC 故障的常見症狀

  1. 間歇性連接

NIC 故障的首要跡象之一是連接不穩定或斷斷續續。您可能會注意到封包遺失、延遲較高或難以存取外部主機。這些問題可能會導致節點生命守護者集群暫時失去連接並觸發不必要的故障轉移。

  1. 網路速度下降

如果系統在執行與網路相關的任務時表現不佳,例如複製速度慢、應用程式響應遲緩或心跳通訊延遲,則可能是由於 NIC 故障,不再以額定速度運行(例如,1 Gbps 與 10 Gbps)。在叢集環境中,緩慢的複製尤其令人擔憂,因為它會延遲節點之間的資料同步。這不僅會增加故障轉移時的復原時間,而且如果在複製完成之前發生完全故障,還會增加資料遺失或系統狀態不一致的風險。

3.系統日誌顯示網路錯誤

與 NIC 驅動程式或介面相關的頻繁核心或系統日誌訊息(例如「連結斷開」、「NIC 重設」或「裝置無回應」)都是危險訊號。這些訊息顯示作業系統在硬體或驅動程式層級與卡片通訊時遇到問題。

  1. 異常發熱或物理損壞

雖然並不常見,但物理檢查可能會發現諸如燒焦痕跡或過度散熱等損壞。此等級的硬體問題會迅速降低效能或導致徹底故障,這在任何環境中都是不可取的。

5.虛擬或雲端環境中的問題

在虛擬化和雲端環境中,NIC 行為不僅會受到底層硬體的影響,還會受到虛擬機器管理程式或虛擬網路層配置的影響。例如,如果使用不相容/過時的驅動程序,或者即使為虛擬機器分配了未針對所需工作負載進行最佳化的適配器類型,透過 VMware 或 Hyper-V 分配的虛擬 NIC 的效能也可能會下降。

適用於 Windows 和 Linux 的網路卡故障排除工具

儘早診斷 NIC 問題有助於最大限度地減少停機時間並防止不必要的故障轉移。以下是識別硬體或驅動程式相關的 NIC 問題的重要工具,包括適用於 Linux 和 Windows 環境的選項:

  • ethtool(Linux):使用它來查看 NIC 統計資料、驅動程式資訊和最新的連結狀態。大量的傳輸/接收錯誤、資料包遺失或自動協商失敗可能表示 NIC 效能下降。
  • PowerShell cmdlet(Windows):Get-NetAdapter 和 Get-NetAdapterStatistics 可讓您檢查 Windows 系統上的連結狀態、速度和適配器健康狀況。結合 Get-NetEventSession,您還可以追蹤與 NIC 行為相關的事件日誌。
  • dmesg / journalctl(Linux)或事件檢視器(Windows):這些工具有助於發現系統或核心級警報。尋找諸如“NIC 重置”、“連結斷開”或“設備無回應”等訊息。在 Windows 中,這些可能會出現在「系統」或「應用程式」日誌下,並表示驅動程式崩潰或硬體無回應。
  • ping / iperf(跨平台):用於測試基本連接和吞吐量。如果測試期間出現資料包遺失、抖動或意外延遲峰值,則可能表示硬體或電纜故障。
  • 網路綁定故障轉移行為:當使用綁定或組合介面實現冗餘時,觀察一個介面是否比其他介面更頻繁地觸發故障轉移事件。這可能意味著即使沒有報告系統錯誤,故障的 NIC 也會悄悄地降級。

何時更換 NIC?

如果出現以下情況,則可能需要更換 NIC:

  • 您觀察到上述症狀持續存在或惡化。
  • 日誌和工具確認在驅動程式更新或韌體重新安裝後仍然存在的硬體或驅動程式問題。
  • 當 NIC 移到另一個系統(如果可移動)時,問題就會隨之出現。
  • 該卡已過時,並且不受當前作業系統或叢集工具支援。
  • 您處於高可用性 (HA) 環境中,其中服務的連續性至關重要。在這些情況下,最佳做法是在進行故障排除時主動將服務或資源移至具有已驗證健康的 NIC 的節點,以避免故障轉移延遲或意外停機的風險。

避免網卡故障的預防措施

為了避免與 NIC 相關的故障:

  • 使用冗餘:跨多個 NIC 實現綁定或組合。
  • 保持韌體更新:定期檢查硬體供應商提供的驅動程式和韌體更新。
  • 主動監控:使用工具和第三方網路監控來捕捉 NIC 效能下降的早期跡象。
  • 定期測試:作為定期叢集健康檢查的一部分,驗證連結速度和延遲。

關於維護網路介面卡健康的最終思考

NIC 可能不是最迷人的硬件,但它的健康對於穩定、高可用性環境至關重要。了解何時以及如何評估網路卡的性能有助於防止意外停機,確保無縫的故障轉移行為,並保持叢集通訊的彈性。

SIOS 技術公司提供高可用性叢集軟體透過對您最重要的應用程式進行叢集管理來保護和最佳化 IT 基礎架構。立即申請演示。

作者:Aidan Macklen,SIOS Technology Corp. 客戶體驗工程師實習生

經許可轉載SIOS

Filed Under: 新闻与活动

為什麼無儲存/無節點仲裁對於叢集可用性有害?

3 4 月, 2025 by Jason Aw Leave a Comment

Why is StoragelessNodeless Quorum Dangerous for Cluster Availability

為什麼無儲存/無節點仲裁對於叢集可用性有害?

一般來說,法定人數是指出席並作出決定的一群人或團體。

在 LifeKeeper 中,Quorum 強制達成共識,使用叢集中節點的狀態來執行處理叢集內節點故障的下一步。生命守護者quorum 可以在三種模式下運行;儲存、多數和 TCP 遠端(TCP 遠端僅適用於 LifeKeeper for Linux)。

  • 儲存 Quorum 使用共用儲存裝置來追蹤叢集中其他系統提供的更新,如果某個系統不提供更新,Quorum 會將叢集標記為失敗。
  • 多數仲裁依賴奇數個集群的結構其中一個節點充當見證節點,以確定叢集中是否有一個或所有節點無法通訊
  • 透過指定連接埠上的 TCP/IP 服務進行 TCP 遠端連接,以驗證叢集中的節點是否可以相互通訊。

了解集群中仲裁的重要性

Quorum 的目的是透過採取補救措施來應對意外情況,從而維持應用程式的可用性。它透過減少裂腦情況的風險並透過維持集群中所有節點之間的通訊來減少停機時間來實現這一點。

集群中沒有仲裁的情況下運作的風險

使用未配置 Quorum 的群集有風險。以下場景將討論缺乏法定人數的後果以及實施法定人數的重要性。

情境 1:減少停機時間

當一個或多個系統因不可避免的因素(例如當機或網路通訊暫時故障)而無法使用時,可能會發生意外停機。

有了儲存這樣的仲裁或 TCP 遠端配置,可以使用存取儲存設備和/或連接埠來追蹤叢集中的通訊狀態。這項額外措施可以防止可能導致嚴重停機的不必要的故障轉移。在其他情況下,Quorum 將採取措施關閉或重新啟動伺服器以將其恢復到健康狀態並避免更長的停機時間。

場景 2:腦裂

一個裂腦就是當叢集中的多個系統認為它們是主伺服器的時候。當主伺服器與輔助伺服器失去通訊時,就會發生這種情況,並且輔助伺服器認為主系統已發生故障。這會導致集群中出現兩個活躍的主系統。

如果配置了多數法定人數,則會提供另一個系統作為見證人,以投票決定哪個系統應該作為主系統,從而防止發生裂腦。

為什麼適當的仲裁配置很重要

操作集群沒有儲存或多數法定人數是危險的,因為它增加了因腦裂和/或網路中斷而導致資料遺失或長時間停機的風險。使用 Quroum 可以提供應對措施,確保集群始終健康並且任何不健康的系統都得到適當處理。

立即聯絡 SIOS了解我們的高可用性解決方案如何協助您正確配置仲裁並保護您的叢集。

作者:Alexus Gore,SIOS Technology Corp. 客戶體驗軟體工程師

經許可轉載西歐斯

Filed Under: 新闻与活动

更新 LifeKeeper for Linux:成功檢查清單

23 2 月, 2025 by Jason Aw Leave a Comment

Updating LifeKeeper for Linux A Checklist for Success

更新 LifeKeeper for Linux:成功檢查清單

保持 LifeKeeper for Linux 軟體更新對於維護高可用性 (HA)、系統安全性、效能和相容性至關重要。本部落格將引導您完成以最小風險執行軟體更新的結構化流程。

遵循這些步驟可以確保更新過程順利進行。

  1. 檢查支援矩陣

在繼續更新之前,請先查閱 SIOS 的支援矩陣:

docs.us.sios.com/spslinux/9.9.0/en/topic/sios-protection-for-linux-support-matrix

本文檔提供了重要的兼容性信息,包括:

  • 作業系統:確保您目前的作業系統版本支援新的軟體版本。
  • 筆記:驗證與特定核心以及任何特殊指令的兼容性。

未能驗證相容性可能會導致衝突或系統效能下降。如果您的設定不受支持,請考慮升級相關組件或延遲更新。

  1. 建立運行手冊

運行手冊是執行更新過程的詳細指南。它最大限度地減少混亂並確保每個步驟都被考慮。關鍵要素應包括:

  • 更新前的任務:例如,停用自動服務、通知使用者以及根據需要安排停機時間。
  • 更新步驟:提供安裝更新的逐步指南。
  • 更新後驗證:檢查清單以確認更新是否成功。

確保參與此流程的所有團隊成員都可以存取運作手冊。

  1. 對層次結構進行備份:

在執行 LifeKeeper 或 OS 升級之前,請在所有節點上建立 Lifekeeper 層次結構的備份。

若要建立備份,請執行以下命令:

/opt/LifeKeeper/bin/lkbackup –c

備份將建立在名為:的檔案中。

/opt/LifeKeeper/config/archive.<日期時間戳記>.tar.gz

  1. 在 QA 環境中測試

在將更新部署到生產環境之前,請務必在 QA 或暫存環境中測試更新。此步驟允許您:

  • 在受控環境中偵測錯誤或意外行為。
  • 評估更新對效能的影響。

記錄出現的任何問題並相應地調整您的運作手冊。

  1. 在生產系統上執行更新

準備工作完成後,繼續更新:

  • 嚴格遵循操作手冊。
  • 監視該過程是否有任何錯誤或警告。
  1. 驗證並監控更新後狀況

更新後,進行徹底驗證:

  • 使用運作手冊的清單確認系統功能。
  • 監控效能指標來識別潛在的瓶頸。
  • 讓最終用戶報告任何異常情況。

成功更新 LifeKeeper 的最佳實踐

為了確保清晰度和簡單性,我們建議一次實施一個更新或修補,並在繼續下一個更新或修補之前測試其影響。這種方法有助於隔離每個動作的影響,從而更容易確定哪種動作最有效並避免潛在的併發症。

作為作業系統升級過程的一部分,我們建議重新執行 LifeKeeper for Linux 安裝腳本,以確保所有設定都已更新並與新環境相容。這有助於防止潛在問題並確保升級後一切正常運作。

如果您在升級前有任何問題,請聯絡support@us.sios.com或在支援入口網站中開啟案例:

https://supportportal.us.sios.com/User/Login
透過遵循這些步驟,您可以最大限度地降低與軟體更新相關的風險,同時確保系統穩定性和效能。如需更多資訊或其他協助,請造訪我們的聯絡我們頁面與我們的專家團隊聯繫。

作者:

比爾達內爾

SIOS Technology Corp. 資深產品支援工程師

經許可轉載西歐斯

Filed Under: 新闻与活动

頂尖技術領袖分享 2025 年影片預測

24 1 月, 2025 by Jason Aw Leave a Comment

Top Tech Leaders Share 2025 Video Predictions

頂尖技術領袖分享 2025 年影片預測

VMblog 發布了由 Margaret Hoagland 等行業領導者主演的 2025 年預測影片!

Margaret Hoagland,全球銷售與行銷副總裁西奧斯科技,預測 IT 通才將在關鍵應用程式和資料庫管理方面承擔更大的責任,從而推動對更自動化和用戶友好的 HA 和 DR 解決方案的需求。

經許可轉載安全作業系統

Filed Under: 新闻与活动

SIOS 技術擴展了對 Linux 產品版本的支持

9 1 月, 2025 by Jason Aw Leave a Comment

SIOS Technology Expands Support in Linux Product Release

SIOS 技術擴展了對 Linux 產品版本的支持

我們很高興地宣布擴大對 Linux 9.9.0 版 SIOS LifeKeeper 的支持,包括:

  • RHEL 9.4 上的 SAP HANA 2.0
  • RHEL 9.4 上的 SAP
  • RHEL 9 上的看門狗支持
  • 富士通軟體企業 Postgres 16 SP1

這些新支援的配置與我們的 Linux 產品目前的通用版本完全相容,並將在未來版本中繼續受到支援。重要的是,無需更新軟體即可利用這些新增功能。

請繼續關注更多更新,我們將繼續增強我們的解決方案以滿足您的高可用性和災難復原需求。

經許可轉載安全作業系統

Filed Under: 新闻与活动

  • 1
  • 2
  • 3
  • …
  • 80
  • Next Page »

最近的帖子

  • 為什麼有效的修補程式管理策略對於 IT 彈性至關重要
  • 為什麼有效的修補程式管理策略對於 IT 彈性至關重要
  • 簡化緊急程序的外部溝通
  • 避免未預見的災難:制定彈性災難復原計劃
  • 增強業務連續性的最佳滾動升級策略

最熱門的帖子

加入我們的郵件列表

Copyright © 2025 · Enterprise Pro Theme on Genesis Framework · WordPress · Log in