SIOS SANless clusters

SIOS SANless clusters High-availability Machine Learning monitoring

  • Home
  • 產品
    • SIOS DataKeeper for Windows
    • SIOS Protection Suite for Linux
  • 新闻与活动
  • 伺服器集群简单化
  • 成功案例
    • 台灣成功案例
  • 聯繫我們
  • English
  • 中文 (中国)
  • 中文 (台灣)
  • 한국어
  • Bahasa Indonesia
  • ไทย

使用 SIOS LifeKeeper 對非集群感知應用程式進行集群化

4 12 月, 2025 by Jason Aw Leave a Comment

Clustering a Non-Cluster-Aware Application with SIOS LifeKeeper

使用 SIOS LifeKeeper 對非集群感知應用程式進行集群化

並非所有應用程式都是用這種方法建構的。聚類牢記這一點。事實上,大多數人並沒有。但這並不意味著他們無法從中受益。高可用性由…提供的保護SIOS LifeKeeper如果你的應用程式可以停止、啟動並在另一台伺服器上運行,那麼很有可能可以對其進行叢集部署。

在著手實施之前,有一些關鍵的考慮因素,這些因素將決定集群實施是成功還是令人沮喪的反覆試驗。

  1. 將動態資料遷移到共用或複製存儲

應用程式通常將日誌、資料庫、快取和其他應用程式資料等動態資料儲存在本機儲存中。但在叢集環境中,這種方式行不通。故障轉移備用節點必須能夠存取相同的數據,以便應用程式可以從上次中斷的地方繼續運行。

解決方案是將所有動態資料遷移到 SAN 環境中的共用磁碟或使用時的複製磁碟區。SIOS 資料保管器靜態檔案(例如可執行檔)可以保留在本地,但任何在運行時發生變化的內容都應該儲存在所有叢集節點都可以存取的儲存位置。

  1. 更新叢集環境中的應用程式主機引用

許多應用程式透過名稱、FQDN 或 IP 位址來引用本機系統。這在獨立配置中沒有問題,但在叢集中,應用程式需要綁定到叢集的虛擬 IP (VIP) 或透過其進行通訊。

如果應用程式或其設定檔引用了:

  • 本機
  • 節點的主機名稱或完全限定域名
  • 節點的靜態 IP 位址

您可能需要變更 VIP 或解析到 VIP 的主機名稱的參考。通常需要檢查的位置包括註冊表項、設定檔以及應用程式用於連接自身或其他服務的任何連接字串。

  1. 編寫自訂啟動、停止和監控腳本

叢集感知應用程式包含指示叢集如何啟動、停止和監控服務的邏輯。非集群感知型應用程式則不包含。這就是 SIOS LifeKeeper 應用程式復原工具包 (ARK) 的用武之地。

如果你的應用程式沒有現成的腳本,你可以建立自訂腳本:

  • 開始服務或流程
  • 停止切換前將其清理乾淨
  • 監視器例如,透過檢查連接埠、日誌檔案或進程來評估其健康狀況。

在某些情況下,保護應用程式就像啟動和停止服務一樣簡單。針對這種情況,LifeKeeper 提供了快速服務保護 (QSP) 復原工具包。使用 QSP,您只需選擇要保護的服務,無需編寫任何程式碼。 LifeKeeper 將自動處理該服務的啟動、停止和監控操作。

這些選項使得保護各種應用程式變得輕鬆便捷,從簡單的應用程式到複雜的應用程式。視窗或者Linux在同一群集框架內,為複雜的多組件系統提供服務。

  1. 在所有叢集節點上正確處理加密金鑰

如果您的應用程式對靜態資料進行加密,則叢集中的每個節點都必須能夠解密這些資料。這意味著加密金鑰必須在所有節點上都可存取且保持一致。根據您的設置,這可能需要同步本機金鑰庫或使用集中式金鑰管理解決方案。

關鍵在於,每個節點在啟動時都必須能夠安全且持續地存取加密金鑰。否則,應用程式可能會啟動,但在故障轉移後卻無法存取其資料。

  1. 考慮故障轉移後客戶端如何重新連接

當應用程式從一個節點故障轉移到另一個節點時,會有一個短暫的中斷,因為新的活動節點需要接管 IP 位址並啟動應用程式。對於連接到該服務的用戶端,其行為完全取決於它們如何處理連線遺失。

如果客戶端內建了重試邏輯,使用者可能根本不會注意到中斷。一旦VIP和服務恢復可用,客戶端將自動重新連線。

如果用戶端沒有包含重試邏輯,使用者在故障轉移後可能需要手動刷新或重新啟動連線。

了解客戶端的行為方式並測試其在故障轉移期間的回應至關重要。有時,只需添加簡單的連接重試循環或調整連接逾時設置,即可實現流暢的用戶體驗。

  1. 驗證叢集部署的應用程式授權要求

一個常被忽略的步驟是許可。當應用程式叢集化時,它會安裝在叢集中的每個節點上,但一次只能執行一個實例,即活動實例。有些供應商提供專門的活動/被動叢集許可,而有些供應商則要求每個已安裝的執行個體都需要一個許可。

部署前務必先諮詢應用程式供應商。事先進行簡短溝通可以避免日後花費大量時間處理許可問題。

  1. 對所有應用程式和叢集元件進行全面測試

測試是任何叢集專案中最重要但又最容易被忽略的環節之一。

不要只測試故障轉移。在應用程式受到保護的情況下,測試其所有功能。這包括:

  • 啟動和關閉順序
  • 所有必需的服務和後台任務
  • 任何讀取、寫入或快取資料的元件
  • 任何依賴服務依賴項的進程
  • 故障轉移前、故障轉移期間和故障轉移後的客戶行為

如果應用程式使用自訂腳本或快速服務流程 (QSP),請確保每個步驟在負載下都能正常運作。這不僅能及早發現問題,還能確保解決方案在實際​​事件中能正確運作。

為非叢集感知應用實現高可用性

使用 SIOS LifeKeeper 對非叢集感知應用程式進行叢集化並不難,但確實需要一些規劃。將資料遷移到共用或複製存儲,將所有節點指向叢集的虛擬 IP 位址 (VIP),編寫啟動、停止和監控邏輯腳本(或在適當情況下使用 QSP),確保所有節點上都可用加密金鑰,並確認許可要求。

不要忘記測試您的用戶端對故障轉移的回應情況,因為真正的高可用性意味著您的伺服器和使用者始終保持連線。

按照這些步驟操作,您會發現即使是最「獨立」的應用程式也能實現企業級高可用性。立即申請演示了解 SIOS LifeKeeper 如何為非叢集感知應用程式帶來可靠的高可用性。

作者:David Bermingham,SIOS 資深技術推廣專家

經許可轉載SIOS

Filed Under: 新闻与活动

99.99% 正常運作時間:平衡高可用性和維護

30 11 月, 2025 by Jason Aw Leave a Comment

99.99% Uptime Balancing High Availability and Maintenance

99.99% 正常運作時間:平衡高可用性和維護

“99.99% 正常運行時間”,通常被稱為“四個九”,代表系統 99.99% 的時間都可用,每年僅允許約 52 分鐘的停機時間。對於任何規模的組織而言,這都是一個「黃金」標準,旨在提供可靠的服務,最大限度地減少對用戶的干擾。

達到四個九(99.99%)顯示在該領域持續投入高可用性這對於電子商務等行業至關重要。衛生保健, 和金融停機可能會導致重大經濟損失或客戶信心受損。

然而,要維持這種程度的可靠性,核心挑戰在於:如何在確保高可用性的同時,兼顧「強制性」的系統維護。系統需要更新,修補為了保持安全和持續運行,需要升級,但這些活動通常需要停機。

組織必須努力維持冗餘等策略,故障轉移/切換並透過滾動更新進行維護,確保正常運作時間不受影響。在這種平衡下,對於在競爭激烈的市場中維持客戶信任和提供穩定可靠的服務至關重要。

什麼是 99.99% 正常運作時間?為什麼它如此重要?

作者:Alexus Gore,SIOS Technology 的客戶體驗軟體工程師

正常運作時間正常運作時間代表服務可用且功能正常的時長。正常運作時間為 99.9% 的服務每年平均會有 8.77 小時的停機時間。如果一家醫院的正常運作時間為 99.95%,這意味著每年將有 4.38 小時無法存取患者數據,從而延誤患者的治療,這顯然不是理想的情況。

99.99% 的正常運作時間是金融、醫療保健、SaaS 等行業的常見基準,這些產業理想情況下每年停機時間不超過 52.60 分鐘。這個正常運作時間值也更容易實現,並且是成本可承受的最高正常運作時間。考慮到停機可能帶來的風險,99.99% 的正常運作時間是確保停機時間最短的理想選擇。

一個99.99% 服務水準協議保證每年停機時間不會超過最低停機時間。確保履行此協議有助於建立客戶信任,因為這樣可以保證服務隨時可用。反過來,這將有助於維護客戶群並確保業務連續性。

高可用性 (HA) 在實現 99.99% 正常運作時間中的作用

作者:比爾·達內爾,SIOS Technology公司資深產品支援工程師

高可用性是一種系統設計方法,旨在確保應用程式和服務始終可訪問,目標是實現 99.99% 的正常運行時間。它是基於冗餘硬體、分散式軟體和彈性網路配置等關鍵組件建構而成。其目標是消除單點故障,即使主伺服器發生故障,也能確保業務持續運作。

SIOS軟體透過使用以下方式實現HA簇(多台伺服器)中,每個節點都能執行相同的功能。這些伺服器透過兩條或多條通訊路徑連接。這創造了一個容錯環境,從而確保服務的連續性。 LifeKeeper 透過持續檢查伺服器、應用程式和服務是否有故障來監控系統健康狀況。如果一台伺服器或節點發生故障,LifeKeeper 會自動將操作轉移到備用伺服器,最大限度地減少停機時間。

SIOS 支援資料庫保護(SQL Server,甲骨文,SAP HANA)、檔案系統和自訂應用程式。

正常運作時間的隱性成本:為什麼維護至關重要

作者:Cassy Hendricks-Sinke,SIOS Technology公司客戶體驗首席軟體工程師

為了追求最大限度的正常運作時間,許多組織會延遲或跳過例行維護,這種做法可能目光短淺,甚至造成危險。忽略更新或修補程式會使系統面臨嚴重的安全漏洞,降低效能效率,並增加違規風險。每次延遲更新都會使公司更容易受到攻擊,並累積難以長期管理的「技術債」。

然而,真正的挑戰在於平衡正常運作時間和必要的維護。企業往往害怕停機,卻沒有意識到忽視更新會導致更大的破壞,例如資料外洩或大規模停機。解決這個問題的關鍵在於積極主動的規劃!捲動更新採用冗餘策略,以及採用允許熱修補或零停機時間部署的工具,都是應對或最大限度減少關鍵維護造成的停機時間的方法。

真正的正常運作時間不僅僅是保持「在線」狀態;它還包括保持安全、高效和合規。投資於智慧維護策略,不僅能確保系統可用,還能確保其具彈性和可靠性。

平衡 99.99% 正常運作時間和維護的策略

作者:Philip Merry,SIOS Technology公司客戶體驗軟體工程師

通常,系統維護需要停機,以便不間斷地執行維護活動。顯然,追求高正常運作時間與安排停機維護窗口之間存在衝突。為了滿足正常運作時間的要求,延遲或批次進行維護可能會導致系統長時間處於故障狀態,而頻繁的維護視窗則會大幅降低系統可用性指標。儘管存在這些衝突,但可以透過採用高可用性策略來平衡這些考慮。

SIOS LifeKeeper 是一款高可用性工具,它允許在執行工作負載的系統之間實現冗餘。當一個系統正在積極執行工作負載並執行業務應用程式時,另一個系統可以作為備用系統,在發生故障時接管工作負載。這種「主備」高可用性模型提供了一種簡單的方法來應對維護和更新,同時確保業務應用程式的連續性。

在 LifeKeeper 這類高可用性工具的背景下,平衡正常運作時間和維護工作,無論從概念或實踐上都非常簡單。首先對備用系統進行維護。維護完成後,讓活動系統和備用系統切換角色。此時,活動系統已完成必要的維護,並正在執行業務應用程式。之後,可以再次對備用系統進行維護。維護完成後,所有系統都已完成維護,並且在維護期間工作負載仍然可用。 LifeKeeper 實現的這種「高可用性更新」策略,使得系統能夠在保持維護和可用性的同時,避免任何一方的損失。

支援正常運作時間和維護的工具和技術

作者:Connor Toohey,SIOS Technology 資深產品支援工程師

實現高可用性和零停機部署需要策略性地組合多種技術以達到最佳效能。 SIOS LifeKeeper 和 DataKeeper 是關鍵解決方案,可提供強大的故障轉移叢集和即時性。資料複製為了確保應用程式和資料在雲端、混合環境和本地環境中的可用性,Kubernetes 透過容器編排和自動滾動更新實現零停機部署。 Azure 負載平衡器和 AWS 彈性負載平衡器等負載平衡器能夠有效率地分配流量,從而降低服務中斷的風險。

Dynatrace 或 Moogsoft 等 AIOps 平台利用 AI 驅動的異常檢測和自動化問題修復功能,增強了維運穩定性。 Rancher、Red Hat Satellite 或 WSUS 等工具支援伺服器修補程式的滾動更新,從而實現零停機維護。 Prometheus、Grafana、Datadog 和 Splunk 等監控和日誌平台則提供對系統正常運行時間和效能的即時可見性。這些技術共同建構了一個彈性基礎設施,確保不間斷、可靠的服務交付。

維持 99.99% 正常運作時間的最佳實踐

作者:Aidan Macklen,SIOS Technology公司助理產品支援工程師

要達到 99.99% 的正常運作時間,需要採取積極主動的系統管理方法。我們不應在問題發生後才被動應對,而應著重於在潛在風險影響服務可用性之前識別並解決它們。主動維護,例如定期查看日誌、進行容量規劃和硬體檢查,可以確保小問題不會演變成服務中斷。

在部署任何更新或配置變更之前,請務必在受控的測試環境中進行測試。這有助於在模擬生產條件下驗證相容性、穩定性和效能,從而降低非計劃性停機的風險。同樣重要的是,要維護清晰且文件完善的事件回應和回滾計劃,以便在發生事件時能夠有效率地恢復正常運作。

高可用性系統也受益於持續優化。定期審核系統效能、故障轉移效率和冗餘配置,以確保所有組件均如預期運作。隨著時間的推移,這些審核可以發現可能影響正常運作時間的瓶頸、配置偏差或效能不佳的節點。

透過優先考慮預防、嚴格的測試和結構化的復原計劃,組織可以維持 99.99% 的正常運作時間基準,並提供使用者期望從現代高可用性環境中獲得的可靠性。

99.99% 正常運轉時間解決方案,協助持續運營

作者:Trey Isaac,SIOS Technology 資深產品支援工程師

每一分鐘的停機都會造成企業收入損失、聲譽受損,並削弱客戶信任。雖然 99.99% 的正常運作時間是一個至關重要的基準,但這卻是與必要的維護、修補程式和更新需求的持續鬥爭。關鍵不在於僅僅追求一個運行時間數字,而是建立智慧彈性,以確保您的業務持續穩定運作。

SIOS 正是在此方面助力您實現營運轉型。我們的高可用性和災難復原解決方案旨在保護您最關鍵的應用程序,包括 SQL Server、Oracle 和 SAP。 SIOS 採用自動化、應用感知型故障轉移和即時資料複製技術,確保您的業務在突發故障、意外中斷和計劃內維護等各種情況下都能保持全面運作。

無論您的基礎架構位於本機、雲端或混合式環境中,SIOS 都能提供您所需的無縫保護。告別被動應對停機,主動保障業務持續營運、客戶信心不減、生產力永不停歇。

摘要:實現並維持 99.99% 的正常運作時間

作者:Matthew Pollard,SIOS Technology 資深客戶體驗軟體工程師,業餘卡祖笛演奏家

無論您從事何種業務,或依賴哪些應用程序,高可用性都是確保業務持續運作的通用理念。力求達到 99.99% 的正常運作時間,是提升基礎設施可靠性的有效途徑,進而贏得客戶的高度信任。然而,要實現如此高的正常運作時間並非易事,因此關鍵在於做好調查,並與經驗豐富的 HA 解決方案供應商(例如 SIOS)合作,以滿足您的需求。 SIOS LifeKeeper 能夠保護您的企業級關鍵業務應用程式(例如 SAP、Oracle、SQL Server 等)免受計劃外中斷和停機的影響,同時最大限度地減少例行修補程式或維護活動所需的停機時間。從簡單的備用節點復原到更強大的災難復原配置,SIOS 解決方案為您提供所需的一切工具。

不要等到系統當機或故障頻傳才開始尋找高可用性解決方案;要積極主動!我們的專家隨時準備協助您建立更安全、更強大的環境,輕鬆應對各種挑戰。您的 IT 團隊、業務領導、合作夥伴和客戶都會為此感謝您。立即申請演示了解 SIOS 如何協助您實現正常運作時間目標。

經許可轉載SIOS

Filed Under: 新闻与活动

如何評估我的網路卡是否需要更換

21 5 月, 2025 by Jason Aw Leave a Comment

How to Assess if My Network Card Needs Replacement

如何評估我的網路卡是否需要更換

網路介面卡(NIC),通常稱為網卡,是任何伺服器基礎架構的重要組成部分。它使集群中的系統能夠相互通訊並與外界通訊。如果您的 NIC 出現問題,可能會損害您的簇,導致錯誤的節點故障,或增加腦裂場景的風險。儘早識別 NIC 故障的跡象可以節省時間,減少停機時間並保持高可用性。

在此部落格中,我們將探討如何評估您的網路卡是否需要更換、需要注意的症狀以及可以幫助您診斷問題的工具。

NIC 故障的常見症狀

  1. 間歇性連接

NIC 故障的首要跡象之一是連接不穩定或斷斷續續。您可能會注意到封包遺失、延遲較高或難以存取外部主機。這些問題可能會導致節點生命守護者集群暫時失去連接並觸發不必要的故障轉移。

  1. 網路速度下降

如果系統在執行與網路相關的任務時表現不佳,例如複製速度慢、應用程式響應遲緩或心跳通訊延遲,則可能是由於 NIC 故障,不再以額定速度運行(例如,1 Gbps 與 10 Gbps)。在叢集環境中,緩慢的複製尤其令人擔憂,因為它會延遲節點之間的資料同步。這不僅會增加故障轉移時的復原時間,而且如果在複製完成之前發生完全故障,還會增加資料遺失或系統狀態不一致的風險。

3.系統日誌顯示網路錯誤

與 NIC 驅動程式或介面相關的頻繁核心或系統日誌訊息(例如「連結斷開」、「NIC 重設」或「裝置無回應」)都是危險訊號。這些訊息顯示作業系統在硬體或驅動程式層級與卡片通訊時遇到問題。

  1. 異常發熱或物理損壞

雖然並不常見,但物理檢查可能會發現諸如燒焦痕跡或過度散熱等損壞。此等級的硬體問題會迅速降低效能或導致徹底故障,這在任何環境中都是不可取的。

5.虛擬或雲端環境中的問題

在虛擬化和雲端環境中,NIC 行為不僅會受到底層硬體的影響,還會受到虛擬機器管理程式或虛擬網路層配置的影響。例如,如果使用不相容/過時的驅動程序,或者即使為虛擬機器分配了未針對所需工作負載進行最佳化的適配器類型,透過 VMware 或 Hyper-V 分配的虛擬 NIC 的效能也可能會下降。

適用於 Windows 和 Linux 的網路卡故障排除工具

儘早診斷 NIC 問題有助於最大限度地減少停機時間並防止不必要的故障轉移。以下是識別硬體或驅動程式相關的 NIC 問題的重要工具,包括適用於 Linux 和 Windows 環境的選項:

  • ethtool(Linux):使用它來查看 NIC 統計資料、驅動程式資訊和最新的連結狀態。大量的傳輸/接收錯誤、資料包遺失或自動協商失敗可能表示 NIC 效能下降。
  • PowerShell cmdlet(Windows):Get-NetAdapter 和 Get-NetAdapterStatistics 可讓您檢查 Windows 系統上的連結狀態、速度和適配器健康狀況。結合 Get-NetEventSession,您還可以追蹤與 NIC 行為相關的事件日誌。
  • dmesg / journalctl(Linux)或事件檢視器(Windows):這些工具有助於發現系統或核心級警報。尋找諸如“NIC 重置”、“連結斷開”或“設備無回應”等訊息。在 Windows 中,這些可能會出現在「系統」或「應用程式」日誌下,並表示驅動程式崩潰或硬體無回應。
  • ping / iperf(跨平台):用於測試基本連接和吞吐量。如果測試期間出現資料包遺失、抖動或意外延遲峰值,則可能表示硬體或電纜故障。
  • 網路綁定故障轉移行為:當使用綁定或組合介面實現冗餘時,觀察一個介面是否比其他介面更頻繁地觸發故障轉移事件。這可能意味著即使沒有報告系統錯誤,故障的 NIC 也會悄悄地降級。

何時更換 NIC?

如果出現以下情況,則可能需要更換 NIC:

  • 您觀察到上述症狀持續存在或惡化。
  • 日誌和工具確認在驅動程式更新或韌體重新安裝後仍然存在的硬體或驅動程式問題。
  • 當 NIC 移到另一個系統(如果可移動)時,問題就會隨之出現。
  • 該卡已過時,並且不受當前作業系統或叢集工具支援。
  • 您處於高可用性 (HA) 環境中,其中服務的連續性至關重要。在這些情況下,最佳做法是在進行故障排除時主動將服務或資源移至具有已驗證健康的 NIC 的節點,以避免故障轉移延遲或意外停機的風險。

避免網卡故障的預防措施

為了避免與 NIC 相關的故障:

  • 使用冗餘:跨多個 NIC 實現綁定或組合。
  • 保持韌體更新:定期檢查硬體供應商提供的驅動程式和韌體更新。
  • 主動監控:使用工具和第三方網路監控來捕捉 NIC 效能下降的早期跡象。
  • 定期測試:作為定期叢集健康檢查的一部分,驗證連結速度和延遲。

關於維護網路介面卡健康的最終思考

NIC 可能不是最迷人的硬件,但它的健康對於穩定、高可用性環境至關重要。了解何時以及如何評估網路卡的性能有助於防止意外停機,確保無縫的故障轉移行為,並保持叢集通訊的彈性。

SIOS 技術公司提供高可用性叢集軟體透過對您最重要的應用程式進行叢集管理來保護和最佳化 IT 基礎架構。立即申請演示。

作者:Aidan Macklen,SIOS Technology Corp. 客戶體驗工程師實習生

經許可轉載SIOS

Filed Under: 新闻与活动

為什麼無儲存/無節點仲裁對於叢集可用性有害?

3 4 月, 2025 by Jason Aw Leave a Comment

Why is StoragelessNodeless Quorum Dangerous for Cluster Availability

為什麼無儲存/無節點仲裁對於叢集可用性有害?

一般來說,法定人數是指出席並作出決定的一群人或團體。

在 LifeKeeper 中,Quorum 強制達成共識,使用叢集中節點的狀態來執行處理叢集內節點故障的下一步。生命守護者quorum 可以在三種模式下運行;儲存、多數和 TCP 遠端(TCP 遠端僅適用於 LifeKeeper for Linux)。

  • 儲存 Quorum 使用共用儲存裝置來追蹤叢集中其他系統提供的更新,如果某個系統不提供更新,Quorum 會將叢集標記為失敗。
  • 多數仲裁依賴奇數個集群的結構其中一個節點充當見證節點,以確定叢集中是否有一個或所有節點無法通訊
  • 透過指定連接埠上的 TCP/IP 服務進行 TCP 遠端連接,以驗證叢集中的節點是否可以相互通訊。

了解集群中仲裁的重要性

Quorum 的目的是透過採取補救措施來應對意外情況,從而維持應用程式的可用性。它透過減少裂腦情況的風險並透過維持集群中所有節點之間的通訊來減少停機時間來實現這一點。

集群中沒有仲裁的情況下運作的風險

使用未配置 Quorum 的群集有風險。以下場景將討論缺乏法定人數的後果以及實施法定人數的重要性。

情境 1:減少停機時間

當一個或多個系統因不可避免的因素(例如當機或網路通訊暫時故障)而無法使用時,可能會發生意外停機。

有了儲存這樣的仲裁或 TCP 遠端配置,可以使用存取儲存設備和/或連接埠來追蹤叢集中的通訊狀態。這項額外措施可以防止可能導致嚴重停機的不必要的故障轉移。在其他情況下,Quorum 將採取措施關閉或重新啟動伺服器以將其恢復到健康狀態並避免更長的停機時間。

場景 2:腦裂

一個裂腦就是當叢集中的多個系統認為它們是主伺服器的時候。當主伺服器與輔助伺服器失去通訊時,就會發生這種情況,並且輔助伺服器認為主系統已發生故障。這會導致集群中出現兩個活躍的主系統。

如果配置了多數法定人數,則會提供另一個系統作為見證人,以投票決定哪個系統應該作為主系統,從而防止發生裂腦。

為什麼適當的仲裁配置很重要

操作集群沒有儲存或多數法定人數是危險的,因為它增加了因腦裂和/或網路中斷而導致資料遺失或長時間停機的風險。使用 Quroum 可以提供應對措施,確保集群始終健康並且任何不健康的系統都得到適當處理。

立即聯絡 SIOS了解我們的高可用性解決方案如何協助您正確配置仲裁並保護您的叢集。

作者:Alexus Gore,SIOS Technology Corp. 客戶體驗軟體工程師

經許可轉載西歐斯

Filed Under: 新闻与活动

更新 LifeKeeper for Linux:成功檢查清單

23 2 月, 2025 by Jason Aw Leave a Comment

Updating LifeKeeper for Linux A Checklist for Success

更新 LifeKeeper for Linux:成功檢查清單

保持 LifeKeeper for Linux 軟體更新對於維護高可用性 (HA)、系統安全性、效能和相容性至關重要。本部落格將引導您完成以最小風險執行軟體更新的結構化流程。

遵循這些步驟可以確保更新過程順利進行。

  1. 檢查支援矩陣

在繼續更新之前,請先查閱 SIOS 的支援矩陣:

docs.us.sios.com/spslinux/9.9.0/en/topic/sios-protection-for-linux-support-matrix

本文檔提供了重要的兼容性信息,包括:

  • 作業系統:確保您目前的作業系統版本支援新的軟體版本。
  • 筆記:驗證與特定核心以及任何特殊指令的兼容性。

未能驗證相容性可能會導致衝突或系統效能下降。如果您的設定不受支持,請考慮升級相關組件或延遲更新。

  1. 建立運行手冊

運行手冊是執行更新過程的詳細指南。它最大限度地減少混亂並確保每個步驟都被考慮。關鍵要素應包括:

  • 更新前的任務:例如,停用自動服務、通知使用者以及根據需要安排停機時間。
  • 更新步驟:提供安裝更新的逐步指南。
  • 更新後驗證:檢查清單以確認更新是否成功。

確保參與此流程的所有團隊成員都可以存取運作手冊。

  1. 對層次結構進行備份:

在執行 LifeKeeper 或 OS 升級之前,請在所有節點上建立 Lifekeeper 層次結構的備份。

若要建立備份,請執行以下命令:

/opt/LifeKeeper/bin/lkbackup –c

備份將建立在名為:的檔案中。

/opt/LifeKeeper/config/archive.<日期時間戳記>.tar.gz

  1. 在 QA 環境中測試

在將更新部署到生產環境之前,請務必在 QA 或暫存環境中測試更新。此步驟允許您:

  • 在受控環境中偵測錯誤或意外行為。
  • 評估更新對效能的影響。

記錄出現的任何問題並相應地調整您的運作手冊。

  1. 在生產系統上執行更新

準備工作完成後,繼續更新:

  • 嚴格遵循操作手冊。
  • 監視該過程是否有任何錯誤或警告。
  1. 驗證並監控更新後狀況

更新後,進行徹底驗證:

  • 使用運作手冊的清單確認系統功能。
  • 監控效能指標來識別潛在的瓶頸。
  • 讓最終用戶報告任何異常情況。

成功更新 LifeKeeper 的最佳實踐

為了確保清晰度和簡單性,我們建議一次實施一個更新或修補,並在繼續下一個更新或修補之前測試其影響。這種方法有助於隔離每個動作的影響,從而更容易確定哪種動作最有效並避免潛在的併發症。

作為作業系統升級過程的一部分,我們建議重新執行 LifeKeeper for Linux 安裝腳本,以確保所有設定都已更新並與新環境相容。這有助於防止潛在問題並確保升級後一切正常運作。

如果您在升級前有任何問題,請聯絡support@us.sios.com或在支援入口網站中開啟案例:

https://supportportal.us.sios.com/User/Login
透過遵循這些步驟,您可以最大限度地降低與軟體更新相關的風險,同時確保系統穩定性和效能。如需更多資訊或其他協助,請造訪我們的聯絡我們頁面與我們的專家團隊聯繫。

作者:

比爾達內爾

SIOS Technology Corp. 資深產品支援工程師

經許可轉載西歐斯

Filed Under: 新闻与活动

  • 1
  • 2
  • 3
  • …
  • 80
  • Next Page »

最近的帖子

  • 白皮書:確保州和地方政府的IT彈性和服務連續性
  • 白皮書:SIOS LifeKeeper 與 Pacemaker 在 SUSE 和 Red Hat 環境中的比較
  • 近似值在商業決策與溝通的力量
  • SAP災難復原:技術與最佳實踐
  • 為高可用性和災難復原而設計

最熱門的帖子

加入我們的郵件列表

Copyright © 2026 · Enterprise Pro Theme on Genesis Framework · WordPress · Log in