Date: 23 2 月, 2026
高可用性思考的危險性:關掉它,再打開它——
「關機重開機。」任何有電腦故障排除經驗的人都聽過這項建議。它臭名昭著,是最常見的技術解決方案,而且似乎能讓每個人都變成IT故障排除高手。問題在於,它從來都不是真正的解決方案;它只是碰巧能解決大多數問題而已。透過關機重啟,我們能迅速恢復運行,但卻永遠無法真正找到問題的根源。
為什麼在高可用性系統中「關閉再重新啟動」存在風險
此外,在高可用性的世界中,「關閉它」可能會造成巨大的問題。即使是幾分鐘的…停機時間對於那些必須確保關鍵基礎設施持續運作的公司來說,這可能是一個重大問題。正因如此,身為SIOS的技術支援人員,我們很少給出這項臭名昭著的技術建議,但我們確實有自己的一套應對方法。
許多致電SIOS尋求技術支援的人都遇到了以下問題:Windows Data Keeper如果遇到鏡像問題,系統會提示執行「cleanupmirror」指令。在特定情況下,該命令可以快速解決重大問題。它實際上會徹底刪除鏡像配置及其所有殘留數據,以便我們可以重新建立鏡像,擺脫之前存在的所有問題。請注意,此命令不會刪除任何數據,只會刪除系統間的鏡像複製。
該命令無需停機,但意味著在鏡像完成重新同步之前,系統可用性會受到影響。這是我們在技術支援中常用的故障排除步驟之一,但就像「重啟」一樣,它有時會掩蓋更嚴重的潛在問題,有時也可能矯枉過正。
今天,我想談談這樣一個案例:執行 cleanupmirror 指令雖然幫助客戶解決了燃眉之急,但差點讓我們忽略了一個相當嚴重的問題,這個問題可能會影響到很多客戶,不過這個問題其實有一個非常簡單的解決方法。
遷移過程中實際遇到的 DataKeeper 鏡像問題
當支援團隊加入時,客戶已經排查故障相當長一段時間了,他們開始感到恐慌。他們正在進行最後的嘗試。切換在進行遷移測試時,DataKeeper鏡像開始出現問題。此時,他們的關鍵基礎設施癱瘓,他們擔心這會影響業務運作。情況十分危急,但幸運的是,我們的支援工程師表現出色。他們權衡了壓力、時間緊迫和尋找有效解決方案的迫切需求,運行了久經考驗的「cleanupmirror」命令,隨後重建了鏡像並使其恢復正常運作。他們幫助客戶擺脫了困境,一切又恢復正常了。值得慶幸的是,他們還要求客戶發送日誌,以「確保萬無一失」。
此案的日誌有些令人困惑。日誌顯示:某個卷冊已調整大小但客戶聲稱他們在通話中沒有進行任何調整大小的操作。有時客戶會遺漏重要訊息,所以我們一開始以為他們可能在通話中漏掉了這個細節,但這次調整大小的操作實在令人費解。大小的變化非常小,而且所有捲都在第一次切換時同時發生了變化。客戶不可能在第一次切換時,一次性減少不到 1GB 的空間來調整其 TB 級大容量硬碟的大小,這顯然不合邏輯,所以我們進行了更深入的調查。結果發現,目標硬碟的容量略大於來源硬碟,而我們的產品在處理容量不匹配的硬碟時有問題。
找出根本原因可防止再次停機
一旦我們弄清楚這一點,就意識到解決這個問題只需要繼續鏡像。這是一個常見、快速且簡單的操作,只需幾秒鐘就能徹底修復問題。無需耗時數天重新同步,即可恢復高可用性。此外,一旦我們發現這個問題,在下一個產品版本中實現修復也非常快速方便。
原來,客戶的遷移場景比較特殊,由於目標系統的大小無法完全匹配,他們必須將目標系統的大小略微擴大一些。他們還有幾個系統需要遷移,如果我們只停留在「清理鏡像」階段,他們每次都會遇到這個問題。由於我們找到了根本原因,因此能夠為他們提供一個快速簡便的臨時解決方案,以及一個更快捷的預防措施,讓他們在執行首次切換之前就能採取。我們也發布了解決方案,以便下一個遇到類似問題的客戶能夠在幾分鐘內解決。
為什麼根本原因分析在高可用性中至關重要
那麼,「關機重開機」到底有什麼大問題呢?它掩蓋了問題的根本原因。這是否意味著你永遠不該使用它?它仍然是最好的技術建議之一。很多時候,你根本不需要知道問題的根本原因,而關機重開機就能幫你快速擺脫困境。
對於IT專業人員來說,重要的是,在無需緊急處理問題且有時間先進行調查的情況下,應該這樣做。如果時間緊迫,則應該稍後查看日誌,嘗試找出問題所在。
所以,請隨意開關機。做個幾分鐘就解決問題的魔術師,讓大家好奇你是怎麼做到的。但是……偶爾……也應該花點時間想想,為什麼要開關機……並考慮一下,有沒有更簡單的解決方法。
要了解更多關於 SIOS DataKeeper 和高可用性解決方案如何幫助您避免此類隱藏問題的信息,申請演示今天我們團隊的發言。
作者:Carter Chandler,SIOS Technology公司客戶體驗助理、軟體工程師
經許可轉載SIOS
