SIOS SANless clusters

SIOS SANless clusters High-availability Machine Learning monitoring

  • Home
  • 產品
    • SIOS DataKeeper for Windows
    • SIOS Protection Suite for Linux
  • 新闻与活动
  • 伺服器集群简单化
  • 成功案例
    • 台灣成功案例
  • 聯繫我們
  • English
  • 中文 (中国)
  • 中文 (台灣)
  • 한국어
  • Bahasa Indonesia
  • ไทย

用於災難恢復的Azure站點恢復

11 11 月, 2018 by Jason Aw Leave a Comment

通過基於雲的災難恢復,Azure Site Recovery確保應用程序可用性

#IGNITE2018會話:通過基於雲的災難恢復,Azure Site Recovery確保應用程序可用性

我是Azure Site Recovery for Disaster Recovery的忠實粉絲所以,我很高興參加Rochak Mittal和Ashish Gangwar今天舉辦的Ignite會議。

通過基於雲的災難恢復,Azure Site Recovery確保應用程序可用性

#IGNITE2018會話:通過基於雲的災難恢復,Azure Site Recovery確保應用程序可用性

我是Azure Site Recovery for Disaster Recovery的忠實粉絲所以,我很高興參加今天由Rochak Mittal和Ashish Gangwar BRK3304呈現的Ignite會議 – 在Azure上構建關鍵任務,高性能SAP工作負載此會議關於確保應用程序可用性基於雲的災難恢復,Azure Site Recovery提供了特別豐富的信息。在其中一個體系結構幻燈片中,他們展示瞭如何通過Azure Site Recovery(ASR)保護整個SAP部署,並在幾分鐘內發生災難時恢復。使用Azure恢復計劃可以讓您明確控制恢復。它包括創建對資源的依賴關係以及在VM中調用腳本以幫助促進完全恢復。好像昨天。但它早在2014年5月,當時我第一次開始協助微軟為Azure中的SAP ASCS提供HA解決方案。該解決方案涉及使用DataKeeper為ASCS構建SANless集群解決方案。它仍然是今天唯一的HA解決方案,它也可以與ASR一起用於災難恢復配置,例如Ignite的演示中所示。 Azure中的共享磁盤與SIOS DataKeeper [/ caption]想知道如何通過基於雲的災難恢復,Azure Site Recovery確保應用程序可用性,讓我們來看看知道,我們很樂意提供幫助。經Clusteringformeremortals.com許可轉載

Filed Under: 伺服器集群简单化

如何從Windows性能監視器觸發電子郵件警報

10 11 月, 2018 by Jason Aw Leave a Comment

從Windows性能監視器觸發電子郵件警報

循序漸進:如何從Windows性能監視器觸發電子郵件警報

循序漸進:如何從Windows性能監視器觸發電子郵件警報

從Windows性能監視器觸發電子郵件警報

循序漸進:如何從Windows性能監視器觸發電子郵件警報

Windows性能計數器警報可以配置為通過使用用戶定義的數據收集器集在任何性能監視器(Perfmon)計數器上觸發。但是,如果您希望在觸發警報時通過電子郵件收到通知,則必須使用Perfmon,任務計劃程序和好的'Powershell'的組合。按照以下步驟從Windows性能監視器觸發電子郵件警報。

第1步 – 編寫Powershell腳本

您需要做的第一件事是編寫一個Powershell腳本,在運行時可以發送電子郵件。在研究這個問題時,我發現了很多方法來完成這項任務。 我要向您展示的只是一種方式,但您可以隨意嘗試並使用適合您環境的方法。在我的實驗室中,我沒有運行自己的SMTP服務器。我編寫了一個可以利用我的Gmail帳戶的腳本。您將在我的Powershell腳本中看到,對SMTP服務器進行身份驗證的電子郵件帳戶的密碼是純文本格式。如果您擔心某人可能有權訪問您的腳本並發現您的密碼,那麼您將需要加密您的憑據。Gmail需要和SSL連接。您的密碼應該是安全的,就像任何其他電子郵件客戶端一樣。以下是與Task Scheduler和Perfmon結合使用時Powershell腳本的示例。它們可以在滿足任何用戶定義的性能計數器閾值條件時自動發送電子郵件警報。在我的環境中,我將其設置為C: Alerts Alerts.ps1

$ counter = $ Args [0]
$ dtandtime = $ Args [1]
$ ctr_value = $ Args [2]
$ threshold = $ Args [3]
$ value = $ Args [4]
$文件名=“$ ENV:計算機名”
$ EmailFrom =“sios@medfordband.com”
$ EmailTo =“dave@medfordband.com”
$ Subject =“來自$ FileName的警報”
$ Body =“數據和警報時間:$ dtandtime`nPerfmon計數器:$ ctr_value`nThreshold值:$ threshold`n當前值:$ value”
$ SMTPServer =“smtp.gmail.com”
$ SMTPClient = New-Object Net.Mail.SmtpClient($ SmtpServer,587)
$ SMTPClient.EnableSsl = $ true
$ SMTPClient.Credentials = New-Object System.Net.NetworkCredential(“sios@medfordband.com”,“ChangeMe123”);
$ SMTPClient.Send($ EmailFrom,$ EmailTo,$ Subject,$ Body)

從Powershell腳本生成的電子郵件示例如下所示。如何從Windows性能監視器觸發電子郵件警報 你可能已經註意到這個Powershell腳本有四個參數。它還將它們分配給輸出中使用的變量。它將計算機名稱保存到變量中,該變量用作輸出的一部分。通過這樣做,該腳本可用於在任何Perfmon警報計數器和任何服務器上發送電子郵件,而無需額外的自定義。

第2步 – 設置計劃任務

在任務計劃程序中,我們將在以下屏幕截圖中顯示創建新任務。如何從Windows性能監視器觸發電子郵件警報 為任務命名,您需要記住它以進行下一步。如何從Windows性能監視器觸發電子郵件警報 請注意,沒有觸發器。此任務實際上將通過我們將在步驟3中設置的Perfmon計數器警報觸發。如何從Windows性能監視器觸發電子郵件警報 您想在“操作”選項卡上定義新操作。操作將是啟動程序並使用以下輸入。請根據您的具體環境進行調整。程序腳本:C: Windows System32 WindowsPowerShell v1.0 powershell.exe添加參數:-File C: Alerts Alerts.ps1 $(Arg0) 如何從Windows性能監視器觸發電子郵件警報 如何從Windows性能監視器觸發電子郵件警報 如何從Windows性能監視器觸發電子郵件警報 如何從Windows性能監視器觸發電子郵件警報

第3步 – 創建性能計數器

創建新的數據收如何從Windows性能監視器觸發電子郵件警報如何從Windows性能監視器觸發電子郵件警報如何從Windows性能監視器觸發電子郵件警報集器集添加要監視的性能計數器並設置警報閾值。如何從Windows性能監視器觸發電子郵件警報 如何從Windows性能監視器觸發電子郵件警報 創建數據收集器集後,請進入其屬性,並確保為每個性能計數器正確設置警報閾值和样本間隔。請記住,如果您每10秒採樣一次,那麼只要性能計數器超過您設置的閾值,您就應該每隔10秒收到一封電子郵件。如何從Windows性能監視器觸發電子郵件警報 如果選擇在應用程序事件日誌中記錄條目,則不希望在正常的應用程序事件日誌中看到任何條目。它將寫入應用程序和服務日誌目錄中的Microsoft-Windows-Diagnosis-PLA / Operational日誌。如何從Windows性能監視器觸發電子郵件警報 然後最後我們必須設置一個警報任務,它將觸發我們在步驟2中創建的計劃任務(EmailAlert)。您會看到我們還傳遞了一些Powershell腳本使用的Task參數,以自定義具有與Alert相關的確切錯誤條件的電子郵件。如何從Windows性能監視器觸發電子郵件警報 正確配置Data Collector後,您將需要啟動它。如何從Windows性能監視器觸發電子郵件警報 如果您正確配置了所有內容,則應在滿足警報閾值時開始查看電子郵件。如果它似乎不起作用,請檢查以下內容……

  • 手動運行Powershell腳本以確保其有效。您可能需要手動設置一些變量以用於測試目的。在我的情況下,需要稍微調整以使Powershell腳本正常工作,所以從此開始。
  • 檢查任務歷史記錄以確保警報計數器正在觸發任務。如何從Windows性能監視器觸發電子郵件警報
  • 手動運行任務,看它是否觸發Powershell。

步驟4 – 將性能計數器設置為自動運行

如果您認為已全部設置為從Windows性能監視器觸發電子郵件警報,則還有一個步驟。每當您重新啟動服務器時,Perfmon Counter Alert都不會自動啟動。為了在重新啟動後繼續運行,您必須在命令提示符下運行以下命令。注意下面腳本中引用的“警報”是我的用戶定義的數據收集器集的名稱。

schtasks / create / tn Alerts / sc onstart / tr“logman start Alerts”/ ru system

有一些邊緣情況,您可能需要創建另一個觸發器來啟動Data Collector集。例如,SIOS DataKeeper Perfmon計數器僅從鏡像源收集數據。如果您嘗試在目標服務器上啟動數據收集集,您將看到它無法啟動。但是,如果您的群集進行故障轉移,則舊目標現在將成為鏡像的源,因此您需要開始監視該新源上的DataKeeper計數器。您可以創建一個群集通用腳本資源,在故障轉移時啟動數據收集器集,但這是另一個主題。確保計數器在新源上運行的更簡單方法是設置由EventID觸發的計劃任務,該事件ID指示服務器正在成為鏡像源。在這種情況下,我在兩個系統上設置觸發器,以便每次發生EventID 23時,Trigger運行Logman以啟動數據收集器集。每次發生故障轉移時,新系統成為源時會記錄事件ID 23,因此數據收集器集將自動開始。如何從Windows性能監視器觸發電子郵件警報如何從Windows性能監視器觸發電子郵件警報 就是這樣,如果您關心的任何Perfmon計數器開始失控,您現在可以直接從您的服務器接收電子郵件警報。

您是否喜歡閱讀如何從Windows性能監視器觸發電子郵件警報?請點擊這裡了解更多。經Clusteringformeremortals.com許可轉載

Filed Under: 伺服器集群简单化

如何使用Windows Server 2016從Windows事件觸發電子郵件警報

9 11 月, 2018 by Jason Aw Leave a Comment

使用Windows Server 2016從Windows事件觸發電子郵件警報

循序漸進:如何使用Windows Server 2016從包含事件詳細信息的Windows事件觸發電子郵件警報

介紹

從Windows事件觸發電子郵件警報使用Windows Server 2016只需要幾個步驟。指定觸發該任務時將發生的操作。由於Microsoft已決定棄用“發送電子郵件”選項,因此我們唯一的選擇是啟動程序。在我們的例子中,該程序將是一個Powershell腳本,用於收集事件日誌信息並對其進行解析。這樣,我們就可以發送包含重要日誌事件詳細信息的電子郵件。此工作已在Windows Server 2016上得到驗證。但我懷疑它應該適用於Windows Server 2012 R2和Windows Server 2019。如果您在任何其他平台上工作,請發表評論,如果您需要更改任何內容,請告訴我們。

步驟1-編寫Powershell腳本

首先要做的是寫一個Powershell腳本,運行時可以發送電子郵件。在研究這個問題時,我發現了很多方法來完成這項任務,所以我要向您展示的只是一種方式,但您可以隨意嘗試並使用適合您環境的方法。在我的實驗室中,我沒有運行自己的SMTP服務器,因此我必須編寫一個可以利用我的Gmail帳戶的腳本。您將在我的Powershell腳本中看到,對SMTP服務器進行身份驗證的電子郵件帳戶的密碼是純文本格式。如果您擔心某人可能有權訪問您的腳本並發現您的密碼,請加密您的憑據。Gmail需要和SSL連接。 您的密碼應該是安全的,就像任何其他電子郵件客戶端一樣。我有一個Powershell腳本的例子。與任務計劃程序一起使用時,它將在Windows事件日誌中記錄任何指定的事件時自動發送電子郵件警報。在我的環境中,我將此腳本保存到C: Alerts DataKeeper.ps1

$ EventId = 16,20,23,150,219,220

$ A = Get-WinEvent -MaxEvents 1 -FilterHashTable @ {Logname =“System”; ID = $ EventId}
$ Message = $ A.Message
$ EventID = $ A.Id
$ MachineName = $ A.MachineName
$ Source = $ A.ProviderName


$ EmailFrom =“sios@medfordband.com”
$ EmailTo =“sios@medfordband.com”
$ Subject =“來自$ MachineName的警報”
$ Body =“EventID:$ EventID`nSource:$ Source`nMachineName:$ MachineName`nMessage:$ Message”
$ SMTPServer =“smtp.gmail.com”
$ SMTPClient = New-Object Net.Mail.SmtpClient($ SmtpServer,587)
$ SMTPClient.EnableSsl = $ true
$ SMTPClient.Credentials = New-Object System.Net.NetworkCredential
(“sios@medfordband.com”,“mySMTPP @ 55w0rd”);
$ SMTPClient.Send($ EmailFrom,$ EmailTo,$ Subject,$ Body)

從Powershell腳本生成的電子郵件示例如下所示。使用Windows Server 2016從Windows事件觸發電子郵件警報 您可能已經註意到,此Powershell腳本使用Get-WinEvent cmdlet根據指定的LogName,Source和eventID獲取最新的Event Log條目。然後它解析事件並將EventID,Source,MachineName和Message分配給將用於撰寫電子郵件的變量。您將看到指定的LogName,Source和eventID與您在步驟2中設置計劃任務時指定的ID相同。

第2步 – 設置計劃任務

在任務計劃程序中創建一個任務,如以下屏幕截圖所示。

  1. 創建任使用Windows Server 2016從Windows事件觸發電子郵件警報務確保將任務設置為“運行”,無論用戶是否已登錄。使用Windows Server 2016從Windows事件觸發電子郵件警報
  2.  在“觸發器”選項卡上,選擇“新建”以創建將啟動“在事件上”任務的觸發器。在我的示例中,我將創建一個事件,觸發任何時候DataKeeper(extmirr)將重要事件記錄到系統日誌。使用Windows Server 2016從Windows事件觸發電子郵件警報 創建一個自定義事件和新事件過濾器,如下所示…對於我的觸發器,使用Windows Server 2016從Windows事件觸發電子郵件警報我觸發通常受監控的SIOS DataKeeper(ExtMirr)EventIDs 16,20,23,150,219,220。您需要設置事件以觸發要監視的特定事件。如果要通知來自不同日誌或來源的事件,可以將多個觸發器放在同一個任務中。
    使用Windows Server 2016從Windows事件觸發電子郵件警報
    創建一個新的事件過濾器

     

  3. 配置事件觸發器後,您將需要配置事件運行時發生的操作。在我們的例子中,我們將運行我們在步驟1中創建的Powershell腳本。使用Windows Server 2016從Windows事件觸發電子郵件警報使用Windows Server 2016從Windows事件觸發電子郵件警報
  4. 默認的Condition參數應該足夠了。使用Windows Server 2016從Windows事件觸發電子郵件警報
  5. 最後,在“設置”選項卡上,確保允許按需運行任務,並在任務已在運行時“排隊新實例”。

    使用Windows Server 2016從Windows事件觸發電子郵件警報

步驟3(如有必要) – 修復Microsoft Windows DistributedCOM事件ID:10016錯誤

理論上,如果您正確地執行了所有操作,您應該能夠使用Windows Server 2016從Windows事件觸發電子郵件警報。但是,我在我的一台服務器上遇到了一個奇怪的權限問題。這是我解決問題的方法。希望它也會對你有所幫助。在我手動觸發事件的情況下,或者如果我直接運行Powershell腳本,一切都按預期工作,我會收到一封電子郵件。但是,如果正在監視的某個EventID被記錄到事件日誌中,則不會導致發送電子郵件。我唯一的線索是事件ID:10016。每次我希望任務觸發器檢測到記錄的事件時,它都記錄在我的系統事件日誌中。

日誌名稱:系統
來源:Microsoft-Windows-DistributedCOM
日期:10/27/2018 5:59:47 PM
事件ID:10016
任務類別:無
等級:錯誤
關鍵詞:經典
用戶:DATAKEEPER  dave
電腦:sql1.datakeeper.local
描述:
特定於應用程序的權限設置不授予“本地激活”權限 
對於具有CLSID的COM Server應用程序 
{D63B10C5-BB46-4990-A94F-E40B9D520160}
和APPID 
{9CA88EE3-ACB7-47C8-AFC4-AB702511C276}
給用戶DATAKEEPER  dave SID(S-1-5-21-25339xxxxx-208xxx580-6xxx06984-500) 
來自地址LocalHost 
(使用LRPC)在應用程序容器中運行不可用SID(不可用)。
可以使用組件服務管理工具修改此安全權限。

許多針對該錯誤的Google搜索結果表明該錯誤是良性的。它包含有關如何抑制錯誤而不是修復錯誤的說明。但是,我很確定這個錯誤是我目前失敗的原因。如果我沒有正確解決問題,使用Windows Server 2016從Windows事件觸發電子郵件警報將很困難。經過多次搜索,我偶然發現了這個新聞組的討論。  Marc Whittlesey的回應使我指出了正確的方向。這是他寫的……

在轉到組件服務中的DCOM配置之前,您必須設置2個註冊表項:CLSID密鑰和APPID密鑰。

我建議你按照一些步驟解決問題:

1。 按Windows + R鍵並鍵入regedit,然後按Enter鍵。2。 轉到HKEY_Classes_Root CLSID * CLSID *。3。 右鍵單擊它然後選擇權限。4。 單擊“高級”並將所有者更改為管理員。同時單擊將顯示在所有者行下方的框。5。 適用完全控制。6。 關閉選項卡,然後轉到HKEY_LocalMachine Software Classes AppID * APPID *。7。 右鍵單擊它然後選擇權限。8。 單擊“高級”並將所有者更改為管理員。9。 單擊將顯示在所有者行下方的框。10。 單擊“應用”並向管理員授予完全控制權。11。 關閉所有選項卡,然後轉到管理工具。12。 開放組件服務。13。 單擊“計算機”,單擊“我的電腦”,然後單擊“DCOM”。14。 查找錯誤查看器上顯示的相應服務。15。 右鍵單擊它,然後單擊屬性。16。 單擊安全選項卡,然後單擊添加用戶,添加系統,然後應用 17。 勾選激活本地框。因此,請在此處使用相關密鑰,DCOM配置應該可以訪問灰色區域:CLSID {D63B10C5-BB46-4990-A94F-E40B9D520160} APPID {9CA88EE3-ACB7-47C8-AFC4-AB702511C276}

我幾乎可以逐字逐句地遵循步驟1-15。然而,當我到達第16步時,我真的無法確切地說出他希望我做什麼。起初我將DATAKEEPER dave用戶帳戶完全控制權授予了RuntimeBroker,但這並沒有解決問題。最後我只是在所有三個權限上選擇了“使用默認值”並修復了問題。使用Windows Server 2016從Windows事件觸發電子郵件警報 我不確定這是怎麼發生的。我想我最好把它全部寫下去,以防它再次發生,因為我花了一段時間來弄清楚它。

第4步 – 自動部署

如果需要在多個系統上啟用相同的警報,請將任務導出到XML文件並將其導入其他系統。使用Windows Server 2016從Windows事件觸發電子郵件警報使用Windows Server 2016從Windows事件觸發電子郵件警報 或者甚至更好。 在文件共享上提供XML文件後,通過Powershell腳本自動執行導入作為構建過程的一部分,如以下示例所示。

PS C:> Register-ScheduledTask -Xml(get-content 
'\ myfileshare  tasks  DataKeeperAlerts.xml'|出弦) 
-TaskName“DataKeeperAlerts” - 用戶數據管理員 dave 
-Password MyDomainP @ 55W0rd -Force

使用Windows Server 2016從Windows事件觸發電子郵件警報

在我的下一篇文章中,我將向您展示如何在指定的服務啟動或停止時收到通知。當然,您只需從Service Control Monitor監視EventID 7036即可。但是,只要任何服務開始或停止,這都會通知您。我們需要深入挖掘,以確保只有在我們關心的服務開始或停止時才會收到通知。如果您對我們的操作方法文章感興趣,例如使用Windows Server 2016從Windows事件觸發電子郵件警報,請單擊此處。從Clusteringformeremortals.com轉載

Filed Under: 伺服器集群简单化

Azure Outage Post Mortem第3部分

8 11 月, 2018 by Jason Aw Leave a Comment

蔚藍的停電驗屍

結束Azure Outage Post-Mortem第3部分

我以前的博客帖子,Azure Outage Post-Mortem – 第1部分和Azure Outage Post-Mortem第2部分,基於來自博客帖子和Twitter的有限信息做出了一些假設。我剛剛參加了Ignite的一次會議,它更明確地說明了實際發生的事情。明天某個時候你應該能夠自己查看會話。BRK3075 – 為意外做準備:解決Azure中斷官方根本原因分析即將發布。與此同時,這裡有一些從會話中收集到的信息。

原因

從死後的蔚藍停電中,停電不是由先前報導的雷擊引起的。相反,由於風暴的性質,電風暴下陷和膨脹。結果,它鎖定了第一個數據中心的冷水機組。在第一次停電期間,他們能夠快速恢復冷卻器,沒有明顯的影響。此後不久,第二個數據中心發生了第二次中斷,無法正常恢復。這開始了一系列不幸的事件。

第二次停電

在此次停電期間,微軟表示“工程師沒有正確分類警報 – 冷水機組恢復沒有優先考慮”。此時觸發了大量警報。不幸的是,冷凍機處於脫機狀態並沒有得到應有的優先權。關於為何發生這種情況的RCA仍在調查中。微軟聲稱當然有多餘的冷卻系統。但是,冷卻系統未設置為自動故障轉移。最近安裝的新設備尚未經過全面測試。 所以它被設置為手動模式,直到測試完成。45分鐘後,環境冷卻失敗,硬件停機,空氣處理人員關閉,因為他們認為發生火災。 工作人員因虛假火警而被疏散。在此期間,數據中心的溫度在升高。某些硬件沒有正常關閉,導致某些存儲和網絡損壞。手動重置冷卻器並打開空氣處理器後,溫度開始恢復正常。他們花了大約3小時29分鐘才能全面了解數據中心的狀態。最大的問題是存儲損壞。微軟最關心的是數據保護。Microsoft將努力恢復數據以確保不會丟失數據。這當然需要一些時間,這延長了停機的總長度。好消息是沒有客戶數據丟失。 壞消息是,事情似乎需要24-48小時才能恢復正常。這是基於我在Twitter上從抱怨長時間停機的客戶那裡讀到的內容。

假設

每個人都預計這次中斷會影響在中南部地區的客戶。但他們沒想到的是,停電會對該地區產生影響。在會話中,Microsoft討論了中斷的一些擴展範圍。

Azure服務管理器(ASM)

這可以控制Azure“Classic”資源,AKA,ARM之前的資源。任何依賴ASM的人都可能受到影響。我不清楚為什麼會這樣。南中部地區似乎擁有該服務的一些重要組成部分,而這些組成部分無法使用。

Visual Studio團隊服務(VSTS)

同樣,似乎許多支持此服務的資源都在中南部地區託管。Azure DevOps此博客文章的工程總監Buck Hodges(@tfsbuck)詳細介紹了這次中斷。

POSTMORTEM:VSTS 2018年9月4日

Azure Active Directory(AAD)

當中南部地區失敗時,AAD按照預期的方式行事,並開始將身份驗證請求指向其他地區。隨著東海岸開始醒來並上線,身份驗證流量開始增加。現在通常AAD會通過自動縮放來處理流量的增加。但是自動縮放依賴於ASM,當然它是離線的。如果沒有自動縮放功能,AAD無法處理身份驗證請求的增加。令人惱火的情況是Office客戶端中的一個錯誤,這使得它們具有非常積極的重試邏輯,並且沒有退避邏輯。這種額外的身份驗證流量最終使AAD陷入困境。他們沒有時間在Ignite會議期間進一步討論這個問題。 他們將介紹的一個功能是讓用戶能夠在將來手動故障轉移存儲帳戶。因此,如果恢復時間目標(RTO)比(RPO)更重要,則用戶將能夠在備用數據中心恢復其異步複製的地理冗餘存儲,如果Microsoft未來再次遭遇延長中斷的話。

你現在能做什麼

在此之前,您將不得不依賴其他復制解決方案,例如SIOS DataKeeper Azure Site Recovery。或者是特定於應用程序的複制解決方案,它能夠跨區域複製數據,並能夠在您的控件中實施災難恢復計劃。了解有關我們的蔚藍停電事件的更多信息,經Clusteringformeremortals.com許可轉載

Filed Under: 伺服器集群简单化 Tagged With: 蔚藍的停電驗屍

Azure Outage Post Mortem第2部分

7 11 月, 2018 by Jason Aw Leave a Comment

 蔚藍中斷後驗屍第2部分

發生了什麼?這是我們的Azure Outage Post Mortem第2部分

蔚藍中斷後驗屍第2部分

發生了什麼?這是我們的Azure Outage Post Mortem第2部分

我之前的博客文章稱,雲到雲或混合雲可以讓您與CSP可能遇到的任何問題隔離開來。但是,如果在中南部地區提供可用區,則可以避免由此自然災害造成的大部分停機時間。微軟發布了9月4日南中央停電的初步RCA。整個摘要中最重要的部分如下……

“儘管有現實的冗餘,有一些情景,其中一個數據中心的冷卻故障會影響受影響的數據中心的客戶工作。”

這對你來說代表著什麼?

如果您的應用程序都在同一個數據中心運行,那麼您將來可能會遇到相同類型的中斷。在微軟的辯護中,這對你來說真的不應該是新聞。無論您是在Azure,AWS,Google還是自己的數據中心運行,這一直都是如此。未能提前計劃將數據複製到不同的數據中心以及製定快速恢復應用程序的計劃只是缺乏您的計劃。Microsoft未發布確切的可用區位置。如果你相信這張地圖發表在這裡,你可能會猜到它們可能相距2-10英里。Azure Datacenters.png 除了最極端的情況之外,在可用區之間複製數據應該足以用於數據保護。某些應用程序(如SQL Server)內置了複製技術。但是,對於廣泛的應用程序,操作系統和數據類型,請研究塊級複製SANless群集解決方案。SANless集群解決方案傳統上用於多站點集群。但是,相同的技術也可以在可用區,區域或混合雲中的雲中使用,以實現高可用性和災難恢復。無論是Azure,AWS還是Google,實施跨越可用區的SANless群集都是一個非常簡單的過程,只需要合適的工具。作為宰藍式停電事件的一部分,這裡有一些資源可以幫助您入門。循序漸進:在Azure中配置跨越可用區的文件服務器群集如何在Google Cloud Platform中構建SANless SQL Server故障轉移群集實例MS SQL Server v.Next在具有復制和高可用性的Linux上#Azure #Cloud #Linux在AWS快速入門中的AWS SANless Linux群集中的#Azure資源管理器(ARM)SAN SANless SQL Server群集中部署Microsoft SQL Server 2014故障轉移群集

Azure Outage Post Mortem的教訓

如果您在Azure中,則可能還需要考慮Azure站點恢復(ASR)。ASR允許您將整個VM從一個Azure區域複製到另一個區域。ASR將實時復制您的虛擬機,並允許您隨時進行無中斷的災難恢復測試。它支持大多數版本的Windows和Linux,並且相對容易設置。您還可以創建具有“多VM一致性”的複製作業。這意味著必須從完全相同的時間點恢復服務器,這些時間點可以放在此一致性組中,並且它們將具有完全相同的恢復點。實質上,如果您在單個區域中構建具有DataKeeper的SANless群集以實現高可用性,則DR有兩個選項。一種是您可以將SANless群集擴展到不同區域中的節點,或者可以使用ASR複製一致性組中的兩個節點。ASR

有什麼不同?

與ASR的權衡是RPO和RTO不如使用SANless多站點群集那麼好。雖然它很容易配置並適用於任何應用程序。小心點 如果您的應用程序定期超過10 MBps的磁盤寫入活動,ASR將無法跟上。此外,基於Storage Spaces Direct的群集無法使用ASR進行複制,並且在Azure中使用時通常缺乏良好的DR策略。管理磁盤發布後的一段時間,ASR直到大約一年後才完全支持它們。對於許多希望使用ASR的人來說,對託管磁盤的全面支持是一個很大的障礙。幸運的是,從2018年2月開始,ASR完全支持託管磁盤。但是,剛剛引入了另一個問題。隨著可用區的引入,ASR再次落後於時代。它們目前不支持已部署在可用區中的VM。

2018-09-25_00-10-24
支持矩陣,用於從一個Azure區域複製到另一個Azure區域

無論如何我繼續嘗試了。似乎可以配置複製,我能夠進行測試故障轉移。

我使用ASR從中美到東2複製SQL1和SQL3,並進行了測試故障轉移。除了沒有將VM放置在美國東部的AZ中之外,它似乎也有效。[/ caption]我希望在Ignite會議上找到更多有關此限制的信息。雖然這種限制並不像Managed Disk那樣重要。 因為可用區尚未廣泛使用。因此,希望ASR能夠獲得對可用區的支持,因為其他區域點亮了可用區,並且它們被更廣泛地採用。

了解有關Azure Outage Post Mortem的分析的更多信息,經過Clusteringformeremortals.com的許可轉載

Filed Under: 伺服器集群简单化

  • « Previous Page
  • 1
  • …
  • 70
  • 71
  • 72
  • 73
  • 74
  • …
  • 98
  • Next Page »

最近的帖子

  • 在 Nutanix 環境中選擇高可用性解決方案的 10 個注意事項
  • 我的伺服器是一次性的嗎?高可用性軟體如何適應雲端最佳實踐
  • 災難頻傳世界的資料復原策略
  • DataKeeper 與棒球:災難復原的策略性舉措
  • SQL Server 停機風險預算

最熱門的帖子

加入我們的郵件列表

Copyright © 2025 · Enterprise Pro Theme on Genesis Framework · WordPress · Log in