檔案

雲遷移停滯的六個原因

22 12 月, 2020 by Jason Aw Leave a Comment

雲遷移停滯的六個原因

越來越多的客戶正在尋求利用雲的靈活性，可擴展性和性能。隨著做出這一轉變的應用程序，解決方案，客戶和合作夥伴的數量增加，請確保您的遷移不會停止。

避免以下六個原因導致雲遷移停滯

1.不完整的雲遷移項目計劃

人們普遍認為，項目計劃是項目成功的關鍵因素。計劃在幫助指導利益相關者，多樣化的實施團隊和合作夥伴完成項目階段中起著至關重要的作用。規劃可幫助確定所需目標，使資源和團隊與這些目標保持一致，降低風險，避免錯過最後期限，並最終在雲中提供高可用性解決方案。計劃不完整和計劃不完整通常是導致項目停滯的主要原因。在第九個小時，確定了關鍵依賴性。在服務器意外重啟期間，將識別應用程序監視和HA漏洞（請參閱下文）。確保您的雲遷移有一個計劃，然後執行該計劃。

2.在本地過度設計

“這就是我們在本地節點上做到的方式”，這是開始最近的客戶對話的短語。當客戶嘗試遷移到雲時，他們與SIOS專業服務項目經理Edmond Melkomian進行了接觸。在一次發現會議中，Edmond能夠發現許多與內部部署和雲架構有關的過度設計的項目。對於某些項目，複製在場所進行的操作可能會成為膨脹，複雜和延遲的簡歷。分析您的架構和遷移計劃，並無情地消除過度設計的組件和設計，尤其是在網絡和存儲方面。

3.預留空間不足

控製成本和防止蔓延是雲遷移的重要和關鍵方面。但是，一些擔心每小時收費以及磁盤和帶寬相關成本的客戶陷入了配置不足的陷阱。在此陷阱中，資源的大小不正確，例如具有錯誤的速度特徵的磁盤，使用錯誤的CPU或內存佔用量來計算資源或具有錯誤數目的節點的群集。在這種配置不足的情況下，當用戶接受測試（UAT）開始並且預期/預期的工作負載在容量不足的資源上造成日誌阻塞時，就會出現問題。或者目標節點的成本優化無法在故障轉移方案中正確處理資源。雖然在雲中調整虛擬機的大小是一個簡單的過程，但是在建築師和首席財務官試圖了解重新配置資源的影響時，這些大小調整問題通常會造成延遲。

4.內部IT流程

每個偉大的企業公司都有一套內部流程，您的團隊和公司也不例外。在流程中，IT流程通常是關鍵的，可能會對您的雲遷移策略的成功產生重大影響。過去，許多公司的採購和採購流程都很漫長，包括投標，規模調整指南，訂單批准，服務器準備和配置以及最終部署。雲過程極大地改變了獲取，部署計算，存儲和網絡資源的方式。但是，如果您的流程跟不上雲的速度，那麼當計劃更改時，遷移可能會遇到障礙。

5.高可用性計劃不佳

雲遷移可能會停止的另一個原因涉及高可用性計劃。高可用性不僅需要一捆工具或企業許可證。HA需要仔細，徹底和周到的系統設計。部署高可用性解決方案時，您的計劃將需要考慮容量，冗餘以及恢復和更正的要求。通過計劃，可以正確識別需求，提出解決方案，考慮風險並管理部署和驗證的依賴性。如果沒有計劃，項目和部署將容易受到風險，單點故障問題，安裝不當以及缺少應用程序保護或恢復策略的層次和級別的威脅。通常，在缺乏高可用性計劃的情況下，項目會停頓，而需求卻沒有得到解決。

6.不完整或無效的測試

羅恩（Ron）是將其最終客戶遷移到雲的合作夥伴，計劃在接下來的三天週末上線。 “執行/不執行”的最後決定點是在登台服務器上進行了一批用戶接受測試。第一次測試失敗。為了彌補由於其他遷移障礙而造成的時間浪費，Ron和團隊跳過了一些測試案例，這些測試案例與將最新的安全性和備份軟件最終集合集成到支持補丁的最新操作系統上有關。這種模擬負載是新創建的服務器上的第一個負載，它解決了Ron體系結構中的一系列問題，包括內核錯誤，CPU和內存供應問題以及存儲佈局和容量問題。該項目被推遲了四個多星期，以解決客戶的信心，正確的測試和驗證，調整大小和架構以及應用軟件和操作系統修復的問題。

雲的前景令人鼓舞，精心計劃的雲遷移將使您和您的團隊能夠利用這些優勢。無論您是開始遷移還是正在進行雲遷移，我們希望本文可以幫助您更多地了解常見的陷阱，以期可以避免它們。

–客戶體驗副總裁Cassius Rhue

轉載自SIOS

計算雲中的應用程序可用性

18 12 月, 2020 by Jason Aw Leave a Comment

計算雲中的應用程序可用性

在雲中部署關鍵業務應用程序時，您要確保它們具有高可用性。好消息是，如果您進行適當的計劃，則可以實現99.99％（4-nines）的可用性或更高。但是，計算您的真實可用性可能並不像看起來那樣簡單。

在考慮可用性時，您必須考慮使訪問應用程序成為可能的關鍵組件，我將其稱為可用性鏈。可用性鏈的組成部分是：

計算
網絡
存儲
應用
依賴服務

您的應用程序只有最弱的鏈接才可用，並且您向鏈中添加的每個其他鏈接的停機時間都會成倍增加。讓我們檢查每個鏈接。

計算可用性

三個主要的雲服務提供商中的每一個都有一些相似之處。這三個平台的共同點是它們將致力於計算的服務級別協議（SLA）。

當您在不同可用性區域中配置了兩個或多個VM時，所有三個VM的公共雲提供商的SLA為99.99％。請記住，此SLA僅保證在任何給定時間對其中一個VM的遠程訪問，它不保證VM內運行的服務或應用程序的可用性。如果在單個數據中心內部署單個VM，則此SLA的範圍從“每小時90％”（AWS）到99.5％（Azure和GCP）或99.9％（使用Premium SSD時，Azure單個VM）。

真正的高可用性從99.99％開始，因此第一步是確保您的應用程序可用，是確保該應用程序分佈在兩個或多個跨越可用區的VM中。通過將兩個VM分佈在兩個可用區中，可以為您提供至少其中一個VM的99.99％的可用性，您可以得出以下理論：如果三個VM分佈在三個可用區中，則您的可用性將甚至超過99.99％。儘管雲提供商的SLA永遠不會保證可用性超過99.99％（無論使用的可用性區域有多少），但是如果您使用純統計信息，您可能會得出結論，您的可用性可能會高達99.999999％或8尼茲。可用性，每月停機時間為26.30毫秒。

1-（。0001 * .0001）= .99999999

具有三個可用區的99.999999％可用性？

不要四處引用那個數字。但是請記住，如果兩個可用性區域可以為您提供99.99％的可用性，這是有道理的。可以肯定地說，三個可用區將為您提供超過99.99％的可用性。

計算只是可用性鏈中的一個環節。我們仍然必須解決網絡，存儲和其他相關服務，這些都代表了可能的故障點。

網絡可用性

為了使您的應用程序可用，客戶端與應用程序之間的每個網絡躍點以及應用程序依賴的所有資源都必須可用，並且必須在可容忍的延遲範圍內工作。您需要了解數據庫服務器，應用程序服務器，Web服務器和客戶端之間的網絡鏈接，以準確了解網絡可能在哪裡發生故障。請記住，可用性鏈中的鏈接越多，總體可用性就越低。

儘管標準計算SLA涵蓋了同一vNet中虛擬機之間的網絡可用性，但是您可能仍在使用其他網絡服務。這只是您可能會使用的網絡服務的一些示例，這些示例會影響整體應用程序的可用性。

快速路線– 99.95％
VPN網關– 99.9％至99.95％
負載均衡器– 99.99％
流量管理器– 99.99％
彈性負載平衡器– 99.99％
直接連接– 99.9％– 99.99％

基於到目前為止所學的知識，讓我們看一下跨兩個可用區部署的應用程序的可用性。

99.99％的計算可用性

99.99％負載均衡器可用性

.9999 * .9999 = .9998

99.98％的可用性=每月約9分鐘的停機時間

既然我們已經解決了計算和網絡可用性問題，那麼讓我們繼續進行存儲。

存儲空間

現在這裡是故事多毛的地方。看一下以下存儲SLA

https://azure.microsoft.com/zh-CN/support/legal/sla/storage/v1_5/

https://cloud.google.com/storage/sla

https://aws.amazon.com/compute/sla/

顯然，Azure和Google在塊存儲解決方案上提供了99.9％的SLA。 AWS在這裡沒有特別提及EBS。他們只談論虛擬機，並按小時而不是其他雲提供商那樣按月衡量其單實例虛擬機的可用性。為了便於討論，讓我們使用Azure和GCP均已發布的99.9％可用性保證。

在前面的示例的基礎上，讓我們為方程式添加一些存儲空間。

99.99％的計算可用性

99.99％負載均衡器可用性

99.9％託管磁盤

.9999 * .9999 * .999 = .9988

99.88％的可用性=每月約53分鐘的停機時間。

53分鐘的停機時間比我們在先前示例中計算的9分鐘的停機時間要長得多。我們如何才能最大程度地降低99.9％的存儲可用性的影響？我們必須在存儲中建立更多的冗餘！

幸運的是，在計劃應用程序可用性時，我們通常會包括存儲冗餘。例如，當我們站起Web服務器時，每個Web服務器通常會將數據存儲在本地連接的磁盤上。部署域控制器時，Microsoft Active Directory負責在所有域控制器之間複製AD信息。對於類似SQL Server的情況，我們利用AlwaysOn可用性組或SIOS DataKeeper來保持數據在本地連接的磁盤之間的同步。

我們跨不同可用性區域分佈的數據副本越多，我們越有可能倖免於難。

例如，將數據存儲在不同可用性區域中的兩個不同磁盤上的應用程序將受益於冗餘，而不是99.9％的可用性，它更有可能實現99.9999％的存儲可用性。

1 –（.001 * .001）= .999999

如果將其放到先前的方程式中，圖片將開始看起來更亮一些。

.9999 * .9999 * .999999 = .9998

99.98％的可用性=約9分鐘的停機時間

通過跨多個可用區（因此跨多個磁盤）複製數據，我們有效地減輕了與雲存儲相關的停機時間。

應用程序和相關服務的可用性

您已盡力確保計算，網絡和存儲的可用性。但是應用程序本身呢？某些應用程序可以通過在同一應用程序的多個實例之間進行負載平衡來橫向擴展並提供冗餘。想想典型的Web服務器場，您通常可以在其中平衡五台服務器之間的Web請求。如果您丟失一台服務器，則負載平衡器僅將其從旋轉中刪除，直到再次響應為止。

其他應用程序則需要更多的維護和監視。以SQL Server為例。通常，“始終在線可用性組”或“故障轉移群集實例”用於監視數據庫可用性，並在數據庫由於應用程序或系統級故障而變得無響應時使用恢復操作。儘管沒有針對SQL Server可用性解決方案的已發布SLA，但通常公認的是，如果將SQL Server正確配置為具有高可用性，則SQL Server可以提供99.99％的可用性。

您可能依賴於其他基於雲的服務，例如託管的Active Directory，託管的DNS，微服務，甚至雲門戶本身的可用性都應納入整體可用性方程中。

概要

應用程序可用性是所有活動部分的總和。僅在一個區域中跳過會成倍地影響應用程序的整體可用性。花點時間研究可用性鏈中的所有鏈接是否存在漏洞，包括計算，網絡，存儲，應用程序和相關服務。

總的來說，這裡列出的數字是最壞的情況，希望您的實際可用性超過已發布的SLA。做好家庭作業，並提防任何不能保證99.99％可用性的服務，這是被認為具有高可用性的典型閾值。

本文未解決人為錯誤和安全問題。您可以使您的應用程序盡可能地高可用性。但是，如果您尚未採取措施保護應用程序免受外部威脅和愚蠢的人為錯誤，那麼在可用性方面，所有賭注都沒有了。

使用Datadog進行Amazon EC2監控？與SIOS AppKeeper配對以進行自動修復

11 12 月, 2020 by Jason Aw Leave a Comment

使用Datadog進行Amazon EC2監控？與SIOS AppKeeper配對以進行自動修復

您是否曾經想過：“如果Datadog能夠監視我們的Amazon EC2服務並在檢測到故障時自動重新啟動它們，那將是一件很好的事嗎？”我也有同樣的想法，因此決定自己嘗試一下。

SIOS AppKeeper會自動監視Amazon EC2實例的故障，並在檢測到故障時自動重啟實例甚至重啟服務。我心想：“如果將Datadog的監視功能與AppKeeper的自動修復功能結合起來，該怎麼辦？”

它有效，這就是我的工作方式。

如果您已經在使用Datadog，並且有興趣自己嘗試一下，請在本文結尾處註冊以訪問我們的API。

這是我設置AppKeeper以便從Datadog接收警報並在檢測到停機時重新啟動Amazon EC2上的Web服務器的步驟。

為了成功運行此實驗，我們已經在Amazon EC2（使用Linux 2）上運行了Datadog帳戶，AppKeeper帳戶和NGINX Web服務器。

如何將Datadog與AppKeeper集成以提供自動修復

第一步：從AppKeeper獲取重啟API令牌

通過以下表單請求用於Datadog集成的API令牌：

https://mk.sios.jp/BC_AppKeeper_Datadog_api_application

如果您從表單中請求，令牌將被發送到您提供的電子郵件地址。

第二步：在AppKeeper中創建租戶

下一步是在AppKeeper中註冊受監視實例所屬的AWS賬戶。（AppKeeper將註冊的AWS賬戶稱為“租戶”。）

https://sioscoati.zendesk.com/hc/zh-CN/articles/900000123406-Quick-Start-Guide#h_39404cfb-4a76-450f-99c2-e197cc63e50d

第三步：在AWS中創建IAM角色

然後，我在AWS中創建了一個IAM角色（您需要使用它來設置AppKeeper帳戶）。如果您不熟悉此過程，請按以下說明進行操作。

第四步：在AppKeeper中添加租戶

下一步是在AppKeeper中添加“租戶”（AppKeeper認為AWS賬戶為“租戶”）。這是有關執行此操作的詳細說明的鏈接。

第五步：在Datadog中設置綜合測試

然後，我需要為我們要監視的Nginx服務器（EC2實例）配置Datadog的輪廓監視。方法如下：

打開Datadog儀表板，然後從菜單中選擇UX監視>綜合測試。

單擊[New Test]右上角的按鈕，然後選擇[New API Test]創建輪廓監視案例。

在表單中輸入以下信息以創建概要監視案例。

選擇請求類型
選擇“ HTTP”。
定義請求：
設置以下值。
網址：獲取http：// {{{EC2 IP地址}}
名稱：AppKeeper Datadog集成測試（任何名稱）
地點：東京

3。指定測試頻率
沒變化

4。定義斷言
點擊“新斷言”並設置以下值

什麼時候：

[status code][is][200]
5，定義警報條件
沒變化

6。通知您的團隊
沒變化

第六步：在Datadog中運行綜合測試

完成上述輸入後，請按“創建測試”以創建用於外部監視的測試用例。

結果可見，我們可以在“測試結果”部分中看到網絡服務器正常工作。

這就是使用Datadog配置Synthetics監視所需要做的全部工作。

第七步：將AppKeeper設置為接收合成警報

接下來，我必須將AppKeeper設置為通知目標。從Datadog菜單中，轉到Integrations，然後選擇Integrations選項卡。

在搜索框中，輸入“ Webhooks”以查找Webhooks集成。

單擊“可用”以在您的Datadog帳戶中啟用Webhooks集成。（一旦啟用，它將顯示在“已安裝”列中。）

單擊“配置”以打開Webhooks集成配置頁面。

在頁面底部的“ Webhooks”列中，單擊“新建+”以創建新的Webhooks通知目標。對於參數，輸入以下內容

名稱：集成名稱（任何名稱）

網址：https：//api.appkeeper.sios.com/v2/integration/ {{AWS賬戶ID}} / actions / recover

有效載荷

{

“ instanceId”：“ {{EC2實例ID}}”，

“名稱”：“ nginx”

}

自定義標題：選中該複選框並輸入以下內容

{
“內容類型”：“應用程序/ json”，
“ accept”：“ application / json”，
“ appkeeper-integration-token”：“ {{獲取AppKeeper外部集成令牌}}中獲得的令牌”
}

完成後，按“保存”。

第八步：將AppKeeper連接到綜合測試

接下來，我必須配置AppKeeper（註冊的Webhooks集成），以便在發生Synthetics監視警報時調用它。

從菜單的“ UX監視”>“綜合測試”中打開在“使用Datadog配置綜合監視”中設置的測試用例。

從右上方的變速箱中選擇“編輯測試詳細信息”，然後在“ 5.輸入以下值”中輸入以下值。通知您的團隊”框以保存更改。

@webhook-{{Datadog中Webhook集成的名稱}}

※您可以設置“如果顯示器尚未解決則重新通知”。如果AppKeeper第一次無法恢復，則可以重試。測試不是必需的，但是我們建議您將其設置為（[10 minutes]最小間隔）。

安裝完成。

第九步：通過再次運行測試來確認集成

然後，我確認如果Datadog檢測到它關閉，AppKeeper將還原Web服務器。

打開您剛剛從Datadog中的UX監視>綜合測試中設置的綜合監視測試用例。

單擊右上角的“恢復測試”，然後打開“合成”監視。

現在，Datadog將定期執行Synthetics監視。

測試結果表明服務器已成功訪問。

接下來，我創建了網絡服務器的偽故障，以測試AppKeeper的自動修復。

由於很難造成真正的失敗，因此我停止了該服務，並造成了無法查看網頁的情況。為此，我連接到使用SSH安裝Nginx服務器並停止Nginx的EC2實例。

sudo systemctl停止nginx

短暫等待後，Datadog檢測到Web服務器不再可訪問。

Datadog中的“綜合測試”頁面還顯示測試用例失敗。

如果測試用例失敗，Datadog將通知AppKeeper Synthetics監視失敗。

當AppKeeper收到通知時，它將自動嘗試重新啟動Nginx。

因此，如果您稍等片刻，就會發現Datadog的Synthetics監控檢查將再次通過。

另外，如果您登錄到AppKeeper儀表板，則會看到恢復已執行。

–

在本練習中，我以Web服務器（Nginx）為例，通過Datadog自動執行檢測故障並通過AppKeeper恢復服務的過程。

通過將Datadog與EventBridge和Lambda集成或創建自定義腳本，可以實現類似的自動化。

但是，如果您經常添加目標實例或重新啟動各種服務，則維護EventBridge和Lambda或腳本的成本和復雜性將會增加。

AppKeeper已與Datadog進行了可靠的集成，並且您可以輕鬆地將目標實例添加到應用程序中，從而可以輕鬆地將自動化添加到DevOps環境中以減少停機時間。

如果您當前正在使用Datadog，並且想試用AppKeeper的Restart API，請先在此處註冊我們的14天免費試用版（安裝免費試用版後即可購買訂閱）。然後單擊此處以請求免費試用。我們將引導您完成整個過程，並為您提供免費的評估令牌，以幫助您入門。

申請評估令牌

謝謝。我希望您能藉此機會更多地了解SIOS AppKeeper，它可以自動監視和恢復在EC2上運行的應用程序。

-SIOS Technology技術團隊的Tatsuya Hirao。

經SIOS許可轉載

5個跡象表明，要修復高可用性，需要花費比博客文章更多的時間

8 12 月, 2020 by Jason Aw Leave a Comment

5個跡象表明，要修正您的高可用性，還需要花費比博客文章更多的時間

5個跡象表明，要修復高可用性，需要花費比博客文章更多的時間

標誌在那裡。警告燈閃爍。在您的直覺中，您可以感覺到它。也許你睡不著您的高可用性問題很深。但是，也許您不太確定。

1.如果您認為雲SLA是高可用性所需的全部

雲解決方案在提高硬件可用性和彈性方面取得了巨大進步。但是，應用程序高可用性不僅需要選擇正確的管理程序或云提供商，還需要更多。雲或虛擬化提供商提供的SLA不能阻止您的高可用性策略。正如Wired所引用的那樣，“ 2011年4月近四天的Amazon中斷並未違反Amazon的EC2 SLA，正如FAQ所解釋的那樣，“保證了在365年內某個區域內99.95％的服務可用性。”在這篇DZone文章中，我們自己的David Bermingham詳細細分了雲SLA和應用程序可用性之間的差異。如果您想要一個高度可用的基礎架構，則它還必須包括在數據和應用程序層的監視，恢復和彈性。

2.如果您僅使用開源操作系統隨附的高可用性群集

如果是這樣，那麼您很可能沒有根據與操作系統捆綁在一起的數據庫來選擇數據庫，那麼為什麼僅根據該標準選擇HA解決方案。捆綁的工具在提供額外的保證，可能性和功能方面大有幫助。但是，儘管易於訪問，捆綁的工具和OS群集軟件並不總是能夠滿足您的SLA，RPO，RTO和可用性要求。如果您的企業具有操作系統的組合，則您的團隊可能需要導航不同工具並了解它們如何集成在一起的幫助。這就好比選擇樹籬修剪器，然後將路left割草機推到路緣石上，在13洞5杆洞（奧古斯塔）上塑造“杜鵑花”形狀。兩台割草機都旨在割草，但是您有多少時間？您將如何處理複雜性？您會信任哪個？您的高可用性策略所需要的不只是考慮與操作系統捆綁在一起的便利性，否則，您將運行MySQL而不是SAP HANA。

3.如果您認為企業應用程序許可（例如SQL Enterprise或Oracle Enterprise）與企業高可用性相同

除了增加成本外，許多企業應用程序許可證還提高了應用程序在某些高可用性方案中恢復的能力。但是，整個企業極不可能基於單個應用程序。您的高可用性不僅需要高可用性的數據庫解決方案。您將需要一個企業級應用程序監視和恢復解決方案，該解決方案需要對所有應用程序和數據庫的廣泛支持。此外，您不僅需要管理和復制數據庫數據的能力，還需要管理和復制關鍵應用程序和配置數據的能力。單個數據庫或簡單應用程序的可用性是一回事，但是複雜，多部分應用程序和支持數據庫的HA卻大不相同。在故障轉移/切換之前，期間和之後，需要提供更多的服務，需要協調的更多部分，要協調的更複雜的體系結構，要遵循的更具體的最佳實踐。超出您企業許可證所支付的價格。

4.如果您的停機時間在增加，而停機時間在減少

在許多領域，生活的節奏都在不斷增加。您的團隊最後一次從備份中恢復，手動重新啟動被認為是關鍵的應用程序或重新啟動一組故障的虛擬機或節點是什麼時候？中斷事件的速度不能繼續超過可持續性，或者您的團隊有能力從消防轉向防火和防火。 “你只能跑那麼久這麼久（Carey Nieuwhof）。”對於某些人來說，您交火已經太久了，而且停機時間比正常運行時間更為普遍。

5.如果您的第一個故障轉移測試是在生產服務器上

最近的一位客戶指出，不可能針對每種可能的災難情況進行測試。隨著新軟件的創建，部署，更新和修補，更高可用性方面的挑戰越來越大。但是，您的實時生產數據不是找出不能一起很好發揮作用的地方。儘管Go-Live和Post-Go-Live總是會帶來很多驚喜，但是無法真正進行故障轉移和在備份節點上運行不應是其中之一。

精練博客可以為您提供有用的提示和見解，以定義，重新定義和提高您的更高可用性。但是，如果警告信號消失了，您已經用某種“足夠”來換取了真正的可用性，那麼修復該問題所需要的不僅僅是博客文章，或者是在可用性世界中搜尋每篇博客文章來解決的問題。您的醫管局。

–客戶體驗副總裁Cassius Rhue

經SIOS許可轉載

9個跡象表明您存在應用程序可用性問題

27 11 月, 2020 by Jason Aw Leave a Comment

9個跡象表明您存在應用程序可用性問題

您已經聽說過“認識到問題是解決問題的第一步。”但是，許多小型，中型甚至令人驚訝的大型企業都沒有意識到他們的應用程序可用性不是應該的。

繼續閱讀以下九個跡象，表明您仍然存在應用程序可用性問題：

1.重新啟動應用程序所花的時間比使用它所花費的時間多

應用程序崩潰可能是生活中不可或缺的事實，但是如果您的應用程序宕機多於宕機，那就成問題了。

2.您已開始細心瀏覽收件箱或控制中心中的警報風暴

您已為應用程序或服務器停機部署了警報，但是警報風暴使收件箱不堪重負，以至於所有警報均已靜音。

3.您擁有一個用於所有關鍵操作的數據中心

單個數據中心進行操作聽起來很方便，但是已知一個意圖良好但方向錯誤的施工人員會將單個數據中心變成昂貴的不可用區域。

4.您的數據保護理念涉及備份檢索和存檔

您的數據保護策略至關重要。數據複製技術和站點到站點，區域到區域複製已成為主流，因此，如果您的複製或數據保護策略不存在或對文件庫進行長時間的拖延，這可能是一個大問題。

5.您的恢復過程始終需要手動干預

手動干預本身不是問題。有些事件是如此的困難和復雜，以至於可能需要大量的人工。但是，如果在服務器或應用程序中斷之後，手動干預始終是第一，第二和第三項業務，那麼這就是一個問題。

6.您的RTO以天而不是小時或分鐘為單位進行度量

您如何衡量恢復時間目標（RTO）？您是否以天或小時而不是每月的分鐘數來衡量您的RTO？的確，每個企業的RTO都有容忍度。但是，您的RTO不應是服務器重建和體系結構中嚴重不穩定的函數。

7.您不知道自己的RPO，因為您的待機狀態永遠不會可靠地同步

您已經選中了可靠監視和恢復應用程序的複選框，並進一步採取了行動，以提供備用集群就緒系統。做得好。但是，在讓您擺脫困境之前，您的恢復點目標（RPO）是什麼？ RPO應該比“第0天到昨晚之間的某個地方”更準確。

8.單點故障並不只是存在，而是正常現象

您的單點故障在哪裡？您的預算可能無法消除每個故障點，但是如果您可以在企業的每個主要類別和每個關鍵組成部分中確定一個故障點，那麼……

9.您上次的災難成為地方，區域或國家新聞

如果上一次重大風暴，電網故障或故障事件由於停機而使您的業務陷入困境，那麼下一個業務便是更高的可用性。

停機會在客戶，生產力和安心方面給您的業務造成損失。未解決的風險會對您的業務和聲譽產生確定的影響。如果這些警告標記在那裡，則可能存在可用性問題。而且，如果您忽略它們，那麼此後不久您可能會遇到更大的問題，因此應用程序可用性的重要性。

—客戶體驗副總裁Cassius Rhue

雲遷移停滯的六個原因

避免以下六個原因導致雲遷移停滯

1.不完整的雲遷移項目計劃

2.在本地過度設計

3.預留空間不足

4.內部IT流程

5.高可用性計劃不佳

6.不完整或無效的測試

計算雲中的應用程序可用性

計算可用性

網絡可用性

存儲空間

應用程序和相關服務的可用性

概要

使用Datadog進行Amazon EC2監控？ 與SIOS AppKeeper配對以進行自動修復

如何將Datadog與AppKeeper集成以提供自動修復

第一步：從AppKeeper獲取重啟API令牌

第二步：在AppKeeper中創建租戶

第三步：在AWS中創建IAM角色

第四步：在AppKeeper中添加租戶

第五步：在Datadog中設置綜合測試

第六步：在Datadog中運行綜合測試

第七步：將AppKeeper設置為接收合成警報

第八步：將AppKeeper連接到綜合測試

第九步：通過再次運行測試來確認集成

5個跡象表明，要修復高可用性，需要花費比博客文章更多的時間

1.如果您認為雲SLA是高可用性所需的全部

2.如果您僅使用開源操作系統隨附的高可用性群集

3.如果您認為企業應用程序許可（例如SQL Enterprise或Oracle Enterprise）與企業高可用性相同

4.如果您的停機時間在增加，而停機時間在減少

5.如果您的第一個故障轉移測試是在生產服務器上

9個跡象表明您存在應用程序可用性問題

繼續閱讀以下九個跡象，表明您仍然存在應用程序可用性問題：

1.重新啟動應用程序所花的時間比使用它所花費的時間多

2.您已開始細心瀏覽收件箱或控制中心中的警報風暴

3.您擁有一個用於所有關鍵操作的數據中心

4.您的數據保護理念涉及備份檢索和存檔

5.您的恢復過程始終需要手動干預

6.您的RTO以天而不是小時或分鐘為單位進行度量

7.您不知道自己的RPO，因為您的待機狀態永遠不會可靠地同步

8.單點故障並不只是存在，而是正常現象

9.您上次的災難成為地方，區域或國家新聞

使用Datadog進行Amazon EC2監控？與SIOS AppKeeper配對以進行自動修復