Archives for 12월 2020

더 나은 결과로 클라우드에서 가용성을 복제하는 방법

12월 30, 2020 by Jason Aw Leave a Comment

더 나은 결과로 클라우드에서 가용성을 복제하는 방법

영화 팁 – 다중성

Multiplicity는 1996 년 미국 공상 과학 코미디 영화로 Michael Keaton이 그의 가족과 까다로운 직업을 위해 시간을 내기 위해 고군분투하는 바쁜 건설 노동자 Doug Kinney 역으로 주연을 맡았습니다. 과학자가 그를 복제하겠다고 제안했을 때 Doug는 자신의 일정과 약속을 더 쉽게 충족시키는 데 동의합니다. 그러나 그의 사본은 자신의 사본을 만들기 시작합니다. 마지막 사본이 만들어 질 때까지 요점은 분명합니다. 복제만으로는 충분하지 않을 수도 있고 최소한 몇 가지 강력한 경고, 문제 및 부작용이있을 수 있습니다. 유명한 오리지널 스타 트렉 에피소드“Trouble with Tribbles”는 비슷한 점을 보여줍니다.

큰 화면 (또는 작은 화면)에서의 복제와 마찬가지로 클라우드에서의 복제는 훌륭한 도구이지만 문제가없는 것은 아닙니다.

클라우드에서 가용성을 복제 할 때 더 나은 결과를 얻는 방법에 대한 팁

1. 운영 체제 복제

이것은 당연한 것처럼 들리지만 실제 기업 환경에서 두 번 이상 발생하는 것을 보았습니다. 작동하지 않는 시스템을 복제하면 복제가 작동하지 않고 복원 할 때 문제가됩니다. 만든 클론이 운영 및 기능 시스템에서 생성되었는지 확인합니다.

2. 데이터를 디스크에 동기화하고 복원시 다시 동기화

파일 시스템 무결성이 중요합니다. 애플리케이션 및 / 또는 VM이 일관된 상태인지 확인하지 않는 경우 대부분의 공급 업체는 생성 된 결과 이미지를 보장하지 않습니다. 스냅 샷은 스냅 샷 명령이 실행될 때 볼륨에 기록 된 데이터 만 캡처하므로 모든 애플리케이션 또는 운영 체제에서 캐시 한 모든 데이터를 제외 할 수 있습니다. 데이터가 파일 시스템에 올바르게 동기화되었는지 확인하는 것은 중요한 단계이며 클러스터 환경에서 절대적으로 중요합니다.

이미지에서 복원 할 때 파일 시스템 무결성도 염두에 두어야합니다. 데이터 복제를 사용 중이고 이미지를 클러스터의 소스 또는 대상으로 복원하는 경우 두 노드가 동기화되어 있는지 확인하는 것이 가장 중요합니다. 그렇게하지 않으면 장애 조치 또는 전환시 파일 시스템 오류가 발생하거나 데이터가 손실 될 수 있습니다. 클라우드에서 가용성을 복제하여 원하는 결과를 얻으십시오.

3. 인스턴스 중지

많은 환경에서는 이미지를 생성하기 위해 인스턴스를 중지 할 필요가 없으며 AWS와 같은 일부 환경에서는 복사하기 전에 노드 전원을 끄는 단계를 수행합니다.그러나 많은 도구와 사이트에서는 손상, 무결성 손실 또는 설치된 응용 프로그램을 시작, 중지 또는 실행하는 데 문제가있는 이미지를 생성하지 않도록 응용 프로그램을 중지하고 파일 시스템 액세스를 올바르게 동기화 할 것을 권장합니다.

4. 클라우드의 모든 항목 (노드, 디스크, NIC, 모든 항목)에 라벨 지정

클론 생성은 무료 작업이지만 결과 디스크와 구성 요소는 일반적으로 그렇지 않습니다.예를 들어 AWS는 "이미지를 등록 취소하고 스냅 샷을 삭제할 때까지 스냅 샷에 대한 요금이 부과됩니다"라고 말합니다. 항목에 라벨이 지정되지 않은 경우 사용중인 항목과 사용하지 않는 항목 및 만든 이유를 알면 문제가 될 수 있습니다. 또한 기존 팀원들의 덧없는 기억이나 집중력 저하의 영향을받습니다.모든 것에 라벨을 붙입니다.

5. 클론과 스냅 샷을 자주 정리 (비용 절감 및 골치 아픈 일 절감)

오래된 스냅 샷과 클론을 정리하면 비용을 절감 할 수있을뿐만 아니라 골칫거리를 줄이는데도 좋습니다.오래된 스냅 샷은 최신 복사본에서 해결되거나 해결 된 취약성을 다시 도입 할 위험이 있습니다.SIOS Technology Corp.의 고객 경험 부사장으로서 스냅 샷에서 복원 한 고객과 함께 작업했을 때 그 결과를 직접 보았습니다. 응용 프로그램을 다시 시작하면서 몇 가지 문제가 발생했습니다. 문제 해결 후 복제본이 이전 버전의 보안 소프트웨어를 실행하고 있음을 확인했습니다. 사용자 프로필에 저장된 캐시 된 자격 증명 및 메타 데이터는 더 이상 외부 탑재 데이터 드라이브에 저장된 실제 애플리케이션 데이터와 동기화되지 않았습니다.

6. 클라우드에서 클론 복제 제한 또는 제한

마지막으로 클라우드에서 수행하는 모든 작업을 복제 할 필요는 없습니다. 복제 할 워크로드 유형을 제한하고 환경에서 복제를 생성 할 수있는 역할의 수를 제한하십시오.

영화에서 Doug의 클론이 자신의 복제 시리즈를 촉발했을 때 이미 압도 된 Doug (Michael Keaton)는 아내에게서 만든 엉망진창을 숨기려고 노력하면서 자신의 많은 클론을 관리하기 위해 추가 에너지를 투입해야합니다. 클라우드에서 더 나은 결과로 클론 가용성을 달성하는 것은 어렵지 않습니다. 작업을 더 쉽게 만들고 환경을 더 안전하게 만드는 도구에서 더 많은 작업을 수행하고 위험을 추가하지 않도록 신중하게 복제하십시오.

– Cassius Rhue, 고객 경험 담당 부사장

SIOS에서 재현

신제품 릴리스 : Linux 9.5.1 용 SIOS Protection Suite

12월 26, 2020 by Jason Aw Leave a Comment

신제품 릴리스 : Linux 9.5.1 용 SIOS Protection Suite

SIOS는 미션 크리티컬 애플리케이션의 고 가용성에 대한 고객의 진화하는 요구를 충족하기 위해 지속적으로 제품을 업데이트하고 있습니다. Linux 용 SIOS Protection Suite 버전 9.5.1의 일반 공급을 발표하게되어 기쁩니다.이 릴리스 기능은 더 광범위한 플랫폼에 대한 지원을 추가하고 명령 줄 인터페이스 기능을 향상시킵니다.

주요 업데이트는 다음과 같습니다.

- - 다음 운영 체제 및 플랫폼 지원 : VMware Vsphere 7, Red Hat Enterprise Linux (RHEL) 8.2, Oracle Linux 8.2, CentOS 8.2, SUSE Linux Enterprise (SLES) 12 SP5, RHEL 7.8, CentOS 7.8, Oracle Linux 7.8, SLES 15 SP2
  - 향상된 설정 스크립트가 포함 된 CLI 자동 설치 – 더 빠르고 간편한 구현
  - ARK 및 복제에 대한 확장 된 CLI 지원 – 여러 클러스터를 간단하고 일관되게 배포 할 수 있습니다.

SIOS의 허가를 받아 복제

클라우드 마이그레이션이 중단 된 6 가지 이유

12월 22, 2020 by Jason Aw Leave a Comment

클라우드 마이그레이션이 중단 된 6 가지 이유

점점 더 많은 고객이 클라우드의 유연성, 확장 성 및 성능을 활용하고자합니다. 변화하는 애플리케이션, 솔루션, 고객 및 파트너의 수가 증가함에 따라 마이그레이션이 중단되지 않도록하십시오.

클라우드 마이그레이션이 중단되는 다음 6 가지 이유 방지

1. 불완전한 클라우드 마이그레이션 프로젝트 계획

프로젝트 계획은 프로젝트 성공의 핵심 기여자로 널리 알려져 있습니다. 계획은 프로젝트 단계에서 이해 관계자, 다양한 구현 팀 및 파트너를 안내하는 데 필수적인 역할을합니다. 계획은 원하는 목표를 식별하고, 리소스와 팀을 이러한 목표에 맞추고, 위험을 줄이고, 기한을 놓치는 것을 방지하고, 궁극적으로 클라우드에서 고 가용성 솔루션을 제공하는 데 도움이됩니다.불완전한 계획과 불완전한 계획은 종종 프로젝트 중단의 큰 원인입니다.9 시간에 주요 종속성이 식별됩니다. 예기치 않은 서버 재부팅 중에 애플리케이션 모니터링 및 HA 홀이 식별됩니다 (아래 참조). 클라우드 마이그레이션에 계획이 있는지 확인하고 계획을 실행하십시오.

2. 온 프레미스 오버 엔지니어링

“이것이 우리가 온 프레미스 노드에서 수행 한 방법입니다.”라는 문구가 최근 고객 대화를 시작했습니다. 고객은 클라우드로의 마이그레이션 시도가 중단되었을 때 SIOS 전문 서비스의 프로젝트 관리자 인 Edmond Melkomian과 협력했습니다.발견 세션 중에 Edmond는 온 프레미스 대 클라우드 아키텍처와 관련된 과잉 엔지니어링 된 항목을 발견 할 수있었습니다. 일부 프로젝트의 경우 온 프레미스에서 수행 한 작업을 재현하는 것은 부풀음, 복잡성 및 지연에 대한 이력서가 될 수 있습니다. 아키텍처 및 마이그레이션 계획을 분석하고 특히 네트워킹 및 스토리지를 사용하여 과도하게 엔지니어링 된 구성 요소 및 설계를 무자비하게 제거하십시오.

3. 언더 프로비저닝

비용을 제어하고 무분별한 확장을 방지하는 것은 클라우드 마이그레이션의 중요하고 중요한 측면입니다.그러나 일부 고객은 디스크 및 대역폭에 대한 시간당 요금과 관련 비용에 대해 걱정하는 것이 부족한 프로비저닝의 함정에 빠집니다.이 트랩에서 리소스는 잘못된 속도 특성을 가진 디스크, 잘못된 CPU 또는 메모리 풋 프린트가있는 컴퓨팅 리소스, 잘못된 노드 수가있는 클러스터 등 부적절한 크기입니다.이와 같이 프로비저닝이 부족한 경우 UAT (User Acceptance Test)가 시작되고 예상 / 예상 워크로드로 인해 규모가 작은 리소스에 대한 로그 잼이 발생하면 문제가 발생합니다.또는 대상 노드의 비용 최적화가 장애 조치 시나리오에서 리소스를 제대로 처리 할 수 없습니다. 클라우드에서 가상 머신의 크기를 조정하는 것은 간단한 프로세스이지만 이러한 크기 조정 문제는 종종 설계자와 최고 재무 책임자가 리소스 재 프로비저닝의 영향을 이해하려고하는 동안 지연을 유발합니다.

4. 내부 IT 프로세스

모든 대기업에는 일련의 내부 프로세스가 있으며 팀과 회사도 예외는 아닙니다.IT 프로세스는 일반적으로 클라우드 마이그레이션 전략의 성공에 큰 영향을 미칠 수있는 프로세스 중 핵심입니다. 과거에는 많은 기업들이 입찰, 사이징 가이드, 주문 승인, 서버 준비 및 구성, 최종 배포를 포함한 긴 요청 및 인수 프로세스를 가지고있었습니다.클라우드 프로세스는 무엇보다도 컴퓨팅, 스토리지 및 네트워크 리소스를 획득하고 배포하는 방식을 획기적으로 변경했습니다.그러나 프로세스가 클라우드의 속도를 따라 가지 못한 경우 계획이 변경 될 때 마이그레이션이 중단 될 수 있습니다.

5. 불량한 고 가용성 계획

클라우드 마이그레이션이 중단 될 수있는 또 다른 이유는 고 가용성 계획과 관련이 있습니다. 고 가용성에는 도구 번들 또는 엔터프라이즈 라이선스 이상의 것이 필요합니다.HA에는 신중하고 철저하며 사려 깊은 시스템 설계가 필요합니다.HA 솔루션을 배포 할 때 계획은 용량, 중복성 및 복구 및 수정 요구 사항을 고려해야합니다. 계획을 통해 요구 사항을 적절하게 식별하고, 솔루션을 제안하고, 위험을 고려하고, 배포 및 유효성 검사에 대한 종속성을 관리합니다. 계획이 없으면 프로젝트 및 배포는 위험, 단일 장애 지점 문제, 적합하지 않음, 누락 된 계층 및 애플리케이션 보호 또는 복구 전략 수준에 취약합니다.종종 HA 계획이 부족한 경우 요구 사항이 분류되는 동안 프로젝트가 중단됩니다.

6. 불완전하거나 유효하지 않은 테스트

최종 고객을 클라우드로 마이그레이션하는 파트너 인 Ron은 다가오는 3 일 주말 동안 가동을 계획했습니다. 'go / no-go'의 마지막 결정 지점은 스테이징 서버에 대한 사용자 승인 테스트의 배치였습니다.첫 번째 테스트가 실패했습니다.다른 마이그레이션 문제로 인한 손실 된 시간을 보충하기 위해 Ron과 팀은 최신 OS에서 보안 및 백업 소프트웨어의 최종 컬렉션을 지원 패치와 통합하는 것과 관련된 여러 테스트 사례를 건너 뛰었습니다. 시뮬레이션 된로드는 새로 생성 된 서버에서 처음으로 발생했으며 커널 버그, CPU 및 메모리 프로비저닝 문제, 스토리지 레이아웃 및 용량 문제 등 Ron의 아키텍처 내에서 일련의 문제가 발생했습니다. 이 프로젝트는 고객 신뢰, 적절한 테스트 및 검증, 크기 조정 및 아키텍처를 해결하고 소프트웨어 및 OS 수정 사항을 적용하기 위해 4 주 이상 지연되었습니다.

클라우드의 약속은 매력적이며 잘 계획된 클라우드 마이그레이션을 통해 귀하와 귀하의 팀은 이러한 이점을 활용할 수 있습니다. 클라우드 마이그레이션을 시작하든 중간에 있든이 기사가 일반적인 함정을 더 잘 인식하여 피할 수 있기를 바랍니다.

– Cassius Rhue, 고객 경험 담당 부사장

SIOS에서 재현

클라우드에서 애플리케이션 가용성 계산

12월 18, 2020 by Jason Aw Leave a Comment

클라우드에서 애플리케이션 가용성 계산

클라우드에 비즈니스 크리티컬 애플리케이션을 배포 할 때 가용성이 높은지 확인하려고합니다. 좋은 소식은 제대로 계획하면 99.99 % (4-9) 이상의 가용성을 달성 할 수 있다는 것입니다. 그러나 실제 가용성을 계산하는 것은 생각만큼 간단하지 않을 수 있습니다.

가용성을 고려할 때 애플리케이션에 대한 액세스를 가능하게하는 주요 구성 요소를 고려해야합니다.이를 가용성 체인이라고합니다. 가용성 체인의 구성 요소는 다음과 같습니다.

계산
회로망
저장
신청
종속 서비스

애플리케이션은 가장 약한 링크만큼만 사용할 수 있으며, 체인에 링크를 추가 할 때마다 다운 타임이 기하 급수적으로 증가합니다.각 링크를 살펴 보겠습니다.

컴퓨팅 가용성

세 가지 주요 클라우드 서비스 공급자는 각각 몇 가지 유사점이 있습니다. 세 가지 플랫폼에서 공통적으로 사용되는 한 가지는 컴퓨팅에 대해 약속 할 SLA (서비스 수준 계약)입니다.

서로 다른 가용성 영역에 구성된 두 개 이상의 VM이있는 경우 VM에 대한 세 가지 공용 클라우드 공급자 모두에 대한 SLA는 99.99 %입니다.이 SLA는 주어진 시간에 VM 중 하나의 원격 액세스 가능성 만 보장하며 VM 내에서 실행되는 서비스 또는 애플리케이션의 가용성에 대해서는 약속하지 않습니다.단일 데이터 센터 내에 단일 VM을 배포하는 경우이 SLA는 "시간당 90 %"(AWS)에서 99.5 % (Azure 및 GCP) 또는 99.9 % (프리미엄 SSD 사용시 Azure 단일 VM)까지 다양합니다.

진정한 고 가용성은 99.99 %에서 시작하므로 애플리케이션을 사용할 수 있는지 확인하는 첫 번째 단계는 애플리케이션이 가용성 영역에 걸쳐있는 두 개 이상의 VM에 분산되어 있는지 확인하는 것입니다. 두 개의 VM이 두 개의 가용 영역에 분산되어 있으므로 해당 VM 중 하나 이상에 대해 99.99 %의 가용성을 제공하는 경우 세 개의 가용 영역에 분산 된 세 개의 VM이있는 경우 가용성이 99.99 %보다 훨씬 더 크다는 이론을 세울 수 있습니다. 클라우드 제공 업체의 SLA는 사용중인 가용성 영역의 수에 관계없이 99.99 % 이상의 가용성을 보장하지 않지만 순수 통계를 사용하면 가용성이 99.999999 % 또는 8-99 %까지 증가 할 수 있다는 결론에 도달 할 수 있습니다. 가용성, 월 26.30 밀리 초의 다운 타임.

1-(. 0001 * .0001) = .99999999

3 개의 가용 영역으로 99.999999 % 가용성?

그 숫자를 인용하지 마세요. 하지만 두 개의 가용 영역이 99.99 %의 가용성을 제공 할 수 있다는 점을 명심하십시오. 3 개의 가용성 영역이 99.99 % 이상의 가용성을 제공 할 것이라는 것은 당연합니다.

컴퓨팅은 가용성 체인에서 하나의 링크 일뿐입니다. 우리는 여전히 네트워크, 스토리지 및 기타 종속 서비스를 처리해야하며, 이는 모두 가능한 장애 지점을 나타냅니다.

네트워크 가용성

애플리케이션을 사용할 수 있으려면 클라이언트와 애플리케이션 간의 모든 네트워크 홉과 애플리케이션이 의존하는 모든 리소스가 사용 가능하고 허용 가능한 대기 시간 범위 내에서 작동해야합니다. 네트워크가 실패 할 수있는 위치를 정확하게 파악하려면 데이터베이스 서버, 애플리케이션 서버, 웹 서버 및 클라이언트 간의 네트워크 링크를 이해해야합니다. 가용성 체인에 링크가 많을수록 전체 가용성이 낮아집니다.

동일한 vNet에있는 VM 간의 네트워크 가용성은 표준 컴퓨팅 SLA에 포함되지만 다른 네트워크 서비스를 활용할 수도 있습니다. 다음은 전체 애플리케이션 가용성에 영향을 미칠 수있는 네트워크 서비스의 몇 가지 예입니다.

급행 노선 – 99.95 %
VPN 게이트웨이 – 99.9 % ~ 99.95 %
부하 분산기 – 99.99 %
Traffic Manager – 99.99 %
Elastic Load Balancer – 99.99 %
직접 연결 – 99.9 % – 99.99 %

지금까지 배운 내용을 바탕으로 두 가용 영역에 배포 된 애플리케이션의 가용성을 살펴 보겠습니다.

99.99 % 컴퓨팅 가용성

99.99 %로드 밸런서 가용성

.9999 * .9999 = .9998

99.98 % 가용성 = 월별 다운 타임 최대 9 분

컴퓨팅 및 네트워크 가용성에 대해 다루었으므로 이제 스토리지로 이동하겠습니다.

스토리지 가용성

이제 여기에서 이야기가 조금 더 복잡해집니다. 다음 스토리지 SLA를 살펴보십시오.

https://azure.microsoft.com/en-us/support/legal/sla/storage/v1_5/

https://cloud.google.com/storage/sla

https://aws.amazon.com/compute/sla/

Azure와 Google이 블록 스토리지 솔루션에 대해 99.9 %의 SLA를 제공하고 있음이 분명해 보입니다. AWS는 여기서 EBS를 구체적으로 언급하지 않습니다. VM에 대해 이야기하고 다른 클라우드 제공 업체와 마찬가지로 월 단위가 아닌 시간 단위로 단일 인스턴스 VM 가용성을 측정합니다. 논의를 위해 Azure와 GCP가 모두 게시 한 99.9 % 가용성 보장을 사용하겠습니다.

이전 예제를 바탕으로 방정식에 저장 공간을 추가해 보겠습니다.

99.99 % 컴퓨팅 가용성

99.99 %로드 밸런서 가용성

99.9 % 관리 디스크

.9999 * .9999 * .999 = .9988

99.88 % 가용성 = 매월 약 53 분의 다운 타임.

53 분의 다운 타임은 이전 예제에서 계산 한 9 분의 다운 타임보다 훨씬 큽니다. 99.9 % 스토리지 가용성의 영향을 최소화하려면 어떻게해야합니까? 우리는 스토리지에 더 많은 중복성을 구축해야합니다!

다행히 애플리케이션 가용성을 계획 할 때 일반적으로 스토리지 중복성을 포함합니다. 예를 들어 웹 서버를 세우면 각 웹 서버는 일반적으로 로컬로 연결된 디스크에 데이터를 저장합니다. 도메인 컨트롤러를 배포 할 때 Microsoft Active Directory는 모든 도메인 컨트롤러에서 AD 정보를 복제합니다. SQL Server와 같은 경우에는 Always On 가용성 그룹 또는 SIOS DataKeeper를 활용하여 로컬에 연결된 디스크에서 데이터를 동기화 상태로 유지합니다.

여러 가용 영역에 배포 한 데이터 사본이 많을수록 장애에서 살아남을 가능성이 높아집니다.

예를 들어 서로 다른 가용성 영역에있는 두 개의 서로 다른 디스크에 데이터를 저장하는 애플리케이션은 중복성의 이점을 얻을 수 있으며 99.9 % 가용성 대신 99.9999 %의 스토리지 가용성을 달성 할 가능성이 높습니다.

1 – (.001 * .001) = .999999

이것을 앞의 방정식에 넣으면 그림이 조금 더 밝아지기 시작합니다.

.9999 * .9999 * .999999 = .9998

99.98 % 가용성 = 최대 9 분의 다운 타임

여러 AZ, 즉 여러 디스크에 걸쳐 데이터를 복제함으로써 클라우드 스토리지와 관련된 가동 중지 시간을 효과적으로 완화했습니다.

애플리케이션 및 종속 서비스 가용성

컴퓨팅, 네트워크 및 스토리지 가용성을 보장하기 위해 할 수있는 모든 작업을 수행했습니다. 하지만 애플리케이션 자체는 어떻습니까? 일부 애플리케이션은 동일한 애플리케이션의 여러 인스턴스간에 부하를 분산하여 확장하고 중복성을 제공 할 수 있습니다. 일반적으로 5 개의 서버간에 웹 요청 부하를 분산 할 수있는 일반적인 웹 서버 팜을 생각해보십시오. 서버 하나가 손실되면로드 밸런서가 다시 응답 할 때까지 순환에서 서버를 제거합니다.

다른 응용 프로그램은 좀 더 많은 관리와 모니터링이 필요합니다. 예를 들어 SQL Server를 사용하십시오. 일반적으로 Always On 가용성 그룹 또는 장애 조치 클러스터 인스턴스는 데이터베이스 가용성을 모니터링하고 응용 프로그램 또는 시스템 수준 오류로 인해 데이터베이스가 응답하지 않는 경우 복구 작업을 수행하는 데 사용됩니다. SQL Server 가용성 솔루션에 대해 게시 된 SLA는 없지만 고 가용성을 위해 적절하게 구성하면 SQL Server가 99.99 %의 가용성을 제공 할 수 있다는 것이 일반적으로 받아 들여집니다.

호스팅 된 Active Directory, 호스팅 된 DNS, 마이크로 서비스와 같은 다른 클라우드 기반 서비스에 의존 할 수 있으며, 클라우드 포털 자체의 가용성까지도 전체 가용성 방정식에 반영해야합니다.

요약

애플리케이션 가용성은 모든 움직이는 부품의 합계입니다. 한 영역 만 스킴은 애플리케이션의 전체 가용성에 기하 급수적으로 영향을 미칠 수 있습니다. 시간을내어 컴퓨팅, 네트워크, 스토리지, 애플리케이션 및 종속 서비스를 포함한 약점에 대한 가용성 체인의 모든 링크를 조사하십시오.

일반적으로 여기에 제시된 수치는 최악의 시나리오이며 실제 가용성은 게시 된 SLA를 초과해야합니다. 숙제를하고 고 가용성으로 간주되는 일반적인 임계 값 인 99.99 % 가용성을 보장 할 수없는 서비스에주의하십시오.

인적 오류 및 보안은이 기사에서 다루지 않았습니다. 애플리케이션을 가능한 한 고 가용성으로 만들 수 있습니다. 그러나 외부 위협과 어리석은 인간의 실수로부터 애플리케이션을 보호하기위한 조치를 취하지 않은 경우 가용성과 관련하여 모든 베팅이 해제됩니다.

Amazon EC2 모니터링에 Datadog을 사용하십니까? 자동화 된 수정을 위해 SIOS AppKeeper와 페어링

12월 11, 2020 by Jason Aw Leave a Comment

Amazon EC2 모니터링에 Datadog을 사용하십니까? 자동화 된 수정을 위해 SIOS AppKeeper와 페어링

"Datadog이 Amazon EC2 서비스를 모니터링하고 실패를 감지하면 자동으로 다시 시작할 수 있다면 좋을 것 같습니다."라고 생각한 적이 있습니까? 저도 같은 생각을했고 직접 시도해보기로했습니다.

SIOS AppKeeper는 Amazon EC2 인스턴스에서 오류를 자동으로 모니터링하고 인스턴스를 자동으로 다시 시작하거나 오류가 감지되면 서비스를 재부팅합니다."Datadog의 모니터링 기능과 AppKeeper의 자동 치료 기능을 결합하면 어떨까요?"라고 생각했습니다.

효과가 있었고 여기에 내가 한 방법이 있습니다.

이미 Datadog을 사용 중이고 직접 시도해보고 싶다면이 기사의 끝에 등록하여 API에 액세스하십시오.

다음은 Datadog에서 알림을 수신하고 가동 중지 시간이 감지되면 Amazon EC2에서 웹 서버를 다시 시작하도록 AppKeeper를 설정하기 위해 수행 한 단계입니다.

이 실험을 성공적으로 실행하기 위해 Amazon EC2 (Linux 2 사용)에서 실행되는 Datadog 계정, AppKeeper 계정 및 NGINX 웹 서버가 이미있었습니다.

Datadog을 AppKeeper와 통합하여 자동 수정을 제공하는 방법

1 단계 : AppKeeper에서 다시 시작 API 토큰 가져 오기

다음 양식에서 Datadog 통합을위한 API 토큰을 요청하십시오.

https://mk.sios.jp/BC_AppKeeper_Datadog_api_application

양식에서 요청하면 제공 한 이메일 주소로 토큰이 전송됩니다.

2 단계 : AppKeeper에서 테넌트 만들기

다음 단계는 모니터링되는 인스턴스가 속한 AWS 계정을 AppKeeper에 등록하는 것이 었습니다. (AppKeeper는 등록 된 AWS 계정을 "테넌트"라고합니다.)

https://sioscoati.zendesk.com/hc/en-us/articles/900000123406-Quick-Start-Guide#h_39404cfb-4a76-450f-99c2-e197cc63e50d

3 단계 : AWS에서 IAM 역할 생성

그런 다음 AWS에서 IAM 역할을 생성했습니다 (AppKeeper 계정을 설정하는 데 필요함).이 절차에 대해 잘 모르는 경우 다음 안내를 따르세요.

4 단계 : AppKeeper에서 테넌트 추가

다음 단계는 AppKeeper에 "테넌트"를 추가하는 것이 었습니다 (AppKeeper는 AWS 계정을 "테넌트"로 간주 함).다음은이를 수행하는 방법에 대한 자세한 안내 링크입니다.

5 단계 : Datadog에서 합성 테스트 설정

그런 다음 모니터링하려는 Nginx 서버 (EC2 인스턴스)에 대해 Datadog의 개요 모니터링을 구성해야했습니다.방법은 다음과 같습니다.

Datadog 대시 보드를 열고 메뉴에서 UX Monitoring> Synthetic Tests를 선택하십시오.

오른쪽 [New Test]상단 모서리에있는 버튼을 클릭하고 개요 [New API Test]모니터링 사례 생성을 선택합니다.

개요 모니터링 사례를 생성하려면 양식에 다음 정보를 입력하십시오.

요청 유형 선택
"HTTP"를 선택합니다.
요청 정의 :
다음 값을 설정하십시오.
URL : GET http : // {{{EC2 IP 주소}}
이름 : AppKeeper Datadog 통합 테스트 (모든 이름)
위치 : 도쿄

삼. 테스트 빈도 지정
변경 없음

4. 어설 션 정의
"새 어설 션"을 클릭하고 다음 값을 설정합니다.

언제 :
[status code]
[is][200]

5. 경고 조건 정의
변경 없음

6.팀에 알리기
변경 없음

6 단계 : Datadog에서 합성 테스트 실행

위의 입력이 완료되면“Create Test”를 눌러 외부 모니터링을위한 테스트 케이스를 생성합니다.

결과가 표시되고 "테스트 결과"섹션에서 웹 서버가 제대로 작동하고 있음을 확인할 수 있습니다.

Datadog을 사용하여 Synthetics 모니터링을 구성하기 위해 수행해야하는 모든 작업입니다.

7 단계 : Synthetics 경고를 받도록 AppKeeper 설정

다음으로 AppKeeper를 알림 대상으로 설정해야했습니다.Datadog 메뉴에서 통합으로 이동하여 통합 탭을 선택합니다.

검색 상자에 "Webhooks"를 입력하여 Webhooks 통합을 찾습니다.

"사용 가능"을 클릭하여 Datadog 계정에서 Webhook 통합을 활성화합니다. (활성화되면 "설치됨"열에 나타납니다.)

"구성"을 클릭하여 Webhook 통합 구성 페이지를 엽니 다.

페이지 하단의 "Webhooks"열에서 "New +"를 클릭하여 새 Webhooks 알림 대상을 만듭니다. 매개 변수에 대해 다음을 입력하십시오.

이름 : 통합 이름 (모든 이름)

URL : https://api.appkeeper.sios.com/v2/integration/ {{AWS 계정 ID}} / actions / recover

페이로드 :

{

“instanceId”:“{{EC2 Instance ID}}”,

"이름": "nginx"

}

맞춤 헤더 : 체크 박스를 선택하고 다음을 입력합니다.

{
“Content-type”:“application / json”,
“accept”:“application / json”,
"appkeeper-integration-token": "{{AppKeeper 외부 통합 토큰 가져 오기}}에서 얻은 토큰"
}

완료되면 "저장"을 누르십시오.

8 단계 : AppKeeper를 합성 테스트에 연결

다음으로 Synthetics 모니터링 경고가 발생할 때 호출되도록 AppKeeper (등록 된 Webhooks 통합)를 구성해야했습니다.

메뉴의 UX Monitoring> Synthetic Tests에서 "Configuring the Synthetic Monitoring with Datadog"에서 설정 한 테스트 케이스를 엽니 다.

오른쪽 상단 기어 박스에서 "테스트 세부 정보 편집"을 선택하고 "5. Notify Your Team”상자를 눌러 변경 사항을 저장하십시오.

@webhook-{{Datadog의 Webhook 통합 이름}}

※“모니터가 해결되지 않은 경우 다시 알림”을 설정할 수 있습니다.AppKeeper가 처음으로 복구에 실패하면 다시 시도 할 수 있습니다.테스트 목적으로는 필요하지 않지만 (최소 간격)으로 설정하는[10 minutes] 것이 좋습니다.

이제 설치가 완료되었습니다.

9 단계 : 테스트를 다시 실행하여 통합 확인

그런 다음 Datadog이 다운 된 것으로 감지되면 AppKeeper가 웹 서버를 복원 할 것임을 확인했습니다.

UX Monitoring> Synthetic Tests in Datadog에서 방금 설정 한 Synthetics 모니터링 테스트 케이스를 엽니 다.

오른쪽 상단의 "Resume Test"를 클릭하고 Synthetics 모니터링을 켭니다.

이제 Datadog은 정기적으로 Synthetics 모니터링을 수행합니다.

테스트 결과는 서버가 성공적으로 액세스되었음을 보여줍니다.

다음으로 AppKeeper의 자동 수정을 테스트하기 위해 웹 서버의 의사 오류를 생성했습니다.

실제 장애를 일으키기 어렵 기 때문에 서비스를 중단하고 웹 페이지를 볼 수없는 상황을 만들었습니다.이를 위해 SSH를 사용하여 Nginx 서버가 설치된 EC2 인스턴스에 연결하고 Nginx를 중지했습니다.

sudo systemctl stop nginx

잠시 후 Datadog은 웹 서버에 더 이상 액세스 할 수 없음을 감지했습니다.

Datadog의 합성 테스트 페이지에도 테스트 케이스가 실패했음을 표시합니다.

테스트 케이스가 실패하면 Datadog은 Synthetics 모니터링이 실패했음을 AppKeeper에 알립니다.

AppKeeper가 알림을 받으면 자동으로 Nginx를 다시 시작합니다.

따라서 잠시 기다리면 Datadog의 Synthetics 모니터링 검사가 다시 통과되는 것을 볼 수 있습니다.

또한 AppKeeper 대시 보드에 로그인하면 복구가 수행되었음을 알 수 있습니다.

—

이 연습에서는 웹 서버 (Nginx)를 예로 사용하여 Datadog에서 오류를 감지하고 AppKeeper로 서비스를 복원하는 프로세스를 자동화했습니다.

Datadog을 EventBridge 및 Lambda와 통합하거나 사용자 지정 스크립트를 생성하여 유사한 자동화를 달성 할 수 있습니다.

그러나 대상 인스턴스를 자주 추가하거나 다양한 서비스를 다시 시작하면 EventBridge 및 Lambda 또는 스크립트를 유지 관리하는 데 드는 비용과 복잡성이 증가합니다.

AppKeeper는 Datadog과의 입증 된 통합 및 애플리케이션에 대상 인스턴스를 쉽게 추가 할 수 있으므로 DevOps 환경에 자동화를 쉽게 추가하여 다운 타임을 줄일 수 있습니다.

현재 Datadog을 사용 중이고 AppKeeper의 Restart API를 사용해 보려면 먼저 여기에서 14 일 무료 평가판에 가입하세요 (무료 평가판을 설치 한 후 구독을 구매할 수 있음).그런 다음 여기를 클릭하여 무료 평가판을 요청하세요. 프로세스를 안내하고 시작하는 데 도움이되는 무료 평가 토큰을 제공합니다.

평가 토큰 신청

감사합니다.이번 기회에 EC2에서 실행되는 애플리케이션의 자동 모니터링 및 복구를 제공하는 SIOS AppKeeper에 대해 자세히 알아 보시기 바랍니다.

— SIOS 기술 기술팀의 Tatsuya Hirao.

SIOS의 허가를 받아 복제