Januari 30, 2019 |
Pastikan Ketersediaan Tinggi untuk SQL Server di Amazon Web ServicesPastikan Ketersediaan Tinggi untuk SQL Server di Amazon Web ServicesAdministrator basis data dan sistem telah lama memiliki berbagai pilihan untuk memastikan bahwa aplikasi basis data yang sangat penting tetap tersedia. Infrastruktur cloud publik, seperti yang disediakan oleh Amazon Web Services, menawarkan sendiri, opsi ketersediaan tinggi tambahan yang didukung oleh perjanjian tingkat layanan. Tetapi konfigurasi yang berfungsi baik di cloud pribadi mungkin tidak dimungkinkan di cloud publik. Pilihan yang buruk dalam layanan AWS yang digunakan dan / atau bagaimana ini dikonfigurasikan dapat menyebabkan ketentuan failover gagal ketika sebenarnya dibutuhkan. Artikel ini menguraikan berbagai opsi yang tersedia untuk memastikan Ketersediaan Tinggi untuk SQL Server di cloud AWS. PilihanUntuk aplikasi basis data, AWS memberi administrator dua pilihan dasar. Masing-masing memiliki ketentuan ketersediaan tinggi (HA) dan pemulihan bencana (DR) yang berbeda: Amazon Relational Database Service (RDS) dan Amazon Elastic Compute Cloud (EC2). RDSRDS adalah layanan yang dikelola sepenuhnya cocok untuk aplikasi mission-critical. Ini menawarkan pilihan enam mesin database yang berbeda, tetapi dukungannya untuk SQL Server tidak sekuat itu untuk pilihan lain seperti Amazon Aurora, My SQL dan MariaDB. Berikut adalah beberapa masalah umum yang dimiliki administrator tentang penggunaan RDS untuk aplikasi SQL Server yang sangat penting:
Cloud Hitung ElastikPilihan dasar lainnya adalah Elastic Compute Cloud dengan kemampuannya yang jauh lebih besar. Ini menjadikannya pilihan yang lebih disukai ketika HA dan DR sangat penting. Keuntungan utama EC2 adalah kontrol penuh yang diberikannya kepada admin atas konfigurasi, dan yang memberi admin beberapa pilihan tambahan. Memilih Sistem OperasiMungkin pilihan yang paling penting adalah sistem operasi mana yang akan digunakan: Windows atau Linux. Windows Server Failover Clustering adalah kemampuan yang kuat, terbukti dan populer yang datang standar dengan Windows. Tetapi WSFC membutuhkan penyimpanan bersama, dan itu tidak tersedia di EC2. Karena Multi-AZ, dan bahkan Multi-Wilayah, konfigurasi diperlukan untuk perlindungan HA / DR yang kuat, perangkat lunak khusus komersial atau kustom diperlukan untuk mereplikasi data di seluruh cluster instance server. Ruang Penyimpanan Langsung Microsoft (S2D) bukanlah opsi di sini, karena tidak mendukung konfigurasi yang menjangkau Zona Ketersediaan. Kebutuhan akan ketentuan HA / DR tambahan bahkan lebih besar untuk Linux, yang tidak memiliki kemampuan pengelompokan mendasar seperti WSFC. Linux memberikan admin dua pilihan yang sama buruknya untuk ketersediaan tinggi: Entah membayar lebih untuk SQL Server Enterprise Edition yang lebih mahal untuk mengimplementasikan Grup Selalu Ada Ketersediaan; atau berjuang untuk membuat konfigurasi HA Linux do-it-yourself yang rumit menggunakan perangkat lunak sumber terbuka bekerja dengan baik. PerbandinganKedua pilihan ini merusak alasan penghematan biaya untuk menggunakan perangkat lunak open source pada perangkat keras komoditas dalam layanan cloud publik. SQL Server untuk Linux hanya tersedia untuk versi yang lebih baru (dan lebih mahal), mulai tahun 2017. Dan alternatif HA DIY bisa sangat mahal bagi sebagian besar organisasi. Memang, membuat Distributed Replicated Block Device, Corosync, Pacemaker dan, secara opsional, perangkat lunak open source lainnya berfungsi seperti yang diinginkan pada level aplikasi di bawah semua skenario kegagalan yang mungkin bisa menjadi sangat sulit. Itulah sebabnya hanya organisasi yang sangat besar yang memiliki sarana (keahlian dan staf) yang diperlukan untuk mempertimbangkan untuk mengambil tugas. Karena kesulitan yang terlibat dalam mengimplementasikan ketentuan HA / DR yang sangat penting untuk Linux, AWS merekomendasikan menggunakan kombinasi Penimbangan Beban Elastis dan Penskalaan Otomatis untuk meningkatkan ketersediaan. Tetapi layanan ini memiliki keterbatasan sendiri yang serupa dengan yang ada di Layanan Database Relasional yang dikelola. Semua ini menjelaskan mengapa admin semakin memilih untuk menggunakan solusi cluster failover yang dirancang khusus untuk memastikan perlindungan HA dan DR di lingkungan cloud. Tujuan Clustering Failover-Dibangun untuk CloudSemakin populernya awan privat, publik dan hibrida telah menyebabkan munculnya solusi pengelompokan failover yang dibangun khusus untuk lingkungan cloud. Solusi HA / DR ini sepenuhnya diimplementasikan dalam perangkat lunak yang menciptakan, seperti tersirat dengan nama, sekelompok server dan penyimpanan dengan failover otomatis untuk memastikan ketersediaan tinggi di tingkat aplikasi. Sebagian besar solusi ini menyediakan solusi HA / DR lengkap yang mencakup kombinasi replikasi data tingkat blok waktu-nyata, pemantauan aplikasi terus-menerus dan kebijakan pemulihan failover / failback yang dapat dikonfigurasi. Beberapa solusi yang lebih canggih juga menawarkan kemampuan canggih seperti dukungan untuk Mesin Virtual Selalu di Failover Cluster dalam Edisi Standar SQL Server yang lebih murah untuk Windows dan Linux. Mereka juga menawarkan optimasi WAN untuk memaksimalkan kinerja multi-wilayah. Ada juga peralihan manual tugas server primer dan sekunder untuk memfasilitasi pemeliharaan yang direncanakan. Termasuk kemampuan untuk melakukan backup reguler tanpa gangguan ke aplikasi. Sebagian besar perangkat lunak failover clustering adalah agnostik aplikasi, yang memungkinkan organisasi memiliki solusi HA / DR tunggal universal. Kemampuan yang sama ini juga memberikan perlindungan untuk seluruh aplikasi SQL Server. Dan itu termasuk basis data, log masuk, pekerjaan agen, dll., Semuanya terintegrasi. Meskipun solusi ini umumnya juga agnostik penyimpanan, memungkinkan mereka untuk bekerja dengan jaringan area penyimpanan bersama, pengelompokan failover SANless yang tidak dibagi biasanya lebih disukai karena kemampuannya untuk menghilangkan titik kegagalan tunggal yang potensial. Dukungan untuk Mesin Virtual Cluster Selalu Aktif (FCI) dalam SQL Server Edisi Standar yang lebih murah, tanpa kompromi terhadap ketersediaan atau kinerja, adalah keuntungan utama. Dalam lingkungan Windows, sebagian besar perangkat lunak pengelompokan failover mendukung FCI dengan memanfaatkan fitur WSFC bawaan. Itu membuat implementasi cukup mudah untuk administrator database dan sistem. Linux menjadi semakin populer untuk SQL Server dan banyak aplikasi perusahaan lainnya. Beberapa solusi cluster failover sekarang membuat penerapan ketentuan HA / DR semudah itu untuk Windows dengan menawarkan integrasi khusus aplikasi. Cluster Failover Tiga Node SANless KhasContoh konfigurasi EC2 dalam diagram menunjukkan kluster failover SANless tiga simpul yang dikonfigurasikan sebagai Virtual Private Cloud (VPC) dengan ketiga instance SQL Server di Zona Ketersediaan yang berbeda. Untuk menghilangkan potensi pemadaman dalam bencana lokal yang mempengaruhi seluruh wilayah, salah satu AZ terletak di wilayah AWS yang berbeda. ![]() Tiga-simpul SANless failover cluster ini, dengan satu instance server aktif dan dua siaga, dapat menangani dua kegagalan bersamaan dengan downtime minimal dan tanpa kehilangan data. Tiga-simpul SANless failover cluster memberikan perlindungan HA dan DR kelas carrier. Operasi dasarnya sama di LAN dan / atau WAN untuk Windows atau Linux. Server # 1 pada awalnya adalah instance primer atau aktif yang mereplikasi data terus menerus ke kedua server # 2 dan # 3. Itu mengalami masalah. Kemudian memicu failover otomatis ke server # 2, yang sekarang menjadi data replikasi utama ke server # 3. Kegagalan TerdeteksiJika kegagalan itu disebabkan oleh pemadaman infrastruktur, staf AWS akan segera mulai mendiagnosis dan memperbaiki apa pun yang menyebabkan masalah. Setelah diperbaiki, itu dapat dikembalikan sebagai primer, atau server # 2 dapat melanjutkan dalam kapasitas mereplikasi data ke server # 1 dan # 3. Jika server # 2 gagal sebelum server # 1 dikembalikan ke operasi, seperti yang ditunjukkan, server # 3 akan menjadi yang utama setelah kegagalan manual. Tentu saja, jika kegagalan itu disebabkan oleh perangkat lunak aplikasi atau aspek lain dari konfigurasi, terserah kepada pelanggan untuk menemukan dan memperbaiki masalah. Cluster failover SANless dapat dikonfigurasi hanya dengan satu instance standby, tentu saja. Tetapi konfigurasi minimal seperti itu membutuhkan simpul ketiga untuk berfungsi sebagai saksi. Saksi diperlukan untuk mencapai kuorum untuk menentukan penugasan primer. Tugas penting ini biasanya dilakukan oleh pengontrol domain di AZ terpisah. Mempertahankan ketiga simpul (primer, sekunder, dan saksi) di AZ yang berbeda menghilangkan kemungkinan kehilangan lebih dari satu suara jika ada zona yang offline. Juga dimungkinkan untuk memiliki kluster failover SAN dua dan tiga simpul dalam konfigurasi cloud hybrid untuk tujuan HA dan / atau DR. Salah satu konfigurasi tiga simpul tersebut adalah klaster HA dua simpul yang terletak di pusat data perusahaan dengan replikasi data asinkron ke AWS atau layanan cloud lain untuk perlindungan DR — atau sebaliknya. Dalam kelompok dalam satu wilayah, di mana replikasi data sinkron, kegagalan biasanya dikonfigurasi untuk terjadi secara otomatis. Untuk cluster dengan node yang menjangkau beberapa wilayah, di mana replikasi data asinkron, failover biasanya dikontrol secara manual untuk menghindari potensi kehilangan data. Cluster tiga-node, terlepas dari wilayah yang digunakan, juga dapat memfasilitasi pemeliharaan perangkat keras dan perangkat lunak yang direncanakan untuk ketiga server sambil memberikan perlindungan DR berkelanjutan untuk aplikasi dan datanya. Maksimalkan Ketersediaan Tinggi untuk SQL ServerDengan menawarkan 55 zona Ketersediaan yang tersebar di 18 Wilayah geografis, Infrastruktur Global AWS memberi peluang besar untuk memaksimalkan Ketersediaan Tinggi untuk SQL Server dengan mengonfigurasi kluster failover SANless dengan banyak, redundansi yang tersebar secara geografis. Jejak global ini juga memungkinkan semua aplikasi dan data SQL Server berada di dekat pengguna akhir untuk memberikan kinerja yang memuaskan. Dengan solusi yang dibangun khusus, ketersediaan tinggi kelas-operator tidak perlu berarti membayar biaya tinggi seperti-carrier. Karena perangkat lunak failover clustering yang dibuat khusus membuat penggunaan sumber daya komputasi, penyimpanan, dan jaringan EC2 yang efektif dan efisien, sementara mudah diimplementasikan dan dioperasikan, solusi ini meminimalkan modal dan semua pengeluaran operasional, sehingga ketersediaan tinggi menjadi lebih kuat dan lebih terjangkau daripada pernah sebelumnya. Direproduksi dari TheNewStack |
Januari 27, 2019 |
Opsi untuk Saat Tingkat Layanan Cloud Publik GagalOpsi untuk Saat Tingkat Layanan Cloud Publik GagalSemua penyedia layanan cloud publik menawarkan beberapa bentuk jaminan terkait ketersediaan. Ini mungkin atau mungkin tidak cukup, tergantung pada persyaratan setiap aplikasi untuk waktu aktif. Jaminan ini biasanya berkisar dari 95,00% hingga 99,99% dari waktu aktif selama sebulan. Sebagian besar memaksakan beberapa jenis "penalti" pada penyedia layanan karena gagal memenuhi ambang tersebut. Biasanya, sebagian besar penyedia layanan cloud menawarkan batas waktu aktif 99,00%. Ini sama dengan sekitar tujuh jam downtime per bulan. Dan untuk banyak aplikasi, kedua-9 itu mungkin sudah cukup. Tetapi untuk aplikasi yang sangat penting, diperlukan lebih banyak 9. Terutama mengingat kenyataan bahwa banyak penyebab umum waktu henti tidak termasuk dalam jaminan. Ada, tentu saja, cara yang hemat biaya untuk mencapai ketersediaan tinggi dan perlindungan pemulihan bencana yang tangguh di konfigurasi dengan menggunakan layanan cloud publik, baik secara eksklusif atau sebagai bagian dari pengaturan hybrid. Artikel ini menyoroti keterbatasan yang melibatkan ketentuan HA dan DR di cloud publik. Ini mengeksplorasi tiga opsi untuk mengatasi keterbatasan ini, dan menjelaskan dua konfigurasi umum untuk kluster failover. Caveat Emptor in the CloudSementara semua penyedia layanan cloud (CSP) mendefinisikan "waktu henti" atau "tidak tersedia" agak berbeda, definisi ini hanya mencakup sekumpulan terbatas semua kemungkinan penyebab kegagalan pada tingkat aplikasi. Secara umum termasuk kegagalan yang mempengaruhi zona atau wilayah, atau konektivitas eksternal. Semua CSP juga menawarkan kredit mulai dari 10% karena gagal memenuhi empat-9 uptime hingga sekitar 25% karena gagal memenuhi dua-9 uptime. Sumber daya redundan dapat dikonfigurasikan untuk menjangkau zona dan / atau wilayah dalam infrastruktur CSP. Ini akan membantu meningkatkan ketersediaan tingkat aplikasi. Tetapi bahkan dengan redundansi seperti itu, masih ada beberapa keterbatasan yang sering tidak dapat diterima untuk aplikasi mission-critical. Terutama mereka yang membutuhkan kinerja throughput transaksional tinggi. Batasan ini mencakup setiap master yang hanya dapat membuat replika failover tunggal. Dan itu membutuhkan penggunaan dataset master untuk cadangan, dan menggunakan log peristiwa untuk mereplikasi data. Batasan ini dan lainnya dapat meningkatkan waktu pemulihan selama kegagalan dan membuatnya perlu untuk menjadwalkan setidaknya beberapa waktu henti yang direncanakan. Keterbatasan yang SignifikanKeterbatasan yang lebih signifikan melibatkan banyak pengecualian untuk apa yang merupakan downtime. Berikut adalah beberapa contoh dari perjanjian Level Layanan Cloud Publik aktual tentang apa yang dikecualikan dari "waktu henti" atau "tidak tersedianya" yang menyebabkan kegagalan tingkat aplikasi yang diakibatkan dari:
Yang pasti, masuk akal bagi CSP untuk mengecualikan penyebab kegagalan tertentu. Tetapi administrator sistem tidak bertanggung jawab untuk menggunakan ini sebagai alasan. Penting untuk memastikan ketersediaan tingkat aplikasi dengan beberapa cara lain. Apa Tingkat Layanan Cloud Publik Yang Tersedia?Menyediakan sumber daya untuk ketersediaan tinggi dengan cara yang tidak mengorbankan keamanan atau kinerja tidak pernah menjadi upaya sepele. Tantangannya terutama sulit di lingkungan cloud hybrid di mana infrastruktur cloud pribadi dan publik dapat berbeda secara signifikan. Itu membuat konfigurasi sulit untuk diuji dan dipelihara. Lebih jauh lagi, hal itu dapat mengakibatkan ketentuan failover gagal ketika benar-benar dibutuhkan. Untuk aplikasi di mana tingkat layanan yang ditawarkan oleh CSP gagal, ada tiga opsi tambahan yang tersedia berdasarkan aplikasi itu sendiri, fitur dalam sistem operasi, atau melalui penggunaan perangkat lunak pengelompokan failover yang dibangun khusus. Tiga Pilihan untuk Meningkatkan Ketersediaan Tingkat AplikasiHA / DROpsi HA / DR yang tampaknya paling mudah diterapkan adalah yang dirancang khusus untuk setiap aplikasi. Contoh yang baik adalah basis data SQL Server Microsoft dengan fitur Selalu Di Ketersediaan Grup kelasnya. Namun, ada dua kelemahan dari pendekatan ini. Biaya lisensi yang lebih tinggi, dalam hal ini untuk Edisi Enterprise, dapat membuatnya sangat mahal untuk banyak kebutuhan. Dan kerugian yang lebih meresahkan adalah perlunya ketentuan HA / DR yang berbeda untuk aplikasi yang berbeda, yang membuat manajemen yang berkelanjutan menjadi perjuangan yang konstan (dan mahal). Fitur Terkait Waktu Kerja Yang Terintegrasi ke Dalam Sistem OperasiOpsi kedua untuk meningkatkan Tingkat Layanan Cloud Publik mencakup penggunaan fitur-fitur terkait uptime yang diintegrasikan ke dalam sistem operasi. Windows Server Failover Clustering, misalnya, adalah fitur yang kuat dan terbukti yang dibangun ke dalam OS. Tetapi dengan sendirinya, WSFC mungkin tidak menyediakan solusi HA / DR yang lengkap karena tidak memiliki fitur replikasi data. Dalam cloud pribadi, replikasi data dapat disediakan menggunakan beberapa bentuk penyimpanan bersama, seperti jaringan area penyimpanan. Tetapi karena penyimpanan bersama tidak tersedia di cloud publik, menerapkan replikasi data yang kuat membutuhkan penggunaan perangkat lunak komersial atau kustom yang dikembangkan terpisah. Untuk Linux, yang tidak memiliki fitur seperti WSFC, kebutuhan untuk ketentuan HA / DR tambahan dan / atau pengembangan kustom jauh lebih besar. Menggunakan perangkat lunak sumber terbuka seperti Pacemaker dan Corosync membutuhkan pembuatan (dan pengujian) skrip khusus untuk setiap aplikasi. Skrip-skrip ini seringkali perlu diperbarui dan diuji ulang bahkan setelah perubahan kecil dilakukan pada perangkat lunak atau perangkat keras apa pun yang digunakan. Tetapi karena mendapatkan tumpukan HA penuh untuk bekerja dengan baik untuk setiap aplikasi bisa menjadi sangat sulit, hanya organisasi yang sangat besar yang membutuhkan bahkan untuk mempertimbangkan mengambil upaya. Cluster Failover yang Dibangun KhususIdealnya akan ada pendekatan "universal" untuk HA / DR yang mampu bekerja dengan biaya efektif untuk semua aplikasi yang berjalan di Windows atau Linux di cloud publik, pribadi dan hybrid. Di antara solusi yang paling fleksibel dan terjangkau adalah pilihan ketiga: cluster failover yang dibangun khusus. Solusi HA / DR ini diimplementasikan sepenuhnya dalam perangkat lunak yang dirancang khusus untuk membuat, sesuai dengan peruntukannya, sekelompok server virtual atau fisik dan penyimpanan data dengan failover dari instance aktif atau primer ke siaga untuk memastikan ketersediaan tinggi pada aplikasi. tingkat. Manfaat Solusi IniSolusi-solusi ini menyediakan, sekurang-kurangnya, kombinasi replikasi data waktu-nyata, pemantauan aplikasi terus-menerus dan kebijakan pemulihan gagal / gagal yang dapat dikonfigurasi. Beberapa yang lebih kuat menawarkan kemampuan canggih tambahan, seperti pilihan replikasi sinkron atau asinkron tingkat blok, dukungan untuk Failover Cluster Instances (FCIs) dalam SQL Server Edisi Standar yang lebih murah, optimalisasi WAN untuk peningkatan kinerja dan bandwidth minimal. pemanfaatan, dan peralihan manual penugasan server primer dan sekunder untuk memfasilitasi pemeliharaan yang direncanakan. Meskipun solusi tujuan umum ini umumnya agnostik-penyimpanan, memungkinkan mereka untuk bekerja dengan jaringan area penyimpanan, kluster failover SANless-shared tanpa apa-apa biasanya dipilih berdasarkan kemampuan mereka untuk menghilangkan titik kegagalan tunggal yang potensial. Dua Konfigurasi Clustering Kegagalan UmumSetiap kluster failover terdiri dari dua node atau lebih. Menemukan setidaknya satu node di pusat data yang berbeda diperlukan untuk melindungi dari bencana lokal. Berikut ini adalah dua konfigurasi populer: satu untuk keperluan pemulihan bencana; yang lain untuk menyediakan ketersediaan tinggi yang kritis-misi dan pemulihan bencana. Kinerja transaksional yang tinggi sering kali merupakan persyaratan untuk konfigurasi yang sangat tersedia. Contoh aplikasi adalah database. Cluster failover SANless dasar untuk pemulihan bencana memiliki dua node dengan satu server primer atau server sekunder atau siaga. Konfigurasi minimal ini juga membutuhkan simpul ketiga atau instance untuk berfungsi sebagai saksi, yang diperlukan untuk mencapai kuorum untuk menentukan penugasan primer. Untuk aplikasi basis data, replikasi ke instance siaga di WAN tidak sinkron untuk mempertahankan kinerja tinggi pada instance primer. Cluster failover SANless menghasilkan pemulihan cepat jika terjadi kegagalan pada primer. Menghasilkan konfigurasi DR dasar yang cocok untuk banyak aplikasi. Ia mampu mendeteksi hampir semua kemungkinan kegagalan, termasuk yang tidak dihitung sebagai downtime dalam layanan cloud publik. Dengan demikian itu akan bekerja di lingkungan cloud pribadi, publik atau hybrid. Sebagai contoh, primer bisa di pusat data perusahaan dengan yang sekunder ditempatkan di cloud publik. Karena instance cloud publik hanya akan diperlukan selama pemeliharaan terencana dari primer atau jika terjadi kegagalan — kondisi yang dapat dengan cepat diatasi — pembatasan layanan dan pengecualian yang disebutkan di atas mungkin dapat diterima untuk semua tetapi yang paling kritis terhadap misi aplikasi. Cluster Failover SANless Tiga Node Cluster failover SANless tiga simpul ini memiliki satu instance server aktif dan dua server siaga. Ia mampu menangani dua kegagalan bersamaan dengan downtime minimal dan tanpa kehilangan data. [/ Caption] Angka tersebut menunjukkan cluster failover SANless tiga simpul yang disempurnakan yang memberikan ketersediaan tinggi dan perlindungan bencana yang kuat, baik pada 5-9 dan perlindungan pemulihan bencana yang kuat. Seperti halnya kluster dua-simpul, konfigurasi ini juga akan berfungsi di lingkungan cloud pribadi, publik, atau hibrid. Dalam contoh ini, server # 1 dan # 2 terletak di pusat data perusahaan dengan server # 3 di cloud publik. Dalam pusat data, replikasi di LAN dapat sepenuhnya sinkron untuk meminimalkan waktu yang diperlukan untuk menyelesaikan failover. Karena itu, maksimalkan ketersediaan. Ketika dikonfigurasikan dengan benar, kluster failover SANless tiga-node menghasilkan HA dan DR kelas carrier yang sesungguhnya. Operasi dasarnya adalah agnostik aplikasi dan berfungsi sama untuk Windows atau Linux. Server # 1 pada awalnya adalah instance primer atau aktif yang mereplikasi data terus menerus ke kedua server # 2 dan # 3. Jika mengalami kegagalan, aplikasi akan secara otomatis failover ke server # 2, yang kemudian akan menjadi data replikasi utama ke server # 3.
PemulihanSegera setelah kegagalan di server # 1, staf TI akan mulai mendiagnosis dan memperbaiki apa pun yang menyebabkan masalah. Setelah diperbaiki, server # 1 dapat dikembalikan sebagai primer dengan failback manual, atau server # 2 dapat terus berfungsi sebagai data replikasi primer ke server # 1 dan # 3. Jika server # 2 gagal sebelum server # 1 dikembalikan ke operasi, seperti yang ditunjukkan, server # 3 akan menjadi yang utama. Karena server # 3 berada di seberang WAN di cloud publik, replikasi data tidak sinkron dan failover bersifat manual untuk mencegah "penundaan replikasi" menyebabkan hilangnya data apa pun. Perangkat lunak clustering failover SANless mampu mendeteksi semua kemungkinan kegagalan pada tingkat aplikasi. Ini mudah mengatasi keterbatasan dan pengecualian CSP yang disebutkan di atas. Jadi, memungkinkan konfigurasi tiga simpul ini untuk digunakan sepenuhnya dalam cloud publik. Untuk mendapatkan ketersediaan tinggi lima-9 yang sama berdasarkan kegagalan langsung dan otomatis, server # 1 dan # 2 perlu ditempatkan dalam satu zona atau wilayah di mana LAN memfasilitasi replikasi sinkron. Untuk perlindungan DR yang tepat, server # 3 harus ditempatkan di pusat data atau wilayah yang berbeda, di mana penggunaan replikasi asinkron dan failover / failback manual akan diperlukan untuk aplikasi yang memerlukan throughput transaksional tinggi. Cluster tiga simpul juga dapat memfasilitasi pemeliharaan perangkat keras dan perangkat lunak yang direncanakan untuk ketiga server. Pada saat yang sama, terus memberikan perlindungan DR berkelanjutan untuk aplikasi dan datanya. Dengan menawarkan beberapa pusat data yang tersebar secara geografis, cloud publik memberikan banyak peluang untuk meningkatkan ketersediaan dan meningkatkan ketentuan DR. Perangkat lunak SAN failover clustering membuat penggunaan semua sumber daya komputasi, penyimpanan, dan jaringan menjadi efektif dan efisien. Ini juga mudah diimplementasikan dan dioperasikan. Solusi yang dibangun khusus ini meminimalkan semua pengeluaran modal dan operasional. Akhirnya, menghasilkan ketersediaan tinggi menjadi lebih kuat dan lebih terjangkau daripada sebelumnya. # # # tentang PenulisCassius Rhue adalah Direktur Teknik di SIOS Technology. Dia memimpin pengembangan produk perangkat lunak dan tim teknik di Lexington, SC. Cassius memiliki lebih dari 17 tahun pengalaman rekayasa perangkat lunak, pengembangan dan pengujian. Dia juga memegang gelar BS di bidang Teknik Komputer dari University of South Carolina. Artikel dari DRJ.com
|
Januari 23, 2019 |
Mengelola Biaya Cloud untuk Aplikasi dengan Ketersediaan TinggiBiaya Cloud untuk Aplikasi dengan Ketersediaan TinggiSegera setelah kontrak dengan penyedia layanan cloud, tagihan tiba yang menyebabkan guncangan stiker. Ada tuduhan tak terduga dan tampaknya berlebihan. Mereka yang bertanggung jawab tampaknya tidak dapat menjelaskan bagaimana ini bisa terjadi. Situasi ini mendesak karena jumlahnya mengancam untuk menghancurkan anggaran TI kecuali perubahan penghematan biaya dilakukan segera. Jadi bagaimana kita mengelola Biaya Cloud untuk Aplikasi yang Ketersediaan Tinggi? Guncangan stiker layanan cloud ini sering disebabkan oleh aplikasi basis data mission-critical. Terutama ini cenderung menjadi yang paling mahal karena berbagai alasan. Aplikasi ini perlu dijalankan 24/7. Mereka membutuhkan redundansi, yang melibatkan replikasi data dan penyediaan instance server siaga. Replikasi data membutuhkan perpindahan data, termasuk lintas jaringan area luas (WAN). Dan menyediakan ketersediaan tinggi dapat menghasilkan biaya yang lebih tinggi untuk melisensikan Windows untuk mendapatkan Clustering Failover Windows Server (dibandingkan menggunakan open source Linux), atau untuk lisensi Enterprise Edition dari SQL Server untuk mendapatkan Grup Ketersediaan Selalu Ada. Sebelum menawarkan saran untuk mengelola Biaya Cloud untuk Aplikasi dengan Ketersediaan Tinggi, penting untuk dicatat bahwa tujuannya di sini bukan untuk meminimalkan biaya-biaya tersebut. Melainkan untuk mengoptimalkan harga / kinerja untuk setiap aplikasi. Dengan kata lain, adalah tepat untuk membayar lebih banyak ketika menyediakan sumber daya untuk aplikasi yang membutuhkan waktu kerja dan kinerja throughput yang lebih tinggi. Penting juga untuk dicatat bahwa infrastruktur cloud hybrid — dengan aplikasi yang berjalan secara keseluruhan atau sebagian di cloud pribadi dan publik — kemungkinan akan menjadi cara terbaik untuk mencapai harga / kinerja yang optimal. Memahami Model Bisnis Dan Harga Penyedia Layanan CloudPengalaman guncangan stiker menunjukkan perlunya memahami secara menyeluruh bagaimana harga layanan cloud dan mengelola Biaya Cloud untuk Aplikasi yang Ketersediaan Tinggi. Hanya dengan demikian layanan yang tersedia dapat digunakan dengan cara yang paling hemat biaya. Semua penyedia layanan cloud (CSP) mempublikasikan harganya. Kecuali ditentukan dalam perjanjian layanan, harga itu terus berubah. Semua sumber daya berbasis perangkat keras, termasuk komputasi fisik dan virtual, penyimpanan, dan layanan jaringan, pasti memiliki biaya langsung atau tidak langsung. Ini semua didasarkan sampai batas tertentu pada ruang, daya, dan pendinginan yang dikonsumsi sistem ini. Untuk perangkat lunak, open source umumnya gratis. Tetapi semua sistem operasi komersial dan / atau perangkat lunak aplikasi akan dikenakan biaya lisensi. Dan harus diingatkan sebelumnya bahwa beberapa perizinan perangkat lunak dan model penetapan harga bisa sangat rumit. Jadi pastikan untuk mempelajarinya dengan cermat. Selain biaya dasar untuk perangkat keras dan perangkat lunak, ada potensi biaya à la carte untuk berbagai layanan bernilai tambah. Ini termasuk ketentuan keamanan, keseimbangan beban, dan perlindungan data. Mungkin juga ada biaya "tersembunyi" untuk I / O untuk penyimpanan atau di antara layanan mikro terdistribusi, atau untuk pemanfaatan puncak yang jarang terjadi selama "semburan." Karena setiap CSP memiliki model bisnis dan harga yang unik, diskusi di sini harus digeneralisasi . Dan, secara umum, sumber daya yang paling mahal melibatkan komputasi, perizinan perangkat lunak, dan perpindahan data. Bersama-sama mereka dapat mencapai 80% atau lebih dari total biaya. Pergerakan data mungkin juga menimbulkan biaya WAN terpisah yang tidak termasuk dalam tagihan dari CSP. Penyimpanan dan jaringan dalam infrastruktur CSP biasanya merupakan sumber daya yang paling murah. Solid state drive (SSDs) biasanya berharga lebih dari media pemintalan berdasarkan per-terabyte. Tetapi SSD juga memberikan kinerja yang superior, sehingga harga / kinerjanya mungkin sebanding atau bahkan lebih baik. Dan walaupun memindahkan data kembali ke perusahaan bisa jadi mahal, memindahkan data dari perusahaan ke cloud publik biasanya dapat dilakukan dengan biaya gratis (terlepas dari biaya WAN yang terpisah). Merumuskan Strategi Untuk Mengoptimalkan Harga / KinerjaMenutup Biaya Cloud untuk Aplikasi yang Ketersediaan Tinggi membutuhkan pemeriksaan yang cermat. Berikut adalah beberapa saran untuk mengelola pemanfaatan sumber daya di cloud publik dengan cara yang dapat menurunkan biaya sambil mempertahankan tingkat layanan yang sesuai untuk semua aplikasi. Ini termasuk yang membutuhkan misi kritis, waktu kerja tinggi dan throughput. Secara umum, ukuran-kanan adalah prinsip dasar untuk mengelola pemanfaatan sumber daya untuk harga / kinerja yang optimal. Ketika Willie Sutton konon bertanya mengapa dia merampok bank, dia menjawab, "Karena di situlah uang itu berada". Di cloud, uang berada dalam sumber daya komputasi, sehingga harus menjadi prioritas tertinggi untuk ukuran-kanan. Untuk aplikasi baru, mulailah dengan konfigurasi mesin virtual minimal untuk sumber daya komputasi. Tambahkan inti CPU, memori dan / atau I / O hanya sesuai kebutuhan untuk mencapai kinerja yang memuaskan. Semua mesin virtual untuk aplikasi yang ada pada akhirnya harus berukuran tepat. Mulailah dengan yang paling mahal harganya. Kurangi alokasi secara bertahap sambil memantau kinerja terus-menerus hingga mencapai pengembalian yang menurun. Perlu dicatat bahwa risiko utama yang terkait dengan pengukuran-ukuran-kanan adalah potensi untuk kekurangan-ukuran. Namun itu dapat menghasilkan kinerja yang sangat buruk. Sayangnya, cara terbaik untuk menilai kinerja aktual aplikasi adalah dengan beban kerja produksi, menjadikan dunia nyata tempat yang tepat untuk ukuran yang tepat. Untungnya, cloud memitigasi risiko ini dengan membuatnya dengan mudah mengubah ukuran konfigurasi berdasarkan permintaan. Jadi ukuran kanan agresif di mana dibutuhkan. Namun bersiaplah untuk bereaksi cepat dalam menanggapi setiap perubahan. Penyimpanan, berbeda langsung dengan komputasi, umumnya relatif murah di cloud. Tapi hati-hati menggunakan penyimpanan murah, karena I / O mungkin menimbulkan biaya yang terpisah — dan mahal — pada beberapa layanan. Jika demikian, gunakan teknologi yang berpotensi meningkatkan kinerja yang berpotensi lebih hemat biaya seperti penyimpanan bertingkat, caching, dan / atau database dalam memori, jika tersedia, untuk mengoptimalkan pemanfaatan semua sumber daya. Lisensi perangkat lunak dapat menjadi pengeluaran yang signifikan baik untuk cloud privat maupun publik. Untuk alasan ini, banyak organisasi bermigrasi dari Windows ke Linux, dan dari SQL Server ke database komersial dan / atau open source yang lebih murah. Tetapi untuk aplikasi yang sistem operasinya "premium" dan / atau perangkat lunak aplikasi dijamin, periksa berbagai CSP untuk melihat apakah ada model penetapan harga yang mungkin menghemat penghematan untuk konfigurasi yang diperlukan. Akhirnya, semua CSP menawarkan diskon, dan kombinasi dari ini kadang-kadang dapat mencapai penghematan hingga 50%. Contohnya termasuk pra-bayar untuk layanan, membuat komitmen layanan, dan / atau memindahkan aplikasi ke wilayah lain. Membuat Dan Menegakkan Kontrol Penahanan BiayaPenyediaan sendiri untuk layanan cloud mungkin populer dengan pengguna. Tetapi tanpa kontrol yang tepat, kenyamanan ini membuatnya terlalu mudah untuk memanfaatkan sumber daya secara berlebihan, termasuk yang paling mahal harganya. Mulailah upaya untuk mendapatkan kontrol yang lebih baik dengan memanfaatkan sepenuhnya alat pemantauan dan manajemen yang ditawarkan semua CSP. Ini tentu saja akan menghadapi kurva pembelajaran. Karena alat CSP mungkin sangat berbeda dari, dan berpotensi lebih canggih daripada, yang digunakan di cloud pribadi. Salah satu alat penahanan biaya yang lebih berguna melibatkan penandaan sumber daya. Tag terdiri dari pasangan kunci / nilai dan metadata yang terkait dengan sumber daya individual. Dan beberapa bisa sangat terperinci. Misalnya, setiap mesin virtual, bersama dengan CPU, memori, I / O, dan sumber daya yang dapat ditagih lainnya yang digunakannya, mungkin memiliki tag. Tag berguna lainnya mungkin menunjukkan aplikasi mana yang berada dalam lingkungan produksi versus pengembangan, atau ke pusat biaya atau departemen mana masing-masing ditugaskan. Secara kolektif, tag ini dapat merupakan pemanfaatan total sumber daya yang tercermin dalam tagihan. Organisasi yang menggunakan banyak layanan cloud publik mungkin juga dilayani dengan baik untuk membuat skrip. Sertakan memuat informasi dari semua alat pemantauan, manajemen, dan penandaan yang tersedia ke dalam spreadsheet atau aplikasi serupa untuk analisis terperinci dan penggunaan lainnya, seperti pengembalian tagihan, kepatuhan, dan tren / anggaran. Idealnya, informasi dari semua CSP dan cloud pribadi akan dinormalisasi untuk dimasukkan dalam pandangan holistik untuk memungkinkan optimalisasi harga / kinerja untuk semua aplikasi yang berjalan di seluruh cloud hybrid. Menangani Kasing Kasus Penggunaan Terburuk: Aplikasi Ketersediaan TinggiSelain alasan yang dikutip dalam pengantar mengapa aplikasi ketersediaan tinggi sering kali paling mahal, ketiga CSP utama — Google, Microsoft, dan Amazon — setidaknya memiliki beberapa keterbatasan terkait ketersediaan tinggi. Contohnya termasuk failover yang biasanya dipicu hanya oleh pemadaman zona dan bukan oleh banyak kegagalan umum lainnya; contoh master hanya mampu membuat replika failover tunggal; dan penggunaan event log untuk mereplikasi data, yang menciptakan "replikasi lag" yang dapat mengakibatkan pemadaman sementara selama failover. Tak satu pun dari batasan ini yang tidak dapat diatasi, tentu saja — dengan anggaran yang cukup besar. Tantangannya adalah menemukan solusi umum dan hemat biaya untuk menerapkan ketersediaan tinggi di awan publik, pribadi, dan hibrid. Di antara solusi yang paling fleksibel dan terjangkau adalah kluster failover jaringan area penyimpanan (SAN). Solusi ketersediaan tinggi ini diimplementasikan sepenuhnya dalam perangkat lunak yang dibuat khusus untuk dibuat. Seperti yang tersirat dari namanya, sekelompok server dan penyimpanan yang tidak berbagi apa-apa dengan failover otomatis di seluruh jaringan area lokal dan / atau WAN untuk memastikan ketersediaan tinggi pada tingkat aplikasi. Sebagian besar solusi ini memberikan kombinasi replikasi data tingkat blok waktu-nyata, pemantauan aplikasi berkelanjutan, dan kebijakan pemulihan failover / failback yang dapat dikonfigurasi. Beberapa kluster failover SAN-less yang lebih kuat juga menawarkan kemampuan canggih. Misalnya optimasi WAN untuk memaksimalkan kinerja dan meminimalkan pemanfaatan bandwidth, dukungan kuat untuk Edisi Standar SQL Server yang lebih murah. Dan jangan lupa peralihan manual penugasan server primer dan sekunder untuk pemeliharaan terencana, dan kemampuan untuk melakukan pencadangan rutin tanpa mengganggu aplikasi. Mempertahankan Perspektif Yang TepatSaat mencoba beberapa saran ini di cloud hybrid Anda, berusahalah untuk menjaga tagihan CSP bulanan dalam perspektif yang tepat. Dengan cloud publik, semua biaya muncul dalam satu faktur. Sebaliknya, total biaya untuk mengoperasikan cloud pribadi jarang disajikan dengan cara yang begitu lengkap dan terkonsolidasi. Dan jika ya, total biaya itu juga dapat menyebabkan guncangan stiker. Latihan yang berguna, oleh karena itu, mungkin untuk memahami semua biaya dalam pengoperasian cloud pribadi — tidak menerima apa pun yang diberikan — seolah-olah itu adalah bisnis mandiri seperti penyedia layanan cloud. Maka tagihan-tagihan dari CSP untuk aplikasi-aplikasi penting Anda mungkin tampaknya tidak begitu mengejutkan. Artikel dari www.dbta.com |
Januari 20, 2019 |
Tantangan dalam Ketersediaan Tinggi Untuk Aplikasi Misi-Penting di SMESurvei Keadaan Kinerja Dan Ketersediaan Tinggi Untuk Aplikasi Misi-Kritis Di UKMMenurut survei baru oleh SIOS Technology, dalam kemitraan dengan ActualTech Media Research, 98% penuh penyebaran cloud mengalami beberapa jenis masalah kinerja setiap tahun. Survei ini dirancang untuk memahami tantangan dan tren saat ini terkait dengan kondisi kinerja dan ketersediaan tinggi untuk aplikasi mission-critical di perusahaan kecil, menengah dan besar. Sebanyak 390 profesional TI dan pembuat keputusan merespons, secara kolektif mewakili lintas-bagian yang bertanggung jawab untuk mengelola basis data, infrastruktur, arsitektur, layanan cloud, dan pengembangan perangkat lunak. Aplikasi Tier-1 yang diidentifikasi secara eksplisit termasuk Oracle, Microsoft SQL Server dan SAP / HANA. Ada beberapa tren yang jelas. Beberapa kejutan yang tidak kami sangka akan datang, dan itu mungkin akan mengejutkan Anda juga. ■ Perusahaan kecil memimpin jalan ke cloud publik dengan 54% berencana untuk memindahkan lebih dari setengah aplikasi mission-critical mereka di sana pada akhir 2018, yang dibandingkan dengan 42% perusahaan besar ■ Untuk perusahaan dari semua ukuran, memiliki kontrol penuh lebih dari lingkungan aplikasi dikutip oleh 60% dari responden sebagai alasan utama mengapa beban kerja kritis-misi mereka tetap di lokasi ■ Sebagian besar (86%) organisasi menggunakan beberapa bentuk pengelompokan failover atau mekanisme ketersediaan tinggi lainnya untuk misi-kritis mereka aplikasi ■ Hampir sebanyak (95%) melaporkan mengalami kegagalan dalam ketentuan failover mereka. Jelas bahwa organisasi akhirnya memindahkan aplikasi penting mereka ke cloud. Dan pada kecepatan yang lebih besar daripada yang bisa kita bayangkan beberapa tahun yang lalu. Tapi mereka masih di awal adopsi, menempatkan operasi yang matang beberapa tahun lagi. Berikut ini beberapa detail lainnya. Penderitaan mencintai perusahaanHanya 2% responden menyatakan mereka tidak pernah mengalami masalah kinerja aplikasi yang pernah mempengaruhi pengguna akhir. Kita semua manusia biasa mengklaim mengalami masalah seperti itu. Berikut adalah statistik rata-rata.
Responsnya cukup konsisten di antara Pengambil Keputusan, Staf TI, dan Staf Pengembangan Data & dengan satu pengecualian penting: Pengambil Keputusan mempersepsikan kemunculan masalah kinerja yang lebih rendah daripada staf. Hampir setengah (46%) dari Pengambil Keputusan menanggapi bahwa masalah kinerja terjadi 3-5 kali per tahun atau kurang (dibandingkan dengan 23-25% untuk staf). Hanya 11% menjawab bahwa masalah terjadi setiap hari (dibandingkan dengan 20-21% untuk staf). Respon Cepat untuk PenyelamatanSalah satu penjelasan yang mungkin untuk perbedaan ini adalah Staf TI yang dibuat sadar akan masalah yang mempengaruhi kinerja dengan peringatan otomatis. Ini diikuti oleh respons cepat untuk menemukan dan memperbaiki penyebabnya. Survei bertanya tentang ketentuan ketersediaan tinggi gagal (sesuatu yang pasti akan mempengaruhi kinerja!). 77% mengetahui masalah melalui peringatan dari alat pemantauan. 39% lainnya belajar dari keluhan pengguna. (Perhatikan bahwa beberapa respons diizinkan.) Adapun perbaikan, dibutuhkan lebih dari 5 jam untuk memperbaiki masalah hanya 3% dari waktu. Hampir seperempat (23%) diperbaiki dalam waktu kurang dari satu jam dan lebih dari setengahnya (56%) diperbaiki dalam 1-3 jam. Akhirnya, 18% diperbaiki dalam 3-5 jam. Perusahaan kecil mampu menyelesaikan masalah lebih cepat (31% dalam waktu kurang dari satu jam) daripada yang besar (hanya 11% dalam waktu kurang dari satu jam). Ini mungkin karena yang pertama menggunakan cloud publik lebih luas dan memiliki konfigurasi yang kurang kompleks. Penyebab Di AwanKetika ditanya tentang penyebab masalah kinerja yang muncul di cloud, penyebab utamanya adalah aplikasi atau database yang digunakan. Bersama-sama mereka menyumbang 64% dari masalah. Penting untuk dicatat bahwa pertanyaan ini tidak membedakan antara siapa yang bertanggung jawab untuk mengelola aplikasi dan / atau basis data, yang kemungkinan akan menjadi penyedia layanan cloud untuk layanan yang dikelola. Penyebab tambahan termasuk masalah dengan penyedia layanan (17%) atau infrastruktur (15%). Dalam 4% kasus, masalah ini tetap menjadi misteri. Ditulis oleh Jerry Melnick, Presiden dan CEO SIOS Technology
Diproduksi ulang dari APMdigest
|
Januari 19, 2019 |
Mengelola Pemulihan Real-Time dalam Pemadaman Awan BesarMengelola Pemulihan Real-Time Dalam Pemadaman Awan BesarBencana terjadi, membuat kenyataan downtime tiba-tiba. Tetapi ada hal-hal yang dapat dilakukan oleh semua pelanggan untuk bertahan hidup dari pemadaman cloud apa pun. Banyak hal terjadi. Kegagalan — besar dan kecil — tidak bisa dihindari. Apa yang tidak bisa dihindari adalah periode downtime yang diperpanjang. Pertimbangkan hari ketika awan Azure Wilayah Microsoft Tengah Selatan AS mengalami kegagalan yang dahsyat. Sebuah badai ganas menyebabkan serangkaian masalah yang akhirnya meruntuhkan seluruh pusat data. Dalam apa yang oleh beberapa orang disebut "Hari Azure Cloud Jatuh dari Langit," kebanyakan pelanggan offline, tidak hanya selama beberapa detik atau menit, tetapi untuk satu hari penuh. Beberapa offline selama lebih dari dua hari. Sementara Microsoft sejak itu telah menangani banyak masalah yang menyebabkan pemadaman, insiden itu akan lama diingat oleh para profesional TI. Itu berita buruknya. Berita baiknya adalah: Ada hal-hal yang bisa dilakukan pelanggan Azure untuk bertahan hidup dari hampir semua gangguan. Itu bisa dari satu server gagal ke seluruh pusat data menjadi offline. Faktanya, pelanggan Azure yang menerapkan ketersediaan tinggi dan / atau ketentuan pemulihan bencana, lengkap dengan replikasi data real-time dan failover otomatis yang cepat, dapat berharap tidak mengalami kehilangan data, dan sedikit atau tidak ada downtime ketika bencana terjadi. Lihat juga: Nutanix melihat cloud perusahaan memenangkan perlombaan cloud Mengelola Pemadaman AwanArtikel ini membahas empat opsi untuk menyediakan perlindungan pemulihan bencana (DR) dan ketersediaan tinggi (HA) dalam konfigurasi cloud hybrid dan Azure murni. Dua opsi khusus untuk database Microsoft SQL Server, yang merupakan aplikasi populer di Azure cloud; dua opsi lainnya adalah agnostik aplikasi. Keempat opsi, yang juga dapat digunakan dalam berbagai kombinasi, dibandingkan dalam tabel dan termasuk:
RTO dan RPO 101Sebelum menjelaskan keempat opsi, perlu memiliki pemahaman dasar tentang dua metrik yang digunakan untuk menilai efektivitas ketentuan DR dan HA: Sasaran Waktu Pemulihan dan Sasaran Titik Pemulihan. Mereka yang akrab dengan RTO dan RPO dapat melewati bagian ini. RTO adalah durasi pemadaman maksimum yang dapat ditoleransi. Aplikasi pemrosesan transaksi online umumnya memiliki RTO terendah, dan aplikasi yang sangat kritis sering memiliki RTO hanya beberapa detik. RPO adalah periode maksimum di mana kehilangan data dapat ditoleransi. Jika tidak ada kehilangan data yang dapat ditoleransi, maka RPO adalah nol. RTO biasanya akan menentukan jenis perlindungan HA dan / atau DR yang dibutuhkan. Waktu pemulihan yang rendah biasanya menuntut ketentuan HA yang kuat yang melindungi terhadap kegagalan sistem dan perangkat lunak yang rutin, sementara RTO yang lebih lama dapat puas dengan ketentuan DR dasar yang dirancang untuk melindungi terhadap bencana yang lebih luas, tetapi jauh lebih jarang terjadi. Replikasi data yang digunakan dengan ketentuan HA dan DR dapat menciptakan kebutuhan untuk tradeoff potensial antara RTO dan RPO. Dalam lingkungan LAN latensi rendah, di mana replikasi dapat disinkronkan, kumpulan data primer dan sekunder dapat diperbarui secara bersamaan. Hal ini memungkinkan pemulihan penuh terjadi secara otomatis dan dalam waktu nyata, sehingga memungkinkan untuk memenuhi waktu pemulihan yang paling menuntut dan tujuan titik pemulihan (masing-masing beberapa detik dan nol) tanpa ada tradeoff yang diperlukan. Di seberang WAN, sebaliknya, memaksa primer untuk menunggu sekunder untuk mengkonfirmasi penyelesaian pembaruan untuk setiap transaksi akan berdampak buruk pada kinerja. Untuk alasan ini, replikasi data dalam WAN biasanya tidak sinkron. Ini dapat menciptakan tradeoff antara mengakomodasi RTO dan RPO yang biasanya menghasilkan peningkatan waktu pemulihan. Inilah alasannya: Untuk memenuhi RPO nol, proses manual diperlukan untuk memastikan semua data (misalnya dari log transaksi) telah sepenuhnya direplikasi pada sekunder sebelum kegagalan dapat terjadi. Upaya ekstra ini memperpanjang waktu pemulihan, dan itulah sebabnya konfigurasi seperti itu sering digunakan untuk DR dan bukan HA. Layanan Pemulihan Situs Azure (ASR)ASR adalah penawaran DR-as-a-service (DRaaS) Azure. ASR mereplikasi mesin fisik dan virtual ke situs Azure lain, berpotensi di wilayah lain, atau dari instance lokal ke cloud Azure. Layanan ini memberikan pemulihan yang cukup cepat dari pemadaman sistem dan situs, dan juga memfasilitasi pemeliharaan yang direncanakan dengan menghilangkan waktu henti selama pemutakhiran perangkat lunak bergulir. Seperti semua penawaran DRaaS, ASR memiliki beberapa keterbatasan, yang paling serius adalah ketidakmampuan untuk mendeteksi dan gagal secara otomatis dari banyak kegagalan yang menyebabkan downtime tingkat aplikasi. Tentu saja, inilah mengapa layanan ini dikarakterisasi sebagai untuk DR dan bukan untuk HA. Dengan ASR, waktu pemulihan biasanya 3-4 menit tergantung, tentu saja, pada seberapa cepat administrator dapat secara manual mendeteksi dan merespons masalah. Seperti dijelaskan di atas, kebutuhan untuk replikasi data tidak sinkron di WAN selanjutnya dapat meningkatkan waktu pemulihan untuk aplikasi dengan RPO nol. Contoh SQL Server Failover Cluster dengan Ruang Penyimpanan LangsungSQL Server menawarkan dua opsi HA / DR-nya sendiri: Mesin Virtual Failover Cluster (dibahas di sini) dan Grup Ketersediaan Selalu Aktif (dibahas berikutnya). FCI memberikan dua keuntungan: Fitur ini tersedia dalam Edisi Standar SQL Server yang lebih murah, dan tidak tergantung pada penyimpanan bersama seperti halnya cluster HA tradisional. Keuntungan yang terakhir ini penting karena penyimpanan bersama tidak tersedia di cloud — dari Microsoft atau penyedia layanan cloud lainnya. Pilihan populer untuk penyimpanan di Azure cloud adalah Storage Spaces Direct (S2D), yang mendukung berbagai aplikasi, dan dukungannya untuk SQL Server melindungi seluruh instance dan bukan hanya database. Kelemahan utama S2D adalah bahwa server harus berada dalam satu pusat data tunggal, membuat opsi ini cocok untuk beberapa kebutuhan HA tetapi tidak untuk DR. Untuk perlindungan multi-situs HA dan DR, replikasi data yang diperlukan harus disediakan oleh pengiriman log atau solusi pengelompokan failover pihak ketiga. SQL Server Selalu Di Ketersediaan GrupSementara Always On Availability Groups adalah penawaran SQL Server yang paling mampu untuk HA dan DR, itu membutuhkan lisensi Enterprise Edition yang lebih mahal. Opsi ini dapat memberikan waktu pemulihan 5-10 detik dan titik pemulihan detik atau kurang. Itu juga menawarkan sekunder dibaca untuk query database (dengan lisensi yang sesuai), dan tidak menempatkan batasan pada ukuran database atau jumlah instance sekunder. Konfigurasi Always On Availability Groups yang menyediakan perlindungan HA dan DR terdiri dari pengaturan tiga simpul dengan dua node dalam satu Set Ketersediaan atau Zona, dan yang ketiga di Azure Region terpisah. Satu batasan penting adalah bahwa hanya database yang direplikasi dan bukan seluruh instance SQL, yang harus dilindungi oleh beberapa cara lain. Selain menjadi penghalang biaya untuk beberapa aplikasi database, pendekatan ini memiliki kelemahan lain. Khusus untuk aplikasi memerlukan departemen TI untuk mengimplementasikan ketentuan HA dan DR lainnya untuk semua aplikasi lainnya. Penggunaan beberapa solusi HA / DR dapat secara substansial meningkatkan kompleksitas dan biaya (untuk perizinan, pelatihan, implementasi dan operasi yang sedang berlangsung), menjadikan ini alasan lain mengapa organisasi semakin memilih menggunakan solusi pihak ketiga agnostik aplikasi. Perangkat Lunak Failover Clustering pihak ketigaDengan desain aplikasi-agnostik dan platform-agnostik, perangkat lunak failover clustering mampu memberikan solusi HA dan DR lengkap untuk hampir semua aplikasi di lingkungan cloud pribadi, publik, dan hybrid. Ini termasuk untuk Windows dan Linux. Menjadi agnostik aplikasi menghilangkan kebutuhan untuk memiliki ketentuan HA / DR yang berbeda untuk aplikasi yang berbeda. Menjadi platform-agnostik memungkinkan untuk memanfaatkan berbagai kemampuan dan layanan di Azure cloud, termasuk Fault Domains, Kumpulan dan Zona Ketersediaan, Pasangan Wilayah, dan Pemulihan Situs Azure. Sebagai solusi lengkap, perangkat lunak ini mencakup, sekurang-kurangnya, replikasi data waktu-nyata, pemantauan berkelanjutan yang mampu mendeteksi kegagalan pada tingkat aplikasi, dan kebijakan yang dapat dikonfigurasi untuk failover dan failback. Sebagian besar solusi juga menawarkan berbagai kemampuan bernilai tambah yang memungkinkan cluster failover untuk memberikan waktu pemulihan di bawah 20 detik dengan kehilangan data minimal atau tidak ada sama sekali untuk memenuhi hampir semua kebutuhan HA / DR. Menjadikannya NyataKeempat opsi, apakah beroperasi secara terpisah atau bersamaan, dapat memiliki peran untuk dimainkan dalam membuat kontinum perlindungan DR dan HA lebih efektif dan terjangkau untuk spektrum penuh aplikasi perusahaan. Ini termasuk dari mereka yang dapat mentolerir beberapa kehilangan data dan periode waktu henti yang panjang, hingga mereka yang membutuhkan pemulihan waktu nyata untuk mencapai lima hingga 9 waktu kerja dengan kehilangan data yang minimal atau tidak sama sekali. Untuk selamat dari pemadaman cloud berikutnya di dunia nyata, pastikan bahwa ketentuan DR dan / atau HA apa pun yang Anda pilih dikonfigurasikan dengan setidaknya dua node yang tersebar di dua situs. Pastikan juga untuk memahami seberapa baik ketentuan memenuhi waktu pemulihan masing-masing aplikasi dan tujuan titik pemulihan. Serta segala keterbatasan yang mungkin ada, termasuk kebutuhan akan proses manual yang diperlukan untuk mendeteksi semua kemungkinan kegagalan, dan memicu kegagalan dengan cara yang memastikan kesinambungan aplikasi dan integritas data. Tentang Jonathan MeltzerJonathan Meltzer adalah Direktur, Manajemen Produk, di SIOS Technology. Ia memiliki lebih dari 20 tahun pengalaman dalam manajemen produk dan pemasaran untuk perangkat lunak dan produk SaaS yang membantu pelanggan mengelola, mengubah, dan mengoptimalkan sumber daya manusia dan sumber daya TI mereka. Direproduksi dari RTinsight |