Date: April 27, 2025
Strategi Pemulihan Data untuk Dunia yang Rawan Bencana
Bekerja di posisi yang berakar pada rekayasa perangkat lunak, administrasi sistem, dan posisi dukungan pelanggan, seseorang memiliki kesempatan unik untuk melihat berbagai konfigurasi dan berbagai masalah. Selain itu, posisi seperti itu juga memberikan seseorang perspektif tentang berbagai kebutuhan, masalah, dan kekhawatiran pengguna dengan cara yang mungkin tidak dialami oleh seseorang yang bekerja dalam peran rekayasa murni.
Sebagai hasil dari hampir 5 tahun di tim dukungan, saya telah memperhatikan pola di berbagai tim tempat saya bekerja. Lebih jauh, ketika diminta untuk membantu berbagai konfigurasi, saya memiliki kesempatan unik untuk menarik persamaan antara berbagai kasus penggunaan dan akar permasalahan. . Hasilnya, ada landasan yang ingin saya pastikan ditetapkan saat tiba waktunya untuk mulai berkolaborasi dengan tim baru. Menetapkan landasan ini berarti memastikan praktik administrasi memfasilitasi pekerjaan secara optimal dengan rangkaian HA/DR, memastikan tim mengetahui cara merancang untuk Ketersediaan Tinggi dan cara memanfaatkan utilitas di luar perangkat lunak pada sistem mereka untuk mencapai keberhasilan. Landasan ini dapat menjadi penting untuk memastikan tim mengetahui cara memenuhi atau melampaui standar operasional mereka. Tampaknya tepat untuk merangkumpertanyaan umumdan jawaban mereka untuk dijadikan sumber daya bagi mereka yang baru mengenal, namun tertarik untuk menerapkanSolusi Ketersediaan Tinggi, atau sekadar ingin beralih menggunakan solusi High Availability yang baru. Apakah Anda seorang mahasiswa yang baru saja mulai mempelajari administrasi sistem/rekayasa sistem, atau Anda seorang insinyur perangkat lunak veteran yang diminta untuk memperluas cakupan peran Anda agar mencakup perencanaan arsitektur sistem, poin-poin di bawah ini dapat membantu Anda dalam perjalanan untuk mendapatkan hasil maksimal dari rangkaian high availability/disaster recovery.
Tanpa basa-basi lagi, pertanyaan-pertanyaan di bawah ini merangkum pokok-pokok pembicaraan umum yang saya lihat dalam peran saya, dan akan membantu mempermudah pencarian Anda untuk memahami konsep-konsep utama dan menemukan solusi yang tepat.
Apa itu Pemulihan Bencana dan apa saja yang termasuk di dalamnya?
Pemulihan bencana, ketika digabungkan denganketersediaan tinggi, berfungsi untuk mengoptimalkan tujuan waktu pemulihan (RTO) – berapa lama layanan tidak dapat diakses sebelum dipulihkan – dan tujuan titik pemulihan (RPO) – data yang dapat Anda tanggung hilang saat memulihkan dari cadangan.tujuan waktu pemulihanmenggambarkan berapa lama sistem dapat mati dan masih sesuai dengan standar operasional. Umumnya, metrik ini dinyatakan dalam persentase – “lima sembilan uptime” yang umum mengacu pada uptime 99,999%, atau sekitar maksimum 5 menit downtime per tahun. Sasaran titik pemulihan sedikit lebih rumit, ia menggambarkan jumlah data yang dapat hilang namun masih sesuai dengan standar operasional. Misalnya, jika sistem tidak dapat kehilangan data apa pun setelah terjadi bencana, maka itu disebut “Zero RPO”. Akan sangat membantu jika kita memikirkan sistem yang ada pada suatu garis waktu, dan sasaran titik pemulihan sebagai jawaban atas pertanyaan berikut: “Jika sistem mengalami bencana, seberapa jauh ke belakang dalam garis waktu sistem tersebut Anda dapat ‘memutar balik’ dan masih memenuhi standar operasional”?
Bagaimana Pemulihan Bencana berbeda dari pendekatan tradisional dalam mengatasi pemadaman listrik?
Secara tradisional, tanpa infrastruktur yang sangat tersedia, lingkungan yang mengalami bencana mungkin memiliki tujuan waktu pengembalian yang lama. Sistem perlu dipulihkan, masalah mungkin perlu diselesaikan, dan aplikasi dimulai oleh administrator. Bergantung pada tingkat keparahan masalah, mungkin perlu waktu berjam-jam atau lebih untuk kembali beroperasi. Tim harus bekerja secara efisien dan menunjukkan komunikasi yang erat untuk memastikan layanan dipulihkan tanpa kesalahan, agar mereka tidak mengambil risiko penundaan tambahan dalam kembali beroperasi. Selain itu, data yang hilang selama pemadaman semacam ini bisa jadi signifikan. Jika pencadangan tidak dilakukan baru-baru ini atau jika salinan data terkini tidak dapat diakses, maka tim dapat mengandalkan data yang telah “basi” dan mengalami kemunduran operasional pada skala organisasi karena hilangnya data penting. Untuk melihat berbagai hal dari perspektif pelanggan, berapa lama Anda bersedia menunggu untuk mendapatkan akses ke layanan online saat Anda membutuhkannya? Sebagai pelanggan, seberapa besar penerimaan Anda jika etalase online kehilangan catatan transaksi Anda?
Saat memperkenalkan infrastruktur yang sangat tersedia, sarana untuk mencerminkan penyimpanan, dan sarana untuk mengatur ketersediaan tinggi, faktor-faktor yang memengaruhi RTO dan RPO semuanya dioptimalkan, dan bencana dapat diatasi dengan jauh lebih baik. Infrastruktur yang sangat tersedia bersifat redundan, sehingga sistem siaga tersedia untuk mengambil alih operasi. Lebih jauh, orkestrasi – perangkat lunak untuk mengelola lingkungan yang terkluster – mampu memulai layanan secara sistematis pada sistem siaga dengan responsivitas, keandalan, dan efisiensi yang lebih besar daripada yang dapat dicapai oleh intervensi manual. Hasilnya, tujuan waktu pengembalian berkurang, dan alih-alih membutuhkan waktu berjam-jam untuk pulih dari bencana, pemulihan dapat dilakukan dalam hitungan menit atau kurang.
Aspek lain dari infrastruktur yang sangat tersedia adalah redundansi data. Disk dapat “dicerminkan”, di mana disk yang terpasang pada sistem yang berbeda semuanya dapat menerima data yang sama persis secara real time. Hasilnya, data yang tersedia pada sistem siaga yang disebutkan di atas dapat berupa salinan persis, yang secara efektif mempertahankan cadangan data segera sebelum bencana terjadi. Pada gilirannya, ketika layanan dipulihkan, aplikasi berjalan dengan tujuan titik pemulihan yang mendekati nol, menjaga tujuan titik pemulihan pada status operasi terkini yang memungkinkan ketika tiba saatnya bagi orkestrator untuk memindahkan operasi ke sistem siaga.
Apa kesalahan paling umum yang dilakukan organisasi saat merancang strategi pemulihan bencana ketersediaan tinggi (HADR), dan bagaimana mereka dapat menghindarinya?
Salah satu kesalahan paling umum yang diamati adalah kurangnya lingkungan QA/Pengujian. Tim Pengalaman Pelanggan SIOS telah menanggapi beberapa contoh seperti itu, di mana organisasi mencoba melakukan pengujian aplikasi/sistem operasi.menambal/peningkatanatau hanya pemeliharaan rutin dan mengalami masalah karena perencanaan yang tidak memadai atau semacam ketidakcocokan yang tidak menguntungkan. Lalu, adawaktu istirahatyang terjadi pada lingkungan, dan prosedur pemeliharaan berubah menjadi prosedur pemulihan. Hal ini menimbulkan penundaan, komplikasi, dan potensi masalah yang terus meningkat dalam lingkungan produksi.
Sejauh ini, rekomendasi terbesar yang dapat ditawarkan kepada organisasi adalah membuat salinan satu-ke-satu dari lingkungan produksi yang beroperasi dalam kapasitas jaminan kualitas. Setiap prosedur yang perlu terjadi pada produksi harus terlebih dahulu melalui “latihan” di lingkungan QA. Ini memberi organisasi kebebasan untuk menjalankan operasi yang direncanakan dan melakukan perbaikan tanpa mempertaruhkan kapasitas produktif infrastruktur mereka. Mempraktikkan operasi dalam lingkungan yang aman dan berisiko rendah memastikan bahwa tim siap untuk beroperasi di lingkungan produksi tanpa risiko menghadapi masalah yang tidak terduga dan harus “melanggar naskah” untuk merespons dengan cepat dan benar saat berada di bawah tekanan. Jika terjadi masalah di lingkungan QA, maka tim dukungan dapat dihubungi, dan masalah tersebut dapat diselidiki dengan keamanan masalah ini yang terisolasi dari memengaruhi operasi bisnis. Ini dapat sangat meningkatkan potensi solusi untuk ditemukan dan diimplementasikan ke dalam operasi dengan cara yang terkendali, terencana, dan efektif.
Manfaat lingkungan QA yang disebutkan di atas penting bagi organisasi mana pun; namun, seiring organisasi mengadopsi strategi pemeliharaan yang lebih kompleks, keberadaan lingkungan pengujian ini menjadi semakin penting. Penggunaan lingkungan pengujian ini tidak hanya memfasilitasi prosedur pemutakhiran yang lebih lancar, tetapi juga memungkinkan perusahaan untuk mengurangi risiko saat mengadopsi model pemeliharaan yang menimbulkan kompleksitas untuk mengembalikan ketersediaan sistem yang lebih baik selama aktivitas pemeliharaan. Dalam skenario apa pun, menguji rencana pemeliharaan dalam lingkungan QA, meningkatkan rencana berdasarkan temuan dari “latihan awal”, dan menggunakan pengalaman yang diperoleh dari praktik ini memungkinkan organisasi untuk mengelola sistem produksi sambil meminimalkan risiko menghadapi masalah.
Apa pentingnya menghilangkan titik kegagalan tunggal?
Kendala umum lain yang dapat dialami tim muncul dari adanya “mata rantai terlemah” dalam arsitektur yang tidak mendapatkan manfaat dari tingkat perencanaan yang diterima oleh aspek lain dari lingkungan tersebut. Hal ini paling baik dijelaskan dengan sebuah contoh. Tim Pengalaman Pelanggan SIOS pernah bekerja dengan seorang pelanggan yang merancang secara ekstensif untuk menjagaAplikasi SAPberjalan di lingkungan mereka dan terlindungi dengan sangat baik dari masalah yang memengaruhi sistem yang menjalankan aplikasi SAP. Sayangnya, pelanggan ini menginvestasikan banyak upaya perencanaan untuk melindungi aplikasi mereka dan tidak memberikan upaya perencanaan yang sama untuk aspek lain dari lingkungan mereka. Akibatnya, semua sistem bergantung pada sistem DNS internal tunggal yang menyelesaikan host dalam jaringan pribadi mereka. Meskipun semua upaya dalam melindungiGETAH, ketika masalah terjadi pada sistem DNS mereka, seluruh lingkungan mengalami masalah signifikan ketika resolusi nama tidak lagi tersedia. Secara efektif, upaya yang dilakukan untuk melindungi aplikasi SAP mereka tidak membantu lingkungan mereka mengatasi masalah tersebut, hanya karena DNS merupakan “mata rantai lemah” yang diandalkan oleh semua sistem lain agar berfungsi dengan baik. Saat merencanakan lingkungan, penting untuk mundur sejenak dan melihat gambaran yang lebih besar – perhatikan mata rantai terlemah yang muncul dalam suatu arsitektur. Memperbaiki mata rantai terlemah meningkatkan potensi seluruh lingkungan untuk mengatasi bencana.
Bagi organisasi yang sangat bergantung pada layanan cloud, bagaimana mereka dapat melindungi diri dari bencana di Zona atau wilayah?
Perlindungan terhadap bencana di seluruh zona atau wilayah dapat dilakukan hanya dengan mendistribusikan sumber daya secara geografis. Misalnya, seseorang dapat menghosting server aplikasi utamanya di wilayah AS Timur. Kemudian, untuk dilindungi terhadap pemadaman yang memengaruhi wilayah AS Timur, terdapat sistem siaga yang dihosting di “Situs Pemulihan Bencana” yang jauh dari wilayah AS Timur – mungkin wilayah AS Barat. Meskipun hal ini memperkenalkan beberapa langkah tambahan untuk memastikan komunikasi lintas wilayah, upaya tersebut sangat berharga karena hal ini memberikan perlindungan terhadap bencana di seluruh zona dan wilayah. Pemadaman total wilayah AS Timur penyedia cloud dapat ditahan dengan menyediakan aplikasi dalam layanan di wilayah AS Barat. Perlindungan terhadap pemadaman yang terjadi di wilayah tertentu tidak perlu rumit, dan memastikan situs Pemulihan Bencana ada untuk mengasumsikan operasi akan meningkatkan ketersediaan aplikasi dan redundansi data dalam lingkungan produksi.
Bagaimana Anda merekomendasikan organisasi menyeimbangkan kompleksitas dan biaya penerapan strategi HA/DR yang kuat dengan kebutuhan kelincahan bisnis?
Ada anggapan umum bahwa solusi HA/DR itu rumit atau mahal, atau keduanya. Berdasarkan anggapan ini, penting untuk tetap memiliki perspektif yang kuat terhadap risiko yang ada. Sistem beroperasi untuk beberapa tujuan bisnis, dan ini menghasilkan pendapatan. Ketika sistem mati karena pemadaman, ada lebih banyak biaya daripada sekadar pendapatan yang hilang. Tanpa strategi HA/DR, pemadaman mengharuskan karyawan untuk secara aktif memecahkan masalah, yang menghasilkan biaya jam kerja karyawan untuk memperhitungkan biaya waktu henti, bahkan mungkin pada jam-jam ketika karyawan tidak cukup istirahat dan tidak siap untuk melakukan pekerjaan terbaik mereka. Selain itu, ada biaya tambahan yang tersisa dalam hal gangguan tugas rutin dan keterlambatan/kelambatan ketika karyawan harus beralih tugas untuk menyelesaikan masalah produksi dan kemudian beralih kembali ke tugas rutin mereka. Lebih jauh lagi, ada biaya reputasi yang dapat menyebabkan kegagalan mengenali peluang untuk pendapatan. Misalnya, apa yang terlintas dalam pikiran Anda jika Anda memikirkan“Serangan Massa”? Meskipun hal ini tidak langsung membawaMasalah dan pemberitaan buruk terkaityang dialami CrowdStrike pada bulan Juli 2024, pada saat artikel ini ditulis (25 Maret 2025), harga saham mereka baru saja kembali ke level sebelum penerbitan pada tanggal 19 Juli 2024. Dengan mempertimbangkan biaya peluang untuk mengonfigurasi solusi HA/DR, faktor-faktor yang disebutkan di atas dapat mengubah analisis secara drastis. Umumnya, pelanggan SIOS merasa bahwa penerapan solusi HA/DR menghemat uang mereka dalam jangka panjang. Selain itu, didukung oleh peningkatan dan iterasi selama puluhan tahun pada penawaran HA/DR dari SIOS Technology, kompleksitas dalam mengonfigurasi solusi tersebut lebih mudah dipahami dan tidak serumit sebelumnya. Jika ada faktor yang masih menimbulkan kekhawatiran atas kompleksitas pengenalan solusi HA/DR ke lingkungan produksi, SIOS Technology memiliki penawaran layanan profesional yang dapat membantu melatih tim, melakukan aktivitas instalasi dan konfigurasi, atau sekadar memvalidasi konfigurasi yang ada. Dengan peluang ini,membawa Ketersediaan Tinggi ke dalam arsitektur sistemtidak hanya lebih sederhana dari sebelumnya, tetapi juga dapat diimplementasikan lebih cepat dari sebelumnya. Terakhir, bagi organisasi yang khawatir tentang kompleksitas karena konfigurasi yang unik atau mencoba mencapai utilitas solusi HA/DR yang paling maksimal, tim dukungan kelas dunia kami siap membantu mewujudkan setiap implementasi hingga mencapai potensi penuhnya.
Bagaimana solusi SIOS Technology berperan dalam membantu organisasi menerapkan pendekatan pemulihan bencana yang Anda advokasi?
Solusi Teknologi SIOSdapat memenuhi semua aspek yang telah dibahas sebelumnya, berikut ini beberapa diantaranya:
Pendekatan modern terhadap pemulihan bencana diadopsi melaluiProduk LifeKeeper dan DataKeeper, yang bersama-sama kita sebutRangkaian Perlindungan SIOSBaik di Linux maupun Windows, produk-produk ini tersedia untuk menyediakan orkestrasi sumber daya di seluruh klaster guna memastikan respons yang cepat dan efisien terhadap bencana sekaligus memastikan data direplikasi dan tersedia pada sistem siaga. LifeKeeper memantau aplikasi untuk mencari kesalahan dan berkomunikasi antar node guna memastikan sistem menjadi target yang valid untuk pemulihan aplikasi. Datakeeper mereplikasi data secara real time guna memastikan sistem siaga mampu mewarisi aplikasi jika terjadi masalah dan melanjutkan operasi pada data terbaru yang tersedia. Bersama-sama, produk-produk ini bekerja untuk meminimalkan lamanya waktu aplikasi tidak berfungsi dan meminimalkan hilangnya data jika terjadi bencana.
Produk-produk ini juga terintegrasi sepenuhnya dalam lingkungan Anda. Ada mekanisme untuk menyediakan kontrol jaringan yang efisien sehingga klien selalu dapat menyelesaikan koneksi ke server aplikasi. Solusi yang digunakan tidak hanya akan memantau aplikasi atau komponen tertentu dari suatu sistem, tetapi juga seluruh sistem dan lingkungan. Melalui penggunaan fungsionalitas “kuorum”, lingkungan dipantau pada tingkat “gambaran besar” untuk memastikan aplikasi dipulihkan pada sistem yang benar dan data terlindungi. Ada perlindungan yang tersedia untuk berbagai skenario bencana, sehingga SIOS Protection Suite dapat merespons dengan tepat.
SIOS Protection Suite juga dapat bekerja lintas wilayah, menyediakan perlindungan yang telah kita bahas terhadap bencana di tingkat zona atau wilayah. Aplikasi dapat dimigrasikan lintas wilayah, dan data dapat direplikasi lintas wilayah dengan kemudahan yang sama seperti saat direplikasi dalam wilayah yang sama. Selain itu, lingkungan dapat dibuat bertingkat. Beberapa node dapat dihosting di wilayah utama dan bertindak sebagai sistem aktif atau siaga, menyediakan respons cepat terhadap masalah di tingkat sistem, sementara situs pemulihan bencana di wilayah lain juga dapat dikelola untuk memastikan adanya perlindungan dari bencana di tingkat wilayah dengan kecepatan dan efektivitas perlindungan yang sama.
Terakhir, produk SIOS Protection Suite telah digunakan selama puluhan tahun di dunia nyata. Produk ini telah diuji coba dalam berbagai skenario dan konfigurasi penerapan, serta telah ditingkatkan kemudahan penggunaannya selama bertahun-tahun. Hasilnya, ini adalah solusi yang fleksibel, mudah diadopsi, dan sangat sesuai dengan lingkungan produksi. Kompleksitas dalam merancang dan mengonfigurasi solusi HA/DR dapat dihindari dengan mengadopsi SIOS Protection Suite dan menikmati manfaat dari riwayat pengembangan yang kaya dengan berbagai peningkatan yang tak terhitung jumlahnya, ditambah dengan tim dukungan kelas dunia yang siap membantu jika ada pertanyaan atau masalah yang mungkin timbul. Selain semua ini, ada juga peluang untuk menjalani prosedur instalasi atau validasi kolaboratif untuk penawaran SIOS Protection Suite, yang memastikan lingkungan Anda siap menghadapi apa pun yang dapat terjadi di dunia. Terakhir, bagi tim yang membutuhkan staf yang sangat berpengalaman dan ingin memaksimalkan pemanfaatan SIOS Protection Suite beserta komponen-komponennya, SIOS menawarkan pelatihan yang memungkinkan tim bekerja sama dengan staf untuk memahami komponen-komponen yang berperan serta dan berdiskusi secara aktif guna memfasilitasi pemahaman yang mendalam guna memastikan staf dapat langsung bekerja dengan semua informasi yang dibutuhkan untuk menerapkan solusi hingga mencapai potensi tertingginya.
Lindungi bisnis Anda dari waktu henti dan kehilangan data—minta demoataumulai uji coba gratis Andauntuk melihat SIOS beraksi.
Penulis: Philip Merry, CX – Software Engineer di SIOS Technology Corp.
Direproduksi dengan izin dariSIOS