2019-09-08

Disaster Recovery

التعافى من الكوارث

يعد التعافي من الكوارث (Disaster Recovery DR) واحداً من مجالات  تخطيط أمن المعلومات، وهو ​​يهدف إلى حماية المؤسسة من الآثار السلبية للأحداث المؤثرة. يسمح DR للمؤسسة بالحفاظ على تطبيقات المهام الحرجة mission critical applications أو استئنافها بسرعة بعد وقوع كارثة.


يمكن أن تكون الكارثة أي شيء يعرض عمليات المؤسسة للخطر أو الانقطاع ، مثل الهجوم السيبراني أو فشل المعدات أو الكوارث الطبيعية. الهدف من DR هو استمرار العمل بالشكل الطبيعي في أقرب وقت ممكن بعد حدوث كارثة.
تتضمن عمليات التعافي بعد الكوارث DR، التخطيط والاختبار وقد تتضمن ضرورة وجود موقعاً فعلياً منفصلًا لاستعادة العمليات.


أنواع الكوارث
هناك مجموعة واسعة من الكوارث - الناجمة عن كل من البشر والطبيعة - التي تؤدي إلى حالات التعافي. قد يبدو نوع معين من الكوارث غير محتمل ، ولكن من المهم إدراك إمكانية حدوثه لأغراض الاسترداد بعد عطل فادح.

تشمل أمثلة أنواع الكوارث ما يلي:
·         فشل التطبيقات أو فشل الأجهزة التخيلية virtual machine.
·         فشل في الاتصال Communication.
·         فشل مركز البيانات بالكامل، وتتعدد الاسباب بين التشغيل غير المقصود لنظام إطفاء الحرائق، إلى انقطاع التيار الكهربائي إلى الفيضان أو الحريق.
·         كارثة على مستوى المبنى بالكامل.
·         كارثة على مستوى المدينة.
·         كارثة إقليمية. ومن الأمثلة على ذلك الاعاصير.
إن إدراك وجود هذه الكوارث هو الخطوة الأولى في التخطيط لها.

أهمية التعافي من الكوارث:
نظراً لأن الشركات أصبحت أكثر اعتماداً على أنظمة الاتاحة العالية high availability ، فقد انخفض معدلات سامح الوقت الضائع downtime tolerance.
يمكن أن يكون للكارثة تأثير مدمر على الأعمال التجارية. وقد أظهرت الدراسات أن العديد من الشركات تفشل فى الاستمرار بعد تعرضها لفقدان كبير للبيانات ، لكن DR يمكن أن يساعد.

يتعبر نقطة الاسترداد ( recovery point objective RPO) ووقت الاسترداد (recovery time objective RTO) قياسين مهمين في التعافي من الكوارث disaster recovery، ووقت التوقف downtime.

RPO recovery point objective هو الحد الأقصى لعمر الملفات التي يجب على المؤسسة استعادتها من وحدة تخزين النسخ الاحتياطية حتى تستأنف العمليات العادية بعد وقوع كارثة. يحدد هدف نقطة الاسترداد الحد الأدنى لتكرار عملية النسخ الاحتياطية.
على سبيل المثال ، إذا كانت المنظمة لديها RPO هو أربع ساعات ، فيجب أن يقوم النظام بالنسخ الاحتياطي كل أربع ساعات على الأقل.

RTO recovery time objective هو الحد الأقصى للوقت ، بعد حدوث كارثة ، بالنسبة للمؤسسة لاستعادة الملفات من وحدة تخزين النسخ الاحتياطية واستئناف العمليات العادية. بمعنى آخر ، فإن هدف وقت الاسترداد هو الحد الأقصى لمقدار توقف الأنظمة downtime التي يمكن للمؤسسة تحملها. إذا كانت المنظمة لديها RTO لمدة ساعتين ، فلا يمكن للأنظمة أن تتوقف لفترة أطول من ذلك.

تساعد RPO و RTO المسؤولين على اختيار الاستراتيجيات والتقنيات والإجراءات المثلى لاستعادة القدرة على العمل بعد الكوارث.

لتحقيق RTO أكثر تشدداً، بمعنى أنه بعد حدوث كارثة تصبح قادراً على استعادة العمل بشكل طبيعى فى أقل وقت زمني ممكن، يتطلب ذلك تجهيز نسخة ثانية من البيانات فى موقع أخر بحيث يمكن الوصول إلي هذا الموقع واستخدام البيانات المسجلة عليه بشكل أسرع.

الاستعادة في المكان recovery-in-place هي إحدى طرق استعادة البيانات بسرعة أكبر. تعمل هذه التقنية على نقل بيانات النسخ الاحتياطية إلى الحالة العاملة live state على جهاز النسخ الاحتياطي  مباشرة، مما يلغي الحاجة إلى نقل البيانات عبر الشبكة.

هذه الطريقة يمكن أن تحميك من خطر فشل أنظمة التخزين أو فشل الخوادم. قبل استخدام الاسترداد في المكان ، تحتاج المؤسسة إلى مراعاة أداء جهاز النسخ الاحتياطي للقرص ، والوقت اللازم لنقل البيانات من حالة النسخ الاحتياطي إلى الحالة العاملة، والفشل.
نظراً لأن الاسترداد في المكان يمكن أن يستغرق ما يصل إلى 15 دقيقة ، فقد تحتاج المؤسسة إلى إجراء النسخ المتماثلة replication إذا كانت تريد وقت استرداد أسرع.

يتطلب الاستعداد للكوارث نهجا شاملا يشمل الأجهزة والبرامج ، ومعدات الشبكات ، ومصادر الطاقة ، والاتصال ، وكذلك الاختبارات التي تضمن أن يحقق ال DR أهداف ال RTO و RPO. في حين أن تطبيق خطة DR شاملة ليست مهمة بسيطة ، فإن الفوائد المحتملة كبيرة.

التخطيط لمواجهة الكوارث واستراتيجيتها
توفر خطة التعافي من الكوارث طريقة منظمة للاستجابة للحوادث غير المخطط لها والتي تهدد البنية التحتية لتكنولوجيا المعلومات بالشركة ، بما في ذلك الأجهزة والبرامج والشبكات والإجراءات والأفراد.

توفر الخطة إستراتيجيات خطوة بخطوة لاستعادة القدرة على العمل بعد الكوارث لاستعادة الأنظمة والشبكات المتعطلة لتقليل الآثار السلبية على عمليات الشركة.
يحدد تقييم المخاطر risk assessment التهديدات المحتملة للبنية التحتية لتكنولوجيا المعلومات، تحدد خطة DR كيفية استرداد العناصر الأكثر أهمية للشركة.

وفقًا للمستشار المستقل بول كيرفان Paul Kirvan، تشمل المكونات اللازمة في خطة DR ما يلي:
·         بيان سياسة الاسترداد بعد عطل فادح ونظرة عامة على الخطة والأهداف الرئيسية للخطة.
·         الموظفين الرئيسيين ومعلومات الاتصال بفريق ال DR.
·         وصف إجراءات الاستجابة لحالات الطوارئ فور وقوع الحادث.
·         رسم تخطيطي للشبكة بالكامل وموقع الاسترداد recovery site.
·         إرشادات حول كيفية الوصول إلى موقع الاسترداد recovery site.
·         قائمة البرامج والأنظمة التي سيتم استخدامها في الاسترداد.
·         عينات لنماذج لمجموعة متنوعة من عمليات الاسترداد، بما في ذلك الوثائق الفنية من الموردين.
·         نصائح للتعامل مع وسائل الإعلام.
·         ملخص التغطية التأمينية.
·         الإجراءات المقترحة للتعامل مع المواضيع المالية والقانونية.
·         نماذج جاهزة للاستخدام للمساعدة في إكمال الخطة.

وفقًا لكيرفان ، يجب أن يقوم الفريق القائم على تطوير خطة DR بالأنشطة التالية عند إنشاء الخطة الخاصة بهم:
·         قابل الفريق المسئول عن تكنولوجيا المعلومات بالشركة، وكذلك مسؤول الشبكات، لتحديد نطاق الخطة ، ثم اطلع الإدارة العليا على نتائج الاجتماع.
·         جمع كل وثائق البنية التحتية للشبكة ذات الصلة.
·         تحديد أخطر التهديدات ونقاط الضعف في البنية التحتية.
·         راجع التاريخ السابق للانقطاعات والأعطال التى حدثت، وكيفية تعاملت الشركة معها.
·         تحديد أصول تكنولوجيا المعلومات الأكثر أهمية وتحديد الحد الأقصى لوقت انقطاعها.
·         تحديد فريق الاستجابة للطوارئ وقدراته.
·         اطلب من الإدارة مراجعة الخطة.
·         اختبار الخطة وتحديثها إذا لزم الأمر.
·         قم بجدولة مواعيد المراجعة / التدقيق القادمة لقدرات التعافي من الكوارث.
يجب أن تعتبر المنظمة خطة التعافي من الكوارث وثيقة حية. تحتاج خطة DR إلى مراجعات وتحديثات مجدولة للتأكد من أنها دقيقة وستعمل إذا كان الاسترداد مطلوباً. يجب أيضاً تحديث الخطة كلما كانت هناك تغييرات في العمل يمكن أن تؤثر على التعافي من الكوارث.

اختبار التعافي من الكوارث
يعد الاختبار أمراً مهماً لإدارة التغيير change management أثناء التخطيط لل DR ، فهو يساعد على تحديد الثغرات وتوفير فرصة لتجربة الإجراءات في حالة حدوث أزمة.
تحتوي خطة ال DR على الكثير من الأجزاء المتغيرة، لذا فإن اختبارها يمكن أن يساعد المؤسسة على فهم ما يجب أن يقوم به الموظفون أثناء سيناريوهات التعافي من الكوارث المختلفة.

يجب أن يكون لدى المؤسسة جدول زمني لاختبار سياسة التعافي من الكوارث الخاصة بها، وأن تكون حذرة من مدى تداخلها. اختبار DR في كثير من الأحيان يمكن أن تستنزف الموظفين. يجب على المؤسسة اختبار خطة DR بعد أي تغييرات تحدث في النظام.

إحدى طرق الاختبار هي التشغيل في وضع حدوث الكارثة لفترة من الوقت، على سبيل المثال التحول إلى العمل من خلال الموقع الاحتياطى recovery site وترك الأنظمة تعمل هناك لمدة أسبوع ثم العودة.

فيما يلي بعض الطرق للحصول على أقصى استفادة من اختبار التعافي من الكوارث:
·         ضمان الحصول على موافقة الإدارة لإجراء الاختبار وكذلك التمويل اللازم له.
·         تقديم معلومات مفصلة عن الاختبار.
·         تأكد من أن فريق الاختبار بأكمله متاح في تاريخ إجراء الاختبار.
·         تأكد من عدم تعارض الاختبار مع الاختبارات أو الأنشطة المجدولة الأخرى.
·         تحقق من أن بيئة الاختبار جاهزة.
·         كن مستعداً لإيقاف الاختبار إذا لزم الأمر.
·         قم بتدوين الملاحظات حول نتائج الاختبار، وقم باعداد تقرير بما نجح و بما فشل.
·         استخدم نتائج الاختبار لتحديث خطة DR.

رغم أنه من الأفضل إجراء اختبار شامل للتعافي من الكوارث ، فقد لا يكون ذلك ممكناً دائماً بسبب نقص التمويل أو الوقت أو الموارد. في هذه الحالة ، يجب أن تستمر المؤسسى في تجميع المشاركين الأساسين فى الاختبار وتوزيع الوثائق ذات الصلة عليهم، وإجراء جولة تجريبية للاختبار.

هناك مخاطر لهذا النهج المصغر لاختبار DR ، حيث أن التكنولوجيا التي لم يتم اختبارها بشكل كامل قد لا تعمل بشكل صحيح عند الحاجة.

أنواع مواقع التعافي من الكوارث:
ساخنة hot ودافئة worm وباردة cold
في موقع disaster recovery site، يمكن للمؤسسة استرداد واستعادة البنية الأساسية للتكنولوجيا وعملياتها عندما يكون مركز البيانات الأساسي الخاص بها غير متوفر بسبب حدوث كارثة. يمكن أن تكون مواقع DR داخلية أو خارجية.

تقوم المؤسسة بإعداد موقع داخلي لاستعادة البيانات بعد الكوارث والحفاظ عليه. من المرجح أن تستخدم الشركات ذات المتطلبات الكبيرة موقع DR داخلي ، والذي يكون عادة مركز بيانات ثان. من بين الاعتبارات في إنشاء موقع داخلي ، مواصفات الأجهزة، والمعدات الداعمة، ومصادر الطاقة والتبريد وتصميم الموقع، والموظفين. قد ترغب المؤسسة في إجراء تقييم للمخاطر لموقع الاسترداد كما لو كان هو مركز البيانات الأساسي.
غالباً ما يكون خيار الموقع الداخلي أغلى بكثير من الموقع الخارجي ، ولكن الميزة الرئيسية هي التحكم في جميع جوانب عملية التعافي من الكوارث.

مواقع الاسترداد الخارجى غالباً ما يكون عن طريق مزود للخدمة service provider. يمكن أن تكون المواقع الخارجية ساخنة أو دافئة أو باردة.

موقع ساخن: مركز بيانات يعمل بكامل طاقته مع الأجهزة والبرامج والموظفين والبيانات، ويعمل عادة على مدار الساعة ويكون جاهز للتشغيل تماما في حالة وقوع كارثة.
موقع دافئ: مركز بيانات مجهز لا يحتوي على البيانات، يمكن لمؤسسة تثبيت معدات إضافية ونقل البيانات بعد وقوع كارثة.
موقع بارد: لديه بنية تحتية لدعم أنظمة تكنولوجيا المعلومات والبيانات، ولكن لا توجد تقنية حتى تقوم إحدى المنظمات بتنشيط خطط DR وتثبيت المعدات، تستخدم في بعض الأحيان لتكملة المواقع الساخنة والدافئة خلال كارثة طويلة الأجل.

المسافة هي عنصر أساسي لموقع الاسترداد بعد عطل فادح. من الأسهل إدارة موقع أقرب ، ولكن يجب أن يكون بعيدًا بما فيه الكفاية بحيث لا يتأثر بكارثة كبرى تؤثر على مركز البيانات الأساسي. المواقع البعيدة قد تتطلب المزيد من الموظفين وتزيد من التكاليف.

مستويات خدمة التعافى من الكوارث:
في الثمانينيات من القرن الماضي ، قدمت لجنة التوجيه الفني بالتعاون مع IBM ، وصفاً لمستويات خدمة التعافي من الكوارث باستخدام المستويات من 0 إلى 6. تمثل الطبقة 0 أقل قدر من الاسترداد خارج الموقع وتمثل الطبقة 6 أكثرها.

المستوى 0: لا توجد بيانات خارج الموقع. الاسترداد ممكن فقط باستخدام أنظمة في الموقع.

المستوى 1: يتضمن النسخ الاحتياطية الفعلية مع موقع بارد. يتم نقل البيانات التي يحتمل أن تكون على شريط  tape، إلى موقع خارجى لا يحتوي على الأجهزة الضرورية مثبتة.

المستوى 2: يتضمن النسخ الاحتياطية الفعلية مع موقع ساخن. يتم نقل البيانات ، التي يحتمل أن تكون على شريط tape، إلى موقع خارجى يحتوي على الأجهزة الضرورية المثبتة لدعم الأنظمة الرئيسية للموقع الأساسي.

المستوى 3: قبو إلكتروني. تنتقل البيانات إلكترونياً إلى موقع ساخن.

المستوى 4: نسخ للبيانات في وقت محدد مع موقع ثانوي نشط. يتم نسخ البيانات الحيوية بين الموقع الأساسي والموقع الثانوي، حيث يدعم كل موقع الآخر. غالباً ما تستخدم الاقراص في هذه الفئة.

المستوى 5: يتم استخدام موقعين متكاملين مع بعضهما البعض، ويتم نقل البيانات باستمرار عبر الموقعين. موقع يرسل البيانات والأخر يستقبلها.

المستوى 6: فى هذا المستوى فان احتمالية فقدان البيانات قد تصل الى الصفر. الاسترداد لحظي ، وغالباً ما يتضمن النسخ المتطابقة للأقراص disk mirroring أو النسخ المتماثلة replication.

تمت إضافة المستوى 7 لاحقاً ليشمل التشغيل الآلي ، وهو يمثل أعلى مستوى من التوافر في سيناريوهات التعافي من الكوارث.

بشكل عام ، بينما تتحسن القدرة على الاسترداد مع المستويات الأعلى، تزداد التكاليف أيضاً.





المصدر:

ليست هناك تعليقات:

إرسال تعليق