2010-07-12 2 views
3

재해가 발생할 때까지 재난 복구 계획을 사용할 필요가 없다는 것을 고려하면 IT 부서가 재해 복구 계획을 테스트 할 수있는 방법이 무엇인지 궁금합니다. 핵심 시스템의 실패를 어떻게 시뮬레이트합니까? 테스트가 가능한 한 실제와 동일하도록하는 방법이 있습니까? 귀하의 제안에 감사드립니다.재해 복구 계획을 품질 보증하는 가장 좋은 방법은 무엇입니까?

+1

이 질문은 특정 프로그래밍 문제가 아니기 때문에이 질문은 토픽이 아닌 것으로 보입니다. [programmers.se]에게 더 적합 할 수 있습니다. – hichris123

답변

3

위의 설명에 덧붙이려면 예 "재앙"이 있습니다. 당신이하는 일은 당신의 BCP에 달려 있습니다. 예를 들어 페일 오버 데이터 센터를 사용하는 경우 전원을 끌 수 있습니다.

시스템을 강하게 죽일 필요는 없습니다. 당신은 단순히 네트워크를 당길 수 있습니다; 실제로 당신이 테스트하고있는 것에 따라 그것은 바람직한 것일 수 있습니다.

그러나 정기적으로 정기적 인 "정전"을 계획하는 것이 좋습니다. 저의 이전 팀은 글로벌 금융 서비스 회사와 함께했습니다. 우리 시스템은 24x7x365 미션 크리티컬했습니다. 그러나 우리는 실제로 전체 데이터 센터 중단을 수행해야하며, 며칠 동안 지속될 것입니다. 얼마나 자주 당신은 결과에 의존 하는가. 프로덕션 환경에서하지 않으면 시뮬레이트하거나 에뮬레이트 할 수 있습니다. 기본적으로 학문적입니다.

당신은 물론 그것을 "모든 손에 갑판"을 갖고 싶어합니다. 그렇게하면 무언가가 잘못되었을 때 시스템이 복잡해지면 분명히 준비가됩니다. 이것이 비즈니스 연속성의 또 다른 측면입니다. 계획대로 진행되는 것은 없습니다. 주기적으로 재난 시나리오를 발생시킴으로써 사람들이 어떤 일이 잘못 될 때 어떻게 대처할 수 있는지 교육합니다. 당신은 또한 계획에 그 수업을 추가하게됩니다. BCP와 DR은 정적이지 않습니다. 최소 연간 전체 시스템 테스트를 권장하며, 1 년에 3-4 회하는 것이 바람직합니다. 시스템이 전통적으로 사용량이 적은 시간 인 "썰물 (low tide)"에서 일정을 계획 할 수 있고 또한 그렇게해야합니다. 많은 사람들에게 이것은 공휴일을 의미합니다. 예를 들어 3 일간의 주말은 합리적인 시간입니다.

모든 부품을 동시에 테스트해야하는 것은 아닙니다. 승무원을 동반하지 않고 시스템을 처리하도록 허용하는 경우도 있습니다. 예를 들어 정기적으로 데이터를 복원하여 백업 및 복원 프로세스를 테스트 할 수 있습니다.

이것은 나쁜 생각이 아니라는 것을 확신하는 한, 이것을 고려하십시오. 계획에 구멍이 있다면 (그리고 모든 사람들이) 모두 을 준비하고을 준비하고 상황을 신속하게 정상 상태로 복원하거나 실제 실패가 발생할 때이를 알도록 선택할 수 있습니다.개별적으로 수행 할 수있는 부분을 프로덕션에서 테스트하고이를 PTB에 보여주기위한 기초로 사용하여 실제 시뮬레이션 실패를 통해 "전체 시스템"을 테스트하는 방법 a) 단단한 부분이 있고 b) 실제로 작동하는지 확인하는 데 필요합니다.

+0

나는이 비슷한 설명을 한 내 사무실의 블로그 항목을 썼다. 재난 대비의 많은 부분이 훈련이며, 훈련에 익숙합니다. 우리는 프로 시저를 만드는 데 많은 시간을 할애하지만 실제로 연습 할 시간은 거의 없습니다. 우리 중 대부분은 연습 없이는 잘하지 못합니다. –

2

재앙을 가져 왔습니다.

재난 계획에 확신이 있다면 데이터 센터 (또는 청소부)에 들어가서 전원 플러그를 뺄 수 있어야합니다.

탠덤은 클러스터 페일 오버 기능을 아주 잘 보여줬다. 앱 실행 중 서버 중 하나를 통해 샷건을 발사했다.

+0

위대한 데모/테스트처럼 들립니다. – FrustratedWithFormsDesigner

+0

또 하나는 한 쌍의 서버 중 하나에 금고를 떨어 뜨리고 있었다. –

0

테스트는 가능한 한 실제에 가깝게하는 것이 가장 좋습니다. 이 시뮬레이션을 시작하자마자 테스트가 쓸모 없게됩니다. 관리인이 기계 전원을 끄고 LAN 케이블을 뽑은 다음 바이러스를 배포하십시오. 그것으로 약간의 재미를보십시오!

1

대개의 경우 재해는 서버가 다운되는 경우입니다.

앱이 얼마나 중요한지에 따라 ... 테스트 환경에서 기기를 끄고 다른 앱과 서버 및 알림 서비스가 어떻게 반응하는지 확인하십시오.

허용되는 방식으로 반응하지 않으면 변경해야합니다.

0

가상화 기술을 처음 접했을 때 나는 그것에 대해 많이 모른다. 그러나 몇 개월 전 재난 복구를 위해 준비되지 않은 조직 이었지만 지금은 고급 시스템 그룹의 disaster recovery solutions을 준비하고 있습니다. ASG 기술 전문가는 비상 사태가 발생했을 때 우리가 필요할 때 올바른 장소에 정확한 데이터를 제공 할 수 있도록 도와줍니다. 그들은 재해 복구 계획을 테스트했으며 성공했습니다. 경험이 풍부하고 재해 복구에 대한 전문 지식을 보유하고 있으므로 상담을받을 것을 권장합니다.