시스템 장애 와 해결 방안

시스템 장애 지만 모두가 정상이라고 합니다.

시스템 장애 상황과 일상에서 흔히 겪게 되는 교통체증의 경험을 비교해서 생각해 봅니다.
신호등은 분명 초록색인데, 극심한 도로 정체를 경험한 적이 있으신가요?
막힌 길 때문에 답답한데 그 이유까지 모른다면 더욱 피곤할수 뿐이 없습니다.

기업 정보시스템 운영시 겪게 되는 장애, 그 원인을 바로 알 수는 없을까요?

분명히 심각한 문제이지만 관련자 모두가 정상이라고 할때 과연 어떻게 해야 할까요?
운영팀 모두가 모여서 각자가 담당하는 분야가 결백하다는 것을 증명하기 위한 Pin Point 미팅을 하게 됩니다.
이런 경우에 자주 언급되는 단어로 MTTI (Mean Time To Innocence: 결백 증명 평균 시간) 라는 말이 있습니다.
자기 스스로가 자신이 결백하다는 것을 증명하는데 걸리는 평균시간을 의미합니다.
시스템이나 장애상황에 따라 차이는 있겠지만 “네트워크 문제 아니야?’ 또는 “WAS 문제 아니야?” 라는 말들을 자주 듣게 되는 순간이기도 합니다.

웹사이트나 서비스의 가용성을 측정하는 중요한 파라미터들은 어떤것들이 있을까요?

서비스의 가용성은 = Uptime / (Uptime + Downtime)

MTTD (평균 진단 시간: Mean Time To Detect ) = 문제를 진단하는 데 걸리는 평균 시간
MTTR (평균 복구 시간 :Mean Time To Repair ) = 문제를 복구하는 평균 시간이다. 시스템을 정상 운영 상태로 복구하기 위해 시스템의 자동 복구 또는 유지보수 인력에 의해 작업 되는 평균시
MTTF (평균 고장 수명 :Mean Time To Failure ) = 수리하지 않는 부품 등의 사용 시작으로부터 고장 날 때까지의 동작 시간의 평균 시간
MTBF (평균 고장 간격 :Mean time between Failures ) = 수리할 수 있는 설비의 고장에서부터 다음 고장까지의 동작 시간의 평균 시간

시스템 운영팀의 가장 중요하게 측정해야 하는 시간은?

고,MTTR (Mean Time To Recovery)로 복구를 신속하게 하는 것입니다.
서비스 가용성에 대한 수식은 다음과 같습니다.

Availability = MTTF / MTBF
MTBF = MTTD + MTTR + MTTF

MTTF (Mean Time to Failure) 는 어떤 하드웨어 제품이나 구성요소가 수리하지 않는 부품 등의 사용 시작으로부터 고장 날 때까지의 동작 시간의 평균값입니다. 즉 설비 분야에서는 제품의 수명이 얼마나 긴지를 나타냅니다.
MTBF (Mean time between Failures) 는 평균 고장 간격시간으로 표현됩니다. 즉 시스템이 한 번 고장 난 후 다음 고장이 날 때까지 평균적으로 얼마나 걸리는지를 나타내는 것입니다.