2025.05.09 (금)

  • 구름많음동두천 17.6℃
  • 맑음강릉 20.3℃
  • 구름많음서울 18.2℃
  • 맑음대전 18.5℃
  • 맑음대구 19.0℃
  • 맑음울산 20.0℃
  • 맑음광주 18.4℃
  • 맑음부산 19.1℃
  • 맑음고창 18.4℃
  • 맑음제주 21.3℃
  • 구름많음강화 15.3℃
  • 구름조금보은 17.3℃
  • 맑음금산 18.1℃
  • 맑음강진군 18.7℃
  • 구름조금경주시 20.7℃
  • 맑음거제 19.7℃
기상청 제공

글로벌 DC 운전중단사례 빈도·수준 지속감소

업타임, 2025년 연례 장애분석보고서 발표

 

데이터센터(DC) 중단방지는 지속적으로 DC 소유자와 운영자의 전략적 우선순위다. 최신 아키텍처의 복잡성과 진화하는 외부위협은 운영자가 DC를 적극적으로 관리해야 할 책임을 강화하고 있다. 그럼에도 불구하고 인프라장비 개선에 따라 전반적인 장애빈도와 수준이 감소하고 있다.

 

업타임 인스티튜트(Uptime Institute)가 제7차 연례 장애분석 2025(Annual Outage Analysis) 기조보고서를 발표했다.

 

업타임 인텔리전스 리서치(Uptime Intelligence Research)의 4년 연속 조사를 토대로 살펴보면 전반적인 장애빈도와 보고된 심각도의 일반적인 수준이 계속 감소하고 있다. 그러나 사이버보안 사고는 증가하고 있으며 심각하고 지속적인 영향을 미친다.

 

업타입 인텔리전스의 창립 멤버이자 전무 이사인 앤디 로렌스(Andy Lawrence)는 “장애는 전반적으로 둔화됐다”라며 “DC 운영자는 전력망 제약, 극한 날씨, 네트워크 제공업체 고장 및 타사 소프트웨어 문제를 포함해 통제할 수 없는 점점 더 많은 외부위험에 직면하고 있으나 더 불안정한 위험환경에도 불구하고 개선이 이뤄지고 있다”고 말했다.

 

업계에서 유일하게 시행되고 있는 업타임의 연간 장애분석은 설문조사, 업타임 인스티튜트 회원 및 파트너가 제공한 정보, 공개적으로 보고된 장애 데이터베이스를 기반으로 한다.

 

보고서에 따르면 장애는 디지털인프라의 급속한 성장에 비해 빈도와 심각성이 줄어들고 있다. 이러한 추세는 몇 년 동안 유지돼 왔으며 위험관리 및 신뢰성에 대한 업계의 발전을 강조한다.

 

 

전력은 여전히 심각한 시설중단의 주요 원인이다. IT 및 네트워킹 문제로 인한 장애는 2024년에 증가해 영향을 미치는 장애의 총 23%를 차지했다. 이러한 추세는 코로케이션 제공업체, 클라우드 및 기타 타사 서비스로의 장기적인 이동을 반영한다. 아웃소싱을 통해 일부기업의 위험을 줄일 수 있지만 여전히 중대한 장애가 발생하며 때로는 중대한 결과를 초래한다. 이러한 증가는 IT 및 네트워크 복잡성 증가로 인해 발생하며 이로 인해 변경관리 및 잘못된 구성 문제가 발생할 수 있다.

 

소프트웨어 기반 및 분산된 복원력 도구도 확장되고 있다. 이러한 시스템은 가동시간을 개선하지만 새로운 위험과 복잡성을 야기할 수도 있다. 물리적 페일오버(failover) 및 중복성과 함께 소프트웨어 기반 복원력 전략을 사용하는 것은 전반적인 가용성 개선에 기여하고 있다. 그러나 가중된 복잡성은 자체 문제를 야기하고 있으며 장애에 대한 책임 경계를 모호하게 해 근본 원인분석 및 장애분류를 복잡하게 한다.

 

또한 산업혁신의 속도가 빨라져 인프라설계에 부담을 주고 있다. AI에 대한 수요급증은 특별히 전력 및 냉방과 관련된 기존 인프라 설계에 부담을 주고 있으며 전력망 제한과 글로벌 무역긴장으로 인해 공급망 및 확장 계획에 새로운 불확실성을 발생시키고 있다. 이러한 압력은 결국 현재 신뢰성 추세의 안정성에 영향을 미칠 수 있다.

 

2025년에는 절차를 따르지 않아 발생하는 인적오류 관련 장애비율이 2024년에 비해 10% 포인트 증가했다. 직원이 절차를 따르지 않는 것이 지난해보다 훨씬 더 큰 장애 원인이 된 것으로 조사됐으며 이는 교육 및 프로세스 검토를 통해 사고를 줄일 중요한 기회를 시사한다. 인적오류 관련 장애의 압도적 다수는 무시되거나 부적절한 절차와 관련이 있다. 3년 동안 약 40%의 조직이 인적오류로 인한 대규모 장애를 겪었다.

 

이러한 사고 중 85%는 직원이 절차를 따르지 않거나 프로세스 및 절차 자체의 결함으로 인해 발생한다. 증가원인은 불분명하지만 산업의 급속한 성장과 그에 따른 많은 지역의 인력부족의 결과일 것으로 추정된다. 문서화 및 프로세스 개선은 여전히 중요하지만 직원교육 및 실시간 운영지원에 집중해 위험을 효과적으로 줄일 수 있을 것으로 예상된다.

 

 

업타임의 관계자는 “공개적으로 보고된 장애를 추적해 온 9년 동안 클라우드 및 인터넷 거물, 통신 및 코로케이션 기업을 포함한 타사 IT 및 DC서비스 제공업체가 중단사례의 약 3분의 2를 차지했다”고 밝혔다.

 

2024년의 경우 디지털 서비스 제공업체로 인한 장애가 증가했지만 클라우드·인터넷 거대기업의 중단은 감소했다. 이는 분산된 복원력 및 지역적 페일오버에 대한 하이퍼스케일러(hyperscaler)의 투자때문일 것으로 분석된다. 3년 연속으로 금융부문은 2020년 이후 장기 평균에 비해 장애빈도가 감소했다. 이러한 개선은 2021년 이전에 세간의 이목을 끈 몇 차례의 주요장애 이후 더 엄격한 규정과 강화된 감독의 영향을 반영한 것으로 풀이된다.