두 달 전 발생한 대규모 플랫폼 장애의 정상화가 네이버는 반나절 만에 이뤄진 데 반해 카카오는 나흘이 걸렸던 것은 데이터센터 이중화 여부가 주된 원인이었다는 결론이 나왔다.
과학기술정보통신부(이하 과기정통부)는 지난 10월 15일 양대 포털의 일부 서비스가 입주한 SK C&C 판교 데이터센터 화재 및 카카오·네이버 부가서비스 장애에 대한 조사 결과를 발표했다.
그러면서 SK C&C·카카오·네이버 3사에 1개월 내 주요 사고 원인에 대한 개선 조치와 향후 계획 수립을 요구했다.
과기정통부에 따르면 카카오는 주요 서비스의 핵심 기능을 순차적으로 복구하고 일부 서버를 이전하는 등 조치로 10월 20일 23시께 정상화해 장애 복구에 127시간 33분을 소요했다.
네이버는 일부 기능 오류(일부 기사 댓글 이용 불가 등)가 발생했으며, 주요 서비스·기능 대부분은 약 20분~12시간 내 복구했다.
사고 당일 오후 3시 19분 SK C&C 판교 데이터센터 지하 3층 배터리실에서 불이 났으며 저녁 11시 45분에 완전히 진화했다. 화재 진압과 건물 전력 차단 등 이유로 카카오와 네이버 등 입주 기업 서비스에 장애가 발생했다.
화재 발생 후 가스 소화 장비가 작동했지만, 가스 소화가 어려운 리튬이온 배터리 특성상 초기 진압에 한계가 있었다.
해당 배터리는 일부 무정전 전원장치(UPS)와 물리적으로 완벽하게 분리되지 않은 공간에 있었다. 화재 열기 등으로 UPS가 멈췄고, 일부 전원 공급도 끊겼다.
배터리 상단에 포설한 전력선이 화재로 인해 손상됐고, 화재 진압을 위한 살수 시 누전 등 2차 피해 우려로 전체 전력을 차단했다.
네이버는 데이터센터 간 이중화 조치를 해 서비스 중단은 없었지만, 타 데이터센터로 서비스를 전환하는 과정 등에서 쇼핑 리뷰와 뉴스 댓글 등 일부 기능에서 오류가 나타났다.
이에 반해 카카오는 카카오톡과 다음 등 대부분의 핵심 기능이 판교 데이터센터에 집중돼 있어 즉각 영향을 받았다.
과기정통부는 "일부 서버와 연결망 등 오류에 대비한 재난 대비 훈련 등 조치는 했지만, 1개 데이터센터 전체가 일시에 불능이 되는 대형 재난 상황에 대해서는 대비가 부족했다"고 했다.
또 카카오는 서비스 기능을 5개의 레이어로 구분하고 판교 데이터센터(동작)와 기타 센터(대기)로 이중화했지만, 이번 사고 시 대기 시스템이 제대로 동작하지 않았다.
대기 서버를 동작 서버로 바꾸는 권한 관리 기능인 '운영 및 관리 도구'를 판교 데이터센터 내에서만 이중화해 타 데이터센터에서 조치할 수 없었기 때문이다.
과기정통부는 디지털 서비스 안정성 확보를 위한 종합적 개선 방안을 내년 1분기 중으로 수립할 계획이다.
정길준 기자 kjkj@edaily.co.kr