뉴스

SBS 뉴스 상단 메뉴

"전체 셧다운 대응 훈련 없었다"…센터 이중화도 부족

<앵커>

카카오는 화재 이후 복구 작업이 오래 걸린 이유에 대해서도 오늘(19일) 털어놨습니다. 전원이 끊겼을 때를 대비한 훈련이 없었고, 이런 상황을 대비해서 다른 곳에 서버를 백업해 두긴 했는데 사고 이후 그걸 바로 작동시키지는 못했다고 말했습니다.

자세한 내용은 정혜진 기자가 전하겠습니다.

<기자>

배터리 하나에서 시작된 불로 카카오는 대규모 먹통 사태를 빚었습니다.

위기 대응에 취약했던 이유를 카카오는 이렇게 설명했습니다.

[홍은택/카카오 대표 : 저희의 여러 가지 대응도 데이터 센터 전체를 '셧다운' 경험을 상정하지 않고 대응을 했던 것 같고, 그 점에서 판단에 오류가 있었던 것 같고요.]

연말처럼 이용량이 폭증할 때를 대비한 훈련은 있었지만, 전원 차단 등으로 데이터센터 자체가 멈출 경우를 가정한 훈련은 없었단 겁니다.

글로벌 기업들은 이미 오래전부터 화재나 전원 차단 등 최악의 상황에 가정한 대응 매뉴얼을 가지고 있습니다.

[노라 존스/넷플릭스 선임 엔지니어 (2017년) : 넷플릭스는 서버 마비나 접속 장애 같은 상황을 가정한 '카오스 실험' 훈련을 주기적으로 실시하고 있습니다.]

복구가 늦어진 원인도 황당했습니다.

3만 2천 대의 메인 서버에 있는 데이터는 재해에 대비해 다른 지역에 있는 서버에 백업해 뒀지만, 이 보조 서버들을 가동하려면 작업도구라는 일종의 스위치를 켜야 하는데, 이게 판교 센터 안에 있어서 바로 작동 안 됐다는 겁니다.

결국 수만 대 서버를 일일이 수동으로 복구하느라 오래 걸릴 수밖에 없었습니다.

[임종인/고려대 정보보호대학원 석좌교수 : 회선도 이중화된 데이터 센터를 만들어서 무슨 문제가 생기면 즉시 인력을 이러한 백업 센터 쪽으로 전환시켜 가지고, 몇십 분에서 몇 시간 내에 즉시 서비스가 재개될 수 있도록 해야….]

카카오는 투자의 우선순위를 인프라 구축에 두겠다며 두 달 안에 비슷한 사고를 막을 수 있는 환경을 만들고 자체 데이터센터 추가 확보도 약속했습니다.

(영상취재 : 박진호, 영상편집 : 김호진)

▶ '이중화' 문제 여파…공정위 "플랫폼 문어발 확장 제동"
▶ [단독] 불나고 44분 지나서야…카카오, 골든타임 놓친 이유
Copyright Ⓒ SBS. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지

스브스프리미엄

스브스프리미엄이란?

    많이 본 뉴스