카카오의 다짐을 담은
알기 쉬운 보고서
지난 2022년 10월 15일, SK C&C 판교 데이터센터 화재 사고로 인해 카카오 서비스에 장애가 발생했습니다. 이로 인해 많은 분들이 어려움을 겪었고, 이를 수습하고 대응하는 과정에서도 많은 분들의 기대에 미치지 못해 큰 불편을 드렸습니다.
그로부터 두 달, 카카오는 신뢰를 회복하기 위해 보다 확실한 원인 분석과 재발 방지를 위한 대책, 구체적인 향후 계획을 세우는 데 힘을 모았어요. 그리고 이제 여러분께 약속을 드리려고 합니다.
더 나은 내일을 만들기 위한 카카오의 다짐을 담은 보고서, 관심과 사랑을 주신 여러분에게 보답하는 카카오의 마음입니다.
원인 분석
10월 15일,
무슨 일이 있었던 거죠?
10월 15일 토요일 오후 15시 19분, SK C&C 판교 데이터센터에 화재가 발생하면서 카카오 대부분의 서비스에 장애가 발생했어요. 그리고 약 8시간 후 화재 진화가 완료되었고, 그로부터 약 2시간 후엔 카카오톡 메시지 송수신 기능이 복구되었어요. 열심히 순차적 복구를 해나갔지만, 모든 서비스를 원활하게 이용할 수 있기까지는 5일이 소요되었어요.
사실, 이런 사고를 대비해 카카오는 각 서비스의 데이터를 세 곳 이상의 데이터센터에 분산 배치해 운영하고 있습니다. 이번에 화재가 발생한 SK C&C 판교 데이터센터는 전체 서버의 일부만을 담당하고 있었고요. 그런데 왜 나머지 서버들까지 전부 멈췄던 걸까요?
데이터 이중화만큼 중요했던
시스템 전체의 이중화
데이터의 이중화는 되어 있었지만, 시스템 전체 관점에서의 이중화가 부족했기 때문이에요. 한 데이터센터 전체에 문제가 생기더라도, 이중화 시스템이 정상 작동을 했다면 다른 데이터센터로 이중화 전환이 이뤄지며 빠르게 복구가 되었을 거예요. 하지만 SK C&C 판교 데이터센터의 전원 공급 전체가 중단되었을 때, 이중화 전환을 돕는 일부 시스템이 함께 동작하지 않으면서 다른 데이터센터로의 이중화 전환이 이뤄지지 않았어요. 결국 일일이 수동 전환 대응을 진행해야만 했고, 이로 인해 장애 복구가 지연되었습니다.
이런 문제도 있었어요
서비스 장애를 복구하기 위해서는 운영 관리 도구의 복구부터 필요한데, 해당 시스템의 복구 인력이 부족했습니다. 또, 긴급 이중화 대응을 위해 확보해놓은 장비 배치 공간이 데이터센터 전체를 온전히 대신하기에는 부족하여 빠른 대응이 어려웠어요.
달라지는 카카오
아쉬웠던 카카오,
이렇게 달라집니다.
다시는 이런 일이 생기지 않도록, 카카오는 과감한 투자 계획을 포함한 4가지 재발 방지 대책을 세웠어요.
- 첫째, 인프라 전문 조직 세팅
- 이중화를 넘어 다중화를 목표로 카카오의 인프라를 재정비해요. 전문가 영입 및 육성을 위한 투자도 아끼지 않을 예정이에요.
- 둘째, 내부 위기 대응 매뉴얼 구축
- 서비스 간 우선순위 체계화, 장애 대비 훈련 확대 및 강화는 물론, 위기 대응 매뉴얼을 고도화해 나가고 있어요.
- 셋째, 카카오 자체 데이터센터 보완
- 극단적인 재난 상황에도 대비할 수 있도록 2024년 완공되는 안산 카카오 데이터센터의 안정성을 극대화할 계획이예요.
- 넷째, 지난 5년대비 3배 이상 투자
- 모든 계획을 착실히 실행하기 위해 인력, 시설, 장비 등 모든 인프라 영역에 과감한 투자를 진행하려 해요.
우리의 다짐
더 나은
내일을 위한 다짐
지금까지 10월 15일 서비스 장애 당시 카카오의 부족했던 점과 앞으로 더욱 단단해질 변화점에 대해 살펴보았어요. 사실 저희의 부족함을 모두 꺼내 공개한다는 것은 굉장히 부끄러우면서도 어려운 결정이었습니다.
하지만 저희가 이번 사건을 통해 다시 한 번 뼈 아프게 깨달은 건, 카카오가 전 국민의 일상을 지키고 있다는 무거운 책임감이었습니다. 다시는 모두의 대화가 멈추는 일이 없도록, 국민 모두가 언제나 믿을 수 있는 단단한 소통 플랫폼이 되겠다는 다짐을 담아, 용기를 내 이 보고서를 모든 사용자 분들께 전합니다.
더 나은 내일을 약속하는,
카카오팀 드림
다짐보고서 안내
본 보고서는 누구나 이해하기 쉽도록 작성되었습니다. 보다 자세하고, 전문적인 보고서를 보고 싶으시다면 아래 링크를 통해 이번 카카오 개발자 컨퍼런스 if(kakao)dev2022에서 발표한 내용을 살펴봐주세요.
if(kakao)dev2022 Day1 바로가기