‘일부러 불 붙여도 안심’ 카카오의 특급 데이터센터 안산

카카오가 지난 11일 경기도 안산시 한양대 에리카(ERICA) 캠퍼스 내 위치한 ‘카카오 데이터센터 안산’에서 프레스 밋업 행사를 열고 첫 자체 데이터센터를 공개했다.

경기도 안산시 한양대 에리카(ERICA) 캠퍼스 내 위치한 카카오 데이터센터 안산은 연면적 4만7378 제곱미터(약 1만4331평)의 하이퍼스케일(10만대 이상의 서버를 운영할 수 있는 초대형 데이터센터) 규모를 갖췄다. 4000개의 랙, 총 12만대의 서버를 보관할 수 있으며 6엑사바이트(EB) 데이터를 저장할 수 있다. 지난해 9월 데이터센터를 준공했으며, 올해 1월 가동을 시작했다.

고우찬 카카오 인프라기술 성과리더 (사진=카카오)

이날 카카오는 데이터센터 안산의 안전성을 거듭 강조했다. 판교 데이터센터 화재 사고 이후 절치부심 끝에 마련한 대응 시스템을 자체 데이터센터에 반영했다. 회사는 관련 시스템을 특허 출원했다.

“아무리 조심해도 화재는 발생할 수 있습니다. 저희는 전산동과 운영동 2개를 나눠서 화재 대응 시스템을 구축을 했습니다. 전산동에 화재가 발생하면 공기 흡입형 감지기가 선 알람을 보내고 연기 감지기가 화재를 감지한 후에 소화가스를 방출해서 방출해서 초기 화재를 진압을 합니다. 저희는 인체와 환경에 무해한 친환경 소화가스를 사용을 하는데요. 소화가스를 사용함으로써 화재가 난 부분만 진압을 하고 나머지 서버들은 모두 정상적으로 서비스를 할 수 있는 그런 구조로 화재 대응 시스템을 구축을 했습니다. 사람들이 근무하는 운영동은 일반 빌딩과 동일한 스프링클러를 이용한 시스템이 되어 있습니다.”

“가장 궁금하셨던 것이 카카오는 어떻게 배터리 화재를 대비하는 시설을 만들었을까 일텐데요. 저희가 이 시스템을 직접 설계하고 개발했습니다. 화재 대응 시스템을 설계를 하고 나서 저희가 목업 테스트를 진행을 했고요. 데이터센터에서 쓰는 배터리는 전기자동차에서 쓰는 배터리랑 동일합니다. 불이 나면 잘 꺼지지 않고 폭발하기도 하죠. 실제로 데이터 배터리에 화재를 일으킨 다음에 주변의 온도를 측정함으로써 어떻게 작동하는지를 테스트했습니다. 연기가 나기 시작하면 화재가 발생한 겁니다. 여러 센서를 통해서 화재 감지를 하고요. 온도가 상승하는 보실 수가 있습니다. 장애 알람이 울리면 해당 라인에 전기가 차단이 되고 화재가 확산되는 걸 방지하기 위해서 방염천이 내려옵니다. 그 다음에 패널에 있는 소화 패치가 작동을 해서 1차 소화를 하고요. 조그만 패치로는 불가능하다고 판단이 되면 랙 옆에 있는 소화액제가 자동 분산돼서 소화를 시작을 합니다. 온도가 안정적으로 유지되는 걸 보실 수 있습니다. 그 다음에라도 안 꺼지면 방수천이 상승합니다. 그리고 냉각수를 분사하게 되고요. 온도가 올라갔다 다시 떨어지는 모습을 볼 수가 있습니다. 이렇게 하면서 옆에 있는 배터리로 확산되는 것을 방지할 수 있고요. 냉각수 분사되기까지 약 4분 미만 시간이 흘렀고요. 실제로 배터리가 다 연소되기까지는 약 2시간 정도 시간이 흘렀습니다. 주위에 하나도 확산되지 않은 것을 확인할 수 있고요. 1015 화재 이후에 추가적인 연구 개발을 통해서 이뤄낸 성과라고 말씀드릴 수 있습니다.”

카카오는 카카오데이터센터 안산에 이어 신규 데이터센터도 추진한다. 인공지능기술 기반 서비스 운영을 포함 미래 기술환경에 효과적으로 대응할 수 있도록 HPC(High performance computing) 데이터센터로 특화 설계할 계획이다. 현재 설립 부지를 선정하는 과정 중이다.

전 시스템 이중화

카카오는 데이터센터 안산이 24시간 무중단 운영이 가능하도록 시스템을 구축함으로써 더욱 안정적으로 서비스를 제공할 수 있는 기반을 마련했다.

▲전력회사로부터의 전기를 공급받는 전력망부터 서버에 전기를 최종적으로 공급하기까지의 전 과정, ▲통신회사에서 서버까지 통신을 제공하는 과정, ▲냉동기부터 서버실까지의 냉수 공급망 등 운영설비를 이중화한 것은 물론이고 데이터와 운영도구 등을 다중화했다. 일부 시스템에 문제가 발생하더라도 이용자가 체감하는 불편을 최소화하고, 복구 시간을 최대한 단축시킬 수 있는 환경을 구축했다.

무정전 전력망도 갖췄다. 전력 공급 중단에 대비하기 위해 주전력의 100% 용량에 해당하는 전력을 즉시 공급받을 수 있는 예비 전력망을 마련했으며, 두 곳의 변전소 모두 문제가 발생하더라도 비상 발전기를 통해 전력 중단없이 데이터센터를 가동할 수 있도록 설계했다.

약 10Tbps(초당 테라비트)의 대역폭을 확보하는 등 데이터센터간 연결을 강화했다. 주 데이터센터 외에 물리적으로 이격된 최소 두 곳의 데이터센터에 데이터와 운영도구의 사본을 만들고 실시간 업데이트 중으로 삼중화까지도 진행했다는 게 회사 설명이다.

데이터센터 안산 전산동 3층 서버실 (사진=카카오)

‘화재대응시스템 특허 출원’ 강력한 방재 자신

카카오 데이터센터 안산은 화재나 지진, 홍수, 해일, 태풍 등 각종 자연 재해 및 재난에도 서비스가 무중단 운영될 수 있도록 강력한 재난 설계를 적용했다.

특히 화재 조기 진화를 위한 대응 시스템 마련에 중점을 뒀다. 무정전전원장치(UPS)실과 배터리실을 방화 격벽으로 분리 시공하고 모든 전기 판넬에 온도 감지 센서를 설치해 이상 온도 상승 시 즉각 대응하게 설계했다.

카카오가 개발한 화재대응시스템은 4단계로 이뤄졌다. 먼저, 배터리에서 화재 발생 시 내부 감시 시스템이 이를 자동으로 감지해 화재의 영향이 있는 배터리의 전원을 차단하고, 방염천 등으로 화재 전이를 막는다. 이 후 단계적으로 소화 약제를 분사해 초기 진화를 시도하고, 방수천을 올려 냉각수를 지속적으로 분사해 발화 원천을 차단한다. 이를 통해서도 불이 꺼지지 않으면 소방서와 연계해 데이터센터 맞춤형 화재 진압을 하게 된다.

지진 대응을 위해 특등급의 내진 설계도 적용했다. 이는 국내 원자력발전소의 내진설계 기준에 준하는 수준으로, 리히터 6.5이상의 강진을 견딜 수 있는 성능을 갖췄다. 초대형 태풍의 20m/s를 넘어서는 28m/s 강풍도 견딜 수 있도록 대비했다.

지상1층 바닥을 주변 지표면보다 약 1.8미터 가량 높게 설계했으며 서버와 배터리, UPS 등 주요 설비도 모두 지상층에 배치해 침수 가능성에 대비했다. 평균 해발 고도 10m 지역에 자리 잡았다. 시화방조제로부터 직선 거리로 18km 이상 떨어져 있어 해일 발생 때도 안정적인 데이터센터 운영이 가능하다고 짚었다.

데이터센터 안산 전산동 옥탑_냉동기 (사진=카카오)

물효율지수 도입 관리 

카카오는 국내 데이터센터 중에서는 드물게 물의 효율적인 사용을 평가하는 ‘물효율지수(WUE, Water Usage Effectiveness)’를 도입해 관리하고 있다. 물효율지수를 높이기 위해 계절의 변화에 맞춰 3가지 모드로 운전하는 고효율 프리쿨링(Free Cooling) 냉각기 시스템을 적용했고, 빗물과 비상 시를 위해 구비해두는 보충수는 조경용수, 소방용수 등으로 재사용해 일반적인 데이터센터 대비 상하수도 비용을 약 98%까지 절약할 수 있다고 설명했다.

카카오 데이터센터 안산은 고효율장비, LED를 사용하여 전기 에너지 사용량을 최소화한 것은 물론이고 서버를 냉각하고 발생한 폐열을 난방에 재사용하고, 태양광 패널을 외장재 및 옥상에 설치해 전력을 확보하는 등 전력 사용도 효율적으로 하고 있다. ‘전력효율지수(PUE, Power Usage Effectiveness)’는 1.3 이하로, 한국IT서비스산업협회가 보고서를 통해 발표한 국내 데이터센터 PUE 평균인 1.91보다 낮은 수치다.

이 같은 노력은 총 에너지 사용량을 30% 감소시키고, 연간 에너지 비용을 약 31억 원까지 절감할 것으로 예상된다. 연간 30GWh(기가와트아워)의 전력을 절감함으로써 탄소 배출량 역시 15% 감축할 수 있을 것으로 기대한다. 이는 국내에서 1년 동안 생산되는 리튬 배터리 총량(약 15GWh 수준)의 2배에 달하는 전력을 절약하는 셈이다.

카카오 데이터센터 안산은 에너지 효율화 기술 활용 및 에너지 절감형 건축 적용을 인정받아 건축물 에너지효율등급 인증서 1등급, 녹색건축 인증 최우수 등급 인증서를 받았다.

지역사회와 소통…산학 협력 진행

카카오는 한양대 ERICA캠퍼스, 안산시와의 소통과 협력을 통해 기업-대학-지역이 함께 성장할 수 있는 발판을 만들어 나가고 있다. 한양대학교 ERICA캠퍼스에는 대학발전기금 출연과 함께 데이터센터 내 산학협력 공간을 제공했다.

올 하반기 안산시민을 대상으로 한 데이터센터 투어도 시범 운영할 예정이다. ERICA 학생들이 스스로 안산의 지역의 문제를 발견하고 실질적인 문제 해결 경험을 쌓을 수 있도록 한양대 교육과 연계하는 사업도 진행한다.

이밖에 안산사이언스밸리 과학축제 후원 등 청소년 IT 교육 프로그램 지원을 통해 미래 성장 산업을 육성하고, 우수 인재를 양성하기 위한 산학협력 및 지역 경제 활성화에도 기여할 예정이다.

고우찬 카카오 인프라기술 성과리더는 “카카오 데이터센터 안산은 안정성이라는 최우선의 가치를 놓치지 않으면서도 친환경과 지역사회와의 상생까지 고려한 카카오의 첫 자체 데이터센터”라며 “이용자들의 일상이 안전하고 편리하게 유지될 수 있도록 최선의 노력을 다하겠다”고 말했다.

데이터센터 안산 종합상황실 (사진=카카오)

다음은 일문일답이다.

Q. 데이터센터 안산 개소 이후에도 카카오톡 서비스 오류가 발생했다.

“세 번 연속해서 장애가 발생을 했습니다. 첫 번째 두 번째 세 번째가 원인이 조금씩 다르기는 합니다. 카카오톡에 있는 서비스를 개선을 하고 성능도 개선하고 서비스도 더 좋게 만들기 위한 개선 작업을 많이 하는데 첫 번째 장애는 데이터센터 안에서 서버에 파일을 업데이트하는 과정에서 기존 파일을 삭제를 하고 업데이트를 하는데 그 과정에서 오류가 발생을 했고요. 두 번째 장에는 그 서비스는 아니었고 다른 쪽에서 저희의 네트워크 관련된 성능을 좀 더 높이기 위해서 개선 작업을 하던 중에 발생을 했습니다. 세 번째 장애는 이 네트워크 관련된 장애가 조금 처리하는 데 시간이 좀 오래 걸렸어요. 그 오류가 완전히 해결되기 전에 다른 부서에서 추가적인 업데이트 작업을 진행을 했고요. 그러던 과정 중에 두 번째 장애가 완전히 해결되지 않은 상태에서 업데이트를 하면서 두 번째 장애에 연결돼서 장애가 발생을 한 건이었습니다.”

“이번 주 늦어도 다음 주부터는 카카오톡을 위주로 한 여러 가지 서비스들이 이 안산 데이터센터에서 운영이 될 텐데 정확하게 말씀드리는 거는 안산 데이터센터는 장애와 상관이 없습니다. 이번 주 다음 주부터는 직접 서비스에 투입이 될 것으로 기존 3개 장애는 안산 데이터센터와는 상관이 없는 장애라고 말씀드리고 싶습니다.”

Q. 데이터센터 안산의 전력 효율화는 어떻게 하나?

“냉방 전력을 최소화하기 위해서 외기를 활용하는 프리쿨링 냉동기에 전산동 외곽과 옥상에 약 1메가와트 규모의 태양광 설비를 통해서 데이터센터가 사용하고 있습니다. 고효율 친환경 설비 도입에만 그치지 않고 자체적인 이제 운영 최적화를 지속 수행하고 있습니다. 대표적으로는 서버룸의 냉방 온도를 현재 설계 23도에서 27도까지 지금 단계적으로 상승시켜서 이제 에너지 절감을 도모하고 있고요. 안정성을 최우선으로 하지만, 최적의 운영 포인트를 찾기 위해서 노력 중입니다.  종합관제실에 있는 지침에는 각종 설비들에 대한 약 30만개 데이터가 수집이 되고 있습니다. 이러한 데이터들을 수집 분석해서 향후에 AI 기반의 이제 냉방 최적화를 구현하기 위한 그런 기반을 마련하려 준비 중에 있습니다.”

Q. 데이터센터 설립 시 지역사회와 마찰을 빚는 경우가 있는 것으로 안다. 이 경우 어떻게 풀어나갈 계획인가?

“저희가 안산 센터를 지을 때는 크게 문제가 없었고, 실제 주민들이 거주하는 공간과 거의 2km 이상 떨어져 있어서 이슈가 없었습니다. 그리고 계속 상생을 위한 여러 사업들을 안산시와 한양대와 같이 진행을 하고 있습니다.”

Q. SK온 배터리를 썼던데, 1015 화재 관련으로 계약 조건에 영향이 있었는지, 가령 싸게 공급이 됐는지 등이 궁금하다.

“제조사마다 배터리의 어떤 장단점이나 특징이 있을 것이고 어떤 제조사의 배터리를 사용하느냐 보다는 어떤 제조사의 배터리를 사용하더라도 배터리 화재 대응 시스템이라든지 이런 저희가 어떤 화재라든지 이런 부분에 대응해서 신속하게 뭔가 화재를 진화하고 처리할 수 있는 그런 대응 시스템을 자체적으로 이제 마련한다라는 부분이 더 중요하다고 생각합니다. 특정 배터리를 사용한 부분에 있어서는 문제는 될 것은 없다라고 생각을 하고요. 계약이나 이런 그런 부분에 대해서는 공개가 어렵기 때문에 그 부분은 양해를 부탁드리겠습니다.”

Q. 현재 들어온 서버 개수와 AI 반도체 제조사와 협업 계획이 있는지?

“1만여대 이상의 서버가 들어가 있고, 지금도 계속 들어오고 있는 상태입니다. (AI 반도체 제조사와는) 저희도 계속 컨택을 하고 있습니다. 글로벌 업체와 국내 업체와도 크게 말씀드리지 않았지만 협력을 하고 있는 중입니다. 카카오 그룹사 전체가 AI 관련 서비스들을 준비하고 있기 때문에 협력 강화를 위해 노력하고 있습니다.”

Q. NHN클라우드 경우 최근 엔비디아 서버 도입을 강조한 바 있다. 최신 엔비디아 칩도 나오고 있는데 언제쯤 도입할 계획이 있는지 궁금하다.

“저희도 차곡차곡 구매할 예정입니다. 안산 데이터센터에만 다 넣겠다 그렇게 계획하고 있지는 않고요. 여러 데이터센터에서 안정적으로 운영하기 위해 분산 배치할 예정입니다. 언제 어느 규모로 도입한다라고 말씀드리긴 힘들지만, 당연히 도입을 해야 하고 준비를 하고 있습니다.”

Q. 화재 대응 시스템을 강조하셨다. 특별한 점이 있는지, 어떤 점을 더 내세우고 싶은지 궁금하다.

“일반적으로 데이터 센터들이 당연히 화재에 대한 소화 설비를 갖추도록 법적으로 되어 있고 모든 데이터 센터들이 그런 부분에 있어서 잘 돼 있을 거라고 이렇게 보고 있습니다. 다만 저희 안산 데이터센터 같은 경우에는 배터리 화재 대응 시스템을 말씀드린 것처럼 자체적으로 구축을 했고 가장 큰 특징은 앞서 배터리 캐비넷 모듈 단위의 화재가 발생했을 때 이게 다른 배터리의 확산이 된다든지 그 배터리룸 자체가 전소된다든지 그런 부분을 최대한 이제 방지하고자 그 배터리 마다 독립적인 어떤 화재 대응 시스템에 대한 부분을 갖췄다라는 부분이 가장 큰 것인 거 같고요. 화재가 발생된다 하더라도 피해 부분들을 최소화시키고 서비스를 안정적으로 계속해서 이어나갈 수 있는 부분들에 대한 부분을 마련했다는 것이 가장 큰 특징이라고 말씀드릴 수 있을 것 같습니다.”

“저희가 데이터센터를 지으면서 가장 우선시했었던 것은 안정성입니다. 이중화할 수 있는 건 다 이중화하는 게 맞고요. 저희가 할 수 있는 최선을 다했다고 생각을 하고 있습니다. 가장 안정적인 데이터센터를 만들고 운영하겠다 하는 지시를 내걸고 데이터센터를 지었다라고 봐주시면 감사하겠습니다.”

글. 바이라인네트워크
<이대호 기자>ldhdd@byline.network

[컨퍼런스 안내]

2025 이커머스 비즈니스 인사이트 : 생존을 넘어 성장으로

일시 : 2025년 2월 18일 오후 12:30~17:30
장소 : 서울 강남구 테헤란로7길 22 ST Center (과학기술컨벤션센터) 지하 1층 대회의실 1

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다