네오위즈가 AWS ‘올인’을 선언한 이유

최근 네오위즈가 모든 IT인프라를 아마존웹서비스(AWS)로 옮긴다는 발표를 해서 화제가 됐다. 소위 말하는 클라우드 올인(All-In)이다.

게임회사가 퍼블릭 클라우드를 활용하는 것이야 흔한 일이지만, IT인프라 100%를 옮기는 건 다른 얘기다. 특히 네오위즈는 1997년에 설립된 1세대 인터넷·게임 회사다. 역사만큼 오래된 레거시 시스템이 존재한다. 모든 레거시를 털어버리고 클라우드로의 이전을 꾀하는 것은 모험처럼 보이기도 한다.

왜 네오위즈는 이와 같은 결정을 내렸을까? 배태근 정보관리책임자(CIO, 본부장)으로부터 이와 같은 전략을 취한 배경과 향후 방향에 대해 이야기를 들어보았다.

네오위즈 배태근 CIO

 

IT인프라를 전부 AWS로 옮긴다는 결정을 했다. 이유는? 

크게 두 가지의 이유를 들 수 있다. 하나는 인력의 문제다. IDC를 크게 운영하고 있는데 인력 이탈이 숙제였다. 네트워크 엔지니어가 거의 다 퇴사했다. 저희가 IT인프라 투자를 많이 하는 것이 아니라 엔지니어들에게 동기부여가 안됐다. 이게 고민의 시작점이었다.

또 하나의 이유는 IT의 흐름이다. 저희는 인프라를 자동화 하고 있다. 엔터 한 번만 누르면 운영체제 설치부터 모든 세팅이 자동으로 되도록 만들어가고 있다. 예를 들어 저희가 브라운더스트라는 게임을 글로벌로 확장하고 있는데, 나라마다 IDC 셋업을 하려면 꽤 오랜 시간이 걸린다. 사람이 하는 일이다 보니까 설정 잘못하면 장애가 나기도 한다. 빠르게 확장하고 사람의 실수를 막으려면 자동화가 필요하고, 이를 위해서는 클라우드가 필수적이다.

클라우드 전환은 어느정도 진행된 상태인가?

현재는 초기 단계다. 모바일 게임은 몇년 동안 클라우드에서 돌리고 있고, 기존의 IDC를 클라우드로 넘기고 있는데 현재 10% 정도 진행됐다. 천천히 가고 있다.

단순히 인프라를 클라우드로 바뀌는 것만이 아닐텐데, IDC와 클라우드에는 어떤 차이점이 있나?

단순한 예로 IDC 내에서는 커넥션이 유지돼 있다는 전제 조건으로 모든 설정이 돼 있다. 그러나 클라우드는 끊어질 수도 있다는 전제 조건으로 바뀌어야 한다. 네트워크가 끊어졌을 때 바로 단절되고 장애가 나는 게 아니라 다시 연결되는 옵션을 추가하거나 등의 추가 개발이 많다.

데이터베이스도 바뀐다. 기존에는 오라클DB와 마이SQL로 돼 있었는데 다 걷어낸다고 볼 수 있다.

아마존 오로라를 사용하나? (오로라는 AWS의 관계형 DB 소프트웨어 이름)

아직은 PoC(개념검증) 과정에 있다. 오로라나 포스트그레SQL 같은 걸 쓸 수도 있고, 저희가 경험이 많은 마이SQL을 쓸 수도 있다. 3~4년 전부터 오라클 DB를 줄여왔다.

클라우드 전환 프로젝트에서 가장 어려운 점이 있다면?

역시 가장 걱정하는 부분은 역시 데이터베이스다. 일반적으로 게임 회사는 게임별로 독립적인 DB가 있다. 그런데 저희는 처음에 세이클럽이라는 포털에서 시작했기 때문에 포털 서비스와 고포류(고스톱/포커 게임)가 하나의 DB에 있고, 이 DB는 스케일업 구조다. 리소스가 부족하면 서버를 늘리는 게 아니라 CPU를 꽂는 방식이다.

이 시스템의 트랜잭션이 웬만한 은행권 수준이다. 클라우드로 옮기면서 이 스케일업 DB를 찢어서 스케일아웃 구조로 바꿔야 한다. 일부는 NoSQL로 빼기도 할 거고, 못 빼는 것은 오픈소스 관계형 DB로 갈 것이다. 스케일업을 스케일 아웃으로 어떻게 바꿀 것이냐가 가장 중요한 숙제다.

프로그래밍 면에서는 개발언어를 바꾸는 점도 숙제다. 지금은 php 베이스인데, 이걸 자바로 바꾼다.

개발언어를 바꾸는 이유는?

이것도 인력난에서 시작된 문제다. 저희는 php를 잘 쓰고 있는데, 인력 수급이 잘 안된다. 대학에서 자바 베이스로 가르치고 있기 때문에 이번 기회에 같이 마이그레이션 하려고 한다.

클라우드를 이용하면 비용이 줄어든다는 곳도 있고, 삼성전자와 같은 회사는 비용 문제 때문에 AWS를 프라이빗 클라우드로 바꾼다고 한다.  

저희가 5년 전에도 클라우드 고민을 했다. 그 때는 저희가 IT 투자를 소극적으로 하던 시기였다. 거의 유지보수에만 비용을 집행했다. 그 시점에서는 퍼블릭 클라우드로 옮기는 것이 비용 면에서 부담이었다. 그런데이제 저희가 장비에 투자할 시점이 됐다. 새로운 장비를 구입하는 것보다는 클라우드로 가는 것이 싸다고 판단했다. 오라클도 오픈소스DB로 전환하기 때문에 라이선스 비용이 주는 것도 큰 몫을 했다.

최근에는 100% 퍼블릭 클라우드보다 하이브리드로 구성하는 게 유리하다는 이야기도 많이 나온다.

저희가 몇년동안 해온 게 하이브리드 클라우드다. 일부는 클라우드, 일부는 IDC에서 서비스를 했다. 그 경험의 결과, 클라우드가 자동화 환경에 좋다는 결론을 내렸고, 엔지니어들의 이탈 등의 문제를 해소하기 위해서 클라우드 올인이 낫다는 판단을 내렸다.

내부에 장비가 한 대만 있어도 네트워크가 필요하고 IDC를 관리할 인력이 필요하다. 한 대만 남아 있어도 유지보수 비용은 들어간다. 그래서 클라우드에 올인하게 됐다.

클라우드 벤더를 선택할 때 고민은 없었나?

저희는 AWS뿐만 아니라 마이크로소프트 애저나 KT 클라우드도 사용해 봤다. 그 결과 3~4년 전에 AWS로 결정했다. AWS가 글로벌 넘버원이기도 하고, 게임 시장에 레퍼런스가 가장 많다. 여기에 저희 노하우가 가장 많다고 생각되는 AWS를 선택한 것이다.

다양한 클라우드 벤더를 사용하는 멀티 클라우드가 하나의 트렌드다,

멀티 클라우드도 당연히 고민 요소고, 엔지니어들의 관심도 많다. 저희도 특정 기업에 락인(Lock-in) 되는 것을 싫어하기 때문에 가야하는 방향이라고 생각한다. 그러나 IDC를  버리는 결정을 한 지금은 멀티 클라우드 여력이 없다. 일단은 AWS에 집중하고 나중에 유연한 구조를 만들려 한다.

이전은 언제 완료될까?? 

내년 중반 이후로 보고 있다. 오래걸리는 것은 앞에서 설명한 구조를 변경하는 작업이 크기 때문이다. 고포류 게임은 저희의 핵심 서비스이기 때문에 장애가 나면 안된다.

클라우드 올인의 이유로 엔지니어 이탈을 첫번째 이유로 들었는데, 왜 클라우드로 가면 인력이탈이 줄어드나?

신기술이 많으니까 기술적으로 동기부여가 된다. IDC에서는 기존에 하던 거만 하게 되지만, 클라우드로 가게 되면 새로운 기술이 1년에 어마어마 하게 나온다. 트렌드가 더 빨라지는 환경이다. 그 과정에서 새로운 것을 배울 수 있고 운영해 볼 수 있으니까 동기 부여가 된다.

새로운 것은 싫고 이미 하던 거 그냥 계속 하는 게 편하다고 생각하는 사람도 있지 않을까?

그래서 미리 설문조사를 했다. 그 결과 클라우드로 가는 것을 원하는 사람이 더 많았다. “나는 하던대로 할거야, 새로운 언어 배우고 싶지 않아”라고 생각하는 친구도 있었지만, 극소수였다.

최근에는 클라우드 기술 중에서 컨테이너와 쿠버네티스가 각광을 받고 있다. 쿠버네티스는 어떻게 활용하나.

클라우드에서는 아마존 EKS(Elastic Kubernetes Service)가 메인이 될 것이다. 꽤 많이 쓸 것이다. 기본을 EKS로 잡고, 컨테이너화 하기 어려운 것들만 EC2에 올릴 것이다. 저희는 MSA(Micro Service Architecture)를 추구한다. 컨테이너 기반의 MSA를 재작년부터 게임에 하나씩 적용하고 있다. 이렇게 가면 무중단 배포가 가능하다. 앞으로 가급적 서비스를 중단시키지 않는다는 것이 저희의 방침이다.

쿠버네티스 하려면 기존 앱들도 바뀌어야 하지 않나?

기존의 게임들이 여러 개인데, PC 게임은 기존 대로 갈 예정이다. 그 외에는 추가 개발을 해서라도 간다는 방침이다. 기본적으로 EKS로 간다. 저희는 자체 게임뿐 아니라 퍼블리싱 사업도 하는데, 예제를 만들어 개발사를 설득할 예정이다. 기본적으로는 그렇다.

이와 같은 IT인프라 변화가 유저들의 경험에 영향을 미칠까?

일단 무정지, 무중단 서비스를 제공한다는 점에서 달라진다.  이제는 서비스 점검 타임이 사라질 것이다. 장애도 최소화 될 것이다.

작년에 AWS 장애로 국내 주요 서비스들이 셧다운 된 적이 있다. IT인프라를 남의 손에 맡기는 것에 대한 걱정은 없나?

그런 걱정이 없는 건 아니지만, IDC라고 장애가 없었던 것은 아니다. 장애가 많다. 우리가 해결의 주체냐 아니냐만 다를 뿐 장애율은 비슷하지 않을까 생각한다.  클라우드는 장애가 나면 얼마나 기다려야 할지 모르고 불안한 마음도 있지만, 저희가 클라우를 처음 운영하는 것이 아니고 3~4년 해봤더니 생각보다 장애가 많지 않았다.

글. 바이라인네트워크
<심재석 기자> shimsky@byline.network

관련 글

4 댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다