KT넥스알 “파이프라인, 클라우드에서 서비스로 확장해야”
“이제는 데이터 한 화면에서 모두 볼 수 있어야”
“데이터 엔지니어링 있어 데이터 레이크 애즈 어 서비스 (Data Lake As A Service) 중요”
“빅데이터는 N개의 케이스에 대해 N개의 데이터처리가 필요하다”
KT넥스알 이승화 R&D센터장은 지난 15일 바이라인플러스가 개최한 ‘AI 클라우드 시대 데이터 관리 전략’ 웨비나에서 지난 10년 간 데이터 관리의 변화상을 짚으며 현재 기업들의 고민을 ‘자동화된 데이터 생산과 소비’라고 정리했다. 기업들은 데이터가 자동으로 생산되는 상품인 현 시대에서 데이터의 신뢰, 보호, 엔지니어 유무 등에 대해 고민한다.
10년 전 빅데이터의 흐름이 시작됐다. 당시만 하더라도 관계형 데이터베이스 관리 시스템(RDBMS) 수준에서 데이터를 처리할 수 있었으나, 데이터 통합 과정에서 비정형, 반정형 데이터를 다루는 문제, 속도, 큰 데이터를 처리하기에는 적합하지 않다는 문제가 있었다.
2017년은 인공지능(AI) 머신러닝 시대가 본격 도래한다. 기존 데이터 웨어하우스가 원천 데이터 분석에 충분치 않아 데이터와 데이터 활용, 사용까지 생태계를 구축한다는 개념으로 출발한 데이터 레이크로의 전환을 추구한 시기이기도 하다. 이 시기부터는 표준화된 모던데이터스택(Modern Data Stack)와 데이터 클라우드와 데이터레이크하우스도 등장했다. 더 빠른 데이터 응답이 필요하고 더 편한 분석 환경이 요구됐다.
이 센터장은 이 때부터 데이터 엔지니어링의 변화, 클라우드로의 변환이 가속화된 시기라고 설명했다.
데이터 레이크하우스도 하나의 데이터에서 BI, AI의 활용이 가능해지는 방향으로 변화했다. 클라우드로 전환하면서 일어난 변화도 있다. 한 개로 1000시간을 사용하나, 1시간에 1000개를 사용하는 비용이 같다. 그래서 한 번에 많은 자원을 사용해 데이터를 분산, 빠르게 끝내는 방법을 지향하게 됐다. 필요한 시간만 쓰겠다는 요구도 늘어 클라우드를 이용하면 기존 유지하고 있던 서버 대비 30~40% 정도 비용이 절감된다.
2020년에는 AI 가속화의 시기로 이 센터장은 “오토메이션(Automation)의 시대”라고 정의했다. 사람이 처리 불가능할 정도로 빠르게 데이터가 처리, 분석되는 환경에서 AI가 필요하다. 또 “내부적으로도 데이터 레이크하우스가 클라우드에서 돌아가는 게 당연해졌다”며 “데이터가 다양한 단으로 이동하고, 제공되기 위해 말단에서 중간의 위치로 이동했다”고 설명했다.
이 때 데이터 소비를 위해서는 데이터 생산을 위한 관리, 즉 데이터의 품질이 중요해졌다. 더해 이 센터장은 데이터 분할 관리에 대한 필요성이 다시 대두돼 데이터 레이크를 넘어서 데이터 패브릭(Data Fabric)이 대두된 시기라고 말했다.
2023년 현재, 데이터 엔지니어링의 주요 트렌드 중 하나는 AI가 대중화됐다는 점이다. 이 센터장은 “데이터 팀은 더욱 세분화, 전문화되고 있으며 데이터 소비자의 데이터 접근도 쉬워진 데이터 민주화가 나타났다”고 말했다. 클라우드의 강점인 확장성, 유연성, 비용 절감도 대중화되고 있다.
이 센터장은 이 때 “데이터 관리 부분이 문제가 된다”며 “7개월 정도 지나면 현행화가 어려워진다”고 말하며 문서화를 자동화하는 움직임이 있다고 설명했다.
또 데이터 옵저버빌리티가 중요하다. 이 센터장은 “데이터가 저장된 후 어떤 테이블로 가공되고 어디로 전달되고 사용되는지를 모두 조망하는 게 중요해졌다”며 “한 화면에서 전체 프로세스가 보이지 않으면 관리되기 어렵다는 목소리가 있다”고 말했다.
그는 “하나의 통합 데이터 환경에서 자동화, 생산, 소비 관리가 되는 부분이 나올 것이라고 보고 있다”고 설명했다. 스토리지에 잡힌 부분은 자동화되고 데이터가 가상화돼 이종 데이터를 별도 인터페이스 없이 분석되는 환경이 나올 것이라는 전망이다.
또 컴퓨팅, 스토리지 분리 구조를 위한 단일화된 저장소 구축이 나오고 중복 없이 다양한 목적별 데이터 서비스를 제공할 것이라고 이야기했다. 그는 “거대한 파이프라인이 서비스로 전달된다고 하면 저장해두고 데이터 전달을 서비스로 이용하고 필요한 방식으로 확장해 사용하는 방식으로 전환될 것”이라며 “이전의 고민과 문제들이 클라우드로 전환된 환경에서 통합된 스토리지 환경에서 더 빠른 엔진을 가지고 서비스로 처리가 될 것이라고 보고 있다”고 이야기했다.
이 센터장은 데이터 엔지니어링에 있어 데이터레이크 애즈 어 서비스가 중요하다고 강조했다. 하나의 체계로 데이터 파이프라인을 통합해 전달하기 때문이다. 그는 데이터 통합 확장성, 보호, 유연성, 적응성, 처리에 대한 부분, 간소화, 자동화까지 고려해 적용하는 것을 제안했다.
보안과 권한에 대해 “가장 중요한 건 ‘Role based acces control’이 전 영역에 대해 지원이 되는 게 중요하다”며 데이터, 데이터 저장, 수집영역에서 다 적용돼야 한다고 설명했다. 또 중앙화된 키스토어를 통해 데이터가 암호화돼 전달돼도 권한을 가진 사람이 접속해 활용할 수 있어야 한다고 덧붙였다.
데이터 분석 환경에 대해서는 “노트북 환경을 활용해 서비스 편리성을 가져가는 추세인데, 기존 모델 관리 체제를 지원하고 통합돼있는지를 꼭 봐야 한다”고 말했다. 또 노트북을 운영 환경으로 가져가면 연결 정보 보안이 문제가 될 수 있어 “서비스에서 연결이 별도로 관리돼야 한다”고 강조했다. 또 최근 삼성 등에서 보안 문제로 대규모 언어모델(LLM) 사용을 막았지만 내부적으로 안전한 환경에서 대규모 언어모델을 지원하는가도 고려할 만한 부분이라고 더했다.
빅데이터 고속 조회에 대해서도 KT는 고객들에게 600억건에 대해 2초 내로 조회 가능해야 한다고 요구 받고 있다. 이 센터장은 KT넥스알이 “다른 아키텍처를 활용해야 한다고 보고 있으며 고속 처리를 위한 엔진이 있고 그 형식을 저장하고 서빙해야 하는 부분이고 빅데이터 고속조회와 웹서비스에서 데이터를 직접 연결해 서비스하고 분석에도 활용할 수 있다”고 말했다.
최근 관심이 쏟아지고 있는 초거대 AI에 대해서도 설명했다. 자연어 쿼리에 대해 이 센터장은 “SQL을 굳이 하지 않아도 필요한 질문을 통해 데이터를 얻는 것에 대해 접근돼야 한다”고 말했다. 이 때 데이터 스키마와 정보만 전달해 필요한 SQL만 전달하고 데이터는 나에게 있어야 한다고 강조했다. 또 초거대 AI 시대에서는 복잡한 SQL 쿼리를 작성하지 않고 구조화되지 않은 데이터에서도 패턴과 통찰력을 발휘할 수 있다고 봤다.
글. 바이라인네트워크
<성아인 기자> aing8@byline.network