“너도 나도 포스트그레SQL, EDB를 택해야 하는 이유”
[인터뷰] 김희배 EDB코리아 지사장
관계형 데이터베이스 시장에서 포스트그레SQL의 기세가 예사롭지 않다. 최근 들어 대형 데이터 플랫폼 기업들이 경쟁적으로 포스트그레SQL 서비스 기업을 인수하고, 오픈소스 포스트그레SQL 기반의 아마존웹서비스(AWS) ‘아마존 오로라’는 날로 그 인기를 더해가고 있다. 요즘은 생성형 AI와 AI 에이전트 영역에서도 강력한 입지를 구축하고 있다.
데이터브릭스가 5월 14일 포스트그레SQL 기업 ‘네온’을 10억달러에 인수했고, 스노우플레이크는 6월2일 또 다른 포스트그레SQL 기업 ‘크런치데이터’를 2억5000만달러에 인수할 예정이라고 발표했다.
김희배 EDB코리아 지사장은 <바이라인네트워크>와 인터뷰에서 “최근 포스트그레SQL의 인기는 코로나19 대유행기에서 이어졌다고 볼 수 있다”며 “당시 전세계적인 디지털화 흐름 속에서 개발자들이 포스트그레SQL을 적극적으로 사용했고, 그 개발자들이 이후 엔터프라이즈, 스타트업, AI 기업 등 여러 곳으로 퍼져간 후에도 포스트그레SQL을 사용하는 거스르기 힘든 대세를 만들었다”고 말했다.
김희배 지사장은 “데이터베이스는 AI 개발에도 필요한 데 비싼 상용 데이터베이스 대신 오픈소스인 포스트그레SQL을 많이 썼고, 그 때 만들어진 AI 서비스들이 성장하면서 포스트그레SQL 활용을 유지하고 있다”며 “AI를 다루는 개발자가 AI 에이전트도 다루고, 이제와 새 데이터베이스를 쓰기보다 기존의 포스트그레SQL을 유지하려 하므로, AI와 AI 에이전트 세계에서 포스크그레SQL의 강력한 입지는 당연하다”고 덧붙였다.
1986년 캘리포니아대학교 버클리캠퍼스에서 시작된 이 오픈소스 데이터베이스는 40년 가까운 역사를 갖고 있다. 애초의 이름은 ‘포스트 인그레스(post ingres)’ 데이터베이스였고, 공식 프로젝트명은 ‘POSTGRES’였다. 1996년 SQL기능을 강조하기 위해 지금의 ‘포스트그레SQL’로 불리기 시작했다. 포스트그레SQL은 소규모 애플리케이션부터 대규모 사용자를 위한 인터넷급 애플리케이션에 이르기까지 다양한 용도에서 활용된다. 데이터베이스 순위를 제공하는 ‘DB엔진’에 따르면, 포스그레SQL은 전체 4위를 차지한다. 포스트그레SQL 앞에 오라클, 마이SQL, 마이크로소프트 SQL서버 등이 있고, 그 아래에 몽고DB, 스노우플레이크 등이 있다.
포스트그레SQL은 개발자 사이에서 가장 높은 선호도를 가진 데이터베이스다. BSD 계열 오픈소스이므로 라이선스 제약없이 자유롭게 사용할 수 있고, 오라클이나 마이크로소프트의 상용 제품과 비교해 성능과 안정성에서 떨어지지 않는다. 표준 ANSI SQL 표준을 광범위하게 지원하고, 오라클 데이터베이스와 95% 호환된다. 커뮤니티도 탄탄하며, 기업과 커뮤니티 간의 관계도 안정적이다.
포스트그레SQL의 가장 큰 인기 요인은 확장 모듈 시스템(Extensions)을 통해 구현되는 확장성이다. 포스트그레SQL은 핵심 엔진을 건드리지 않고, 별도로 확장 모듈을 사용해 기능을 구현한다. 개발자가 마치 프로그래밍 언어를 다루듯 SQL을 사용해 GIS, JSON, 시계열, 그래프 같은 새로운 데이터베이스 객체를 만들 수 있다. 이런 특징은 포스트그레SQL을 단순한 데이터베이스를 넘어선 데이터 플랫폼으로 불리게 한다.
이같은 장점은 생성형 AI 트렌드 속에서도 빛을 발한다. 개발자는 대형언어모델(LLM) 기반 AI 서비스를 구축할 때 포스트그레SQL을 주료 사용하며, 가장 대표적인 사용자가 오픈AI다. 오픈AI는 챗GPT를 비롯한 핵심 LLM 서비스의 코어 데이터베이스로 포스트그레SQL을 운영 중이다.
일반 기업이 검색증강생성(RAG)으로 LLM의 도메인 성능을 높이려 할 때 내부 데이터를 벡터화해 ‘날리지베이스’를 구축해야 한다. 별도의 벡터 임베딩을 담는 ‘벡터 데이터베이스’를 구축해야 하는데, 포스트그레SQL은 ‘pgvector’란 확장을 이용하면 손쉽게 날리지베이스를 만들 수 있다.
전통적으로 기업은 운영계 시스템에 트랜잭션(OLTP) 데이터베이스를 사용하고, 정보계 시스템에 분석 데이터베이스를 사용하는 이원화 전략을 취해왔다. 실시간으로 쌓인 OLTP 데이터는 시스템에 미치는 영향을 최소화하면서 ETL 절차를 통해 분석 데이터베이스로 이동한다. 이 데이터 파이프라인에서 많은 오류가 발생하고, 상당한 고통을 수반한다.
생성형 AI 시대에 OLTP나 OLAP 데이터베이스에 저장된 기업 내부 데이터를 AI 모델에게 학습시키고, 생성형 AI의 답변을 강화하려는 수요가 강하다. 각 애플리케이션과 시스템마다 별도의 데이터베이스를 갖추고, 파편화된 이기종 데이터베이스 환경이라면 여러 유형의 데이터를 AI 모델에 연결하는 건 매우 힘든 작업이다.
포스트그레SQL이라고 해도 OLTP와 OLAP을 하나의 엔진으로 처리하는 건 어렵다. 대신 운영계나 분석계 쪽에서 사용하는 스킬과 도구를 다른 쪽에서 동일하게 활용할 수 있다. 이는 개발자와 운영자의 기술 복잡성을 줄여줄 수 있다.
김 지사장은 “AI, OLTP, OLAP 등 데이터베이스를 완전히 단일 데이터베이스 엔진으로 통합하는 건 말처럼 쉽지 않다”며 “특히 대용량의 데이터를 빠르게 다뤄야 하는 환경에서 트랜잭션과 분석의 데이터베이스를 단일 엔진으로 처리한다는 건 사실상 불가능하다”고 강조했다.
그는 “포스트그레SQL은 코어의 엔진을 그대로 두고, 당대 최신 유행 기술을 기능으로 얹는 방식으로 발전해왔다”며 “포스트그레SQL를 기반 데이터베이스로 통일하면 OLTP, OLAP, AI 등을 유기적으로 사용해야 하는 상황에서 총소유비용(TCO)을 절감할 수 있다”고 설명했다.
EDB는 포스트그레SQL의 pgvector 확장을 지렛대 삼아 생성형 AI 환경을 위한 AI 및 데이터 플랫폼 ‘EDB 포스트그레스 AI(PG AI)’를 출시했다. PG AI는 데이터의 주권을 유지하면서, 전통적인 OLTP와 OLAP, 생성형 AI와 에이전트 기반 AI 워크로드 등을 단일 플랫폼에서 제공하는 구조를 갖고 있다. 기존 포스트그레SQL의 안정성과 확장성을 그대로 유지하고, AI 추론과 대화형 응답을 위한 벡터 저장소, 모델 내장 및 확장형 아키텍처를 추가했다. 비전문가도 데이터 기반 챗봇, 자동 문서 응답 시스템, AI 에이전트를 손쉽게 개발할 수 있도록 돕는 로우코드/노코드 인터페이스를 지원한다. 이를 통해 사용자는 기존의 포스트그레SQL 스킬을 활용해 생성형 AI 주요 기능까지 관리할 수 있다.
김 지사장은 “PG AI는 데이터베이스 엔진과 별도로 벡터 엔진 아래에 AI 파이프라인, 생성형 AI 빌더, AI 에이전트 스튜디오, 모델 서빙 등을 제공하고, 하이브리드 환경의 관리를 위한 기능을 제공한다”며 “각종 데이터나 문서를 벡터화해서 날리지베이스를 만들고, 바깥의 AI 모델을 붙여서 연동하고, 이 단계를 AI 파이프라인을 통해 노코드로 연결한 AI 데이터 플랫폼을 만든 것”이라고 설명했다.
그는 “PG AI는 보안과 데이터 주권을 제공하므로 소버린 AI에서도 좋은 방안”이라고 강조했다.
여러 데이터베이스 제품이 벡터 임베딩 기능을 제공하고 있다. 레디스, 엘라스틱서치 등이 대표적이다.
그는 “벡터를 데이터베이스의 콤포넌트로 지원하는 데이터베이스 엔진이 많지만, 얼마나 많은 개발자가 그 기능을 뒷받침하고 지원하는 지 관점에서 포스트그레SQL과 출발선 자체가 다르다”며 “누가 벡터를 엘라스틱서치나 레디스에 넣도록 개발해줄 것이냐를 따진다면, 포스트그레SQL은 이미 앞서가 있다”고 밝혔다.
국내외적으로 포스트그레SQL은 대형 기업에서 더 많이 사용되는 분위기다. 퍼블릭 클라우드로 이전한 기업이 포스트그레SQL 기술을 많이 도입했고, 그 시스템을 다시 온프레미스로 내리는 흐름이 생기고 있다. 불경기에 IT 비용 절감을 추진하는 기업도 늘어나 고비용 구조인 상용 데이터베이스에 대한 고민도 늘어났다. 이는 포스트그레SQL를 엔터프라이즈 고객에게 제공하는 기업에게 호재로 작용한다.
김 지사장은 “기업들이 퍼블릭 클라우드로 대거 이동하면서, 오라클 데이터베이스 독점이 희석됐고, 클라우드로 데이터 플랫폼을 구축했던 기업들이 비용과 종속에서 탈피하려 온프레미스와 하이브리드 클라우드로 되돌아오는 현상이 일어나고 있다”며 “다시 온프레미스로 내려올 때 비용과 종속에서 자유로운 데이터베이스로 포스트그레SQL이 거의 유일한 옵션”이라고 말했다.
그는 “오픈소스 기반이므로 가격적으로 상용 제품에 비해 저렴하고, 최근의 트렌드인 생성형 AI에도 맞으니 포스트그레SQL을 고려하는 엔터프라이즈 수요가 많아졌다”며 “VM웨어에서 브로드컴으로 넘어간 그린플럼도 포스트그레SQL 기반으로 만들어졌는데, 최근 폐쇄형으로 전환된 그린플럼을 다른 포스트그레SQL 제품으로 바꾸려는 이전 수요도 많다”고 말했다.
국내외에 포스트그레SQL을 제품화해 제공하는 기업은 많다. 김 지사장은 여타 포스트그레SQL 기업과 EDB를 ‘PG 배포기업’과 ‘PG 개발기업’으로 구분했다.
그는 “대부분의 포스트그레SQL 기업은 오픈소스 엔진에 관리도구를 붙여 제품화한 것”이라며 “EDB는 포스트그레SQL 커뮤니티에 주도적으로 참여하며, 핵심 엔진의 브레이크픽스를 제공할 수 있는 지원역량을 갖고 있다”고 말했다.
그는 “그동안 수많은 PG 배포사가 당대 유행하는 신기능을 내세워서 등장해 반짝했지만 지금까지 살아있는 곳이 거의 없다”며 “그들은 여러 데이터베이스 케이스 중 OLTP나 OLAP이나 기타 특정 목적에만 강점을 가진 것이고, 사일로 없는 통합 플랫폼으로 포스트그레SQL을 활용한다면 EDB를 선택해야 한다”고 강조했다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network