몽고DB가 AI를 받아들이는 방향
[현장] 몽고DB 닷로컬 서울(MongoDB.local Seoul) 2024
최근 데이터 플랫폼 업계의 최대 관심사는 ‘AI’다. AI는 데이터를 먹고 자라기 때문에 데이터를 저장하고 관리하는 데이터 플랫폼에 대한 관심도 동시에 커진다. 데이터 플랫폼 업계에서 AI 지원을 위해 다앙한 기술과 방법론을 제시하는 이유다.
대표적인 NoSQL 데이터 플랫폼인 몽고DB도 마찬가지다. 몽고DB는 지난 해부터 벡터 서치 등 AI 관련 기능을 제공하며 AI 경쟁력 향상에 심혈을 기울이고 있다.
몽고DB는 3일 서울 잠실 롯데호텔에서 연례컨퍼런스인 ‘몽고DB 닷로컬 서울(MongoDB.local Seoul)’을 개최하고, AI 시대에 몽고DB가 어떻게 활용될 수 있는지 소개했다.
벡터 서치
이날 행사에서 소개된 몽고DB의 대표적인 AI 기능은 벡터 서치다. 벡터 서치란 데이터를 문자 형태로 검색하는 것이 아니라 벡터 데이터 형태로 인덱싱하고 검색하는 방식을 말한다.
벡터 데이터란 다차원 공간으로 표현되는 데이터로, 다차원 공간에서 데이터끼리 위치가 가까울수록 의미론적으로 상관관계가 가깝고, 위치가 멀면 의미론적으로도 멀다는 특징이 있다. 이 특징을 활용한 벡터 서치는 데이터의 ‘의미’를 검색할 수 있다.
기존에는 DB에서 단어를 검색하면 똑같은 표현만 검색할 수 있었다. 같은 데이터라도 시스템이나 입력하는 사람에 따라 다르게 표현되는 경우가 많지만, 기존 검색에서는 다른 데이터로 취급됐다. 이 때문에 데이터 활용에 앞서 데이터의 표현을 통일하거나 기준 데이터를 만드는 프로젝트를 먼저 해야 했다.
반면 벡터 서치는 일치하는 텍스트를 찾는 것이 아니라 같은 의미의 데이터를 찾기 때문에 시멘틱 검색이 가능하다. 예를 들어 ‘펜’과 ‘연필’이 이라는 단어가 ‘펜’과 ‘책’보다 의미적으로 가까운 단어라는 것을 검색에 이용할 수 있다. ‘필기구’를 검색하면 펜이나 연필을 모두 검색할 수 있는 것이다. 기존 컴퓨터에서는 ‘펜’이라는 데이터는 ‘연필’이나 ‘책’고 모두 전혀 상관이 없는 데이터로 취급할 수밖에 없었다.
심지어 이미지나 텍스트를 모두 벡터 형태로 임베딩할 수 있기 때문에 데이터의 형태와 종류에 관계없이 빅데이터를 처리할 수도 있다. 이미지 내용 검색이나 이미지 캡션 생성 등이 가능하다. 앤드류 데이비슨 수석부사장은 “벡터 서치를 이용하면 자연어 프롬프트를 받아서 맥락을 찾아서 가져오는 것이 가능하다”고 말했다.
그는 기존 DB와 벡터 DB의 ‘통합’을 강조했다. 시중에는 벡터 데이터만을 처리하는 독립적인 벡터 DB가 존재하는데, 그 보다는 몽고DB와 같은 다양한 일을 할 수 있는 데이터에서 벡터 데이터까지 처리하는 것이 유용하다는 주장이다.
그는 “독립적인 벡터DB를 도입하면 새로운 시스템을 관리해야 하고 운영DB와 함께 할 수 없기 때문에 파워풀하지 않다”면서 “활용도가 한정적”이라고 말했다.
기존 DB에서 벡터를 받아들이는 방식을 몽고DB만 취한느 것은 아니다. 이에 대해 데이비슨 수석부사장은 다른 벤더의 경우 벡터 DB가 기존 DB의 부수적인 기능으로만 존재한다고 비판했다. 이 접근법은 활용도가 많지 않다고 그는 강조했다.
데이비슨 수석부사장은 “몽고DB의 아틀라스 벡터 서치는 개발자의 DB 경험을 통합하면서도 벡터 서치 인덱스는 독립적으로 돌아가기 때문에 트랜잭션에는 저해를 받지 않는다”고 강조했다.
그에 따르면, 몽고DB는 벡터 서치 기능은 지금까지 유료 버전에만 적용해 왔지만 앞으론느 무료로 사용할 수 있는 ‘커뮤니티 버전’에도 적용할 방침이다.
몽고DB AI 애플리케이션 프로그램(MAAP)
앤드류 데이비슨 수석부사장은 AI 기술의 현재 모습을 초고속 망이 깔리지 않은 인터넷의 시대와 유사하다고 비유했다. 1990년대 말을 돌아보면 인터넷은 엄청난 기대를 받는 기술이었지만 당장의 활용도는 높지 않았다. 이메일 정도를 제외하고는 킬러 애플리케이션이 별로 없었기 때문이다.
데이비슨 수석부사장은 현재의 AI가 딱 그렇다고 설명했다. 하지만 앞으로 다양한 애플리케이션이 나오면 AI는 인터넷처럼 무한한 가능성을 가진 기술이 될 것이라고 전망했다.
몽고DB는 이런 시대를 만들기 위해 MAAP를 만들었다. MAAP는 AI 기술을 활용한 현대적인 애플리케이션을 신속하게 구축하고 배포할 수 있도록 돕는 프로그램이다.
AI 도입을 위한 컨설팅, 생성형 AI 파운데이션 모델, 클라우드 인프라, 생성형 AI 프레임워크, 모델 호스팅 업체 등이 함께 파트너십을 이뤄 고객들이 보다 쉽게 생성형 AI 애플리케이션을 만들 수 있도록 지원하는 것이 목표다.
삼성전자와 야놀자의 몽고DB 활용법
이날 행사에서는 삼성전자, 야놀자 등의 국내 기업이 몽고DB를 활용한 사례도 공유됐다.
삼성전자는 몽고DB를 기반으로 ‘빅데이터 분석 어시스턴트’라는 서비스를 개발에 사내에 서비스하고 있다. 자연어를 기반으로 데이터 분석이 가능한 AI 기반 분석 자동화 서비스를 통해 누구나 쉽고 빠르게 데이터 분석을 할 수 있다고 한다. 삼성전자는 이 내용을 논문으로 발표할 예정이다.
야놀자는 조직 내에서 사용하는 다양한 NoSQL을 몽고DB로 통합하고 있다. 김지환 야놀자 클라우드기술전략실장은 “NoSQL을 몽고DB로 통합한 이후 AWS와 GCP 등 다양한 퍼블릭 클라우드에서 몽고DB를 활용할 예정”이라며 “향후에는 벡터 DB까지 활용할 계획”이라고 말했다. 그는 “몽고DB로 NoSQL을 통합한 이후 보안 문제가 많이 해결됐다”면서 “몽고DB로 일원화하다보니 몽고DB가 제공하는 거버넌스에 저희 정책을 연동시켜 위험이나 침해, 정책 위반 등을 발견할 수 있게 됐다”고 강조했다.
이 외에 LG유플러스. 한겨레신문사, 쏘카, 데일리샷은 다양한 몽고DB 솔루션을 활용한 디지털 혁신 사례를 공유하기도 했다.
데이비슨 수석부사장은 “개발자들이 몽고DB 아틀라스에 열광하는 이유는 단일 플랫폼에서 모든 애플리케이션에 대한 조직의 운영 데이터를 저장 및 처리할 수 있는 통합된 기능 세트를 제공하기 때문”이라며 “많은 고객이 뛰어난 유연성과 확장성을 제공하는 몽고DB의 도큐먼트 데이터 모델이 생성형 AI와 실시간 자체 데이터를 활용할 수 있는 최신 애플리케이션 구동에 최적이라고 말한다. 올해 몽고DB 아틀라스에 새롭게 출시된 서비스는 최신 애플리케이션을 더 쉽게 구축, 배포 및 실행할 수 있을 뿐만 아니라 비용을 절감하면서 성능을 최적화할 수 있도록 지원한다”고 전했다.
글. 바이라인네트워크
<심재석 기자>shimsky@byline.network