[바스리] AI가 먹을 데이터를 팝니다, 빅밸류

바이라인네트워크에서 스타트업을 리뷰합니다. 줄여서 ‘바스리’. 국내에도 뛰어난 기술력과 반짝이는 아이디어, 새로운 비즈니스 모델을 가진 스타트업은 계속해 탄생하고 있습니다. 이들을 바이라인의 기자들이 만나봤습니다.

IT 산업은 본질적으로 데이터를 먹고 성장하는 산업이다. 데이터를 정보화하고 그 정보에서 부가가치를 창출하는 것이 IT산업의 본질이기 때문이다.

이는 AI 시대에도 마찬가지다. “데이터는 4차 산업혁명 시대의 석유다”라는 표현이 한때 유행했을 정도로 데이터의 중요성을 부정하는 이는 없다.

하지만 데이터라는 하나의 표현으로 정의되어도, AI 시대 이전의 데이터와 이후의 데이터는 다르다. 과거의 데이터는 사람이 소비하기 위해 존재했다. 아날로그 정보를 체계적으로 디지털화한 것, SNS 게시물처럼 사람이 읽고 반응하는 콘텐츠가 데이터의 전형이었다. 반면 AI 시대에 필요한 데이터는 AI가 소비할 수 있는 데이터다. 사람이 아니라 AI가 판단하고 추론하는 원료로서의 데이터가 중요해졌다.

빅밸류는 이처럼 AI를 위한 데이터를 공급하는 회사다. 공공이나 민간에서 데이터를 수집해 AI와 에이전트가 바로 활용할 수 있는 형태로 공급한다. 회사 측은 스스로를 ‘데이터 테크 기업’이라고 정의한다.

단순히 데이터를 중개하는 것이 아니라, AI가 바로 활용할 수 있는 형태로 만들어 공급하는 것이 빅밸류의 핵심 전략이다. 주요 은행들이 빅밸류가 공급하는 데이터를 여신 심사나 신용평가에 활용하고 있고, 방역당국은 조류 인플루엔자와 아프리카돼지열병 전파 경로 분석을 위해 빅밸류의 데이터를 활용한다. 유명 프랜차이즈들은 기존의 매장 매출 데이터와 빅밸류 환경 데이터를 결합해 상권을 분석한다.

국내 IT 업계에 데이터 관리 기술을 제공하거나 데이터 처리를 대신해주는 기업들은 적지 않다. 하지만 데이터 자체를 공급하는 비즈니스 모델은 국내에선 흔치 않은 사업이다. 최근 급성장세를 보이고 있는 빅밸류 구름 대표를 만나, 빅밸류가 어떤 길을 가고 있는지 이야기를 들어봤다.

빅밸류에 대해 소개해주세요.

빅밸류는 데이터 공급을 전문으로 하고 있는 회사입니다. 저희는 ‘데이터 테크’라고 표현합니다. 창업할 때 데이터의 소비 계층이 바뀔 것이라고 예측했어요. 데이터 소비자로 AI가 대두될 것이라고 예측했고, ‘AI가 쓰는 데이터를 공급하자’라는 생각에 빅밸류를 시작했습니다. AI가 현재 시점의 맥락을 정확히 파악하고 의사결정을 내릴 수 있도록 데이터를 공급하는 것이 목표입니다.

스스로를 ‘AI를 위한 언론사’라고 부릅니다. 기자님들도 그 분야에 있는 사람들이 최신 소식을 읽어서 트렌드를 이해할 수 있게 만드는 거잖아요. 저희는 AI가 현재의 트렌드와 상황을 정확하게 인지하고 의사결정을 내릴 수 있게 하는 데이터 공급에 중점을 두고 있습니다.

보통 데이터 관련 테크 기업은 데이터를 관리하거나 분석하는 기술을 주로 공급합니다. 이와 달리 빅밸류는 데이터 자체를 공급하는 비즈니스 모델인데, 데이터 테크라고 표현하는 이유는 무엇인가요?

기존 데이터 산업은 90년대부터 이어져 왔어요. 이 산업은 데이터를 콘텐츠로 바라보거나, 아날로그 정보를 전산화하는 데 목적이 있습니다. 저희는 달라요. AI나 에이전트가 읽기 쉽고 활용하기 좋은 데이터, 대용량이면서 접근성이 뛰어나고 정제 가공 수준이 높은 데이터를 공급합니다.

기계가 읽는 데이터는 사람이 읽는 것과 달라야 합니다. 기계는 맥락과 역사를 모르고 읽다 보니 그런 것들이 다 잘 정제된 형태로 빠르게 공급돼야 합니다. 그 과정에서 AI를 위한 가공·정제 기술이 들어가다 보니 데이터 테크라고 부르고 있습니다.

AI가 잘 이해할 수 있는 데이터란 어떻게 생긴 건가요.

두 가지입니다. 하나는 연결성이에요. 부동산 하나를 딱 찍었을 때 실거래, 건축물 대장, 토지 대장, 소유권 정보, 공시가격, 매물 가격, 경매 가격, 뉴스까지 연계된 정보들이 다 붙어서 들어올 수 있어야 합니다. 헬리오시티라는 아파트를 딱 찍었을 때 거기에 해당하는 정보들이 다 연계돼서 들어와야 하고, 헬리오시티 101동 101호가 궁금하다면 거기서부터 연계되는 데이터들이 바로 이어져서 가져올 수 있어야 합니다. 구멍이 없어야 하고, 이상치가 있을 때 그게 이상치인지 아닌지를 구별할 수도 있어야 하고요.

두 번째는 형식입니다. AI가 되게 똑똑하긴 한데, 무조건 다 똑똑한 AI를 쓰고 있지는 않거든요. 너무 대용량이기 때문에 논리만 잘 갖춰진 AI들도 꽤 있습니다. 그런 AI들 입장에서는 부수적인 정보를 추론해내기가 굉장히 어렵기 때문에 미리 추론된 데이터들을 공급해 줘야 하는 책임이 데이터 공급자에게 있습니다. 형식 면에서는 기존의 API뿐만 아니라 마크다운이나 MCP처럼 AI가 읽기 쉬운 다양한 형태로 제공돼야 합니다.

예를 들어 부동산 데이터는 공공 데이터가 공개돼 있잖아요. 데이터 수요기업 입장에서는 그냥 개방돼 있는 데이터를 사용하면 될 것 같은데, 굳이 빅밸류의 데이터를 구매하는 이유가 있을까요?

공공 데이터는 행정 주체로부터 발생한 데이터를 모아 공급하는 겁니다. 지자체에서 만든 게 있고, 행안부에서 만든 게 있고, 국토부나 법원행정처나 다양한 기관에서 만들죠. 이때 데이터를 서로 연결해 줄 의무는 없어요. 데이터들 간의 충돌을 미리 다 검증해서 정제해서 제공할 필요성도 없고요. 사람이 단건을 깊이 볼 때는 별 문제가 없을 겁니다. 하지만 만약 AI가 전국 2800만 개 건축물을 한 번에 처리한다고 생각해 보세요. 미세한 오류가 나비효과처럼 퍼질 겁니다.

또 데이터는 계속 변합니다. 예를 들어 특별자치도 하나가 새로 생기면 코드 체계가 다 바뀝니다. 그런데 기관마다 반영 시점이 다르고, 롤백되기도 하고, 법령이 바뀌었는데 반영이 안 되는 경우도 굉장히 많습니다. 이런 변화를 각각의 기업들이 일일이 다 수정하고 모니터링하는 체계를 갖추는 건 불가능합니다. 고비용인 데다가 매번 발생하는 것도 아니거든요. 그러다 보니까 저희의 클렌징 데이터가 필요해집니다. 아예 자체 데이터를 버리고 빅밸류 코드 체계, 빅밸류 데이터 체계를 쓰는 기관들도 많습니다. AI와 잘 맞기도 하고, 정제 가공도 잘 돼 있고, 또 귀찮기도 하고요.

데이터 가공은 어떤 기술로 하나요.

지금은 AI가 대부분 하고, 자동화돼 있습니다. 하지만 가장 큰 건 노하우예요. 시중은행에 데이터를 공급한 지 10년이 넘었고, 그 기간 동안 정말 많은 시행착오를 겪으면서 많이 두드려 맞았습니다. 공공 데이터가 개방됐을 때부터 저희는 데이터를 수집해서 공급을 했으니까, 그 과정에서 쌓인 노하우가 굉장히 많습니다. 그런 것들이 필터와 품질관리 시스템으로 자동화돼 있어요. 그러다 보니 지금은 공공을 넘어서 민간 데이터도 꽤 많이 공급하고 있습니다. 신용카드라든가 유동인구 데이터도 다 정제해서 공급하고 있고, 저희 자체 데이터도 꽤 많이 수집하고 있습니다.

빅밸류가 모든 데이터를 다 갖고 있는 건 아니잖아요? 보유하지 못한 데이터는 어떻게 하나요?

필요한 데이터는 추정합니다. AI 시세 추정 알고리즘이 대표적이에요. 은행에서 담보로 잡으려면 부동산의 시세를 알아야 합니다. 그런데 연간 실거래는 전체 부동산의 5% 수준에 불과합니다. 95%는 가격이 없는 셈이죠. 부동산 시세를 알기 위해 일일이 감정평가를 맡길 수는 없습니다. 그 비용이 너무 많이 드니까요.

그래서 저희가 도입한 게 AI 시세 추정 알고리즘입니다. 주변을 보고, 트렌드도 보고, 히스토리도 보고, 그 개별적 특징에 대해서 판단해서 시세를 매기는데, 전국 약 2000만 개를 하루 만에 산출합니다. 상가 임대료, 점포 예상 매출도 마찬가지예요. 커피숍을 차리면 얼마 매출이 나올지까지 AI가 추정해서 공급해 드립니다.

데이터를 MCP 형식으로 공개했다고 발표했는데, 이유는 무엇인가요.

트렌드의 변화 때문입니다. 사람이 소비하던 데이터에서 AI와 에이전트가 소비하는 데이터로 바뀌었거든요. 저희의 최종 유저는 사람이지만, 그 중간에 중재자가 이미 클로드나 챗GPT나 제미나이가 서 있습니다. 저희는 이 친구들이 보기 좋게, 쓰기 좋게 제공하는 게 저희 역할이라고 보기 때문에 그런 것들을 계속 오픈해 나가고 있는 겁니다.

저희 데이터와 LLM이 직접 연결되는 파이프라인을 만드는 중입니다. 현재는 자체 서비스 ‘복덕방 가재’에서 내부적으로 활용 중이고, 외부 유료 오픈은 준비 중입니다.

결국 클로드나 챗GPT에서 부동산 정보를 물으면 빅밸류 데이터가 답해주는 구조가 되는 건가요.

그렇습니다. MCP를 꽂으면 클로드에서 저희 데이터가 호출이 됩니다. 다만 결제는 빅밸류에 해야 호출할 수 있는 구조예요.

데이터를 판매하는 것이 국내에서는 흔치 않은 사업 모델인데, 경쟁사가 있나요?

국내에 저희랑 똑같은 일을 하는 회사는 없습니다. 개별 영역에서 부딪히는 곳들은 있는데, 대부분 예전 SI 기반의 IT 업체들이에요. 근본적으로 그분들과 저희는 철학이 좀 다릅니다. 해외로 치면 초반에 금융 쪽에서 벤치마킹했던 건 코어로직이었고, 업무 프로세스 면에서는 팔란티어와 비슷합니다.

어떤 점에서 팔란티어와 비슷하죠?

업무 프로세스가 비슷합니다. 팔란티어처럼 저희도 고객사에 직접 들어가서 고객사의 데이터를 다 확인하고, 저희 솔루션이랑 어떻게 붙이고 저희 데이터를 어떻게 붙여야 될지를 결합시켜서 그다음에 빠져나오는 형태거든요. 데이터의 결이나 산업 분야는 다르지만, 고객과 커뮤니케이션하고 현장에 들어가는 방식은 가장 비슷하다고 봅니다.

장기적으로 어떤 회사가 되고 싶으신가요.

전기 공급하듯 데이터를 공급하는 유틸리티 사업자가 되고자 합니다. 전기 제품이 모든 가구에 있듯이 AI가 모든 회사에 기본 인프라로 깔려야 하는데, 아직은 그렇지 못합니다. 그래서 지금은 전기 파는 사람이 가전제품도 같이 팔듯, 솔루션도 만들고 컨설팅도 하고 있는 상황이죠. 다 되면 저희는 뒤로 빠지면 됩니다. 한국콜마나 퀄컴처럼, 아무도 모르게 뒤에서 데이터를 공급하는 회사가 목표예요.

올해 목표는 무엇인가요.

매출 100억원입니다. 2023년에 손익분기점을 달성했고, 2024년에는 시리즈 B 투자금을 집행하면서 잠깐 마이너스로 전환이 됐었는데, 지난해 다시 흑자로 돌아섰습니다. 지금은 잘하고 있는 분야를 더 깊게 파는 팀과, 새 산업으로 넓히는 팀을 나눠 운영하고 있어요.

분기별로 산업 타깃팅을 해서, 그 산업이 원하는 데이터가 뭐고 그들의 니즈는 뭔지를 찾아내서 실제로 매출로 만들어내는 작업을 계속 하고 있습니다. 이번 분기는 의료기기하고 제약 쪽을 타깃팅하고 있습니다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network