[바스리] AI로 돈 버는 무서운 20대, 김지현 한국딥러닝 대표
바이라인네트워크에서 스타트업을 리뷰합니다. 줄여서 ‘바스리’. 투자시장이 얼어붙어도 뛰어난 기술력과 반짝이는 아이디어, 새로운 비즈니스 모델을 가진 스타트업은 계속해 탄생하고 있습니다. 세상을 깜짝 놀라게 하겠다고 출사표를 던진 이들을 바이라인의 기자들이 만나봤습니다.
될성부른 나무는 떡잎부터 알아본다고, 여기 코딩 수저가 있다. 개발자인 부모님 따라 어릴 때부터 “사부작사부작 혼자만의 프로젝트”를 하고 놀았다. 프로그래밍만 잘하면 덜 부러웠을 텐데, 돈 버는 머리도 비상하고 실행력도 있다. 스무 살 남짓한 나이에, 애플이 꽤 고가의 ‘에어팟’을 출시하는 걸 보며 ‘사람들이 케이스를 원하겠다’ 싶어 중국에서 제품을 대량으로 가져다 팔았다. 그때 돈 좀 만졌느냐 물었더니, “지금보다 많이 벌었다”라고 답한다.
누구 말이냐. 스물두 살의 나이에 “내가 기업 사장님이라면 문서를 읽고 처리하는 딥러닝에 돈을 쓸 것”이라고 판단, 회사를 차려 흑자를 내고 있는 김지현 ‘한국딥러닝’ 대표의 얘기다. 소프트웨어를 전공하던 이 청년은, 2019년 회사 문을 열어 이듬해부터 흑자를 봤다. 지난해에는 연매출 30억원에 영업익 3억원을 냈다(생각해 보니 이 사람 에어팟 케이스로는 대체 얼마를 번 건가).
심지어 최근 100억원 대의 투자를 유치하기 전까지 사업자금으로 지난 6년 간 단 한 번도 남의 돈을 가져오지 않았다. 애초에 비즈니스 모델을 짤 때 ‘돈 쓰는 의사결정을 하는 사장님이 진짜로 지갑을 열 수 있는 기술’로 사업하자고 마음을 먹었다. 아이템은 문서를 잘 읽어내는 ‘도큐먼트 AI’. 그냥 글자만 틀리지 않게 읽어서는 될 일이 아니다. 이 문서의 구조와 맥락, 이미지를 총체적으로 이해하고 원하는 결과를 뽑아낼 수 있도록 데이터화 해야 하는 일이다.
“우리가 푸는 문제를 쉽게 생각하는 분들이 많다. OCR(광학문자인식) 기술을 가진 곳도 많다. 그러나, 진짜 도큐먼트 AI라고 불릴 수 있는 ‘문서 지능’을 하는 회사는 많지 않다”고 말하는 겁 없는 김지현 대표를 만나 이야기를 나눠봤다. 얼마나 무서운 사람이냐면, 초거대언어모델(LLM)이 모든 AI 분야를 잡아먹을 거라고 예상하는 이 시점에, “LLM이 잘 되려면 좋은 데이터로 학습해야 하는데, 그러려면 LLM 회사들도 우리 기술을 써야 할 것”이라고 단언하는 이다. 진짜 흥미로운 건, 실제로 LLM 회사들이 한국딥러닝의 기술을 구매하고 있다는 점이다.

아이폰 이야길 듣고 놀랐다. 돈 버는 감각이 있는 것 일찍부터 있는 것 같다
스무 살 전후로 그런 일을 많이 했다. 어렸을 때부터 (돈 버는 일을) 재미있어했던 것 같다. 초등학생 때는 만화책을 빌려서, 이걸 전대차 매물처럼 빌려주기도 했다.
만화 대여점에 가서 책을 빌리는 수고를 덜어주고 수수료를 받은 건가?
그런 것도 있고, 한 번 빌리면 통상 대여기간이 일주일 아닌가. 내가 300원의 돈을 내고 일주일 빌린 후에, 그 일주일 간 하루 100원 씩을 받고 대여를 해주는 거다. 어떻게 하면 수익을 창출할 수 있을까, 그 자체가 되게 재미있었다.
한국딥러닝을 창업한 것도 그 연장선인 것 같다. 물론, 소프트웨어를 전공했고 기술 창업을 했지만 인공지능 회사도 당연히 시장의 목소리에 맞는 기술을 만들어 제품을 팔 수 있어야 한다고 생각한다. 기술은 당연한 거고. 그래서 창업하고 계속 흑자를 낼 수 있었다고 본다.
훌륭한 AI 기술을 가진 스타트업은 많이 봤지만, 그걸로 돈을 버는 회사는 많이 못 봤다. 진짜 드물다. 창업할 때부터 ‘이게 돈이 된다’라고 판단했나? 어떤 부분에서 그렇게 생각했나?
딥러닝은 확실한 기술적 변곡점이다. 딥러닝에 자연어처리(NLP)도 있고, 추천도 있는데 그중에서도 ‘문서 인식’이라는 기술을 택한 이유는, “내가 만약 현대(대기업) 사장님이라면 어떤 기술을 필요할까”라는 생각에서였다. 사장님은 의사결정을 하는 사람 아닌가? 인공지능이 만원, 2만원짜리 기술도 아니고 최소 몇 억원대다. 그렇다면 의사결정자들은 그 돈을 쓸 때 “이걸 사면 얼마를 더 벌 수 있을까”를 결정의 지표로 볼 거라 생각했다. 당시에, 인공지능 기술 중에서도 의사결정자가 명확하게 선택할 기술이 진짜로 몇 개 없다고 생각했다. 아니, 딱 두 개 있다고 봤다.
그게 뭔가?
하나는 머신비전이다. 컴퓨터로 불량품을 찍어서 분별해 내는 것(기계가 사람의 시각 및 판단 능력을 대신하여 산업 현장에서 제품을 검사, 검증, 예측). 그리고 두 번째가 지금 우리가 하는 ‘문서(도큐먼트) AI’라고 생각했다.
문서 AI가 어떻게 바로 기업에 돈을 벌어다 주나
OCR(광학문자인식 기술, 이미지 속 문자를 컴퓨터가 읽을 수 있는 텍스트 데이터로 변환하는 기술) 기술로 문서를 데이터화 시키는 걸 자동화하면 앞으로 안 써도 되는 돈이 바로 보인다. 인력이 바로 대체되기 때문이다. 도큐먼트 AI를 도입하는 데 당장은 돈이 들어도, 몇 년 안에 투자대비수익(ROI)가 나오니까 회수되는 금액이 확실하게 보인다. 그러면 기업의 대표들이 바로 이걸 도입하겠단 계산이 설 거란 생각을 했다. 사실 자연어처리와 같은 추천 알고리즘으로는 그런 비즈니스 모델이 바로 계산되지 않는다.
그간 OCR 하는 회사는 많았지만, 그들 역시 돈을 잘 벌었다고 보긴 어렵다. 어떻게 ROI가 바로 나오는지, 조금 더 설명해달라
예를 들어 캐피탈 회사가 하나 있다고 가정하자. 대출하는 곳이므로 고객들로부터 서류를 받는다. 그 서류가 50장이 온다고 보면, 50명의 직원이 앉아서 해당 서류 50개가 다 왔는지 체크해야 한다. 이 사람 이름이 뭔지, 이어지는 서류에 있는 이름과는 같은지, 얼마를 빌리는지 등등. 이런 문서가 종이가 아니라 PDF로 오는데, 이 문서들을 컴퓨터에 띄워놓고 하나씩 사람이 체크하는 거다.
도큐먼트 AI 기술을 활용하면 서류가 접수되는 대로 알아서 자동 기입(로보틱프로세스자동화, RPA)된다. 사람은 마지막에 체크 정도만 하고 넘어간다. 인건비를 줄이기 때문에 이 인공지능은 기업에 도움이 된다고 생각했다.
중요한 것은, 이 기술을 회사에서 선택을 해서 쓸 수 있을 만큼 기술적인 완성도가 올라와야 되는 거지 않나. 개인적인 경험으로는 챗GPT도 이미지에서 문자를 인식하는 완성도가 매우 높다고 생각되진 않는데
그게 진짜 어려웠다. 우리도 인공지능 기반으로 문자를 인식하는 메인 OCR 엔진을 개발했다. 이전의 통계적인 방식보다 훨씬 인식률이 높지만, 산업군에서 이걸 가져다 쓰려면 산업군마다 가진 특성을 반영해야 했다. 예를 들어, 계약서의 경우엔 ‘계약자명’이나 ‘계약금액’ 같은 것을 잘 인식해야 한다. 그리고, 계약서 내의 보통 조항도 항목이 ‘1항의 1조’ 식으로 단계별로 정렬되어 있는 것도 그 맥락대로 알아봐야 한다. 표가 들어가는 부분도 있고, 마지막엔 서명도 있다. 그 서명들이 일치하는지도 체크해야 한다. 처음에는 이 모든 작업이 ‘맞춤’이었다.
그런데, 산업별로 도메인 노하우가 쌓이다 보니까 세부적인 기술 영역도 모듈로 만들 수 있게 됐다. 고객이 “우리는 00 하는 회사인데, 계약서 작업에 도큐먼트 AI를 쓰고 싶다”고 문의가 오면, 그에 맞게 이미 만들어놓은 모듈을 붙인다. 이미 우리가 통상의 계약서에서 어떤 부분에 오류가 자주 나는지를 경험했고, 그걸 고려해 설계한 모듈을 갖고 있으니까. 그에 맞춰 제품을 공급할 수 있게 됐다.
그렇게 쌓인 6년의 노하우가 (정확도에) 아주 큰 역할을 했다. 이렇게 봐달라. 아무리 머리가 똑똑해도 공부하는 자료가 바보 같으면 딱 그만큼의 자료를 배운 바보가 될 수밖에 없지 않겠나. 그런데 우리가 학습한 데이터는 무려 6년 동안 실제 필드에서 쌓아온 현업의 문서들이다. 어디 기업이나 관공서 같은 곳에서 업무 단위로 쌓아온 데이터가 우리의 인공지능을 계속 똑똑하게 만들 수 있는 확실한 장벽이 됐다.
근래 인터뷰에서 만난 대부분의 AI 기업이 “우리는 버티컬에서 경쟁력이 있다”라고 말했다. 그와는 반대되는 입장인가?
우리 입장에선, 산업(industrial)에 대한 한계는 없다. 산업을 버티컬로 들어가는 게 아니라, 대신 ‘도큐먼트’라는 도메인의 버티컬로 들어간다.
도큐먼트가 생각보다 아주 구체적인 특징들이 많다. 예를 들어, 문서에는 꼭 제목이 존재한다. 그리고 번호도 매겨져 있고 양옆으로 여백이라는 것도 존재한다. 문서 안에는 계층 구조로 이뤄진 요소도 많다. <고양이>에 대한 문서라면
제목: 고양이
- 고양이에 대한 정의
1-1. 검정 고양이
…
등으로 계층 구조가 이뤄져 있는 식이다. 사람은 ‘1-1’이 ‘1’이라는 숫자의 하위 구조라는 메타 데이터를 누가 써주지 않아도 그냥 읽고 파악한다. 표도 마찬가지다. <아이스크림의 가격>에 대한 표가 있다면, 그 표의 매트릭스를 읽어내서 숫자만 보고, “아 이 아이스크림은 2000원이구나”를 파악해야 한다. AI가 이런 걸 읽어내는 게 중요했다. 이런 게 바로 인식률의 정확도이니까. 데이터의 관계성 같은 걸 파악하는 것이 예전과는 많이 달라졌다.
파운데이션 AI 모델의 능력이 하루가 다르게 올라오니까, 도큐먼트 AI도 시간이 좀 지나면 이들과 경쟁하지 않겠나
우리 도큐먼트 AI를 찾는 곳 중에 요즘에는 LLM(대규모언어모델)을 하는 곳이 굉장히 많다. 이들이 언어모델을 잘 만들려면 ‘청킹(정보를 의미 있는 덩어리로 묶어 기억의 효율성을 높이는 방법)’이란 걸 잘 해야 한다. 정보 계층의 구조화와 같다. 이 구조화를 앞단에서 도큐먼트 AI가 얼마나 잘해주느냐, 얼마나 LLM에 친화적으로 해주느냐에 따라 모델의 성능이 기하급수적으로 달라진다. 우리가 그 수요에 맞춰, LLM에 친화적인 도큐먼트 파서(parser) 에이전트를 개발하고 있다.
20대 여성 CEO가 드물다. 회사의 솔루션을 영업할 때 나이나 성별 때문에 어려운 부분은 없나
(기술 영업에서는) 오히려 편하다. 왜냐하면 인공지능을 도입하는, 특히 이런 도큐먼트 API를 도입하시는 곳은 통상 관련 업체를 불러 기술 비딩을 시킨다. “이거 우리가 쓰는 문서인데 한 번 돌려봐”라고 하고 그 결과를 보고 결정을 끝낸다. 우리가 회사 인지도가 다소 부족해도, 기술적으로 더 좋은 결과가 나오면 “여기가 잘 나오네, 그럼 여기로 하자”라고 말한다. 그래서 오히려 기술 영업이 우리한테는 더 쉽다.
OCR로 유명한 회사들이 있다. 그보다 경쟁력이 있다는 이야긴데
시장의 요구에 굉장히 밀접하게 맞췄다. 그런 기술 경쟁력에서는 자신이 있다. 우리가 다음에 집중할 방향은 ‘학문적인 인증’과 같은 부분이다. 실제로는 우리가 더 결과가 잘 나와도 이를 (권위 있는 학계 등에서) 인증이라는 절차를 따로 거치지 않아서 리더보드 등에 이름을 올리지 않으면 그런 영역에서 (존재감은) 없는 거니까.
지금은 시장에서 우리를 많이 찾아주기 때문에 시장에 집중하고 있는데, 다음 페이즈(국면)에서는 아카데믹한 것까지 도큐먼트 AI 분야에서 섭렵할 수 있도록 계획을 세워가고 있다.
문서 외의 영역으로 기술 공급을 확장할 계획이 있나
문서만 보고 있지는 않다. 문서 안에 이미지도 있지 않나. ‘보도자료’를 예로 들어보자. 수천 건의 보도자료가 있을 거고, 그 파일 안에는 이미지도 들어 있을 거다. 어느 보도자료에 ‘어떤 회장이 커피를 마시고 있는 이미지’가 들어 있다고 하면, 그게 기억에 남아 검색에 “회장님이 커피 마시던 기사가 있었던 것 같은데?”라고 검색해야 하는 순간이 있다.
이게 무슨 말이냐면, 그 도큐먼트 안에 회장이 커피 먹고 있는 사진이 있다는 것을 (컴퓨터가 이해하도록) 해석해 줘야 한다는 거다. 이걸 보통 이미지 해석이라고 하는데, 문서 안에 이미지가 있으므로 문서 해석의 범위 안에 이미지를 포함해야 한다는 이야기가 된다.
그래서 우리가 집중하는 영역은 ‘가’라는 글자를 ‘가’라고 읽는 OCR의 영역을 넘어서, 문서에 특화된 사실상의 ‘일반 시각 지능’을 만들어가는 거다. 그게 이미지가 될 수도, 문서의 구조가 될 수도 있다. 글 자체가 될 수도, 맥락이 될 수도 있다. 이런 모든 걸 다 해석해 줘야 LLM에서 문서 자체를 진짜로 이해할 수 있고, 상호작용 할 수 있는 에이전트가 만들어질 수 있다.
우리가 푸는 문제를 쉽게 생각하는 분들이 많다. OCR이라는 단어가 올드 패션이니까, “OCR 하는 회사는 많지 않아?” 이렇게 생각하는데, 그렇다 OCR 하는 회사는 많다. 그러나, 진짜 도큐먼트 AI라고 불릴 수 있는 ‘문서 지능’을 하는 회사는 많지 않다.
그간 투자를 받지 않았다고도 들었다(이 인터뷰를 한 이후, 한국딥러닝은 트랜스링크인베스트먼트, SV인베스트먼트, IBK 기업은행 등으로부터 100억원대 시리즈 A 투자를 유치했다. 창업 이래 첫 투자유치다)
투자는 미래의 자본을 끌어오는 것이다. 그럴만한 시점이 아직까지 안 됐다고 지금까진 생각했다. 자생하는 데 더 집중을 해왔다.
그런데 이제는 자생에 대한 검증은 끝났다. 무리해 투자받지 않고, 내부에서 시장의 목소리를 들으며 뚜벅뚜벅 커나갔던 것들이 많이 안착했다. 그래서, 이제 “저희 투자 받습니다(웃음).”
많이들 관심을 보일 것 같다. 어떤 투자자를 선호하나
우리랑 핏이 잘 맞았으면 한다. 우리가 본질적으로 시장이 원하는 문제를 잘 풀고 있다면 숫자는 따라오기 마련이다. 그런 걸 잘 봐주실 수 있는 투자자였으면 좋겠다.
이름이 ‘한국딥러닝’이라는 부분도 눈에 띈다
‘고유명사’ + ‘고유명사’라서, 잘 안될 줄 알았는데 등록할 때만 해도 ‘딥러닝’이라는 기술을 아무도 모를 때였다. 어쩌면 당시 담장자 분이 딥러닝이라는 단어를 몰라서 된 걸지도 모른다(웃음). 그런데 나는 회사 이름에 자부심이 있다. 우리가 지금 모든 기술을 딥러닝 베이스로 유지하고 있다. 머신러닝이라는 키워드는 딥러닝에 바로 질 거라고 생각했다. 딥러닝이라는 방법론은 없어질 수 없다.
앞으로의 계획은?
‘도큐먼트 AI’라고 하면 한국딥러닝’이 바로 생각나게 하고 싶다. 심지어, 우리는 LLM들이 찾는 딥러닝 기술을 가진 회사라는 점을 많이 알리고 싶다. LLM을 구축하기 위해서 데이터 추출과 분석, 구조화(파싱)를 어떻게 해줘야 한다는 노하우를 내부에 많이 집적했다. 이미 많은 LLM 회사, LLM과 협업하려는 회사들이 우리를 찾고 있는데, 이걸 더 많이 강조하고 싶다.
글. 바이라인네트워크
<남혜현 기자> smilla@byline.network