|

[바스리] 슈퍼브에이아이 “AI 데이터 가공, 아직도 어렵나요?”

바이라인네트워크에서 스타트업  리뷰를 연재합니다. 코너명은 ‘바스리’, <바이라인 스타트업 리뷰>의 줄임말입니다. 스타트업 관계자분들과 독자님들의 많은 관심 부탁드립니다.

“인공지능(AI)의 민주화”

IT 분야를 취재하다보면 매우 흔히 들을 수 있는 표현이다. 마이크로소프트, 구글, 아마존 등 글로벌 AI 업체들이 공통으로 주창하는 가치이기 때문이다. ‘AI의 민주화’는 AI를 누구나 쉽게 이용할 수 있도록 하자는 의미다. AI가 너무 어려운 기술이 되면 소수의 전문가들만 AI 혜택을 누리고, 이것이 그들의 권력으로 작용될 수 있다. 하지만 누구나 쉽게 AI를 이용할 수 있다면 기술로 인한 접근성 제한은 사라질 것이다.

하지만 진정한 AI 민주화를 이루기 위해서는 조건이 있다. 데이터의 민주화가 동반돼야 한다는 점이다. AI는 데이터를 기반으로 작동한다. AI 관련 기술이 아무리 쉽게 잘 만들어져있어도 데이터가 없으면 AI를 활용하는 것이 불가능하다. 그러나 글로벌 공룡 AI 기업들은 기술의 민주화는 추구하면서도 데이터는 독식하는 경향이 있다. 사실 클라우드 기반으로 이들의  AI 기술을 이용한다는 것은 데이터를 상납한다는 의미가 되기도 한다.

일반 기업들도 자신이 가진 데이터는 있다. 그럼에도 AI 데이터 부족에 시달리는 이유는 머신러닝에 적합한 형태로 데이터를 가공하기 위해서는 시간과 비용이 많이 필요하기 때문이다.

오늘 ‘바스리’에서 소개할 AI 스타트업 슈퍼브에이아이(SuperbAI)는 이런 문제를 해결하기 위해 등장한 회사다. 데이터를 쉽게 가공하고 분석하기 위한 플랫폼 역할을 자처하고 있다.

이 회사는 머신러닝 데이터 엔지니어와 라벨러를 위한 생산성 툴인 ‘슈퍼브에이아이 스위트’를 운영한다. ‘지도학습’이라는 머신러닝을 하기 위해서는 라벨링된 데이터가 필요하다. 컴퓨터는 데이터가 의미하는 바가 무엇인지 일일이 설명해줘야, 그것을 보고 학습을 한다. 그러기 위해서는 사람이 일일이 데이터에 라벨을 다는 작업을 해줘야 한다. 이는 매우 지난한 작업이다.

슈퍼브에이아이 스위트는 데이터 라벨링을 쉽게 하는 기능과 반자동 라벨링을 지원하는 AI 모델이 포함된 종합 머신러닝 데이터 플랫폼이다. 라벨링된 데이터를 필요로 하는 AI 기업과 라벨링 서비스를 제공하는 기업을 연결한다. 김현수 대표는 “머신러닝 데이터와 관련된 모든 관련자들이 하나의 플랫폼에서 협업할 수 있는 환경을 제공하고 있다”고 설명했다.

슈퍼브에이아이는 실리콘밸리에서 가장 유명한 엑셀러레이터인 와이콤비네이터를 졸업해서 눈길을 끌기도 했다. 와이콤비네이터는 에어비앤비와 드롭박스 등을 배출해 유명한 곳으로, 한국의 스타트업 중에서도 미미박스, 샌드버드, 시어스랩, 미소, 숨고 등이 와이콤비네이터를 거쳤다. 슈퍼브에이아이가 6번째다.

이 회사 김현수 대표는 미국 듀크대에서 박사과정을 밟다가 국내에 들어왔다. AI코리아라는 페이스북 인공지능 커뮤니티에서 활동하던 중 SK텔레콤 티브레인이라는 AI 조직에 입사하게 됐고, 페이스북 커뮤니티와 SK텔레콤에서 함께 활동하던 지인 5명이 슈퍼브에이아이를 창업했다.

김 대표는 “구글이나 아마존이 AI 민주화를 이야기하지만, 데이터의 빈부격차는 점점 더 심해지고 있다”면서 “슈퍼브에이아이는 머신러닝에 필요한 데이터를 누구나 쉽게 확보할 수 있도록 하는 것이 목표”라고 말했다.

최근에는 한글 광학문자판독(OCR) AI 학습용 데이터 780만개 글자를 공개하기도 했다. AI 개발을 위한 △간판, 도로 표지 등 이미지 내 130만개 글자 △인쇄체 280만개 글자 △ 손글씨체 370만개 글자 등 총 780만개 글자 이미지 데이터를 제작했다. 이를 이용하면 한국어 문자인식 기술을 더욱 고도화해서 간판이나 도로표지판, 손글씨 등을 컴퓨터가 인식할 수 있는 AI 기술을 개발할 수 있다.

김 대표는 “AI 학습 데이터는 대부분 해외에서 제작된 오픈소스 데이터세트에 의존, 국내 시장에 맞는 데이터세트는 가뭄”이라면서 “슈퍼브에이아이가 국산 데이터세트를 제작해 한국 AI 산업 발전을 이끌겠다”고 말했다.

. 바이라인네트워크
<심재석 기자>shimsky@byline.network

관련 글

첫 댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다