모을 수 있는 데이터는 다있다...11억건 넘는 데이터 나눠주는 ‘AI 허브’

“인간의 지능이 가지는 학습, 추리, 적응, 논증 따위의 기능을 갖춘 컴퓨터 시스템.”

표준국어대사전이 정의한 인공지능(AI)의 뜻이다.

일반적으로 ‘인간의 학습능력과 추론능력, 지각능력, 자연언어의 이해능력 등을 컴퓨터 프로그램으로 실현한 기술’을 AI로 본다. 이미 우리 삶에 깊숙이 들어와 있는 AI지만 어떤 데이터를 활용하느냐에 따라 성능도 천차만별이 된다.

바탕이 되는 데이터가 좋아야 AI 모델도 제대로 개발되고 성능을 높일 수 있다. 좋은 성적을 받으려면 정확한 내용의 교재로 공부하는 건 기본일 터, 똑똑한 인공지능은 무슨 교재로 공부할까.

“기본은 데이터입니다. 작은 규모의 기업은 AI 학습을 위한 데이터를 구하기가 어려운 게 사실이에요. AI 허브에서 제공하는 데이터를 통해 제대로 학습시키면 좋은 AI가 탄생할 수 있지 않을까요.”

최근 한국지능정보사회진흥원(NIA) 서울 사무소에서 만난 AI 허브 사업 담당자는 AI 교재로 쓰일 데이터 확보와 가공이 중요하다고 강조했다. NIA는 업체나 기관이 개발하는 AI를 ‘똑똑’하게 만들기 위해 ‘AI 허브’ 라는 데이터 제공 플랫폼을 만들어 운영 중이다.

NIA에 따르면 AI 허브는 마치 데이터 상점 같은 모습을 띠고 있다. 수억건의 데이터 소스가 AI 허브가 지정한 카테고리에 나눠 담겨 있다. 데이터라고 해서 딱딱한 어떤 내용만 포함하는 것은 아니다. 사투리 음성 파일이나 도로 현황을 담은 사진 같은 것들이 AI 개발을 위한 원천 자료로 무료 제공된다. 꼭 기관이나 기업만 AI 허브를 쓰는 것은 아니고, 연구를 하려는 개인도 얼마든지 이용할 수 있다.

AI 허브의 강점은 방대한 데이터량이다. 2018년 처음 플랫폼의 문을 연 뒤 지금까지 총 381종 11억 650만건의 데이터를 제공하고 있다는 게 NIA 측 설명이다. 녹취 파일을 텍스트로 풀어주는 애플리케이션이나 챗봇을 위한 자연어 데이터, 자율주행 AI를 위한 도로 사진, 방재 시스템 구축을 위한 산불 데이터 등 거의 모든 분야의 AI 개발용 학습 데이터를 모았다.

물론, 양이 많다고 다 되는 것은 아니다. 품질이 떨어지면 빛 좋은 개살구일 수밖에 없다. NIA도 이 문제를 알고 있다. 따라서 품질 검수를 위한 단계를 두고 있다. NIA 관계자는 “데이터 구축 기업이 데이터를 수집, 정제해 1차 품질검수 과정을 거치고, 이후 데이터 품질 검증 기관과 함께하는 체계적인 품질 검수 과정을 거쳐 양질의 데이터를 일반에 공개한다”고 설명했다.

문제는 더 있다. 만물상에 갔다고 가정해보자. 물건이 너무 많으면 필요한 것을 한번에 바로 찾기 어렵다. 내가 원하는 것을 바로 찾게 만드는 것도 AI 허브에 대한 진입장벽을 낮추는 일이다.

이 숙제를 NIA는 어떻게 풀었을까? 기본적으로는 카테고리별 분류다. 한국어를 비롯해 ▲영상이미지 ▲헬스케어 ▲재난안전환경 ▲농축수산 ▲교통물류 등 개발하려는 AI의 종류에 따라 카테고리를 나눠 비교적 쉽게 데이터를 찾을 수 있도록 했다. 데이터 하나당 수백 기가바이트(GB)에서 많게는 테라바이트(TB)에 달하는 경우가 많은 만큼 샘플 데이터를 제공해 내가 원하는 데이터가 맞는지도 미리 확인해 볼 수 있게 했다는 것이 NIA 측 설명이다.

기본 검색 기능을 지원하는 것은 물론, 데이터 분야나 유형 선택이 가능해 원하는 데이터를 쉽게 찾을 수 있다. (출처=AI 허브 웹사이트 캡처)

조직이 큰 대기업일지라도 사투리 데이터까지 모아 챗봇 등에 반영하는 것은 힘든 일이다. 더군다나 개념검증(POC) 단계의 소기업이라면 비용 문제가 따른다. NIA가 AI 허브를 통해 종국적으로 하려는 일은 AI 연구개발에 필요한 바탕 데이터를 쉽게 쓸 수 있도록 제공해 프로젝트 진입장벽을 낮추는 일이다. 일례로 건축물 위험도를 파악하는 AI를 개발하기 위한 열화상 카메라 건물 사진이나, 자율주행을 위한 표지판 위치 사진 등은 쉽게 구할 수 없는 자료다.

NIA가 AI 허브에 힘을 쏟는 건 인공지능 기술이 국가의 핵심 성장 전략 요소라서다. NIA 관계자는 “AI는 국가전략기술의 핵심”이라며 “데이터 수집 단계에서부터 지원해 AI 분야를 활성화하려는 것”이라고 설명했다.

정보통신정책연구원(KISDI)이 지난해 펴낸 ‘주요 산업별 인공지능(AI) 도입 현황 및 시사점’ 보고서에 따르면 AI를 도입한 기업의 87%가 기업 경영성과에 긍정적인 영향을 미쳤다고 답했다. ‘AI 도입·확산의 저해 요인 분석 및 정책적 시사점’ 보고서에서는 AI 모델을 개발하려는 기업의 43.1%가 ‘양질의 데이터 확보의 어려움’을 AI 개발의 가장 큰 걸림돌로 꼽았다. 결국 개발을 위한 데이터 확보가 관건이라는 뜻이다.

AI 허브는 그래서 필요한 플랫폼이다. 그간 AI 개발용 데이터가 없었던 것은 아니지만 외산 데이터가 대부분이라 우리나라 사정을 십분 반영하기는 힘들었다. 만약 음성을 텍스트로 옮겨주는 앱이라면 언어 장벽이 생기고 자율주행이라면 특정 정체 구간 등 진짜 도로 사정을 반영하기 힘든 형태였다.

AI 허브 데이터를 통해 개발한 서비스들은 점차 일상에 파고 들고 있기도 하다. 음성을 텍스트로 옮겨 주는 네이버의 ‘클로바노트’, 고령층 고독사를 막는 KT의 ‘AI 시니어 돌봄 서비스’에도 AI 허브에 올라온 데이터가 쓰였다. 한 농작물 관련 기업은 드론으로 찍은 제주의 월동작물 사진을 활용해 생산량 예측 연구에 활용하기도 했다.

물론 현재가 완벽한 플랫폼이라는 뜻은 아니다. AI의 활용 범위가 무궁무진한 만큼 계속해서 더 많은 데이터 구축이 필요하다. NIA는 AI 허브 내의 ‘신규 데이터 제안’과 ‘데이터 품질개선 의견’ 메뉴를 둬 원하는 데이터를 신청하고, 이미 올라온 데이터라도 오류나 중복이 있다면 국민들이 직접 짚어낼 수 있도록 했다.

이제까지 AI 허브에서 이뤄진 데이터 다운로드 수는 20만건에 달한다. 과연 AI 허브는 AI 생태계의 진정한 젖줄이 될 수 있을까.

NIA 측은 “국민이 기획하고 구축하고 참여하고 활용하는 AI 통합 플랫폼이 목표”라며 “사람과 기술, 산업을 연결해 국가 디지털 대전환을 주도하겠다”고 목표를 밝혔다.

AI 허브 사용방법. 단 국내 AI 기술 개발을 위한 플랫폼이기 때문에 다운로드 받은 데이터는 국내에서만 활용할 수 있다.(출처=NIA)

AI 허브 100% 활용하기

AI 개발자

로그인을 한 뒤 상단의 AI 데이터 찾기 메뉴를 누른다.가장 핵심 메뉴인 ‘AI 데이터 찾기’를 눌러 원하는 데이터를 찾는다.만약 내가 자율주행 AI를 개발하는 연구원이라면 분야에서 교통물류 카테고리를 선택하거나, 도로 등으로 검색해 CCTV 영상이나 도로 현황에 대한 원본 데이터를 AI 연구에 활용할 수 있다.
“사진 필요하세요?” 이미지도 풍성

꼭 AI 개발에 활용하지 않더라도 쓸모있는 데이터가 풍성한 점이 AI 허브의 매력이다. 대표적인 게 이미지 자료다. ‘객체데이터’ 메뉴를 활용하면 농작물 작황 예측을 위해 찍은 귤 사진을 따로 받아볼 수 있는 식이다. 모두 무료이고 저작권 문제가 해결된 이미지다. 어디에나 자유롭게 활용이 가능하다.