최근 약 5년간 인공지능(AI) 학습데이터 관련 카테고리 가운데 ‘언어’ 분야가 가장 활발히 연구개발된 것으로 나타났다. 말의 높낮이로 감정을 파악하는 등 음성 관련 기술 발달이 도드라졌다.

색상과 디자인을 세분화해 소비자가 원하는 상품을 구입하는 데 도움을 주거나, 자주 듣는 음악의 분위기 또는 가수 특징을 분석해 음악 추천 서비스를 구현하는 등 AI는 다양한 분야에서 활용됐다.

AI 학습데이터 플랫폼인 셀렉트스타는 AI 학습데이터 구축 트렌드를 담은 ‘셀렉트스타 인공지능 인사이트’를 9일 발표했다. 지난 2018년부터 올해 상반기까지 약 5년간의 14개 분야 데이터를 수집·가공한 결과다. 200개 이상의 기업의 AI 학습용 데이터를 만들면서 트렌드를 파악했다.

프로젝트 금액이 큰 순으로 보면 언어(40.2%) 카테고리가 가장 높은 비중을 차지했다. 이어 ▲뷰티(6.4%) ▲예술(5.6%) ▲사람(5.3%) ▲건강(4.4%) ▲동물(4%) ▲자동차(3.8%) ▲식품(3.7%) 순이었다.

가장 핫한 분야였던 언어 데이터는 주로 자연어 처리(NLP)나 자연어 이해(NLU)에 활용됐다. 언어 현상을 컴퓨터가 묘사할 수 있도록 연구하고 구현하는 NLP나, 자연어 표현을 컴퓨터가 이해할 수 있는 형태로 바꿔 사람 의도를 이해토록 하는 NLU의 활용 범위가 넓었다. 음성인식이나 스마트 어시스턴트, 검색 결과나 언어 번역, 텍스트 분석, 키워드 분석 등에 쓰인다는 게 셀렉트스타의 설명이다.

음성 AI도 초기에는 단순히 언어를 인식하는 것에서 출발했지만, 이제는 인식을 넘어 감정을 읽거나 표현하는 단계로 진화하고 있다. 과거 AI가 단순하게 문구나 문서를 인식했다면 이제는 사람의 감정이나 사투리, 악플 같은 것도 파악할 수 있다.

셀렉트스타는 음성 프로젝트로 쌓은 데이터를 토대로 ‘감정 음성 데이터셋 수집을 위한 가이드라인’도 구축했다. 감정별 음성의 높이나 폭, 두께, 끝음 처리 등 발화 특징을 정리했다. 예컨대 슬픔은 끝음 처리가 길거나 놀람은 숨을 들이켜는 소리가 도드라지는 등 일종의 기준을 세웠다.

뷰티의 경우 색상이나 디자인 등 카테고리를 수십 가지로 세분화해 이미지를 더 세밀하게 분류하는 데 AI를 활용했다. 이미지 기반으로 패션 상품의 속성을 인식해 소비자가 원하는 상품을 찾아내는 데 도움을 준다.

예술 분야에서는 고객이 자주 듣는 음악의 분위기, 가수의 특징, 청취자의 청취 이력 등을 분석해 정교한 음악 추천 서비스를 구현하는 데 쓰이는 등 마찬가지로 AI의 활용이 활발했다.

사람과 건강 분야에서도 AI는 쓰임새가 좋다. 몸짓 제스처와 관련한 2만1000여개의 영상 데이터를 수집해 기존까지는 수어 기반이었던 중증 장애인의 의사소통 수단 연구개발에 활용하거나, 홍채의 특정 부분과 패턴을 라벨링해 건강을 확인하는 기술 연구개발에 활용하는 식이다


가축 관리 시스템이나 애완동물 관련 서비스도 AI를 통해 개선할 수 있다. 가축 행동 분석과 개체 추적을 위해 가축 라벨링 데이터셋을 구축, 밀집도를 분석하는 데 활용했다. 또 강아지의 코 무늬 이미지를 수집해 사람의 지문처럼 활용하면서잃어버린 주인을 찾는데도 AI가 힘을 발휘한다.

자동차와 식품 분야도 마찬가지다. 도로 주변의 객체 인식을 비롯해 수리나 관리 등 자동차 관련 서비스를 위해 정비 관련 질의응답과 타이어 마모도 이미지 수집 등의 프로젝트가 진행됐다. 개인의 생활 습관과 건강, 취향 등이 미치는 영향이 커지면서 맞춤형 추천 서비스 도입이 활발해진 만큼, 식단 관리 스타트업과 함께 영양 정보가 담긴 텍스트를 수집하고 가공하는 데도 AI가 활용됐다.

2020년 전후로 AI 기반 ‘초개인화’ 기술 연구개발도 활발해졌다. 초개인화란 수집한 소비자 정보와 행동 데이터를 AI가 분석해 소비자에게 최적화된 서비스를 제공하는 것을 말한다.

셀렉트스타는 ▲개인 취향 맞춤 의류 추천 AI를 위한 의류 및 패션 이미지 태깅 데이터셋 ▲소비자 만족도 분석 AI를 위한 상품 리뷰 데이터셋 ▲음악 리뷰에 대한 감정 태깅 데이터셋 ▲건강 관리 AI를 위한 홍채 이미지 라벨링 데이터셋 ▲코로나19 시대 안면 인식을 위한 마스크 착용 사진 수집 및 라벨링 데이터셋 등을 구축한 바 있다.

한편 셀렉트스타는  다양한 산업군, 규모의 기업과 함께 다채로운 데이터셋을 구축했지만 아쉬움도 토로했다. 셀렉트스타는 “현재까지 국내 시장은 기술검증(POC) 형태의 시도가 중심인데, 이는 서비스나 사업을 성공시키는 데 AI 성능 보다는 다른 요인의 영향이 비교적 크기 때문”이라고 밝혔다.

신호욱 셀렉트스타 대표는 “셀렉트스타는 AI를 개발하는데 필수인 ‘정확하고 일관된 학습데이터’를 생산하는 회사이면서 200개 이상의 회사와 협업을 통해  인사이트 자료를 발표할 수 있었다”고 설명했다.

이어 “AI 성능 향상은 데이터의 생산 및 관리 수준 규모와 비례한다”며 “AI 트랜스포메이션이 전 세계적인 트렌드인 만큼 국내 AI 시장의 잠재력도 높다”고 강조했다.

글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network

Similar Posts

답글 남기기

이메일 주소는 공개되지 않습니다.