메타 AI 연구소, 음성·이미지·텍스트 다루는 단일 AI 알고리즘 개발

메타 인공지능 연구소(Meta AI research)가 음성, 이미지, 텍스트를 모두 다루는 단일 인공지능(AI) 알고리즘 ‘data2vec’을 개발했다고 20일(현지시간) 밝혔다.

음성, 이미지, 텍스트 각 분야에서 따로 성능을 낼 수밖에 없던 기존 AI 알고리즘 연구 패러다임을 완전히 바꾼 것.

해당 서비스는 향후 여러 종류 데이터를 함께 활용해야하는 메타 서비스에 적용될 예정이다. AI 비서 기능이 탑재된 메타의 증강현실(AR) 글라스가 대표적인 예시다.

마크 주커버그 메타 CEO

음성·이미지·텍스트 함께 다루기 어려웠던 이유는

“메타 AI 연구소가 음성, 이미지, 텍스트를 라벨링된 데이터 없이 학습할 수 있는 시스템을 구축했다. 인간은 세계를 인식할 때 시각, 청각, 언어를 복합적으로 사용한다. 이번에 개발한 시스템은 우리 인간의 방식대로 세계를 이해할 것이다.”

“AI 비서 기능이 탑재된 AR 글라스에 사용 가능하다. 예를 들어 당신이 저녁 식사를 차릴 때 어떤 재료를 빠트렸는지, 가스불을 낮춰야하는지 알려주거나 이보다 더 복잡한 일을 도울 수 있다.”

마크 주커버그(Mark Zuckerberg) 메타 CEO가 자신의 페이스북 페이지에서 data2vec에 대해 언급한 내용이다.

data2vec는 정확히 말하자면 다양한 모달리티(modality) 대상 첫 고성능 자기지도(self-supervised) 알고리즘이다.

자기지도란 인간의 라벨링(labeling) 작업을 거치지 않은 데이터를 AI가 스스로 학습하는 방식을 뜻한다. 오픈AI의 GPT-3, 네이버의 하이퍼클로바를 비롯한 대용량 데이터 기반 초거대 AI가 해당 방법을 쓴다.

기존의 자기지도 AI는 음성, 이미지, 텍스트 중 하나의 모달리티에 대해서만 기능했다. 음성, 이미지, 텍스트 분야에 대한 연구는 각자 다른 방식으로 진행됐다.

예를 들어 텍스트 연구자들은 문장의 빈칸을 채우는 적합한 단어를 찾는 방식으로 모델을 학습시켰다. 음성 모델은 잃어버린 소리를 예측하기 위해 음성의 기본 요소들로 이뤄진 목록을 학습해야 한다. 시각 AI 연구에서 모델들은 특정 이미지와 해당 이미지의 뒤집힌 버전 사이 유사성과 다른 이미지와의 차이를 학습한다.

알고리즘이 각 모달리티에서 사용하는 예측 단위도 픽셀의 집합부터 오디오 파형, 텍스트로 이뤄진 글 단락까지 각기 다르다. 때문에 알고리즘 설계는 각 모달리티별로 이뤄질 수밖에 없었다.

data2vec 작동 과정

교사와 학생 네트워크 활용, 내부 표현값 예측이 비결

메타 AI가 개발한 data2vec는 모달리티가 아닌 인풋(input) 데이터의 고유한 표현값을 예측하는 방식으로 학습한다. 이미지 단위나 언어, 음성 대신 신경망(neural network) 레이어 자체에 집중한다. 이를 통해 하나의 알고리즘이 완전히 다른 종류의 인풋값들을 다룰 수 있다.

data2vec는 교사 네트워크와 학생 네트워크 두 가지로 구성됐다. 교사 네트워크가 먼저 이미지, 텍스트, 음성 언어로부터 표현값(representation)을 계산한다. 해당 방법은 기존 AI 학습 방식과 같다. 데이터의 내부 표현을 학습해 새로운 예가 표시될 때 어떤 대상인지 예측하는 것이다.

핵심은 학생 네트워크가 교사 네트워크의 내부 표현값을 예측하도록 학습한다는 것이다. 예를 들어 강아지를 보여줬을 때 강아지 이미지 자체가 아닌 교사 네트워크가 인지할 내부 표현값을 예측하는 방식이다. 실제 이미지나 문장이 아닌 이에 대한 표현값을 추측하기 때문에 알고리즘을 특정 유형에 맞출 필요가 없다.

ImageNet을 통한 이미지 모델들과의 성능 비교 결과

연구팀에 따르면 data2vec는 하나의 모달리티에 대해 작동하는 기존 모델들의 성능을 뛰어넘었다. 메타 AI 연구소는 공식 블로그에서 “ImageNet 컴퓨터 비전 벤치마크에서 실험한 결과, 기존 대중적인 규모의 모델 성능을 능가했다. 음성 분야에서도 기존 메타 AI 연구소의 자기지도 AI 음성 알고리즘인 wav2vec 2.0와 HuBERT를 뛰어넘었다”고 밝혔다.

이미지, 음성과 달리 자연어 분야에서는 기존 모델을 능가하지는 못했다. 연구팀은 “GLUE 벤치마크를 통해 테스트한 결과, RoBERTa 정도의 성능을 보였다”고 전했다.

글. 바이라인네트워크
<박성은 기자>sage@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다