스탠퍼드대 HAI ‘AI 인덱스 2022’ 전격 분석

미국 스탠퍼드대 인간중심 인공지능 연구소(Institution of Human Centered AI, HAI)가 연례보고서인 인공지능 인덱스 2022(AI Index 2022)를 최근 공개했다. 보고서는 연구개발, 기술, 경제, 정책 등의 관점에서 한 해간 전세계 인공지능(AI) 생태계가 변화한 모습을 데이터로 제시한다.

2018년부터 매년 발표해 올해로 다섯 번째인 AI 인덱스는 230페이지 분량 정도다. AI의 산업화와 윤리 문제 증가가 올해 보고서 주제다.

AI 인덱스 2022에서는 8개 핵심 요점을 짚었다. ▲먼저 AI에 대한 민간 투자액이 늘어났으며 투자 집중도가 강해졌다. ▲미국과 중국 공동 연구 건수가 최고치에 달했다. ▲언어 모델 규모가 커지면서 성능이 개선됐지만 편향성도 함께 늘어났다. ▲AI 윤리에 대한 관심이 보편화됐다. ▲AI 기술 효율이 증가하고 성능이 개선됐다. ▲추가 학습 데이터를 사용함으로써 기술 벤치마크 최고 성과를 달성하고 있다. ▲AI 관련 법안이 역대 최대로 통과됐다. ▲로봇팔의 평균 가격이 지난 5년 동안 46.2%로 줄어들었다.

AI 민간 투자 1위는 미국…전세계 투자액 절반 이상

2021년 AI에 대한 전세계 민간 투자액은 935억달러(약 113조4529억원)로 2020년에 비해 2배 이상 늘어났다. 이 중 미국에서는 528억8000만달러(약 64조1645억원), 중국은 172억1000만달러(약 20조8877억원), 한국의 경우 11억달러(약 1조3352억원) 정도 AI 분야 민간 투자가 이뤄졌다.

신규 투자를 받는 회사 수는 전세계적으로 매년 감소하고 있다. 2019년 1051곳, 2020년 762곳, 2021년 746곳 AI 회사가 신규 투자를 받았다. 올해 미국에서는 299개, 중국은 119개, 한국의 경우 19개 AI 기업이 새로 투자를 받은 것으로 조사됐다.

반면 5억달러 이상 투자 건수는 2021년 15건으로 작년 4건에 비해 늘어났다. 산업 분야별로 살펴보면 데이터 관리, 처리, 클라우드 분야가 민간 AI 투자를 많이 받았다. 의료, 헬스케어, 핀테크가 다음으로 많은 투자를 받은 산업 영역이다.

결과적으로 2021년에는 미국에서 AI에 대한 전체 민간 투자가 최다 이뤄졌으며 새로 투자를 받은 AI 회사도 가장 많다. 중국에 비해 전체 투자액은 3배, 새로 투자를 받은 회사는 2배다. 중국은 미국 다음으로 AI 분야 많은 투자가 이뤄진 국가다.

AI 기술을 도입 비율을 살펴보면 전세계 평균이 56%로 전년 대비 6% 증가했다. 국가별로는 인도가 65%, 아시아 태평양 지역 선진국 64%, 중국을 포함한 개발도상국 57%, 북미 55% 순으로 AI 기술 도입률이 높았다.

산업 분야별로 AI 채택률을 보면 하이테크·통신이 45%, 금융 서비스를 위한 서비스 운영이 40%, 하이테크를 위한 서비스 운영·통신이 34%, 금융 서비스를 위한 위험 기능이 32%다.

산업 현장에서 채택률이 높은 AI 기술 분야는 하이테크와 통신 산업을 위한 자연어 이해 기술이 34%, 금융 서비스와 자동화된 의사결정 산업을 위한 로봇 프로세스 자동화(RPA) 33%, 금융 서비스를 위한 자연어 이해 32%다.

AI 논문 수로 중국이 1위 자리잡아…인용 수는 미국이 앞서

AI 연구에 있어 양적으로는 중국이 미국을 앞선 지 오래다. 2021년 AI 저널, 컨퍼런스, 레포지토리(repository) 출판 수에서 모두 중국이 1위를 기록했다. 3개 영역을 합해서 계산했을 때 중국은 미국보다 63.2% 많은 AI 연구 결과물을 냈다.

미국은 AI 컨퍼런스와 레포지토리 인용 수로 세계 1위를 기록했다. 레포지토리는 arXiv, SSRN과 같은 전자 프리프린트 레포지토리에 프리 피어(pre peer) 논문을 발행하는 것이다. 전통적인 출판 방식인 저널이나 컨퍼런스에 내기 전에 연구자들이 성과를 공유하는 방법이다.

즉, AI 연구의 양적인 면에서는 중국이, 질적인 면에서는 아직 미국이 세계 1위 자리에 있다는 것을 유추할 수 있다.

2021년 영어로 나온 AI 논문 수 전체는 33만4497편이다. 16만2444편이었던 2010년에 비해 2배 정도 많은 양이다. 연구 영역별로 살펴보면 패턴인식, 기계학습, 컴퓨터비전, 알고리즘, 데이터마이닝, 자연어처리, 인간-컴퓨터 상호작용 순으로 많은 논문이 나왔다. 특히 패턴인식과 기계학습은 2015년에 비해 출판된 논문 수가 2배 상승했다.

AI 특허 수는 2015년에 비해 2021년이 30배 늘었다. 연 76.9% 정도 증가율을 보였다. 미국과 중국의 2021년 공동 연구 건수는 2010년에 비해 5배 증가했다. 양국의 공동 연구 논문은 2위인 영국과 중국 공동 연구 논문에 비해 2.7배 많다.

AI 상용화 움직임…학습 효율 증가·세부 과제에 주목

AI 기술 효율이 증가하고 성능이 개선되면서 기술이 보다 상용화될 가능성이 높아지기도 했다. 2018년 이후 이미지 분류 시스템의 학습 비용이 63.6% 감소하고 학습 시간은 94.4% 개선됐다. 추천, 물체인식, 언어처리 등 MLPerf 태스크 카테고리에 속하는 작업들 모두에서 학습 비용 감소와 더 빠른 학습 시간 경향이 나타났다.

추가 학습 데이터 사용으로 인해 기술 벤치마크에서 최고 성과가 나타나는 경우도 늘어나고 있다. 2021년 기준 10개 벤치마크 중 9개에서 가장 우수한 성능(SOTA)을 보인 AI 시스템이 추가 데이터 학습을 거쳤다. 보고서에 따르면 이는 방대한 데이터셋에 접근할 수 있는 민간 분야 연구자가 유리하다는 의미다.

컴퓨터 비전 세부 영역에 대한 관심이 증가하기도 했다. 의료 이미지 분류나 마스크를 쓴 얼굴 인식과 같은 주제가 예시다. 의료 이미징 벤치마크인 Kvasir-SEG를 2021년에는 25개 연구 논문에서 사용했다. 2020년에서는 3개 연구 논문만이 해당 벤치마크에서 시스템을 테스트했다. 세부적인 태스크에 대한 관심 증가는 AI 연구가 보다 실생활과 관련된 응용 분야로 영역을 옮겨가고 있다는 것을 의미한다.

AI가 아직 복잡한 언어 과제를 마스터하지는 못했다. 하지만 기본적인 독해에서는 인간 수준을 이미 넘어섰다. 보고서에 따르면 AI는 기본적인 독해 벤치마크 SuperGLUE, SQuAD 등에서 인간 수행 레벨을 1~5% 정도 능가했다. SS-MoE 모델은 SuperGLUE 리더보드에서 SOTA 점수인 91.0점을 받아 인간 개발자들의 점수인 89.8을 넘어섰다.

자연어 유추론(abductive natural language inference, aNLI)과 같이 보다 복잡한 언어 과제에서는 아직 인간 수준을 넘지 못했지만 차이가 좁혀지고 있다. 자연어 유추론에서는 제한된 정보와 불명확한 가능성을 지닌 맥락에서 그럴듯한 결론을 이끌어내야 한다. 예를 들어 제니가 직장에서 돌아와 집이 어질러진 것을 발견, 창문을 열어두고 나간 것을 떠올린다면 도둑이 침입해서 난장판을 만들었다는 것을 추론할 수 있다. 2019년 aNLI에서 인간은 AI보다 9% 좋은 점수를 기록했는데 2021년에는 차이가 1%로 좁혀졌다.

딥마인드 알파고로 대표되는 강화학습 영역은 보다 일반적인 환경에서 사용할 수 있는 형태로 개발되고 있다. 보고서에서는 “지난 10년 간 AI 시스템은 좁은 범위에서의 강화학습 태스크를 수행해왔다. 체스와 같이 특정한 스킬이 필요한 영역에서 최대 성과를 발휘했다. 탑 체스 소프트웨어 엔진은 현재 매그너스 칼슨(Magnus Carlsen)의 탑 ELO 점수를 24% 앞선다”고 말했다.

이어 “그러나 지난 2년간 AI 시스템은 새로운 환경에서 작동해야 하는 보다 일반적인 강화 학습 태스크에서 129% 개선됐다. 이러한 트렌드는 미래 AI 시스템이 더 넓게 생각할 수 있도록 학습할 수 있음을 보여준다”고 설명했다.

AI 크기 클수록 편향도 증가…기업의 AI 윤리 관심 늘어

초거대 AI와 같은 언어 모델이 기술적인 벤치마크에서는 신기록을 세우고 있지만 규모가 큰 모델일수록 학습한 데이터 내 편향을 반영할 가능성도 높다. 보고서에 따르면 2021년 개발된 2800억개 파라미터를 지닌 모델이 2018년 당시 최고 성능 모델로 여겨졌던 1억1700만개 파라미터 모델에 비해 유해성이 29% 증가했다.

반면 AI 윤리에 대한 관심은 보편화됐다. 2014년 이후 AI 공정성과 투명성에 대한 연구가 폭발적으로 늘어나 윤리 관련 학술대회에서 논문이 5배 증가했다. 학문적인 영역에서만 주로 다뤄지던 알고리즘 공정성, 편향성 연구가 보다 넓은 주제를 포괄하는 주류 연구 주제로 떠올랐다. AI 윤리 관련 대표적인 학술대회인 ACM FAccT 학술대회에서 기업 소속 연구자들은 2021년 53편, 2020년 31편, 2018년 5편 논문을 발표했다.

멀티모달 AI 모델은 멀티모달 방식으로 편향성을 학습한다는 문제도 제기됐다. 여러 개의 모달리티를 지닌 모델 내 편향을 골라낼 수 있는 메트릭이 필요하다.

대한 실험 결과를 살펴보면 흑인 이미지는 다른 인종에 비해 사람이 아닌 것으로 잘못 분류되는 경우가 2배 이상 많다. 실험에서 CLIP은 동물, 고릴라, 침팬지, 오랑우탄과 같이 사람이 아닌 존재나 도둑, 범죄자, 수상한 사람 등 범죄와 관련된 것으로 흑인을 분류한다. 인종 이외 성별에 대해서도 편향성을 보였다. 유모, 가정부와 같은 텍스트 라벨은 여성으로, 죄수, 조직 폭력배와 같은 단어는 남성으로 분류하는 경우가 많았다.

AI 윤리에 대한 관심이 커지면서 전세계에서는 AI 법제도 마련에 한창이다. 보고서에 따르면 2021년 AI 관련 법안 중 통과된 것은 18개다. 2016년 1개였던 점을 감안하면 크게 늘어난 결과다. 2021년 AI 법안을 많이 통과시킨 국가는 스페인, 영국, 미국으로 각각 3개씩 완료했다.

반면 AI를 사용할 때 발생할 수 있는 윤리 문제를 해결하는데 실제로 나서겠다는 사람은 많지 않다. 보고서에서는 맥킨지(McKinsey) 조사를 인용하며 29% 응답자가 평등과 공정, 41%가 설명가능성을 AI 관련 위험 요소로 인지하고 있다고 말했다. 이러한 위험을 낮추겠다는 응답자는 평등과 공정에 대해서는 19%, 설명가능성의 경우 27%에 머물렀다.

글. 바이라인네트워크
박성은 기자<sage@byline.network>

답글 남기기 응답 취소