[그게 뭔가요] AI의 시선으로…‘컴퓨터 비전’을 아시나요

직접 눈으로 보는 것만큼 좋은 게 없다지만 더 유용한 정보를 위해서는 기술의 힘을 빌리는 것도 좋다. 똑똑한 분석을 위해 인공지능(AI)을 활용한 ‘컴퓨터 비전(Computer Vision)’ 기술이 확산하고 있다. 딥러닝을 기반으로 객체를 파악해 더 정확한 인식과 분석을 가능케 하는 기술이 산업 전반에 널리 퍼져있는 상황. AI 기술로 사람의 ‘눈’을 대신해주는 컴퓨터 비전은 정확히 무슨 기술이고 어떤 적용사례가 있을까.

‘컴퓨터 비전’…?

다수의 IT 기업 설명을 종합하면 컴퓨터 비전은 이미지나 영상에서 컴퓨터가 객체를 인식한 뒤 AI와 딥러닝 기술 등을 바탕으로 분석하는 기술을 말한다. 카메라 또는 센서가 객체를 읽고 AI가 문자나 특정 객체의 수, 윤곽, 특이 사항 등을 뽑아낸다.

여기에 하나 더 주목할 것은 ‘합성곱 신경망(Convolutional Neural Network·CNN)’이다. 컴퓨터 비전은 주로 CNN을 바탕으로 한 알고리즘으로 구동된다. CNN의 발전과 함께 컴퓨터 비전 기술이 진일보했다.

CNN은 이미지를 태그나 레이블이 지정된 픽셀로 분해해 컴퓨터가 인식할 수 있는 형태로 만든다. 시각적 특성을 감지해 특정 패턴을 파악하는 연산을 수행한다. 쓸모없는 샘플들을 추리는 풀링(Pooling)을 통해 다운샘플링하고 여기서 추출된 특징을 바탕으로 예측을 수행한다. 만약 영상이라면 컴퓨터가 여러 프레임으로 구성된 이미지가 서로 어떻게 연관됐는지 이해하는 데 도움이 된다.

쉽게 설명하자면, 사람의 눈이라면 그저 보고 상황을 파악하는 데 그치지만 AI를 활용해 꼭 추려서 봐야 하는 요소를 분류하고 이를 확인해 분석까지 하는 것으로 보면 된다.

각 활용 분야마다 조금씩 다르지만 컴퓨터 비전은 객체 분류와 식별이 핵심이다. 객체 분류는 이미지나 영상을 여러 영역 또는 조각으로 분류해 각기 분석하는 과정이다. 풍경이 담긴 사진이라면 나무, 사람, 강물 같은 각각의 객체로 레이블을 지정한다.

이후 이미지 속의 특정 객체를찾아 각 객체에 경계 상자(객체를 인식시키는 박스)를 설정한 뒤 각각의 ID를 부여해 추적한다. 객체 하나하나에 의미를 부여하는 작업으로 보면 쉽다.

컴퓨터 비전은 최근 AI 기술 발전과 맞물려 빠르게 성장하고 있다. 2000년대 중반 딥러닝을 비롯해 신경망 알고리즘 개념의 등장 이후 최근에는 더 다양한 활용사례가 나오기 시작했다.

글로벌 시장조사업체 ‘마켓앤마켓(Marketsandmarkets)’의 분석에 따르면 글로벌 AI 비전 시장은 2023년에는 172억달러에서 연간 21.5%씩 성장해 2028 457억달러 규모에 달할 전망이다.

적용 분야

컴퓨터 비전은 보안과 의료 등 더 널리 쓰임새가 확장되고 있다. 또 자율주행차 같이 사람의 생명을 좌우하는 분야에서도 활용할 만큼 기술도 고도화됐다.

자율주행

다양한 이미지 센서를 이용해 도로 상황을 파악하고 데이터를 분석한다. 도로의 폐쇄회로(CC)TV 카메라와 교통 정보, 차량에 달린 카메라로 찍은 이미지 등을 조합해 물체를 인식한다. 또 센서 데이터와 카메라를 조합해 다른 교통수단을 감지한다. 차선 인식도 마찬가지다.

기업 사례: 테슬라는 일부 모델에 라이다(Lidar)나 초음파 센서 등을 제거하고 오로지 카메라에만 의지하는 ‘테슬라 비전(Tesla Vision)’을 적용하고 있다.

문서 분석

최근 각광 받은 자율주행차와 함께 대표적인 컴퓨터 비전 적용 분야다. 광학문자인식(OCR)은 특히 번역이나 필기 텍스트의 인식 등 다양한 분야에서 활용된다. 주차장의 차량 번호판 인식이나 번역 애플리케이션도 OCR이 바탕이 된다. 우선 이미지를 디지털로 인식해 해상도나 명암 조정, 노이즈 제거 등의 과정을 거친다. 이후 문자 위치를 파악해 추출한다. 이후 검출된 문자를 실제 문자로 인식해 텍스트로 변환한다.

기업 사례: OCR 기술은 네이버를 빼놓을 수 없다. 네이버는 이미지 검출과 이미지 인식을 각각 수행하는 ‘2스테이지(Stage)’ 방식이었던 것에서, 엔드투엔드 방법론을 쓴 ‘DEER(Detection-agnostic End-to-End Recognizer)’ 모델로 OCR 기술을 고도화했다. 하나의 이미지 백본(Backborn)을 검출과 인식단에서 공유함으로써 인식 속도가 빠르다는 설명이다.

의료 분야

새롭게 각광 받는 분야다. 3D 스캔 이미지를 통해 질병을 분류하는 데 활용한다. x-레이나 MRI로는 잘 식별할 수 없었던 질병의 조기 진단이 가능하다.

기업 사례: 국내 스타트업 루닛은 ‘인사이트(Insight)’ 솔루션을 통해 암 등의 질환 예후를 파악하는 데 도움을 주고 있다. 루닛의 인사이트 CXR 솔루션은 딥러닝 알고리즘으로 AI가 이상 의심 부위에 점수를 매겨주는가 하면, 기존에 저장해 뒀던 환자의 흉부 X-레이 영상을 불러와 현재의 모습과 비교·분석해준다.

안전 관리

인파 밀집 또한 컴퓨터 비전으로 분석해 사고를 예방할 수 있다. 영상에서 몇명의 인파가 어느 정도의 면적에 몰려있는지 파악하고, 위험 단계별로 밀집도를 분석해 알려준다. 집중된 인파를 딥러닝 알고리즘으로 분석해 위험도를 매긴다.

서울시는 지난 10월 지능형 인파관리시스템을 가동했다. 핼로윈을 앞두고 지난해 이태원 참사의 원인이 됐던 인파 밀집을 관리하기 위해서다. 인파를 감지하는 CCTV에 분석 소프트웨어를 연결해 자치구 재난 상황실과 서울시, 소방당국, 경찰에 상황을 알렸다. 핼로윈에 앞서 진행했던 예방훈련에는 AI 영상분석 기업 인텔리빅스의 솔루션이 쓰였다.

글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network