|

[네이버 아라비아] “로봇 때문에 개발한 기술, 사람도 잘 씁니다”

지난해 10월 네이버가 사우디아라비아 자치행정주택부로부터 향후 5년간 5개 도시의 디지털트윈 플랫폼 구축사업을 수주하는 쾌거를 올렸다. 네이버 창사 이래 첫 대규모 중동 사업이자, 디지털 서비스 인프라를 한국 IT기업의 자체 기술로 구축하는 첫 사례이기도 하다. 네이버는 연내 중동 지역의 거점이 될 법인을 꾸리고 사업 협력의 폭을 확대할 예정이다. <바이라인네트워크>는 네이버 중동 사업 수주 계기부터 기술적 강점, 진척 현황, 후발주자를 위한 현지 노하우 공유 등을 릴레이 인터뷰로 풀어갈 예정이다. <편집자 주>

<연재 순서>
‘영화 매트릭스 성큼’ 사우디 홀린 디지털 트윈
외산은 되는데, 이게 뭔 일? 사우디 성과의 역설

이동환 네이버랩스 비전 부문장

인터뷰가 잡힌 회의실을 착각해 다른 방의 문을 잘못 열고 들어갔는데, 모르는 사람들이 나를 보더니 깜짝 놀라는 대신 실망하는 표정을 지었다. “죄송하다” 말하며 돌아서다, 등 뒤로 회의실에 들어가려 입장순서를 기다리는 로봇을 발견했다. 음료 배달을 위해 정확히 회의실을 찾아온 로봇이었다.

네이버의 제 2사옥, ‘1784’는 유명세가 있는 건물이다. 국내에선 처음 로봇 친화로 설계해서다. 로비에 들어서면 로봇이 돌아다니기 편하게 턱이 없는 평평한 바닥 구조가 눈에 띈다. 이 공간을 100여대의 로봇이 사람들과 함께 누빈다. 개발자 A씨는 자기 자리에 앉아 로봇이 가져다주는 아이스아메리카노를 마신다. 별 것 아닌 거처럼 들여도, 로봇에 상당한 기능이 요구되는 일이다. 일단, 로봇이 A 씨의 자리를 정확히 파악해야 하고, 헤매지 않는 길눈을 갖춰야 한다. 와중에 사람이나 다른 로봇과 부딪히지 않아야 하니, 역시 ‘눈’의 역할이 중요하다.

앞서 [네이버 아라비아] 인터뷰 시리즈의 문을 연 정원조 네이버랩스 디지털 트윈 책임리더는, 네이버가 어떻게 중동 사업을 시작했는지와 그 핵심인 ‘디지털 트윈’이 무엇인지를 이야기했다. 이번에 만난 사람은 이동환 네이버랩스 비전 그룹 리더(=사진)다. 네이버 디지털 트윈의 핵심이 오프라인의 건물과 도시를 디지털로 그대로 구현해 낸 ‘지도’라면, 그 정확한 지도를 만들기 위해서는 현실의 공간을 똑같이 읽어내는 ‘눈’이 필요하다. 이동환 리더가 하는 일이 바로 눈 역할을 위한 ‘비전’ 기술 개발이다.

이동환 리더를 최근 네이버 1784 사옥의 한 회의실에서 만났다. 이 부문장은 네이버 1784 사옥을 ‘하나의 살아 있는 로봇’과 같다고 말한다. 그는 “지난 2년 6개월을 로봇과 함께 생활했더니 처음엔 신기했던 일들이 이제는 너무 익숙해졌다”면서 “자리로 커피와 도시락을 배달해주는 서비스는 너무 유용하게 쓰고 있어서 이젠 없으면 오히려 불편한 느낌이 들 정도로 로봇이 일상에 들어오고 있다”고 말했다. 로봇이 함께 하는 건물이나, 중동의 디지털 트윈 사업 모두 비전 기술이 없다면 불가능했을 일이다. 이 리더에게 네이버랩스의 비전 기술을 물었다.

비전그룹은 무엇에 초점을 맞춰서 일하나

우리가 지금까지 쭉 해온 일을 한 단어로 표현하면, ‘공간지능(spatial AI)’이라는 단어로 표현될 수 있다. AI 분야에서 굉장히 유명한 페이페이 리 스탠포드대 교수가 공간지능을 하는 ‘월드랩스’라는 회사를 만들어, 굉장히 많은 펀딩을 받지 않았나. 우리가 하는 일이 그런 일이다. 조금 더 구체적으로 들어가면, 로봇의 이동, 로봇의 인지에 우리가 만든 공간지능을 적용한다. 로봇이 실내에서 자신의 위치를 바로 알고, 목적지를 찾아갈 때도 사람을 인식하고 장애물을 피해가고 하는 일에 말이다. 3차원의 시각정보를 로봇한테 이해시키는 공간인지 애플리케이션도 열심히 만들고 있다. 일단, 네이버랩스는 로봇을 하는 회사니까.

두번째는, 네이버의 여러 서비스에 개선이 필요할 때, 우리가 개발한 기술을 접목할 수 있는 지점이 생긴다. 예를 들어, 항공사진을 찍어서 디지털 트윈을 만드는 기술을 접목해 ‘VR 단지 투어’라는 서비스로 올 8월 선보였다. 아파트 단지를 가보지 않고도 조망할 수 있거나, 혹은 집 안이 어떤 구조로 이뤄져 있는지를 스마트폰으로 볼 수 있게 하는 것이다. 심지어는 스마트폰에서 가상의 오브젝트를 공간에 넣어보는 증강현실(AR) 애플리케이션도 공간지능의 한 사례다.

요약하면, 공간지능에 관련한 비전 연구를 많이 하고 있다. 디지털 트윈, 로봇, AR과 VR에 관련한 애플리케이션을 만들고, 이것이 실제 서비스가 가능하도록 네이버의 다른 부서들과 협업하는 일을 한다.

로봇이 3차원의 사물을 인식하고 움직이기 위해서는 어떤 기술이 필요한가? 네이버가 보유한 기술은?

핵심은 지도다. 그러기 위해서 공간에 관련한 데이터를 많이 모아야 하는데, 그런 데이터를 확보할 수있는 기기를 우리가 직접 만든다. 카메라와 센서를 붙여 공간을 매핑할 수 있는 로봇이나, 도로에서 데이터를 수집하는 거리 차량, 사람이 손으도 들고 다닐 수 있는 작은 장비 등도 만든다.

이렇게 양질의 데이터를 공급받으면, 인공지능 딥러닝의 재료로 활용한다. 즉, 양질의 데이터 확보를 위한 하드웨어 제작에서, 이 데이터를 활용한 인공지능 학습과 애플리케이션 개발을 하고 있다.

공간지능을 로봇에 접목해 무엇을 하려 하나

로봇은 물리적 서비스다. 지금은 주로 배송에 많이 쓰이고. 식당에 가면 음식 서빙하는 로봇들이 있지 않나. 우리가 타깃하는 공간은 식당보다는 크다. 여기, 네이버 1784 건물처럼 엄청 넓은 대형 공간에서 로봇이 어떻게 이동하고 서비스하는지, 가장 집중적으로 보고 있다. 예를 들어서 삼성동 코엑스나 공항과 같은 곳들이다.

대형공간을 타기팅하는 이유가 있나?

대형공간에서 발생하는 서비스 수요가 굉장히 많을 것으로 예측해서다. 1784는 결국 스마트 빌딩의 하나다. 이게 확장이 되면 스마트 캠퍼스, 스마트 시티로 가는 거다. 스마트 빌딩에서 쓰이는 솔루션은 우리가 이미 가지고 있다. 계속 더 크게 나아가려 하는데, 그 다음 단계가 네이버의 제2 데이터센서다. 그곳이 스마트 캠퍼스 레벨로 서비스를 제공하고 있다. 궁극적으로는 스마트 시티 레벨에서 로봇 서비스를 제공하는 것이 목적이다. 그러려면 일단은 스마트 빌딩에서 시작해서 점점 (서비스 공간을) 넓혀가는 방향으로 가야 한다. 그렇게 되면 당연히 로봇 수요가 많아지지 않겠나.

비전 기술’은 로봇이 움직이는데 핵심이다. 네이버랩스는 비전 기술을 다루는 여러 회사 중, 기술적인 수준 면에서 어느 정도 위치에 있다고 자평하나?

로봇이 사물의 거리감을 파악할 수 있도록 하는 3차원 공간지능 관련해서는 특별히 잘한다. 세계 최고 수준으로 잘하는데, 예를 들면 이미지 한 장을 가지고 내 위치를 알아내는 기술 같은 경우는 2019년과 2020년에 2년 연속으로 컴퓨터 비전 학회에서 네이버랩스가 우승을 했다. 한 2년 우승하다보니, 그다음부터는 대회 나가는 것보다는 ‘대회를 주최하자’는 생각이 들더라(웃음). 그래서 대회를 한 번 주최하기도 했다.

어떤 기술로 우승했나

맵(지도)이 없는 환경에서 내 위치를 맞추는 임무가 있었고, 사물이 얼마나 멀리 떨어져 있는지, 어떤 각도로 있는지 알아내는 것도 있었다. 3차원 공간을 구성하고, 그 안에서 내 위치를 찾아내는 것은 네이버랩스가 시작할 때부터 지금까지 엄청 좋은 성적을 학계에서 거두고 있다. 그래서 세계 최고 수준이라고 말할 수 있는 건데, 그렇다고 학계에서만 유명하냐, 그건 또 그렇지 않다.

위치를 알아내는 매핑 솔루션 같은 경우는 ‘아크아이(ARC eye)’라는 이름으로 네이버 클라우드에 상품을 출시했다. 1년이 좀 넘었는데, 이런 상품은 유례를 찾아볼 수 없다. 기술을 상품화하고 서비스하는 부분에서도 네이버랩스가 제일 빨리 나아가고 있다고 생각한다.

공간을 파악하는데 쓰이는 이미지는, 3D 카메라로 촬영한 것인가?

그렇지 않다. 그냥 일반적인 사진 이미지다. 사람이 막 태어났을 때, 아기가 하는 게 사물을 그냥 바라보는 거다. 그러면서 공간감을 배운다. 내가 사물을 향해 손을 뻗었을 때 만져지느냐 안 만져지느냐, 이런 걸 배우는데 로봇도 똑같다. 로봇의 공간감을 키워주기 위한 비전 기술 모델을 만들 때, 저희는 두 개의 서로 다른 시차를 가진 데이터를 엄청나게 많이 모은다.

그 데이터를 학습 시키면 공간감을 줄 수 있는 딥러닝 모델이 생긴다. 이 모델을 각각의 고유한 태스크(task, 과업)에 맞게 다시 한 번 학습을 시키는 식으로 진행을 한다. 예를 들어서, ‘여기서부터 저기까지 거리가 얼만큼 되는 알고 싶다’면 그에 맞는 학습을 시키는 거다.

로봇이 직관적으로 거리를 인지하게 한다는 이야기인가?

그렇다. 3D를 이해할 수 있는 비전 모델을, 되게 많은 데이터를 가지고 우리가 만들어냈다.

만약, 주변이 다 사막이라면 어떻게 공간감을 파악하나?

그것도 사람과 똑같다. 사람도 사막에 떨어트려 놓으면 자기 위치를 잘 파악 못 하지 않나. GPS에 의존해야 한다(웃음). 사람도 처음 약속장소에 갈 때는 지도로 대충 위치를 파악하고, 현장에 도착해서 자세히 주변을 살펴본 후 “나 지금 여기 스타벅스 앞이야”라고 말하지 않나. 로봇도 똑같다. 데이터를 수집하는 로봇이 거리와 장소 데이터베이스(DB)를 만들어 놓으면, 로봇이 움직이다가 목적지 인근에서 자신이 있는 곳과 가장 비슷한 이미지를 DB에서 찾는다. 그리고는 세부적으로 목적지의 위치를 좁혀가는 식이다.

그렇지만, DB가 구축되어 있지 않은 곳이라고 해도, 상대적으로 위치를 만들어내는 것도 충분히 가능하다. 무슨 말이냐하면, 사람도 모르는 빌딩에 처음 들어갔을 때 돌아다니면서 화장실이 어딘지 찾아내고 하지 않나. 그런 과정을 거치면서 내 머리속에 맵을 만드는 거다. 그 과정을 거치고 나면 그 빌딩 어디에 데려다 놓아도 대충 어디든지 찾아갈 수 있다. 역시 똑같다. 로봇도 탐색의 기능을 갖추고 있으므로, 다니면서 맵을 만들 수 있다.

로봇에 적용할 비전 기술을 개발하면서 가장 고민했던 점은 무엇인가?

범용성이다. 같은 기술을 로봇만 쓰는 게 아니라 사람도 쓰자는 거다. 카메라만 달려 있으면 누구든, 무엇이든 할 수 있게 하는 범용성이 제일 중요했다. 딱 한 종류만 개발하면 길게 살아남기 어렵다고 생각을 했기 때문이다. 로봇에 카메라를 붙이면 로봇이 자기 위치를 파악하는 거고, 스마트폰에 붙이면 스마트폰이 내 위치를 알고 길안내를 해줄 수 있는 것 아닌가.

굉장히 많은 업체에서 AR 글래스와 같은 기기를 만들고 있으니까, 거기에도 카메라가 달리니 그런 기기에서도 바로 쓸 수 있는 기술을 만들자. 이게 제일 고민했던 지점이다.

그런 고민이 실제로 어떻게 구현이 되고 있나?

중박에서 쓰고 있다.

중박? 그게 뭔가

국립중앙박물관이다(웃음).

줄임말을 너무 쓰는 것 아닌가(웃음). 중박에서는, 비전 기술이 어떻게 쓰이나?

(웃음) 국립중앙박물관 앱을 다운로드 받은 후에, 카메라를 켜면 현재 내 위치를 알 수 있고, 거기서부터 AR 투어를 할 수 있다. 주요한 유물 위에는 증강현실로 정보를 띄우기도 한다. 수천년 된 유물 사이를 가장 현대식의 로봇이 돌아다니면서 안내를 하는 식이다. 박물관에서 ‘사유의 방’을 일반에 공개하기 전에, 우리 매핑 장비가 그 한가운데를 돌아다니면서 지도를 만들었다. 그때 찍은 사진들을 보면 기분이 오묘하다.

지금까지 이야기를 들어보면, 네이버랩스가 하는 여러 로봇 기술 중에서 ‘비전’이 가장 빨리 돈을 벌 수 있는 부서라는 생각도 든다. 비즈니스 모델을 제일 빨리 구현한 것 같은데

이런 서비스로 비전 부문이 직접 돈을 버는 것은 아니다. 네이버 클라우드에서 이 비즈니스를 하고 있고, 국립중앙박물관이 고객이다.

돈 얘기가 나온 김에, 자연스럽게 ‘중동’ 이야기로 넘어가자. 중동에서 디지털 트윈 사업은 어떻게 진행되고 있나?

사우디아라비아에서 네이버와 디지털 트윈 계약을 했고, 프로젝트가 한창 진행중이다. 디지털 트윈 부서에서 맡아서 진행을 잘 하고 있고, 네이버랩스는 같이 도와서 열심히 하고 있다.

디지털 트윈 사업은 경쟁자가 많아질 수밖에 없는데. 어떤 경쟁력이 있나?

일단, 이렇게 큰 규모로 디지털 트윈을 구축해 운영해 본 경험이 있다. 로봇도 마찬가지고. 사우디아라비아에서 디지털 트윈 사업 협약을 위해서 1784를 내방했을 때, 직접 이 건물 안에서 디지털 트윈이 어떻게 구현됐는지를 안내한 적이 있다. 그때 다들 신기하다는 반응이었다.

이 건물 내에서 로봇이 어떻게 움직이는지 그 경험을 쌓은 것도 중요하다. 브레인리스 기술을 통해서, 클라우드에 로봇의 뇌를 구축해 놨기 때문에 로봇이 교착 상태에 빠지지 않도록, 중앙에서 통제할 수 있는 것도 이점이다.이 부분은 컴퓨팅 파워에서도 유리한데, 클라우드의 컴퓨팅 파워를 쓰다 보니까 전력 소모가 적어진다.

배터리 문제는 정말로 중요한 문제다. 로봇에 들어가는 비전 기술을 최근에 다른 비즈니스에도 결합한 사례가 있나?

거리뷰 서비스가 있다. 기존에는 그냥 이미지를 찍어서 보여주는 거리뷰인데, 여기에 3차원 데이터를 결합하면 아주 자연스럽게 여러 정보를 더 얻을 수 있다. 예를 들어, 특정 건물의 지하 주차장이 어디에 있다든지 하는 것을 굉장히 잘 표현해 줄 수 있다.

이런 비전 기술이 자율주행이랑 결합하면 효과가 더 크겠다

네이버의 데이터센터인 ‘각 세종’에서 무인셔틀 버스를 동작시키기 위한 HD 맵을 만들었다. 그 차량에도 데이터를 모으기 위한 센서가 붙어 있다. 차세대 거리뷰를 만들기 위한 차량이 된 거다. 로봇을 위한 기술이 사람을 위한 서비스로 가고 있는 또 하나의 예다.

궁극적으로 비전 기술이 지도에 붙을 수 있는 게 너무 많겠다. 맛집을 찾아 예약도 바로 할 수 있고.

그 고민을 지도와 네이버 플레이스에서 많이 고민하고 있다. 부동산도 마찬가지고. 각 사업부에서 열심히 하고 있는 것을 더 고도화할 수 있도록 어떻게 기술을 지원할 것인가를 네이버랩스에서 고민하고 있다.

할 일이 진짜 많아지겠다

그럼 너무 즐겁게 하겠다. (그간 개발해온 것이 서비스로) 하나씩 가시화되니까, 그게 또 보람인 것 같다. 많은 엔지니어들이 자기가 개발한 것이 실제로 쓰이는 걸 보고 싶어한다. 그래서 보람차다.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다