엔비디아 A100, 초당 180경번 연산하는 테슬라 ‘도조’컴퓨터에 탑재
엔비디아가 테슬라의 자율주행 연구용 슈퍼컴퓨터 ‘도조(Dojo)’에 엔비디아의 GPU가 탑재됐다고 밝혔다.
테슬라는 ‘컴퓨터 비전 컨퍼런스 CVPR 2021’에서 오토파일럿 및 자율주행 기능을 위한 심층 신경망(DNN, Deep Neural Network) 훈련에 사용되는 슈퍼컴퓨터 ‘도조’를 공개했다. DNN은 딥러닝을 위한 인공신경망의 일종이다. 인공신경망은 데이터를 입력하는 ‘입력층’과 결과를 출력하는 ‘출력층’, 그리고 데이터 처리 및 결과 도출을 위해 연산을 하는 ‘은닉층’으로 구성돼 있다. DNN은 여러 개의 은닉층을 갖춘 인공신경망으로, 복잡한 연산도 반복적으로 대량 연산할 수 있다.
그간 테슬라는 도조의 존재에 대해 언급만 했을 뿐 실물을 공개하지는 않았다. 하지만 이번에 처음으로 공개하면서, 주목을 받았다. 해당 컴퓨터는 8개의 엔비디아 A100 텐서코어 GPU(총 5760 GPU)의 720개 노드를 활용해 1.8엑사플롭 성능을 구현한다. 1초에 100경 번의 데이터를 처리할 때 1 엑사플롭이라 하는데, 1.8엑사플롭은 1초에 180경번 데이터를 처리한다는 의미로, 업계 최고 수준이다.
엔비디아의 텐서 코어는 인공지능 연산 처리에 특화된 코어다. 일반적으로 딥러닝의 경우에는 같은 연산을 반복해서 수차례 학습해서 패턴을 파악하고, 결과값을 도출해내는 성능이 중요하다. 엔비디아의 텐서 코어는 일정한 연산을 반복적으로 하는 데 탁월하다. 결국 엔비디아의 텐서 코어는 챗봇, 고성능 컴퓨터, 자율주행 등 대용량의 데이터를 처리해야 하는 AI 및 딥러닝 관련 제품에 주로 탑재된다.
엔비디아 A100 GPU는 엔비디아가 2020년 출시한 GPU 시리즈 암페어(Ampere) 아키텍처를 기반으로 한다. 해당 아키텍처는 기존의 GPU에 비해 데이터 처리 성능이 20배 향상됐으며, 필요에 따라 용도에 맞게 구분해 놓은 독립 GPU 인스턴스로 7개까지 분할할 수 있다.
이 A100 GPU가 탑재된 테슬라의 슈퍼컴퓨터는 테슬라의 자율주행에 대한 수직적 통합(Vertical Integration) 접근방식의 일환이다. 테슬라는 자동차부터 데이터센터까지 자율주행의 전반적인 솔루션을 지원한다.
우선 테슬라의 DNN은 차량 주행 시 발생할 수 있는 경우를 예측하고, 감지한다. 또한 예측한 것들과 오차 및 식별을 기록한다. 이를 통해 지속해서 데이터를 수집하고, DNN을 개선한다. 데이터가 1.5페타바이트(PB) 정도로 쌓이면, DNN이 오류 없이 작동할 때까지 반복해서 데이터센터 내에서 자율주행 프로세스를 시행한다. 여기서 1 페타바이트는 일반적인 음원 파일 2억곡 정도의 용량이다. 프로세스 시행 이후 결과값은 다시 차량으로 전송되고, 앞서 언급한 데이터 수집 및 개선 과정을 거치면서 데이터를 생성한다.
안드레아 카르파티(Andrej Karpathy) 테슬라 AI 담당 수석 디렉터는 “테슬라의 DNN 훈련을 위해서는 방대한 용량의 컴퓨팅 성능이 필요한데, 따라서 테슬라는 고성능 A100 GPU를 갖춘 최첨단 슈퍼컴퓨터를 구축하게 됐다”며 “이번에 공개한 우리의 슈퍼컴퓨터는 플롭(컴퓨터가 1초 동안 수행할 수 있는 연산 횟수) 측면에서는 세계 5위라 할 수 있다”고 전했다.
이어 안드레아 카르파티 디렉터는 “이번에 공개한 슈퍼컴퓨터를 통해 테슬라는 완전한 자율주행을 향해 한걸음 더 다가갔다”고 전했다. 업계에 따르면, 현재 테슬라의 자율주행 수준은 2.5단계 정도로 평가받고 있다.
한편, 엔비디아는 자체 인공지능 및 딥러닝 솔루션을 기반으로 자율주행 솔루션 ‘엔비디아 드라이브 아틀란(Atlan)’도 제공한다. 이와 관련해 엔비디아 관계자는 “현재 엔비디아는 활용도가 높은 분야에 한해 소프트웨어부터 애플리케이션 레벨까지 오픈소스로 쓸 수 있도록 솔루션을 구축하고 있는데, 오토모티브 분야도 이에 해당된다”고 설명했다.
글. 바이라인네트워크
<배유미 기자> youme@byline.network
첫 댓글