GPU 강자 엔비디아가 AI 워크로드를 최적화하는 방법

“AI는 현재 소매업, 물류, 은행, 헬스케어 등 다양한 분야로 확장되고 있다. 엔비디아 인증 시스템은 각 산업 분야에서 증가하는 AI 수요를 충족시킬 것이다.”

‘인공지능(AI) 워크로드를 최적화하는 엔비디아 인증시스템(NVIDIA Certified Systems)’ 미디어 브리핑 행사에서 아델 엘 할락(Adel El Hallak) 엔비디아 제품 매니저는 이같이 말했다. 지금은 업역 구분 없이 AI가 다양한 산업군에 퍼져 있다. 시장조사기관 가트너(Gartner)에 따르면, 현재 기업의 37%가 생산 과정에 AI를 도입했으며, 2024년에는 이 비율이 50~75%까지 성장할 전망이다.

각 산업 내 생산 과정에 AI가 널리 도입되면서, 엔비디아는 이 같은 수요를 충족하기 위해 엔비디아 인증시스템(NVIDIA Certified Systems)을 도입했다. 엔비디아 인증 시스템은 엔비디아의 AI 우수 사례를 따르고, 다양한 환경에서 사용사례를 제공하는 인증 테스트다. 엔비디아 멜라녹스(Mellanox) 네트워크에서 구동되는 GPU를 기반으로 AI를 가속화하며, 대규모 AI 워크로드를 처리하고자 한다. 엔비디아 멜라녹스 8700 HDR 200G 인피니밴드 스위치와 멜라녹스 SN3700 이더넷 스위치로 인증이 진행된다.

아델 엘 할락 매니저는 몇 가지 사용 사례를 통해 AI가 적용된 사례와 인증 과정에 대해 설명했다. E커머스, 의료, 광고, 채팅 등 다양한 분야에 AI가 도입되면서, 데이터도 폭발적으로 증가하고 있다. 이렇게 폭발적으로 증가한 데이터는 딥 뉴럴 네트워크(Deep Neural Network)로 학습하는 데 사용된다. 방대한 데이터를 처리해야 하기 때문에 GPU가 사용되며, 학습 이후 AI는 어떤 이벤트가 생길 지 예측할 수 있다. 이 과정을 거치면 전반적인 워크플로우를 파악할 수 있으며, 각 단계별 최적화도 가능하다.

엔비디아는 인공지능 워크로드 최적화를 위해 ▲기능성 ▲성능 ▲규모 ▲보안성을 강조했다. (출처: 엔비디아)

이어서 아델 엘 할락 매니저는 엔비디아 인증 시스템에서 검증하는 요소 네 가지도 언급했다. 매니저에 따르면, 인증 시스템은 ▲기능성 ▲성능 ▲규모 ▲보안 네 가지로 검증이 진행된다. 우선, 딥러닝이나 추론, 트레이닝 등 AI의 기본 기능을 효과적으로 구현할 수 있어야 한다. 방법은 HPC와 같은 다른 툴과 통합할 수 있고, 때로는 데이터를 처음 받는 엣지 부분에서 AI 추론을 진행할 수도 있다. 이를 통해 워크로드를 명확하게 파악하고 정의하는 것이 필요하다.

컴퓨팅 성능도 중요하다. 생산 라인에 있는 AI의 경우, 방대한 데이터를 빨리 처리해야 하기 때문에, 높은 출력과 저지연성 등의 성능을 갖추고 있는지 여부도 검증 대상이다. 방대한 규모의 데이터를 처리해야 하는 경우가 많기 때문에 규모와 스케일의 유연성도 평가한다. 아델 엘 할락 매니저는 “싱글&멀티노드 테스트(Single&Multi Node)와 스토리지 대역폭을 확대할 수 있는 ‘GPU 다이렉트 RDMA’를 비롯한 면에서 검증을 진행할 것”이라고 설명했다.

인증을 위해서는 보안성도 갖춰야 한다. AI는 워크로드를 비롯한 입력된 데이터를 모두 보유하고 있다. 유출될 시에는 기업뿐만 아니라 개인에게도 막대한 피해가 주어진다. 결국, 모든 데이터는 철저하게 보호되어야 한다. 보안성을 포함시킨 이유다. TLS(Transport Layer Security, 전송 계층 보안), IPSec(Internet Protocol Security, IP 네트워크 계층 보호), TPM(Trusted Platform Module, 신뢰 플랫폼 모듈) 등이 이에 해당된다.

엔비디아가 AI 워크로드 인증을 위해 제공하는 솔루션 (출처: 엔비디아)

아델 엘 할락 매니저는 “엔비디아는 엔비디아 인증시스템(NVIDIA Certified Systems)을 통해 AI 워크로드 최적화를 지원할 것”이라고 강조했다. 설명에 따르면, 엔비디아는 전반적인 스택에 엔터프라이즈 단계의 지원을 하며, 시스템을 이용할 수 없는 시간인 ‘다운타임(Downtime)’을 최소화한다. 또한 데이터 사이언티스트와 개발자들의 생산성도 높여줄 수 있다. 이는 위탁 생산을 담당하는 OEM(Original Equipment Manufacturing)에게도 적용할 수 있다.

매니저의 설명에 따르면, 엔비디아는 텐서플로우나 엔비디아 클라라를 비롯한 소프트웨어를 제공하고 있다. 또한, 더 많은 워크로드를 지원하는 엔비디아 가상(Virtual) GPU 소프트웨어나 GPU 프로그래밍을 담당하는 언어 ‘CUDA’, 네트워크 드라이버와 오퍼레이터 등 다양한 솔루션도 지원한다. 마지막으로 파트너사를 통해서도 호스트 OS나 드라이버, 그리고 엔비디아-검증 시스템 등을 제공한다.

한편, 엔비디아는 지난 2020년 4월 네트워크 기업 멜라녹스(Mellanox)를 인수했다. 이를 시작으로 엔비디아는 ‘엔비디아 멜라녹스 네트워크’를 지원하고 있다.

글. 바이라인네트워크

<배유미 인턴기자> youme@byline.network

관련 글

첫 댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다