엔비디아가 클라우데라와의 협업을 통해 빅데이터 플랫폼 ‘아파치 스파크 3.0’을 출시한다. 클라우데라의 빅데이터 관리 기술과 엔비디아의 GPU기술이 합쳐진 것인데, 이를 통해 사용자들은 더 수월하게 기업의 빅데이터를 관리할 수 있다.

엔비디아는 지난 4월 기업용 인공지능 플랫폼을 확산하기 위해 클라우데라와 협업을 강화할 것이라고 밝힌 바 있다. 당시 발표에 따르면, 엔비디아는 분석 및 머신러닝 솔루션 ‘아파치 스파크 3.0’에 클라우데라의 CDP(Clouddera Data Platform)를 적용해 빅데이터 플랫폼을 고객에게 제공할 것이라는 로드맵을 공개했다. CDP는 클라우데라가 개발한 빅데이터 플랫폼이다. 엔터프라이즈 데이터 클라우드 플랫폼 중에서는 CDP가 세계 최초로 개발됐다.

이번 미디어 브리핑에서 엔비디아는 클라우데라의 CDP와 엔비디아의 GPU(Graphic Processing Unit)를 적용한 아파치 스파크 3.0을 출시한다고 밝혔다. 이를 통해 머신러닝 작업 성능을 높이고, 더 효율적으로 데이터를 처리할 수 있을 방침이다.

아파치 스파크 3.0에는 엔비디아와 클라우데라의 강점이 모두 담겨 있다. 우선 엔비디아는 GPU(Graphic Processing Unit)를 제공하는 기업이다. GPU는 데이터를 병렬 처리하기 때문에 한 번에 많은 양의 데이터를 처리할 수 있다는 장점을 가지고 있다. 클라우데라는 클라우드를 통해 데이터를 관리하는 플랫폼을 제공하는 업체이다.

스콧 매클렐런(Scott McClellan) 엔비디아 데이터 사이언스 제품디렉터는 “아파치 스파크 3.0은 엔비디아의 GPU에 의해 클라우데라의 데이터 플랫폼을 구동하는 것인데, 이를 통해 고객들은 더 나은 클라우드 서비스 경험을 제공받을 수 있다”고 설명했다.

우선 클라우데라의 CDP 자체가 여러 장점을 가지고 있다. 수실 토머스(Sushil Thomas) 클라우데라 머신러닝 부사장은 “2000명의 고객을 가지고 있으며, 4000개의 파트너사를 가지고 있다”며 “우리는 5엑사바이트(EB, 1018) 단위의 데이터를 관리할 수 있으며, 400K의 데이터센터 CPU 서버를 확보하고 있다”고 자부했다.


더불어 GPU를 통해 플랫폼을 구동한다는 것도 성능 개선에 한몫 했다. 과거에는 클라우드 상에서 데이터와 워크플로우를 처리할 때 CPU에서 구동하곤 했다. 하지만 이는 여러 한계를 가지고 있었다. 우선 CPU는 한 번의 신호에 데이터를 한 번 처리하는 직렬 처리 방식을 사용한다. 때문에 대량의 데이터를 처리할 시, 시간이 오래 걸릴 수밖에 없다. 또한 대규모의 CPU 인프라를 구축하면 비용이 많이 든다. 사용자 경험을 개선하기 위해서는 이 같은 문제점들을 개선해야 했는데, 그 대안으로 GPU가 등장한 것이다.

아파치 스파크 3.0에는 엔비디아의 머신러닝용 GPU 래피즈(Rapids)가 탑재돼 있어 데이터 처리 속도를 가속화한다. 입력되는 데이터를 모으고 기술적으로 분석하고, 저장하고, 추리하는 모든 흐름은 이 GPU에 의해 구동돼 더 정확하고 빠르게 처리될 수 있을 전망이다.

스콧 매클렐런 디렉터는 “GPU 가속 CDP는 결과를 CPU 서버에 비해 많이 빠르게 할 수 있으며, 10배 빠른 퍼포먼스를 제공하며, TCO는 3배 증가한다는 장점을 가지고 있다”며 “이는 더 정확한 모델 구현이 가능하며, 현대 기업의 데이터를 관리하는 데 필수 요소가 될 전망”이라고 전했다.

마지막으로 스콧 매클렐런 디렉터는 “우리는 하드웨어, 엔터프라이즈, 클라우드를 모두 가로질러 고객사를 확보하고, 에코시스템을 확장할 것”이라며 “이번 아파치 스파크 3.0 이후에도 엔비디아는 클라우데라와 협업을 지속해 나갈 것”이라고 전했다.

글. 바이라인네트워크
<배유미 기자> youme@byline.network

[바이라인플러스 5월 무료 웨비나 ]
  • 넥스트 노멀, 비즈니스 변화와 도전을 위한 DID 기술 활용 방안
    날짜 : 2022년 5월 25일 (수)
    시간 : 14:00 ~ 15:00
    자세히보기