AWS, 엔비디아 블랙웰 위해 AI 서버에 액체냉각 도입
[무료 웨비나] 중동의 ICT 및 테크 기업 생태계 – 사우디 아라비아, UAE를 중심으로
- 일시 : 2025년 1월 23일 (목) 14:00 ~ 15:10
아마존웹서비스(AWS)는 2일(현지시간) 미국 라스베이거스에서 개막한 ‘AWS 리인벤트’에서 차세대 인공지능(AI) 환경을 지원하는 데이터센터 구성요소 혁신을 발표했다.
새 요소는 더 많은 고객 혁신을 뒷받침할 수 있도록 보다 에너지 효율적인 데이터센터 구축을 위해 전력, 냉각, 하드웨어 설계의 혁신을 결합한다. 이러한 새로운 기능들은 AWS의 새로운 데이터센터에 전 세계적으로 구현될 예정이며, 많은 구성요소들이 이미 기존 데이터센터에 배포됐다.
AWS는 고객에게 가장 신뢰할 수 있는 인프라를 제공하는 데 지속적으로 초점을 맞추고 있다. 간소화된 전기 및 기계 설계는 더욱 신뢰할 수 있고 유지 관리가 용이해, 고객들이 AWS가 처음부터 제공해온 높은 신뢰성의 이점을 누릴 수 있도록 한다.
AWS의 최신 데이터센터 설계 개선 사항에는 간소화된 전기 배전 및 기계 시스템이 포함되어 있어 99.9999%의 인프라 가용성을 실현한다. 간소화된 시스템은 전기 관련 문제로 영향을 받을 수 있는 잠재적 랙의 수를 89% 줄일 수 있다.
데이터센터에서 전기는 IT 장비에 도달하기 전에 여러 변환 및 배전 시스템을 거친다. 각 단계마다 비효율성과 에너지 손실, 잠재적 장애 지점이 자연스럽게 발생한다. 새로운 설계의 예로, AWS는 배전을 간소화해 잠재적 장애 지점의 수를 20% 줄였다. 백업 전원을 랙에 더 가깝게 배치해 뜨거운 공기를 배출하는 데 사용되는 팬의 수도 줄였다. AWS는 자연적인 압력차를 활용해 뜨거운 공기를 배출하며, 이는 서버에서 사용할 수 있는 전기량을 개선한다. 이러한 모든 변화는 장애 위험을 최소화하면서 전체적인 에너지 소비를 줄이는 데 도움이 된다.
AWS는 고객에게 가능한 한 가장 성능이 뛰어나고, 가용성이 높으며, 에너지 효율적인 인프라를 제공하기 위해 다수의 새롭고 향상된 기능을 구축했다.
최신 AI 서버는 고밀도 컴퓨팅 칩을 더욱 효율적으로 냉각하기 위해 액체 냉각의 이점을 활용한다. AWS는 새로운 데이터센터와 기존 데이터센터 모두에서 구성 가능한 액체-칩(liquid-to-chip) 냉각을 제공하는 새로운 기계식 냉각 솔루션을 개발했다. 일부 AWS 기술은 액체 냉각이 필요하지 않은 네트워크 및 스토리지 인프라를 활용하므로, 업데이트된 냉각 시스템은 AWS 트레이니움2 같은 AI 칩셋과, 엔비디아 GB200 NVL72 랙 규모 솔루션, AWS의 네트워크 스위치 및 스토리지 서버를 위한 공기 및 액체 냉각 기능 등을 원활하게 통합한다.
AWS의 독특한 액체 냉각 랙 설계는 AI 워크로드의 시장 출시 시간을 가속화하기 위해 선도적인 칩 제조업체들과 협력해 개발됐다.
AWS는 데이터센터에서 랙을 배치하는 방법을 최적화함으로써 전력 사용 효율성을 극대화하고 있다. 이는 서버를 배치하는 가장 효율적인 방법을 예측하는 데이터와 생성형 AI 기반 소프트웨어를 통해 달성됐다. AWS는 이제 사용 가능하지만 사용되지 않거나 충분히 활용되지 않는 에너지인 미사용 전력의 양을 줄이고 사용 가능한 에너지를 더욱 효율적으로 활용한다.
이 설계는 AI 워크로드에 필요한 차세대 하드웨어와 고밀도 랙을 지원하지만, 다른 여러 하드웨어 유형도 수용할 수 있을 만큼 유연하다. AWS는 전력 공급 시스템에서 엔지니어링 혁신을 이루어 향후 2년 동안 랙 전력 밀도를 6배 증가시키고, 이후 3배 더 증가시킬 수 있도록 지원한다. 이는 데이터센터 전력을 랙 전체에 효율적으로 전달해 전기 변환 손실을 줄이는 새로운 파워 쉘프(power shelf)를 통해 부분적으로 제공된다.
AWS는 고객 워크로드를 위해 사이트당 12% 더 많은 컴퓨팅 성능을 제공할 수 있다고 밝혔다. 이러한 변화는 동일한 양의 컴퓨팅 용량을 제공하는 데 필요한 전체 데이터센터의 수를 줄일 것이다.
AWS의 전기 및 기계 장치 전반에 걸쳐 아마존 자체 제어 시스템을 배포해 모니터링, 경보 및 운영 시퀀스를 표준화할 수 있다. 예를 들어, AWS의 내부 구축 원격 측정 도구는 AWS 기술을 사용해 실시간 진단 및 문제 해결 서비스를 제공한다. AWS는 복잡성을 줄이는 동시에 제어 시스템의 이중화를 강화했다. 이러한 이점으로 AWS는 99.9999%의 인프라 가용성을 설계할 수 있다.
연구에 따르면 현재 AWS의 인프라는 현재 온프레미스 인프라보다 최대 4.1배 더 효율적이며, AWS에서 워크로드를 최적화하면 관련 탄소 발자국을 최대 99%까지 줄일 수 있다. 아마존은 2030년까지 운영에서 소비되는 모든 전기를 100% 재생 에너지로 충당하겠다는 목표를 7년 앞선 2023년에 달성했다.
AWS는 지속적인 혁신을 통해 데이터센터 운영 방식을 재평가하고 인프라가 에너지를 더욱 효율적으로 사용할 수 있는 방법을 결정한다. 새로운 구성요소는 에너지 효율성과 지속가능성을 위한 업그레이드를 포함한다:
피크 냉각 시 메가와트당 물 사용량을 증가시키지 않으면서도 기존 설계 대비 기계 에너지 소비를 최대 46% 절감할 수 있는 보다 효율적인 냉각 시스템. 설계 변경사항에는 새로운 단면 냉각 시스템, 냉각 장비 감소, 액체 냉각 기능 등이 도입된다.
데이터센터 건물 외피의 콘크리트 내 탄소 포집량을 업계 평균 대비 최대 35%까지 감소. AWS는 저탄소 강철 및 콘크리트 사양을 채택하고 구조 설계를 최적화해 전체적으로 강철 사용을 줄이고 있다.
백업 발전기는 화석 디젤과 비교해 연료의 수명주기 동안 온실가스 배출량을 최대 90%까지 줄일 수 있는 생분해성 및 무독성 연료인 재생 디젤로 운영될 수 있다. AWS는 이미 유럽과 미국의 기존 데이터센터에서 백업 발전기의 연료를 재생 디젤로 전환하기 시작했다.
새로운 데이터센터 구성요소는 34개 리전, 108개 가용 영역 및 AWS 로컬 존 같은 다른 인프라 오퍼링을 포함한 AWS의 전 세계 인프라 전반에 걸쳐 확장 가능하도록 설계됐다. 모든 구성요소를 갖춘 새로운 AWS 데이터센터의 건설은 2025년 초 미국에서 시작될 예정이다.
프라사드 칼야나라만 AWS 인프라 서비스 부문 부사장은 “데이터센터 기능은 에너지 효율성이 향상되고 새로운 워크로드를 유연하게 지원한다는 점에서 중요한 진전을 의미한다”며 “하지만 더욱 흥미로운 점은 이러한 기능들이 모듈식으로 설계돼 기존 인프라를 액체 냉각 및 에너지 효율성을 위해 개조할 수 있어 생성형 AI 애플리케이션을 지원하고 탄소 발자국을 줄일 수 있다는 것”이라고 강조했다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network