[그게 뭔가요] 화웨이는 중국의 엔비디아가 될 수 있을까?

지난 28일 뉴욕증시에서 엔비디아의 주가가 2.05% 하락했다. 시총도 2조6530억달러로 줄었다. 중국의 화웨이가 엔비디아에 버금가는 AI 칩을 개발했다는 소식 때문이다.

미국과 중국의 무역 전쟁에서 가장 중요한 상품은 반도체, 특히 AI 반도체다. AI가 군사력과 경제력을 좌우할 수 있는 국가적 핵심 역량이 될 것으로 전망되고 있기 때문이다. 미국은 중국의 AI 발전 속도를 늦추기 위해 고성능 AI 반도체를 중국에 수출하지 못하도록 규제를 만들었다. 중국에서의 매출이 절실한 엔비디아는 H100의 성능을 낮춘 H20을 만들어 중국시장에 판매해왔지만, 최근에는 이마저도 규제의 대상이 됐다.

중국 입장에서는 미국과의 AI 경쟁에 지지 않기 위해 AI 반도체 독립이 절실한 상황이다. 화웨이처럼 중국을 대표하는 기술업체들이 이 미션을 이루기 위해 움직이고 있다. 하지만 반도체는 미국에서 처음 시작된 기술이기 때문에 미국이 독점하고 있는 기술과 장비가 있다. 중국은 이런 상황을 타개하기 위한 다양한 노력을 펼치는 중이다.

화웨이 ‘자체 AI 칩’ 개발 현황

화웨이는 미국의 반도체 수출 금지 정책이 시행되기 전부터 자체 AI 칩을 만들었다. 2019년 발표한 데이터센터용 AI 칩 ‘어센드 910’은 대만 파운드리 업체 TSMC의 7nm(나노미터) 공정으로 제조했다. 성능은 FP32 기준 약 16.3 TFLOPS(테라플롭스)다.

이후 화웨이는 미국의 제재로 TSMC에 위탁 생산을 맡기지 못하게 되면서 파운드리 업체를 바꿨다. 화웨이가 2023년 출시한 어센드 910B는 중국 파운드리 업체 SMIC에서 7nm N+1 공정을 통해 제조했다. FP32 성능은 19.5 TFLOPS로 전작보다 크게 오르진 않았다. 엔비디아가 2020년에 출시한 A100과 비슷한 수준이다. 엔비디아가 2022년 출시한 H100(60 TFLOPS)과 비교하면 3분의 1에도 못 미친다.

화웨이는 올해 상반기에 어센드 910B 칩 2개를 통합한 ‘어센드 910C’를 본격 출하할 예정이다. 어센드 910C의 추론 성능은 업계 표준 GPU로 취급받는 엔비디아 H100의 60% 정도로 알려졌다. 회사는 5월 중으로 H100보다 성능이 높은 ‘어센드 910D’의 샘플을 배포해 테스트하고, SMIC 6nm 공정을 채택한 차세대 칩 ‘어센드 920’을 연내 출시할 예정이다.

 

화웨이와 SMIC의 반미(?) 동맹은 가시밭길

화웨이는 미국의 반도체 기술 통제력 강화 정책으로 미세공정 면에서 불리한 상황에 있다. 미국은 2022년부터 강력한 수출 통제 조치를 시행해 왔다. AI 칩 및 고성능 GPU 수출을 제한했으며, 반도체 제조 장비 및 소프트웨어도 통제하고 있다. 아울러 관련 기술의 수출 제한 대상 기업 확대해 나가고 있다.

미국 제재가 계속되는 동안 화웨이는 중국의 반도체 파운드리 SMIC와 손을 잡았다. 세계 최고 반도체 파운드리 기업인 TSMC에는 미국의 통제로 인해 위탁 생산이 불가능하다. 화웨이와 SMIC는 반미동맹을 맺고 AI 반도체 개발에 함께 하고 있다.

그러나 고성능 AI 칩을 양산하려면 지금보다 미세한 공정을 도입해야 하는데, 미국 제재의 여파로 여의치 않은 상황이다. 초미세공정에는 EUV(극자외선) 노광장비가 필요하다. 현재 세계에서 EUV 장비를 생산하는 기업은 네덜란드 반도체 회사 ASML이 유일하다. 네덜란드 정부는 2019년 ASML에 EUV 장비를 중국 기업에 판매하는 것을 금지했다. 미국산 기술·부품·소프트웨어가 25% 이상 들어간 EUV 장비는 미국의 해외직접생산규칙(FDPR)에 따라 미 정부의 승인 없이 중국에 수출할 수 없다는 이유에서다.

TSMC·삼성전자 등 시장을 이끌고 있는 반도체 파운드리 기업은 EUV 장비를 통해 초미세공정 경쟁을 벌이는 중이다. 반면 SMIC는 EUV 장비 수급이 불가능해 DUV(심자외선) 장비에 의존해야 하는 상황이다. 업계에서는 DUV 장비가 양산할 수 있는 공정 미세도의 한계를 7nm까지로 보고 있다. 이보다 미세한 공정에 DUV 장비를 사용하면 공정이 지나치게 복잡해지고 반도체 생산 수율이 낮아지며 제조 비용이 상승하는 문제가 발생한다.

그럼에도 SMIC는 연내 완성을 목표로 DUV 기반 5nm 공정을 개발하고 있다. EUV 장비 수급이 불가능한 이상 별다른 방법이 없기 때문이다. 트렌드포스는 SMIC가 EUV 장비 없이 5nm 공정을 완성할 경우 예상되는 생산비용은 TSMC 5nm 공정 대비 최대 50% 높을 것이라고 주장했다.

EUV를 사용할 수 없는 한계를 극복하기 위해 화웨이와 SMIC는 ‘칩렛(Chiplet)’ 기술을 활용한다. 칩을 여러 개 묶어 하나의 칩처럼 동작하게 만드는 기술이다. 화웨이와 SMIC는 칩렛 기술로 어센드 910C와 910D의 성능을 끌어올렸다. 엔비디아는 이미 블랙웰 아키텍처 기반 B100·B200·GB200에 해당 기술을 적용한 바 있다. 언뜻 봐선 같은 기술이지만 도입한 이유는 두 회사가 서로 다르다. 화웨이는 초미세공정을 당장 도입하기 어려워 기존 칩을 여러 개 연결하는 방법으로 성능을 향상시켰다. 반면 엔비디아는 단일 칩 크기가 한계에 다다라 발열과 수율 문제를 해결하기 위해 작은 칩 2개가 단일 GPU처럼 동작하도록 연결했다.

화웨이의 향후 전략과 과제는

이처럼 화웨이가 넘어야 할 산은 많지만, 중국 시장에서는 화웨이가 엔비디아보다 나은 입지를 확보한 상태다. 자국 기업 제품을 우선시하는 시장 특성 때문이다. 그러나 해외 시장으로 눈을 돌리면 화웨이가 엔비디아보다 나은 점이 거의 없다. 성능, 공정, 점유율 모두 엔비디아가 유리하다. 특히 공정 미세도의 한계로 고성능 AI 칩을 개발하기 어렵고, 미국 제재로 HBM3E 등 최신 고성능 고대역폭메모리(HBM) 수급까지 불가능해진 화웨이는 성능 이외의 분야에서 엔비디아를 앞지를 아이디어가 필요하다.

이런 상황을 종합해 보면 화웨이는 향후 학습보다 추론에 특화된 칩을 개발할 가능성이 높다. 장기간 연산을 수행하는 학습 과정에서는 고정밀 연산 성능과 메모리 대역폭이 중요하지만, 사용자 요청에 응답하는 데 필요한 추론 과정은 빠른 응답 속도, 메모리 크기, 에너지 효율성을 중시한다.

한편으로는 소프트웨어에도 신경 써야 한다. 2020년 화웨이는 CANN(Compute Architecture for Neural Networks)이라는 애플리케이션 프로그래밍 인터페이스(API)를 출시했다. 텐서플로우나 파이토치 등 개발자가 주로 쓰는 딥러닝 프레임워크를 어센드 칩으로 구동하는 데 사용한다.

역할만 두고 보면 엔비디아가 2007년 출시한 플랫폼 ‘쿠다(CUDA)’와 비슷하다. 엔비디아 GPU의 병렬 연산 기능을 AI, 고성능컴퓨팅(HPC), 수학, 시뮬레이션 등에 활용하는 플랫폼이다.

쿠다는 출시일이 오래 된 만큼 그간 추가된 기능도 다양하다. 고속 행렬 연산, 딥러닝 연산 최적화, GPU 간 통신 최적화, 추론 속도 최적화 등 다양한 고성능 라이브러리를 갖췄다. 개발자 입장에서는 손쉽게 GPU 성능을 끌어내 학습 속도, 추론 속도, 에너지 효율까지 향상시키기 용이하다. 최근 몇 년간 수많은 AI 소프트웨어가 쿠다에 의존하는 구조를 채택해왔으며, 이는 곧 AI 반도체 시장을 엔비디아가 독점하다시피 한 구조에 영향을 끼쳤다.

화웨이는 이미 엔비디아 생태계에 최적화한 AI 소프트웨어 업계를 어센드 생태계로 유입해야 하는 상황이다. 그런데 이는 중국 시장에서조차 신통치 않다. 지난해 CANN을 시범 사용해 본 중국 기업들은 “고칠 점이 많다”고 지적했다.

지난 10월 바이두는 어센드 910으로 대형언어모델(LLM) 학습을 시도했으나 메모리 관리 오류, 컴파일 실패, 최적화 실패를 비롯한 소프트웨어 문제가 발생했고 디버깅 난이도가 높았다며 기존 엔비디아 쿠다 기반 시스템을 다시 채택했다. 같은 해 화웨이 어센드 기반 클러스터를 시범 사용했던 중국 AI 스타트업들은 “기능이 제한적이고 학습 속도가 쿠다 대비 30~50% 떨어진다”며 불만을 표했다.

글. 바이라인네트워크
<이병찬 기자>bqudcks@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다