엔비디아 있는데 왜 AI 반도체 스타트업이 주목받나요?
요즘 국내 스타트업 중에서 가장 몸값 높은 곳은 어디일까요? AI 반도체 스타트업들이라고 해도 과장은 아닐 겁니다. 성공할 수 있느냐 없느냐에 대한 전망을 엇갈리지만, 리벨리온과 퓨리오사AI를 비롯해 국내 대표적인 AI 반도체 스타트업들이 지난해부터 올 초까지 잇달아 수십억, 수백억원 이상의 투자를 유치하고 있습니다. 이 엄혹한 투자 냉각기에도 말이죠.
AI 반도체는, 딥러닝 등 인공신경망 알고리즘을 처리하는 데 적합하게 고안한 반도체입니다. GPU를 앞세운 엔비디아가 싹쓸이하고 있는 시장이죠. 엔비디아가 시장의 90%를 장악하고 있어서 사실상 경쟁자가 없어 보입니다. 시장에서는 수천만원하는 엔비디아의 GPU를 없어서 못 사고 있는 상황이죠.
AI 반도체 스타트업에 쏠리는 기대가 이해가면서도, 이제 막 시장에 진입하는 작은 기업들이 엔비디아라는 아주 강력한 경쟁자를 이길 수 있을까 우려도 됩니다. 그런데 AI 반도체로 출사표를 던진 스타트업들은 단순 생존을 기대하는 것 같진 않습니다. 오히려, 엔비디아 외에는 사실상 플레이어가 전무한 이 시장에 스타트업이 먹을 거리가 많을 것이라고 말합니다. 빅테크들은 점점 더 생성형 AI에 강하게 진입하고 있고, 따라서 시장은 커질 것인데, 엔비디아 만으로는 막을 수 없는 구멍이 분명히 생긴다는 것이죠.
지금의 엔비디아 GPU 만으로는 생성형AI 생태계를 왜 이끌어 가기 어려운지, 그리고 스타트업은 어떻게 경쟁력을 가질 수 있을지 국내 주요 AI 반도체 스타트업 중 하나인 하이퍼엑셀의 이진원 최고기술책임자(CTO)로부터 이야기를 들어보았습니다. 이 CTO는 최근 IT 연구모임인 ‘어싱크’에서 이와 같은 주제로 발표, 인사이트를 공유했습니다. 다음 내용은 이진원 CTO의 발표를 정리한 것입니다.
#하이퍼엑셀은 어디?
초거대언어모델(LLM)을 위한 전용 가속 서버 ‘오리온’을 만든 AI 반도체 스타트업입니다. 대규모언어모델(LLM)에 최적화한 서버로, 경쟁작인 엔비디아의 A100과 비교해서 가격 대비 효율성을 높였다는 것이 장점입니다. 김주영 카이스트(KAIST) 전기전자공학부 교수가 창업했고, 삼성전자와 AI 반도체 기업 등에서 실력을 쌓아온 이진원 CTO가 합류한 곳이기도 합니다. 내년 초 ‘서버향 칩’을 만들어 생산하는 것까지 목표로 삼고 있습니다.
GPU의 두 가지 단점
엔비디아의 GPU는 원래 컴퓨터에 꽂아 쓰는 그래픽카드로 일반대중에 더 널리 알려져 있었죠. 그러나 지금은 GPU를 개인용 PC보다 서버에서 훨씬 많이 사용합니다. 심지어 지금 엔비디아의 주력 칩이라고 부를 수 있는 ‘A100’이나 ‘H100’과 같은 제품에는 모니터에 그래픽을 표출할 ‘그래픽 아웃’ 단자 조차 없습니다. 즉, 성능 좋다고 PC에 꽂아 쓸 요량으로 개인이 무리해서 비싼 돈 주고 산들, 모니터랑 연결조차 하지 못한단 말입니다. A100이나 H100과 같은 제품은 말로는 GPU라고 불러도 실은 100% AI를 위해 만들어진 반도체로 분류할 수 있습니다.
그러나 엔비디아의 AI 반도체는 두 가지 약점이 있습니다. 첫째는 너무 가격이 비싸고 물량이 적어서 그 값을 지불해도 최신 제품을 사서 쓸 수 있게 되기까지 너무 오래 걸린다는 점입니다. 돈 많은 기업의 대량 구매를 우선 지원하니까요.
두번째, 전력을 너무 많이 잡아 먹습니다. 이진원 CTO는 “GPT3를 쓰면서 발생하는 이산화탄소가 자동차 한 대의 전 생애주기 동안 발생시키는 전체 이산화탄소의 양보다 많다”고 설명합니다. 완벽히 사람처럼 사고하고 판단하는 일반 인공 지능(AI)은 모든 빅테크의 꿈이지만, 그 꿈이 이뤄지기 전에 지구온난화로 인간이 먼저 지구상에서 사라질지도 모른다는, 그런 웃지 못할 우스갯소리도 있다고 하죠. ** 이진원 CTO의 발언은 2022년 발간된 알렌산드라 샤샤 루치오니의 논문 <Estimating the Carbon Footprint of BLOOM, a 176B Parameter Language Model>에서 인용됐습니다.(논문 다운로드)
스타트업의 AI 반도체가 이런 딜레마를 극복할 수 있는 실마리를 쥐고 있습니다. 원가 측면에서 지금의 AI 반도체가 수익성이 없어 지속 가능한 비즈니스 구조를 만들기 어려우니 거의 대부분의 클라우드 업체들이 이를 타파할 수 있는 해법을 절실히 찾고 있는 상황이 됐거든요. GPT와 같은 LLM이 커지면서 AGI를 활용할 수 있기까지 계속 발전해 나가는 동안, 좀 더 저렴하고 일정 성능당 소비전력이 적은 반도체가 산업계에 반드시 필요해질 것은 분명합니다.
엔비디아의 반도체를 완전 대체한다기보다, 개발(훈련)한 LLM의 성능을 유지하면서 더 적은 전력만 쓰거나 같은 전력을 쓰면서 더 빠르고 정확한 결과물을 생성(추론)하는 수요가 엄청나게 커질 것이라는 기대감이 높습니다. 지금 나오는 AI 반도체 스타트업들은 그래서, GPU보다 적용할 수 있는 범위는 좁히되, 대신 전력을 더 적게 먹고 효율성을 높인 칩을 개발하는데 집중하고 있죠. GPU로 직접 경쟁하는 것이 아니라, NPU(AI 추론을 가속화하기 위한 칩)라는 새로운 영역에서는 스타트업도 해볼만 하다고 느끼는 거죠. 최근에 투자들을 받으면서 유력한 인재들을 확보하는데도 열을 올리고 있습니다. 국내는 특히, 미국과 더불어서 AI 반도체로 사업을 할 수 있을 만한 인프라가 갖춰져 있다는 점에서 가능성을 기대받고 있습니다.
그래서 요즘 AI 전문가들이 주목하는 것은, “특정 목적에 맞춤한 칩을 만들어 전력 소모를 줄이는 방향으로 가자”는 것이죠. 앞서 인용된 논문에서도, 파라미터의 수를 줄이면 LLM이 계산해야 하는 데이터도 따라서 줄기 때문에 모델을 가동하는 동안 발생하는 이산화탄소의 양도 따라서 줄어든다고 말하고 있습니다.
파라미터의 수가 많으면 어떤 어려움이 있나요?
조금만 더 이야기를 나눠볼까요? 파라미터는 바꿀 수 있는 요소, 즉 ‘변수’를 말합니다. 챗GPT 3.5에서는 1750억개의 파라미터가 들어갔습니다. 하나의 계산을 할 때 조작가능한 변수가 1750억개나 되다보니 엄청나게 면밀한 대답을 들을 가능성은 높아지지만, 계산의 속도나 비용은 많이 들겠죠. 혹시 이 글을 읽으시는 분 중, 챗GPT를 비롯한 생성형 AI 서비스를 써보신 분 계신가요? 첨엔 잘만 대답하던 서비스가, 어느날부턴가 대답이 늦어지고 로딩중만 계속되는 그런 경험을 해보신적 있나요?
왜 느려지는지는 GPT와 같은 LLM의 동장 방식을 생각하면 좋습니다. 먼저, 원하는 답을 얻기 위해 사람이 질문이나 명령문(프롬프트)을 넣죠. 이 명령문은 곧 GPT가 알아먹을 수 있도록 입력 토큰으로 변환됩니다. 토큰은, 단어와 유사한 말뭉치라고 보시면 편합니다.
챗GPT는 한 번에 들어온 몇 개의 토큰을 동시에 처리, 연산하면서 적당한 답을 만들어내는데요. 문제는 챗GPT가 답을 출력하는 과정에서는 한 번에 하나의 토큰을 만들어낼 수밖에 없다는 것이죠. 하나의 토큰이 만들어지고 나면 그 다음에 나올 수 있는 가장 적합한 토큰을 연산하는 방식으로 문장을 만들어내기 때문입니다. 파라미터가 클수록 하나의 토큰을 만들어내기 위해 연산해야 할 변수가 많아지겠죠. 사람이 생각하기에 쉬운 질문이라고 해서 예외는 없습니다.
그래서 LLM의 변수인 파라미터 수를 줄이면서 계산량 자체를 줄여서 전력소모량과 탄소배출량을 줄일 수 있는 방식을 AI 스타트업들이 주목하는 것입니다. 이것은 소프트웨어 측면에서의 개선 노력이라고 할 수 있습니다. 이 방법과, 다양한 LLM을 구동하는 데 전력당 성능이나 효율이 더 뛰어난 AI 반도체를 탑재한 하드웨어 시스템을 구축하는 방법을 결합할 수 있습니다.
엔비디아의 GPU를 활용하는 LLM과 이에 기반한 AI 서비스는 다양한 사용 시나리오에 대응하기 위해 거대한 기반 모델(파운데이션 모델)을 구축하는 방식을 쓰고 있기 때문에 특정한 상업적, 비즈니스적 사용 시나리오에서 비용 효율적인 결과물을 제공하는 데서 어려움을 겪고 있습니다.
이 점을 염두에 둔다면 특정한 분야에 최적화한 LLM이 다양하게 만들어지고, 이 다양한 LLM을 엔비디아의 GPU보다 더 효율적으로 지원하는 다양한 AI 반도체 하드웨어 시스템 시장이 폭발적으로 성장할 수도 있다는 것이지요.
이진원 CTO는 “우리가 만든 반도체가 실제로 잘 작동한다는 레퍼런스를 가지고 계속 시장을 하나씩 확장해 나가려고 하고 있다”면서 “LLM이라는 특정 분야도 시장이 엄청나게 커지고 있고 할 일이 많아지고 있기 때문에 범용으로 다 잘되게 만들어 칩을 파는 것보다는 초점을 좁혀 특정 분야에 최적화한 칩을 만들어내려 한다”고 말하기도 했습니다.
글. 바이라인네트워크
남혜현 기자 smilla@byline.network