[그게 뭔가요] 딥시크와 R1 모델
중국 AI 스타트업 딥시크가 AI 업계를 충격과 공포로 몰아넣고 있다. 지금까지 고성능 AI를 개발하기 위해서는 막대한 자원을 투입해야 가능했었는데, 딥시크는 현저히 적은 자원으로 오픈AI GPT-o1 수준의 고성능 추론 AI 모델을 개발한 것으로 알려졌다. 딥시크는 600만달러 미만의 비용으로 단 두 달 만에 추론 모델 R1을 개발했다고 주장하고 있다.
지금까지 생성형 AI 시장은 자본력 싸움 성격이 강했는데 딥시크가 훨씬 저렴한 비용으로 높은 수준의 AI를 개발하자 시장에 큰 파장이 일었다. 고가의 GPT 수요가 줄어들 것을 우려해 엔비디아의 주가가 급락하기도 했고, 미국의 중국 AI 견제 정책에 대한 효용성 논란이 일기도 했다.
딥시크는 누구?
딥시크는 2023년 량원펑(Liang Wenfeng)에 의해 설립된 중국의 AI 스타트업이다. 량원펑은 저장대에서 전자정보공학과 컴퓨터과학 학위를 받은 것으로 알려져 있지만, 그 외에는 AI 업계에서 알려져 있던 인물은 아니다. 그는 대학 졸업 뒤 수학 통계 모델과 컴퓨터 알고리즘을 이용한 투자 기법인 ‘퀀트 투자’를 연구했고, 2015년 대학 동창 2명과 함께 헤지펀드 회사 ‘하이 플라이어’(환팡량화)를 세웠다. 하이-플라이어는 약 13억 달러 이상을 조달한 중국 최초의 헤지펀드가 되었다.
량원펑이 인공지능 분야에 집중하기 시작한 것은 2019년이다. 그는 투자 기법 정교화를 위해 하이-플라이어 내에 인공지능 전담 부서를 만들었다. 그의 팀은 엔비디아의 H800 칩을 사용해 주식 거래에서 수익을 창출하는 데 능숙했다. AI의 가능성을 확인한 량원펑은 2023년 5월 하이플라이어의 AI 조직을 데리고 분사해 딥시크를 창업했다.
딥시크의 기업문화
딥시크는 젊은 연구원이 많기로 유명하다. 빅테크 기업들은 AI 업계에서 유명한 인물들을 모셔오기 경쟁을 펼치는 반면, 딥시크는 대학이나 대학원을 졸업하고 2년 이하의 경력을 가진 이들을 주로 채용했다. 날마다 새로운 기술이 등장하는 AI 분야에서는 경력과 경험이 큰 도움이 되지 않는다고 보는 것이다. 량원평 대표는 오히려 경험없는 이들이 새로운 문제 해결 방법을 잘 찾는다고 생각한다.
최근 딥시크 LLM의 비용을 절감시킨 1등 공신으로 꼽히는 전문가혼합모델(MoE)을 개발한 연구원 뤄푸리는 1995년생으로, 만 28세의 여성이다. 그는 2022년 하이-플라이어에 입사해 현재는 딥시크에서 AI 연구개발을 이끌고 있다.
또 딥시크에는 컴퓨터 과학 전공자가 60% 이하라고 알려져 있다. 대신 물리학이나 수학 전공자를 우대한다고 한다. 컴퓨터 과학자들이 알고리즘 최적화에 집중하는 반면, 기초과학 전공자들은 혁신적 아이디어를 제공하는 경향이 있다고 판단한 것이다. 예를 들어 멀티헤드 잠재 어텐션(MLA)이라는 기술 개발을 이끈 가오화쭤 연구원은 베이징대 물리학과 출신이다.
딥시크의 기술과 모델
딥시크가 주목을 받는 것은 모델을 훈련하는 방식이 오픈AI와 달랐기 때문이다. 예를 들어 딥시크는 강화학습을 주로 활용했다. 강화학습은 모델이 행동에 보상을 받으면서 외부의 개입없이 스스로 발전해가는 방식을 말한다. 반면 오픈AI는 주로 지도학습과 지침 기반 미세조정을 통해 모델을 발전시켜왔다.
아울러 딥시크는 일반적으로 사용되는 신경 보상 모델보다 성능이 뛰어난 규칙 기반 보상 시스템을 개발했다. 보상 엔지니어링은 훈련 중 AI 모델의 학습을 안내하는 인센티브 시스템을 설계하는 프로세스다.
또 수천억개의 매개변수를 사용하면서도 15억개 매개변수 수준의 크기로 모델을 정제했으며, 복잡한 추론 패턴을 명시적으로 프로그래밍하지 않고 강화학습을 통해 자연스럽게 발전할 수 있도록 했다.
앞에서 언급한 MoE나 MLA도 딥시크의 기술적 특징이다. MoE는 LLM 내부를 여러 개의 전문가 모듈로 나눠 필요한 전문가 모듈만 작동시켜 답을 얻는 방식이다. 이는 모델의 효율성과 확장성, 성능을 높이는 데 유용하다. MLA는 정보를 압축해 효율적으로 처리하는 기술이다.
딥시크 코더(Coder) | 2023년 11월 | 코딩 관련 작업을 위해 특별히 설계된 딥시크 최초의 모델. 오픈소스.
|
딥시크 LLM | 2023년 12월 | 딥시크의 첫번째 범용 LLM 모델. |
딥시크 V2 | 2024년 5월 | 딥시크의 LLM의 두 번째 버전. 강력한 성능과 낮은 교육 비용에 초점.
|
딥시크 코더 V2 | 2024년 7월 | 두 번째 코딩 모델. 12만8000개의 토큰 컨텍스트 창을 제공하며, 2360억개의 매개변수 보유.
|
딥시크 V3 | 2024년 12월 | 세 번째 LLM 모델. 6710억개의 매개변수. |
딥시크 R1 | 2025년 1월 | V3를 기반으로 하는 추론 모델. 오픈AI의 o1 모델과 성능 면에서 직접 경쟁. 고급 추론 작업에 초점을 맞추면서도 상당히 낮은 비용 구조를 유지하는 것이 특징. |
야누스(Janus) 프로 7B | 2025년 1월 | 12만8000개의 토큰 컨텍스트 창을 제공하고, 6710억개의 매개변수 보유. |
<딥시크의 AI 모델들>
딥시크 R1은 영어, 중국어, 코드, 수학에 대한 AI의 능력을 평가하는 다양한 벤치마크 테스트에서 높은 점수를 기록했다. 특히 수학 부문 AIME, MATH-500 등에서 높은 pass@1 기록을 보여줬다. 오픈AI나 엔트로픽의 경쟁 모델과 비교했을 때 경쟁력이 있다는 평가다.
딥시크 R1의 가장 큰 특징은 비용효율성이다. 학습에 오픈AI보다 현저히 적은 수의 GPU를 사용했으며, 약 600만 달러만 모델 개발에 사용했다고 회사 측은 밝히고 있다. 이는 오픈AI가 사용한 비용 대비 수십분의 1 수준이다. 이러한 효율성을 성취한 것은 주로 MoE 아키텍처 덕분이다. 이 아키텍처는 운영 중에 6710억 개의 파라미터 중 일부만 선택적으로 활성화해 성능 저하 없이 최적의 리소스 활용을 가능케 한다.
딥시크 R1의 또다른 특징은 오픈소스라는 점이다. 딥시크는 R1 오픈소스 라이선스 중 하나인 ‘MIT’를 취하고 있다. MIT 라이선스는 거의 제한이 없이 사용할 수 있는 라이선스다.
딥시크가 가져온 파장
딥시크 R1 출시 이후 이 모델이 오픈AI의 o1 수준이라는 평가를 받자, 업계는 발칵 뒤집어졌다. 우선 중국의 AI 기술력이 미국을 넘어서는 단계에 왔다는 점에서 국제 정재계를 긴장케 했다.
도널드 트럼프 대통령은 “중국 기업이 출시한 딥시크 AI는 우리 산업계에 경쟁에서 승리하기 위해 초집중해야 한다는 경종을 울리는 사건”이라고 밝혔다. 트럼프 정부는 미국의 AI 경쟁력 확보를 위해 대규모 정부지원금을 쏟아부을 예정이다.
실리콘밸리의 유명 벤처 캐피털리스트 마크 앤드리슨은 딥시크에 대해 “AI의 스푸트니크와 같은 순간”이라고 말했다. 스푸트니크는 세계 최초의 인공위성이다. 미국과 소련이 우주 기술 개발 경쟁을 펼치던 상황에서 소련이 먼저 인공위성 발사에 성공했었다. 미국은 스프트니크 발사에 자극을 받아 유인 우주선 아폴로 11호를 달에 착류시키는 데에 성공시켰다.
딥시크의 등장이 AI 업계에 어떤 영향을 미칠지는 아직 분명치 않지만, 지금까지와는 다른 방식으로 AI 개발이 진행될 가능성이 생겼다. 지금까지 AI는 투자된 자원과 비례해 성능이 발전해 왔다. 이 때문에 글로벌 빅테크와 빅테크 수준의 투자금을 유치한 스타트업만이 AI 모델을 개발할 수 있었다. 하지만 딥시크의 등장은 지금까지의 공식대로 하지 않아도 된다는 하나의 사례를 보여줬다.
미국의 주요 AI 관련 기업의 주가 딥시크의 등장으로 폭락한 것이 것도 주목할 파장이다. 엔비디아 주가는 17% 하락해 충격을 줬다. 엔비디아의 값비싼 최신형 고성능 GPU를 구매하지 않아도 AI를 개발할 수 있다는 사례를 보여줬기 때문이다. 마이크로소프트와 구글도 각각 3.8%, 4%씩 주가가 하락했다. 오픈AI와 스타게이트라는 대규모 데이터센터 구축 계획으로 주가가 13%나 치솟았던 오라클도 하루 만에 14% 하락했다.
미국의 칩 수출 금지가 오히려 중국의 자체적인 기술개발 노력을 강화하는 요소가 됐다는 평가도 나온다. 마리나 장 시드니 공과대학교 부교수는 “반도체 수출 제한 조치는 중국 기업들이 제한된 자원으로 더 많은 것을 해낼 수 있도록 혁신을 강요했다”고 말했다. 하지만 반대로 수출제한 조치를 더욱 강화해야 한다는 시각도 있다. 앤트로픽의 CEO 다리오 아모데이는 “오히려 수출 통제의 실질적 중요성이 한층 더 높아졌다고 본다”고 말했다.
국내 기업들은 반응이 엇갈린다. 삼성전자와 SK하이닉스 등 AI 관련 고사양 고대역폭메모리(HBM)를 공급하는 회사는 딥시크의 등장이 달갑지 않다. 트럼프 정부가 중국에 대한 반도체 수출 규제를 더욱 강화할 가능성이 생겼다. 딥시크 R1 개발에 엔비디아 H800이 사용됐는데, 이는 엔비디아가 반도체 수출 규제를 우회하기 위해 만든 저성능 AI 반도체다. H800만으로도 딥시크 R1을 만들 수 있다는 게 증명됐기 때문에 더 저성능의 GPU도 중국 수출이 금지될 가능성이 있다. 이 경우 엔비디아 GPU에 들어가는 HBM도 고성능일 필요가 없어 국내 반도체 업계에는 부정적 효과를 가져온다. 엔비디아 H800에는 옛 버전(3세대)의 HBM이 들어가 있다. HBM 수요 자체가 줄어들 수도 있다. 고성능 AI를 만들기 위해 고성능 GPU가 필요없다면 고성능 HBM 역시 필요없다는 결론이 나올 수 있다.
반면 네이버나 카카오 같은 AI 모델을 만드는 회사는 새로운 희망을 봤다. 이들이 국내대표 IT 기업이지만, 오픈AI나 마이크로소프트, 구글과 자본력 싸움을 하는 것은 불가능했는데, 딥시크처럼 최소한의 자본으로 고성능 AI를 만들어 낼 수도 있다는 희망이 생겼다.
글. 바이라인네트워크
<심재석 기자>shimsky@byline.network
[컨퍼런스] 2025 이커머스 비즈니스 인사이트 : 생존을 넘어 성장으로
◎ 일시 : 2025년 2월 18일 (화) 오후 12:30 ~ 17:20
[무료 웨비나] 개발자를 위한 클라우드플레어를 소개합니다
◎ 일시 : 2025년 2월 6일 (목) 14:00 ~ 15:00