[그게 뭔가요] AI 제품을 살 때 TOPS로 판단하는 게 맞나요?
최근 소비자용 CPU를 만드는 인텔, AMD, 퀄컴이 모두 경쟁적으로 ‘TOPS’ 성능을 내세우고 있습니다. 자사 제품의 온디바이스 AI 성능을 나타내기 위해서인데요. TOPS는 Tera Operations Per Second의 줄임말입니다. 초당 몇조번의 연산을 할 수 있느냐를 말하는 지표죠. 숫자로 보면 몇 업체의 TOPS 수치가 다른 업체보다 조금 높다는 걸 알 수 있는데요. TOPS 지표가 AI 성능을 완전히 대변할 수 있을지 알아보겠습니다.
TOPS vs. TFLOPS
과거 GPU의 딥러닝 연산 능력을 나타내는 지표로는 테라플롭스(TFLOPS)를 많이 사용했습니다. 여기서 테라(tera는 숫자의 조 단위, 플롭(FLOP)은 부동 소수점 연산(floating-point operations)을 말합니다. 컴퓨터는 2진수로 데이터를 처리하는데, 실수를 정밀하게 표현하려면 매우 큰 범위의 숫자와 작은 숫자를 모두 표현할 수 있어야 합니다. 정수형 데이터와는 달리, 소수점 이하까지 다루기 위해 부동소수점 방식을 사용하는 것입니다.
테라플롭스는 이 부동 소수점 연산을 실행했을 때 초당 몇조번 연산을 할 수 있는지를 나타내는 지표로 쓰이죠. 슈퍼컴퓨터나 고성능 컴퓨터의 연산은 주로 부동 소수점 연산을 사용하기 때문에, 테라플롭스는 주로 주로 고사양의 GPU나 CPU에서 자주 쓰이는 단위입니다.
TOPS와 테라플롭스는 비슷한 지표 같지만 조금 다릅니다. 테라플롭스는 주로 고성능 제품(CPU와 GPU)의 처리 성능을 나타내지만, TOPS는 NPU(Neural Processing Unit)의 초당 연산 능력을 나타냅니다. NPU는 주로 곱하기와 더하기 연산을 효율적으로 수행하는 데 중점을 두고 설계되었기 때문에, TOPS는 그 성능을 나타내는 단위로 활용됩니다. 따라서 TOPS는 스마트폰, 노트북 등 보다 소비자 친화적인 기기에서 자주 사용되는 경향이 있습니다.
TOPS 계산 방식: MAC 연산
TOPS는 NPU가 1초에 몇 조번의 연산을 수행할 수 있는지를 나타내는 단위입니다. 부동 소수점 연산이 아닌 정수 연산을 사용하는데요. 이 연산은 MAC(Multiply-Accumulate) 연산 방식으로 이루어집니다. MAC 연산이란 두 수를 곱한 뒤, 다음 두 수를 곱하고 그 결과를 더하는 방식으로, 이는 주로 신경망의 학습과 추론 과정에서 사용됩니다. 공식으로 나타내면 Y=W1X1 + W2X2 + … + Wn*Xn + b 와 같은 식인데 몰라도 됩니다.
TOPS는 MAC 연산 수 x 엔진 수 x 작동 클럭 / 1조로 계산합니다. 이를 통해 NPU의 성능을 평가할 수 있게 됩니다. 그리고 TOPS 숫자가 높을수록 이론적으로는 더 많은 연산을 처리할 수 있게 됩니다.
주요 제조사 TOPS 성능 경쟁
현재 AI 칩셋의 TOPS 성능을 경쟁적으로 공개하는 주요 제조사들은 AMD, 인텔, 퀄컴, 애플 등입니다. 이들 기업은 각자의 칩셋을 통해 AI 성능을 강조하며, 더 높은 TOPS 수치를 자랑하고 있습니다.
- AMD AI 300 칩셋: 최대 50TOPS, 가장 높은 성능을 자랑.
- 인텔 코어 울트라 200V (루나레이크 칩셋): 최대 48TOPS.
- 퀄컴 스냅드래곤 X 엘리트, X 플러스: 최대 45TOPS.
- 애플 M4 칩셋: 최대 38TOPS.
그렇다면 TOPS 성능이 AI 연산 성능을 완벽하게 대변하는 것일까요? 실제로 그렇지 않을 수 있습니다. 실제 성능을 좌우할 수 있는 여러 요인들이 존재하며, 아직 명확한 산업 표준이 마련되지 않았습니다.
INT8 vs. INT4: 연산 방식의 차이
AI 성능을 측정할 때, 보통 INT8이라는 8비트 정수 연산 방식이 사용됩니다. 이는 원래 데이터인 FP32 (32비트 부동소수점 데이터)를 8비트 정수로 변환해 연산하는 방식입니다. 이렇게 하면 메모리 사용량을 줄일 수 있고, 연산 속도도 빨라집니다.
인텔, AMD, 퀄컴은 모두 TOPS 성능을 계산할 때 INT8을 사용했다고 밝혔지만, 애플은 이 부분을 공개하지 않았습니다. 일부에서는 애플이 INT4를 사용했을 가능성도 있다고 밝히고 있습니다. INT4는 4비트 정수 연산 방식으로, 데이터의 정밀도를 더 낮추어 메모리 사용량을 극단적으로 줄이는 대신, 데이터의 정밀도가 두배로 높아지면 INT8 평가 기준 대비 절반 정도의 TOPS 수치를 기록할 수 있습니다. AI 모델의 성능 평가에서 TOPS 수치가 낮아지는 현상이 발생할 수 있습니다.
결론
결론적으로, TOPS 숫자만으로 AI 성능을 완벽하게 판단하는 것은 어렵습니다. 이는 곧 PC의 작동 환경, 열 처리 능력, 전력 소모량, 그리고 호환성 등의 여러 요소에 의해 영향을 받기 때문입니다.
예를 들어, 연산 중 발생하는 과도한 열로 인해 성능이 자동으로 낮아지는 현상인 ‘스로틀링(throttling)’이 발생한다면, 아무리 높은 TOPS를 자랑하는 칩셋이라도 실제 성능은 기대에 미치지 못할 수 있습니다. 또한, 전력 소모량도 중요한 요소로 작용합니다. 노트북과 같은 휴대용 기기에서는 전력 효율이 중요한데, 이를 고려하지 않고 단순히 연산 능력에만 집중하면 실사용 환경에서 문제가 발생할 수 있습니다.
이를 간파한 인텔은 자사의 코어 울트라 200V 칩셋이 경쟁사보다 전력 소모가 적다고 강조한 바 있습니다. 하지만, 이러한 주장만으로 성능을 단정하기는 어렵습니다.
또한, 퀄컴의 경우 ARM 설계를 사용하고 있어, 기존에 x86 기반으로 설계된 애플리케이션들과의 호환성이 나쁘다는 특징도 있습니다. 이러한 점을 두고 인텔과 AMD는 ‘완전한 AI PC’라는 주장을 하고 있기도 하죠. 코파일럿+ AI PC 시장을 연 기업은 퀄컴인데, 퀄컴 입장에서는 약간 아쉬울 수도 있겠죠.
TOPS는 중요한 지표이지만, 그것만으로 AI 성능을 완벽하게 평가할 수는 없습니다. 오히려 앞으로는 TOPS/W(전력 1와트당 AI 연산 수)가 더 중요한 지표가 될 가능성이 큽니다. 하지만 현재로서는 대부분의 기업들이 이 수치를 공개하지 않고 있는 상황입니다.
결론적으로, TOPS 수치는 참고용일 뿐입니다. TOPS 수치로만 AI 성능을 짐작하기는 어렵습니다. 더욱이 기업들이 밝힌 TOPS 성능이 45TOPS, 48TOPS, 50TOPS처럼 미세한 수준이므로, 실제로 중요한 것은 사용 환경과 필요에 맞는 CPU를 선택하는 것입니다.
글. 바이라인네트워크
<이종철 기자> jude@byline.network
[무료 웨비나] API연결만으로 가능한 빠르고 쉬운 웹3 서비스 구축
- 내용 : API 연결을 통해 웹2와 웹3를 끊김 없이 연결하는 최신 융합 기술과 이를 통한 적용 사례를 다룹니다.
- 일시 : 2024년 10월 10일 (목) 14:00 ~ 15:10