View

728x90
반응형

엔비디아 주가가 왜 그렇게 치솟는지 궁금했던 적이 있는가? 답은 한 줄이다. AI 학습과 추론에 GPU 서버가 절대적으로 필요하기 때문이다. 챗GPT, 클로드, 제미나이를 만드는 빅테크들은 한 장에 5천만 원에 달하는 H100 GPU를 수십만 대씩 확보하고 있다. 메타는 2024년에 H100 35만 대를 확보하겠다고 발표한 바 있다.

 

다만 진짜 의문은 따로 있다. CPU 역시 코어가 많고 빠른데, 왜 굳이 GPU를 쓰는가? 그리고 같은 GPU임에도 게이밍용 RTX 4090과 데이터센터용 H100을 따로 만드는 이유는 무엇인가? 이 글에서는 GPU 서버가 AI에서 압도적인 이유, 코어 수가 실제로 어느 정도 차이가 나는지, 성능 격차가 몇 배에 달하는지를 분석한다. 끝까지 읽으면 엔비디아 주가가 급등한 배경 또한 자연스럽게 이해된다.

 

결국 AI는 행렬 곱셈의 반복이다 — 그래서 GPU가 압도적이다

 

 

출처: community.deeplearning.ai

 

딥러닝이 실제로 무엇을 계산하는지 분석하면

 

딥러닝이라고 어렵게 표현하지만, 실제로 컴퓨터가 수행하는 작업은 단순하다. 거대한 숫자 행렬을 곱하고 또 곱하는 일이다. 신경망 레이어 하나는 행렬 곱셈 한 번에 해당한다. 100개 레이어로 구성된 모델은 행렬 곱셈을 100번 수행한다. 트랜스포머의 어텐션 메커니즘은 행렬 곱셈의 정점이라고 볼 수 있다.

 

GPT-4 같은 모델은 파라미터가 1조 개 단위에 이른다. 한 번 학습할 때마다 행렬 곱셈을 수십조 번 수행해야 한다. 단순한 작업이지만 분량이 압도적으로 많은 셈이다.

 

CPU는 박사 8명, GPU는 알바생 1만 명이다

 

이것이 GPU가 AI에서 압도적인 핵심 이유다. 비유로 풀어내면 이해가 빠르다.

 

  • CPU 코어 = 박사 학위자 8~24명. 복잡한 문제를 빠르게 풀어낸다. 분기 처리, 조건문, OS 관리 모두 능숙하다.
  • GPU 코어 = 알바생 1만 명. 한 명당 능력은 박사보다 훨씬 떨어진다. 다만 단순 곱셈/덧셈을 1만 명이 동시에 처리한다.

 

복잡한 일 하나는 박사가 빠르다. 다만 단순 작업 1만 개를 동시에 처리해야 한다면 어떨까? 박사 8명이 1250개씩 나누어 처리하는 것보다 알바생 1만 명이 한 개씩 동시에 끝내는 편이 압도적으로 빠르다. AI 학습은 단순 행렬 연산의 무한 반복이므로, 알바생 1만 명에 해당하는 GPU가 우위를 차지할 수밖에 없다.

 

SIMD/SIMT를 한 줄로 정리하면

 

이를 컴퓨터공학 용어로는 SIMT(Single Instruction, Multiple Threads)라고 부른다. 같은 명령어("이 두 숫자를 곱하라")를 여러 데이터에 한 번에 적용하는 방식이다. CPU는 한 코어가 한 명령어를 한 데이터에 적용한다. GPU는 한 명령어를 수천 개 데이터에 동시에 적용한다. 이러한 구조 차이가 AI 워크로드에서 거대한 격차를 만들어낸다.

 

GPU 코어 수를 비교하면 차이가 압도적이다

 

 

출처: www.cnet.com

 

일반 소비자 GPU 기준

 

먼저 게이밍 GPU와 CPU의 코어 수부터 비교해 보았다. 숫자만 봐도 격차가 드러난다.

 

  • 인텔 i9-14900K (2024 플래그십 CPU): 24코어 (성능 코어 8 + 효율 코어 16)
  • AMD 라이젠 9 7950X: 16코어 32스레드
  • 엔비디아 RTX 4090 (게이밍 플래그십): CUDA 코어 16,384개 + 텐서 코어 512개

 

i9 24코어 대 RTX 4090 16,384 CUDA 코어. 약 600배의 차이다. 농담이 아니다. 그래서 게임에서 광선추적(Ray Tracing) 같은 병렬 작업을 GPU가 담당하는 것이다.

 

데이터센터 GPU는 또 다른 차원이다

 

다만 게이밍 GPU는 약과에 불과하다. 데이터센터 전용 GPU로 가면 코어 수가 또 달라진다.

 

  • 엔비디아 H100 SXM: CUDA 코어 16,896개 + 텐서 코어 528개 + FP8/Transformer Engine 지원
  • 엔비디아 B200 (블랙웰, 2024년 출시): H100 대비 학습 성능 약 2.5배, 추론 성능 약 5배
  • AMD MI300X: 컴퓨트 유닛(CU) 304개 + HBM3 192GB

 

H100은 단순 코어 수보다 텐서 코어가 핵심이다. 텐서 코어는 행렬 연산 전용 가속기로, 일반 CUDA 코어보다 행렬 곱셈을 훨씬 빠르게 수행한다. AI 학습에 극단적으로 최적화된 칩인 것이다.

 

코어 수 + 성능 비교표

 

직관적으로 비교하기 위해 표로 정리했다.

 

칩셋 종류 주요 코어 FLOPS (FP16/FP32) 메모리 메모리 대역폭 TDP 가격대
인텔 i9-14900K CPU 24코어 약 1.4 TFLOPS (FP32) 시스템 RAM (DDR5) 약 90 GB/s 253W 80만원
RTX 4090 게이밍 GPU CUDA 16,384 + 텐서 512 83 TFLOPS (FP32) GDDR6X 24GB 1,008 GB/s 450W 250만원
H100 SXM 데이터센터 GPU CUDA 16,896 + 텐서 528 989 TFLOPS (TF32 텐서) / 1,979 TFLOPS (FP16 텐서) HBM3 80GB 3,350 GB/s 700W 4,500만원
B200 데이터센터 GPU (H100 대비 2배+) 약 2,250 TFLOPS (FP16) HBM3e 192GB 8,000 GB/s 1,000W 5,500만원~

 

표만 봐도 답은 분명하다. i9 1 TFLOPS 대 H100 989 TFLOPS — 약 1000배의 차이다. 행렬 연산에 한정된 성능이라고 해도 AI 워크로드에서는 이것이 곧 학습 속도에 직결된다.

 

"코어"라는 단어가 같은 것이 아니다

 

여기서 짚고 넘어갈 지점이 있다. CPU 코어와 GPU 코어는 이름만 같을 뿐 완전히 다른 물건이다.

 

  • CPU 코어: 분기 예측, 캐시, OS 호환, 복잡한 명령어를 모두 처리하는 종합 처리 유닛이다. 코어 하나가 사실상 작은 컴퓨터 수준이다.
  • GPU 코어 (CUDA 코어): 부동소수점 곱셈/덧셈만 빠르게 수행하는 단순 계산 유닛이다. 코어 하나가 사실상 계산기 한 대 수준이다.

 

따라서 "GPU 코어 1만 개 = CPU 코어 1만 개"라고 이해해서는 안 된다. 단순 작업에서는 GPU가 우위, 복잡한 작업에서는 CPU가 우위다. AI는 단순 작업이 압도적으로 많은 영역이므로 GPU가 정답인 셈이다.

 

GPU 대 CPU 성능 차이는 비현실적이다 — AI 워크로드 실측 수치를 정리한다

 

 

출처: infoupdate.org

 

학습(Training) 성능 비교

 

GPT-3 학습에 투입된 GPU 자원이 공개되었는데, 수치를 보면 어이가 없을 정도다.

 

  • GPT-3 학습: V100 GPU 약 1만 대 × 한 달 = 약 3,640 PF-days (페타플롭스-일) 연산량
  • GPT-4 추정치: H100 기준 수만 대 × 수개월
  • CPU로 학습한다면? 단순 환산하면 수백 년 단위가 소요된다. 사실상 불가능하다.

 

왜일까? 앞서 살펴보았듯 코어 수와 텐서 코어 가속에서 1000배의 차이가 나기 때문이다. 그래서 AI 회사들이 GPU 서버 없이는 큰 모델을 만들지 못한다. CPU만으로는 게임 자체가 성립하지 않는다.

 

추론(Inference) 성능

 

학습이 끝난 모델을 실제 서비스로 운영할 때(추론)도 GPU가 압도적이다.

 

  • LLM 토큰 생성 속도: GPU 대비 CPU는 약 50~200배 느리다
  • 결정적 변수는 메모리 대역폭이다: HBM3 대역폭 3,350 GB/s 대 DDR5 대역폭 90 GB/s. 약 37배 차이
  • 추론은 모델 가중치를 메모리에서 읽어오는 일이 병목이며, 메모리 대역폭이 곧 속도를 좌우한다

 

챗GPT 답변이 1초도 되지 않아 토큰을 쏟아내는 이유는 H100급 GPU에 HBM 메모리가 탑재되어 있기 때문이다. CPU 서버로 같은 모델을 돌리면 한 단어를 출력하는 데도 몇 초씩 걸린다.

 

TFLOPS 기준으로 보면 직관적이다

 

플롭스(FLOPS, 초당 부동소수점 연산 횟수) 기준으로 보면 다음과 같이 정리된다.

 

  • 인텔 i9-14900K: 약 1 TFLOPS (FP32)
  • RTX 4090: 약 83 TFLOPS (FP32) → CPU 대비 83배
  • H100 SXM: 약 989 TFLOPS (TF32 텐서, FP16은 1,979 TFLOPS) → CPU 대비 약 1000배
  • B200: 약 2,250 TFLOPS (FP16) → CPU 대비 약 2250배

 

여기서 1000배는 단순 수사가 아닌 실측 수치다. AI 학습이 GPU 서버 없이는 굴러가지 않는 이유가 바로 이것이다.

 

게이밍 GPU를 두고 굳이 서버급 GPU를 쓰는 이유는 무엇인가

 

 

출처: server-parts.eu

 

여기서 또 다른 의문이 생긴다. RTX 4090도 코어 16,384개에 83 TFLOPS인데, 이를 1만 대 묶으면 H100 1만 대보다 저렴하지 않겠는가? 답은 그렇지 않다이다. 이유를 분석해 보았다.

 

메모리 용량과 ECC

 

LLM은 모델 자체가 비정상적으로 크다.

 

  • GPT-3 (175B): FP16 기준 약 350GB 메모리가 필요하다
  • LLaMA 70B: FP16 기준 약 140GB
  • RTX 4090 메모리: 24GB. 모델 자체를 올리지도 못한다.
  • H100 메모리: 80GB. B200: 192GB.

 

게이밍 GPU 24GB로는 70B 모델 절반도 들어가지 않는다. 큰 모델을 학습하거나 추론하려면 메모리가 큰 GPU가 필수다. 그리고 ECC (오류 정정 메모리) 또한 중요하다. 24/7 학습을 돌리는 환경에서 메모리 비트 하나가 뒤집히면 학습 전체가 어그러진다. 게이밍 GPU에는 ECC가 없다. 서버 GPU에는 있다.

 

NVLink와 인터커넥트

 

GPU 한 대로는 부족하므로 여러 대를 묶어서 사용해야 한다. 묶을 때 GPU끼리 데이터를 주고받는 속도가 중요해진다.

 

  • NVLink 5 (B200): GPU간 1.8 TB/s
  • PCIe Gen5 (게이밍 GPU): 약 64 GB/s

 

약 28배의 차이다. 게이밍 GPU 1만 대를 묶어봐야 GPU끼리 데이터를 주고받지 못해 학습이 막힌다. 그래서 데이터센터 GPU에는 NVLink가 별도로 탑재되어 있고, InfiniBand 같은 초고속 네트워크가 랙 사이를 연결한다.

 

24/7 데이터센터 운영 안정성

 

게이밍 GPU는 하루 4~8시간 가동을 가정해 설계된다. 데이터센터 GPU는 1년 365일 100% 풀로드를 가정해 설계된다. 부품 등급, 쿨링, 전력 회로가 완전히 다르다. 게이밍 GPU를 풀로드로 1년 돌리면 그대로 수명이 끝난다.

 

가격 차이가 벌어진 이유

 

이 모든 차이로 인해 가격이 극단적으로 벌어진다.

 

  • RTX 4090: 약 250만원
  • H100 SXM: 약 4,500~5,000만원 (한 장에)
  • B200: 약 5,500~7,000만원 (추정)

 

한 장에 5천만 원짜리를 1만 대 구매하면 5,000억 원이다. 다만 빅테크들은 실제로 이 금액을 투자하고 있다.

 

그래서 AI 회사들이 GPU 서버에 도대체 얼마를 쏟는가

 

 

출처: logicstechnology.com

 

메타, MS, 구글, xAI의 GPU 확보 경쟁

 

빅테크들의 H100 사재기는 2023~2024년 가장 뜨거웠던 산업 뉴스였다.

 

  • 메타: 2024년 말까지 H100 35만 대 확보 발표 (마크 저커버그)
  • 머스크의 xAI: 콜로서스 데이터센터 GPU 10만 대 클러스터 구축
  • MS: 오픈AI 학습용으로 H100 수십만 대 확보
  • 구글: 자체 TPU와 엔비디아 GPU 병행 사용

 

H100 한 장이 5천만 원이라면 10만 대는 5조 원에 해당한다. 머스크의 콜로서스 한 곳이 5조 원짜리 시설이라는 의미다. 클러스터 한 개에 수조 원이 투입되는 셈이다.

 

전력 소비 또한 비현실적인 수준이다

 

GPU 1만 대 클러스터는 메가와트급 발전소 한 개에 해당한다.

 

  • H100 한 대: 700W (소비 전력)
  • B200 한 대: 1,000W
  • GPU 1만 대 클러스터: 7~10 MW
  • 소도시 한 동네의 전력 소비량과 유사하다

 

그래서 최근 빅테크들이 "데이터센터 옆에 원전을 짓겠다"는 발표를 내놓는 것이다. MS는 쓰리마일아일랜드 원전 재가동 계약을 체결했고, 구글은 SMR(소형 모듈 원자로) 도입을 추진 중이다. AI 인프라 = 전력 인프라라는 등식이 실제로 성립한다.

 

CUDA 락인 문제 — 엔비디아의 진짜 해자

 

여기서 마지막 의문이 남는다. AMD GPU가 더 저렴한데 왜 사용하지 않는가? AMD MI300X도 H100과 스펙이 비슷하고 메모리(192GB)는 오히려 더 크다. 가격도 더 저렴하다. 다만 AI 회사들의 90% 이상은 엔비디아를 쓴다.

 

답은 CUDA 생태계 락인이다.

 

  • 파이토치, 텐서플로우, JAX 등 모든 AI 프레임워크가 CUDA 기반으로 최적화되어 있다
  • AMD ROCm은 호환성 문제, 버그, 라이브러리 부족으로 갈아타는 비용이 비현실적으로 크다
  • 엔지니어를 구하기도 어렵다 (CUDA 전문가만 풍부하다)

 

엔비디아의 진짜 해자는 하드웨어가 아니라 소프트웨어 생태계다. 칩만 잘 만들어 시총 4조 달러를 찍은 것이 아니라, CUDA라는 생태계를 15년간 축적해 온 결과다. AMD가 따라잡으려면 하드웨어만 좋아서는 부족하고 생태계까지 구축해야 한다. 이것이 단기간에 이루어지지 않으므로 엔비디아 주가가 급등하는 것이다.

 

정리하면 GPU 서버가 AI의 심장인 이유는 다음과 같다

 

여기까지 읽었다면 GPU 서버가 왜 AI의 심장인지 감을 잡았을 것이다. 핵심 5가지로 정리한다.

 

  1. AI = 행렬 곱셈의 반복 = 병렬 처리 = GPU. CPU 박사 24명보다 GPU 알바생 1만 명이 단순 작업에서는 압도적이다.
  2. 코어 수 차이만 600~1000배에 달한다. i9 24코어 대 H100 16,896코어. 비교가 성립하지 않는다.
  3. 성능은 50~1000배 차이다. TFLOPS 기준 i9 1 TFLOPS 대 H100 989 TFLOPS. CPU로는 LLM 학습 자체가 불가능하다.
  4. 서버급 GPU(H100, B200)는 메모리/ECC/NVLink/안정성 때문에 별도로 만든다. 게이밍 GPU 1만 대로는 큰 모델을 학습할 수 없다. 메모리부터 부족하다.
  5. 엔비디아 주가 급등의 이유는 AI = GPU 서버 수요 폭증 + CUDA 생태계 락인이다. 단기간에 따라잡지 못한다.

 

결국 "왜 AI에 GPU 서버를 쓰는가"라는 질문의 답은 단순하다. 다른 선택지가 없기 때문이다. CPU로는 시간이 100배 이상 소요되어 사실상 불가능하고, AMD GPU는 CUDA 생태계가 부족하며, TPU는 구글 내부용에 한정된다. 엔비디아 H100/B200 외에는 답이 없는 시장 구조가 형성된 상태다.

 

다음에 더 다뤄볼 만한 주제로는 "CUDA가 무엇이기에 그렇게 강력한가", "ChatGPT 학습 비용은 실제로 얼마였는가", "AMD가 엔비디아를 따라잡지 못하는 진짜 이유" 정도가 있다. 더 궁금한 점이 있다면 댓글로 남겨주기 바란다. 다음 글에 반영할 수 있다.

728x90
반응형
Share Link
reply
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31