AI Lab · #06 GPU

CPU는 한 칸씩,
GPU는 동시에 다 같이

같은 행렬 곱셈을 두 가지 방식으로 처리하는 차이를 직접 보여줍니다. CPU(파랑)는 한 셀씩 순차적으로, GPU(초록)는 모든 셀을 동시에. 행렬이 커질수록 격차가 어떻게 벌어지는지 — 이게 NVIDIA의 30년이 만든 차이입니다.

📌 이게 뭐 하는 랩인가 A × B = C 행렬 곱셈에서 C의 각 셀은 서로 독립적으로 계산할 수 있습니다. CPU는 코어가 적어서 한 칸씩 순서대로 — 8×8이면 64 step. GPU는 수천 개의 작은 코어로 모든 셀을 거의 동시에 — 1 step. 이 단순한 병렬 가능성이 AI 학습에 GPU가 필수인 이유입니다.
📋 사용법
  1. 행렬 크기를 4×4 / 8×8 / 16×16 중에서 고르세요.
  2. CPU 모드 시작 — 한 셀씩 순차 계산. 한 step에 한 칸만 채워집니다.
  3. GPU 모드 시작 — 모든 셀을 동시에 계산. 한 step에 전체가 채워집니다.
  4. 아래 metrics 비교: 총 step 수 = N²(CPU) vs 1(GPU). 16×16이면 256배 차이.
  5. 실제 H100 GPU는 16,896 코어. 행렬이 더 클수록 GPU 우위가 더 커집니다.
A × B = C — CPU(순차) vs GPU(병렬) 비교
행렬 크기
현재 STEP
0
계산된 셀
0
남은 step
크기를 고르고 CPU 또는 GPU 모드를 눌러보세요.
파랑(CPU): N² step 필요. 초록(GPU): 1 step에 모든 셀이 완료. 노란 테두리: 현재 처리 중인 셀.

이게 왜 중요한가

실제 신경망 한 층의 forward pass는 가중치 행렬 W × 입력 벡터 x입니다. GPT-4 같은 모델의 한 층 W는 약 12,288 × 12,288 — 1억 5천만 개의 곱셈이 필요합니다. CPU로 하면 절망적, GPU로 하면 순식간.

그리고 진짜 차이는 코어 수입니다. Intel Core i9 = 24 코어. NVIDIA H100 = 16,896 CUDA 코어. GPU 코어 한 개는 CPU 코어보다 단순합니다(분기 예측·캐시 우선순위 등 다 빠짐) — 그러나 같은 일을 동시에 16,000개 한다는 것이 핵심입니다.

EP01에서 본 backprop을 떠올려 보세요. GPT-4 학습이란 1.8조 개의 가중치를 동시에 미세조정하는 일입니다. 매 step마다. 한 step이 GPU 클러스터에서 3-5초. 이걸 수억 step. GPU 없이는 절대 못 합니다.

📖
관련 글로 돌아가기
AI 진화사 EP06 — 패밀리 레스토랑에서 시작된 회사가 어떻게 AI 시대를 지배했나