1993년 4월, 캘리포니아 새너제이의 한 Denny's에서 세 명이 회사를 세웠다. 게임용 그래픽 카드를 만들겠다고 했다. 그들은 AI나 인공지능 같은 단어를 한 번도 쓴 적이 없다. 30년 후 — 그 회사 시가총액이 Apple과 Microsoft를 넘었다.
30세의 대만계 미국인 Jensen Huang은 LSI Logic의 임원이었다. Sun Microsystems의 그래픽 엔지니어 두 명, Chris Malachowsky와 Curtis Priem과 새너제이의 Denny's 패밀리 레스토랑에서 만났다. "그래픽 카드를 만드는 회사를 차리자"는 한 줄에 합의. 6년 후 그들은 GPU라는 단어를 만들어낸다.
1999년 10월. NVIDIA가 한 칩을 발표한다. 이름은 GeForce 256. 그리고 마케팅 카피에 새 단어를 박았다 — "Graphics Processing Unit (GPU)". 이 단어가 그날 처음 세상에 나왔다.
그들이 풀고 싶었던 문제는 단순했다 — 3D 게임 화면을 빨리 그리는 것. 화면 한 프레임은 수백만 개의 픽셀로 이루어져 있고, 각 픽셀은 똑같은 종류의 계산을 한다(라이팅, 텍스처 매핑, 변환). CPU는 한 번에 한 픽셀씩 처리하니 너무 느렸다. "같은 계산을 동시에 수백 개 시키자" — 이게 GPU의 핵심 아이디어다.
2000년대 초반, 학계 일부가 이상한 시도를 시작했다. "GPU로 과학 계산을 할 수 없을까?" 그러나 GPU API(OpenGL, DirectX)가 그래픽 전용이라 — 행렬 곱셈을 텍스처 합성처럼 둘러서 표현해야 했다. 너무 어려워서 거의 아무도 안 했다.
Stanford에서 박사과정 중에 BrookGPU를 만들었던 사람. 2004년 NVIDIA에 합류해서 같은 아이디어를 칩 차원에서 다시 설계했다. 결과는 — 2007년 6월 공개된 CUDA. 일반 C 언어로 GPU를 프로그래밍할 수 있게 됐다. 학계의 진입 장벽이 사라졌다.
2009년 6월. Stanford의 Andrew Ng 그룹이 ICML에 한 논문을 발표한다 — "Large-scale Deep Unsupervised Learning using Graphics Processors". 핵심 결과: CUDA로 학습한 모델이 CPU 대비 70배 빨랐다. 학계가 충격에 빠졌다.
그리고 EP02에서 본 그 사건. 2012년 가을, ImageNet 대회에 Hinton의 두 제자가 참가한다 — Alex Krizhevsky, Ilya Sutskever. 그들이 학습에 쓴 GPU는 — NVIDIA GTX 580 두 개. 가정용 게이머 카드였다. 그들이 만든 'AlexNet'은 우승했다. 그리고 — 모든 vision 연구실이 NVIDIA GPU를 사기 시작했다.
2013년. Google 내부에서 한 분석이 나왔다 — "지금 사용자 모두가 음성 인식을 매일 3분만 써도, 우리 데이터센터를 두 배로 늘려야 한다." 답은? "NVIDIA GPU를 더 사면 된다"가 아니었다. "우리가 직접 칩을 만들자"가 답이었다.
Stanford 박사로 1980년대 MIPS·DEC Alpha CPU를 만든 베테랑. Google에서 TPU(Tensor Processing Unit)를 만들었다. 핵심 차이: GPU가 "다양한 병렬 계산"을 위한 칩이라면, TPU는 "신경망 행렬 곱셈만 정말 잘하는" 칩. 한 가지 task에 특화 → 효율이 GPU의 30-80배.
2016년 5월 Google I/O에서 TPU v1 공개. 2016년 3월 알파고 대 이세돌 5번기는 사실 TPU가 굴렸다. 같은 해 Google은 검색·번역·Photos에 TPU를 전면 도입. NVIDIA는 — 새 경쟁자를 인식했다.
2017-2026년 NVIDIA 데이터센터 GPU 흐름:
2024년 NVIDIA는 시가총액 $3조를 돌파하며 Apple·Microsoft를 넘었다. 그러나 진짜 충격적인 숫자는 — 전 세계 데이터센터 GPU 시장의 90%를 NVIDIA가 차지한다는 것. AMD MI300, Google TPU, Amazon Trainium, Microsoft Maia 등이 도전 중이지만 — CUDA 생태계의 잠재 비용 때문에 쉽게 옮기지 못한다.
2017년 Apple이 iPhone X에 한 칩을 넣었다. 이름은 Apple Neural Engine. NPU(Neural Processing Unit)라 부른다. 폰 안에서 직접 AI 모델을 돌리는 칩. 사진 자동 분류, Face ID, 음성 인식이 모두 클라우드 안 가고 폰 안에서 실행됐다.
2026년 현재, 거의 모든 폰 칩에 NPU가 들어 있다. Apple A18 Pro Neural Engine (35 TOPS), Samsung Exynos NPU, Qualcomm Hexagon, Google Tensor G4. Llama 3.2 1B 같은 작은 LLM이 이제 폰에서 직접 돈다. 클라우드를 거치지 않고. 이게 EP04에서 본 ChatGPT 시대의 다음 단계 — "모델이 폰까지 왔다".
EP01에서 우리는 1986년 Hinton의 역전파 알고리즘을 봤다. 그 알고리즘은 30년간 묻혀 있었다. "데이터가 부족하고 컴퓨터가 너무 느려서" — EP02에서 본 그 두 가지 한계 중 두 번째가 결국 풀린 게 GPU다.
같은 알고리즘, 같은 수학. 그러나 1986년 → 2012년 사이에 연산 속도가 100만 배 이상 빨라졌다. 그래서 — 똑같은 backprop이 갑자기 작동하기 시작했다. AI는 알고리즘 혁명이 아니라 하드웨어 혁명이었다는 시각이 가능한 이유다.
다음 편(EP07)에선 지금까지의 6편이 모두 모여서 — 실제로 한 산업을 어떻게 바꿨는지를 본다. SK하이닉스 Panoptes, NVIDIA cuLitho, Samsung Omniverse Twin. 반도체 공장 안에서 AI가 어떻게 굴러가고 있는지의 현장 이야기.