AI 진화사 · EP 06

패밀리 레스토랑에서 시작된 회사가
어떻게 AI 시대를 지배했나

1993년 4월, 캘리포니아 새너제이의 한 Denny's에서 세 명이 회사를 세웠다. 게임용 그래픽 카드를 만들겠다고 했다. 그들은 AI나 인공지능 같은 단어를 한 번도 쓴 적이 없다. 30년 후 — 그 회사 시가총액이 Apple과 Microsoft를 넘었다.

6분 read 2026.05.05 1993 → 2026

011993년 4월, 어느 패밀리 레스토랑

🍔
Jensen Huang · Chris Malachowsky · Curtis Priem
NVIDIA 공동 창업자 · 1993.04, San Jose Denny's · 자본금 $40,000

30세의 대만계 미국인 Jensen Huang은 LSI Logic의 임원이었다. Sun Microsystems의 그래픽 엔지니어 두 명, Chris Malachowsky와 Curtis Priem과 새너제이의 Denny's 패밀리 레스토랑에서 만났다. "그래픽 카드를 만드는 회사를 차리자"는 한 줄에 합의. 6년 후 그들은 GPU라는 단어를 만들어낸다.

1999년 10월. NVIDIA가 한 칩을 발표한다. 이름은 GeForce 256. 그리고 마케팅 카피에 새 단어를 박았다 — "Graphics Processing Unit (GPU)". 이 단어가 그날 처음 세상에 나왔다.

그들이 풀고 싶었던 문제는 단순했다 — 3D 게임 화면을 빨리 그리는 것. 화면 한 프레임은 수백만 개의 픽셀로 이루어져 있고, 각 픽셀은 똑같은 종류의 계산을 한다(라이팅, 텍스처 매핑, 변환). CPU는 한 번에 한 픽셀씩 처리하니 너무 느렸다. "같은 계산을 동시에 수백 개 시키자" — 이게 GPU의 핵심 아이디어다.

022007년, GPU를 게임 밖으로 끌어낸 사람

2000년대 초반, 학계 일부가 이상한 시도를 시작했다. "GPU로 과학 계산을 할 수 없을까?" 그러나 GPU API(OpenGL, DirectX)가 그래픽 전용이라 — 행렬 곱셈을 텍스처 합성처럼 둘러서 표현해야 했다. 너무 어려워서 거의 아무도 안 했다.

⚙️
Ian Buck
Stanford 박사(2004) → NVIDIA · CUDA 창시자 · 현 NVIDIA VP

Stanford에서 박사과정 중에 BrookGPU를 만들었던 사람. 2004년 NVIDIA에 합류해서 같은 아이디어를 칩 차원에서 다시 설계했다. 결과는 — 2007년 6월 공개된 CUDA. 일반 C 언어로 GPU를 프로그래밍할 수 있게 됐다. 학계의 진입 장벽이 사라졌다.

032009-2012, 학계가 발견한 비밀

2009년 6월. Stanford의 Andrew Ng 그룹이 ICML에 한 논문을 발표한다 — "Large-scale Deep Unsupervised Learning using Graphics Processors". 핵심 결과: CUDA로 학습한 모델이 CPU 대비 70배 빨랐다. 학계가 충격에 빠졌다.

그리고 EP02에서 본 그 사건. 2012년 가을, ImageNet 대회에 Hinton의 두 제자가 참가한다 — Alex Krizhevsky, Ilya Sutskever. 그들이 학습에 쓴 GPU는 — NVIDIA GTX 580 두 개. 가정용 게이머 카드였다. 그들이 만든 'AlexNet'은 우승했다. 그리고 — 모든 vision 연구실이 NVIDIA GPU를 사기 시작했다.

📌 게임 카드가 AI 인프라가 된 순간
당시 NVIDIA에게 "AI"는 부수적 카테고리였다. GeForce는 게이머용, Quadro는 워크스테이션용. 2012년 AlexNet의 충격 이후 — Jensen Huang은 여러 차례 인터뷰와 키노트에서 "당시에는 25년 후 AI가 NVIDIA의 핵심이 될 거라고 예상하지 못했다"는 취지의 회고를 남겼다. 2017년 Volta(Tensor Core) 도입이 AI 전용 칩 시대로의 공식 전환점이었다.

042016년, Google이 자기 칩을 만들기 시작했다

2013년. Google 내부에서 한 분석이 나왔다 — "지금 사용자 모두가 음성 인식을 매일 3분만 써도, 우리 데이터센터를 두 배로 늘려야 한다." 답은? "NVIDIA GPU를 더 사면 된다"가 아니었다. "우리가 직접 칩을 만들자"가 답이었다.

🔷
Norman Jouppi
Google · TPU 프로젝트 리드 · ISCA 2017 발표 · MIPS·DEC Alpha 전 설계자

Stanford 박사로 1980년대 MIPS·DEC Alpha CPU를 만든 베테랑. Google에서 TPU(Tensor Processing Unit)를 만들었다. 핵심 차이: GPU가 "다양한 병렬 계산"을 위한 칩이라면, TPU는 "신경망 행렬 곱셈만 정말 잘하는" 칩. 한 가지 task에 특화 → 효율이 GPU의 30-80배.

2016년 5월 Google I/O에서 TPU v1 공개. 2016년 3월 알파고 대 이세돌 5번기는 사실 TPU가 굴렸다. 같은 해 Google은 검색·번역·Photos에 TPU를 전면 도입. NVIDIA는 — 새 경쟁자를 인식했다.

052024년, 모든 AI 회사가 줄을 서다

2017-2026년 NVIDIA 데이터센터 GPU 흐름:

V100
2017 · Volta
최초 Tensor Core. AI 학습용 칩 시대 시작.
A100
2020 · Ampere
GPT-3 학습. 코로나 시대 클라우드 폭증.
H100
2022 · Hopper
GPT-4 학습 표준. 한 장 $30,000+.
H200
2024 · Hopper
141GB HBM3e — SK하이닉스 공급.
B200
2024 · Blackwell
208B 트랜지스터. 한 보드에 GPU 2개.
GB300
2025 · Blackwell Ultra
B200의 후속. 추론용 효율 강화.

2024년 NVIDIA는 시가총액 $3조를 돌파하며 Apple·Microsoft를 넘었다. 그러나 진짜 충격적인 숫자는 — 전 세계 데이터센터 GPU 시장의 90%를 NVIDIA가 차지한다는 것. AMD MI300, Google TPU, Amazon Trainium, Microsoft Maia 등이 도전 중이지만 — CUDA 생태계의 잠재 비용 때문에 쉽게 옮기지 못한다.

06그리고 한 가지 더 — 폰 안의 NPU

2017년 Apple이 iPhone X에 한 칩을 넣었다. 이름은 Apple Neural Engine. NPU(Neural Processing Unit)라 부른다. 폰 안에서 직접 AI 모델을 돌리는 칩. 사진 자동 분류, Face ID, 음성 인식이 모두 클라우드 안 가고 폰 안에서 실행됐다.

2026년 현재, 거의 모든 폰 칩에 NPU가 들어 있다. Apple A18 Pro Neural Engine (35 TOPS), Samsung Exynos NPU, Qualcomm Hexagon, Google Tensor G4. Llama 3.2 1B 같은 작은 LLM이 이제 폰에서 직접 돈다. 클라우드를 거치지 않고. 이게 EP04에서 본 ChatGPT 시대의 다음 단계 — "모델이 폰까지 왔다".

🔑 GPU vs TPU vs NPU
GPU (NVIDIA): 가장 범용. 학습·추론 다 함. 비싸고 큼. 데이터센터 표준.
TPU (Google): 행렬 곱셈에 극단적 특화. 효율 압도적. Google 안에서만 씀.
NPU (Apple/Samsung/...): 작고 효율적. 폰·노트북·로봇에 들어감. 추론 전용.

07그래서 칩 이야기의 의미는

EP01에서 우리는 1986년 Hinton의 역전파 알고리즘을 봤다. 그 알고리즘은 30년간 묻혀 있었다. "데이터가 부족하고 컴퓨터가 너무 느려서" — EP02에서 본 그 두 가지 한계 중 두 번째가 결국 풀린 게 GPU다.

같은 알고리즘, 같은 수학. 그러나 1986년 → 2012년 사이에 연산 속도가 100만 배 이상 빨라졌다. 그래서 — 똑같은 backprop이 갑자기 작동하기 시작했다. AI는 알고리즘 혁명이 아니라 하드웨어 혁명이었다는 시각이 가능한 이유다.

다음 편(EP07)에선 지금까지의 6편이 모두 모여서 — 실제로 한 산업을 어떻게 바꿨는지를 본다. SK하이닉스 Panoptes, NVIDIA cuLitho, Samsung Omniverse Twin. 반도체 공장 안에서 AI가 어떻게 굴러가고 있는지의 현장 이야기.

🧪
직접 해보기 · AI Lab
CPU vs GPU 행렬곱 직접 비교 →
같은 8×8 행렬 곱셈을 CPU(순차)와 GPU(병렬)로 처리하는 차이를 시각적으로 비교. 행렬 크기를 키우면 격차가 어떻게 벌어지는지 직접 확인.
AI 진화사 · 시리즈 네비게이션