AI 진화사 · EP 05

술집에서 떠올린 아이디어가
그림 그리는 AI를 만들었다

2014년 어느 밤, 몬트리올의 한 술집. 28세의 박사과정 학생이 친구와 맥주를 마시다가 아이디어를 꺼냈다 — "두 신경망이 서로 속이고 잡아내는 게임을 시키면 어떨까?" 친구는 비웃었다. 그날 밤 그는 집에 가서 코드를 써서 돌렸다. 첫 번째 시도에 그게 작동했다.

5분 read 2026.05.04 2014 → 2026

012014년, GAN의 탄생

🍺

Ian Goodfellow

b.1985 · Université de Montréal · NeurIPS 2014 · 현 DeepMind

아이디어 한 줄 — "Generator(생성자) vs Discriminator(판별자)의 적대적 게임". Generator는 가짜 이미지를 만들고, Discriminator는 진짜와 가짜를 구분한다. 둘이 동시에 학습하면, Generator는 점점 진짜 같은 이미지를, Discriminator는 점점 정밀한 판별을 배운다. 게임이 균형에 이르면 — Generator가 만든 이미지가 진짜와 구별 불가능해진다.

그가 만든 모델의 이름은 GAN (Generative Adversarial Network). 처음엔 흐릿한 28×28 손글씨 숫자를 생성했다. 그러나 4년 만에 — StyleGAN이 가짜 사람 얼굴을 1024×1024 해상도로 만들었고, 누구도 진짜와 구분하지 못했다.

"술집에 있을 때 갑자기 떠올랐다. 친구들은 절대 안 될 거라 했다. 집에 와서 와인 한 잔 마시고 코드를 짰다. 첫 시도에 작동했다. 그게 GAN이다."

— Ian Goodfellow, 2019 인터뷰

02그런데 GAN에는 결정적 약점이 있었다

GAN은 6년간(2014-2020) 이미지 생성의 왕이었다. StyleGAN, BigGAN, CycleGAN 등 화려한 후속이 쏟아졌다. 그러나 학계는 이미 알고 있었다 — GAN에는 두 가지 고질병이 있다.

⚠️ GAN의 두 가지 함정

① 모드 붕괴(Mode Collapse) — Generator가 "이 한 종류만 잘 만들면 된다"고 학습해서 다양성을 잃는다. 1000개 카테고리 중 10개만 그리는 상황.
② 학습 불안정성 — 두 모델의 균형이 맞아야 하는데, 한쪽이 너무 잘하면 다른 쪽이 학습을 멈춘다. 학습 중에 갑자기 망가지는 일이 흔했다.

032020년, 노이즈에서 시작하는 새로운 길

2020년 6월. UC Berkeley의 한 박사과정 학생이 한 논문을 NeurIPS에 제출한다. 제목은 "Denoising Diffusion Probabilistic Models". 줄여서 DDPM.

🎨

Jonathan Ho

UC Berkeley → Google Brain · DDPM (NeurIPS 2020)

아이디어는 거꾸로다. 이미지에 점점 노이즈를 추가해서 완전한 잡음으로 만든다 (forward). 그 과정을 신경망에게 학습시킨다. 그리고 반대로 잡음에서 점점 노이즈를 제거하면 — 원본 같은 이미지가 나온다 (reverse). 1000번의 작은 단계로 나누면 안정적으로 학습된다.

처음엔 GAN보다 한참 느렸다. 1장 생성에 몇 분. 그러나 품질·다양성·안정성이 압도적이었다. 모드 붕괴 없음. 학습이 망가지지 않음. 그리고 스케일을 키우면 그대로 좋아진다.

042022년 8월, 모든 게 폭발했다

2022년 4월 — OpenAI DALL-E 2 공개. 5월 — Google Imagen. 둘 다 Diffusion 기반. 둘 다 비공개 (API만).

그리고 2022년 8월 22일 — 한 독일 회사가 모든 걸 바꿨다.

🌊

Robin Rombach & Patrick Esser

CompVis (LMU Munich) → Stability AI · Stable Diffusion (2022.08.22)

Latent Diffusion 논문(CVPR 2022)을 만든 두 명이, Stability AI와 협업해서 Stable Diffusion을 공개했다 — 모델 weights, 코드, 학습 데이터까지 전부 오픈소스. 누구나 자기 GPU에서 돌릴 수 있게 됐다. 그날 이후 며칠 만에 수만 개의 fine-tuning 모델, 수백 개의 응용 도구가 등장했다.

🌊 한 모델의 오픈소스 공개가 만든 파급

Stable Diffusion 공개 1년 후 — Civitai에 등록된 fine-tune 모델만 10만 개 이상. ControlNet (정밀 제어), LoRA (저비용 학습), DreamBooth (얼굴 학습) 등 핵심 도구가 모두 오픈소스 커뮤니티에서 나왔다. OpenAI/Google이 만든 큰 닫힌 모델보다, 작지만 열린 모델이 산업을 더 빨리 바꿨다는 사례.

052024년, 영상까지

2024년 2월 15일. OpenAI가 Sora를 발표한다. 60초짜리 영상을 텍스트만으로 생성. 자연스러운 카메라 움직임, 일관된 캐릭터, 실제 같은 물리. 기술적 핵심 — Diffusion Transformer (DiT): U-Net 기반 Diffusion이 아니라 Transformer 기반으로 바꿈. 영상의 시간축을 attention으로 처리.

그리고 같은 해. 2024년 6월 Runway Gen-3, 같은 시기 중국 Kuaishou Kling이 영상 생성에 합류. 2024년 12월 Google Veo 2 발표로 Sora급 또는 그 이상의 영상 품질을 보여주기 시작했다. Hollywood VFX 스튜디오 일부가 일찍이 이 도구들을 도입하기 시작했다.

06그래서 그림 그리는 AI의 의미는

EP04에서 우리는 ChatGPT가 언어를 정복했다고 했다. EP05에서는 — Diffusion이 시각을 정복했다. 일러스트, 사진, 디자인, VFX, 영상 광고. 이 모든 산업이 2년 사이에 이전 세대 도구를 잃었다.

그리고 의외의 곳에서도 — Diffusion은 반도체 공장의 결함 데이터 합성(Intel GFA)에, 의료 영상 보강에, 약물 분자 설계(AlphaFold 다음 세대)에 사용된다. 잡음에서 의미 있는 패턴으로 가는 메커니즘은 — 이미지를 넘어 모든 데이터에 적용 가능하다는 것이 드러났다.

다음 편(EP06)에선 이 모든 모델을 굴리는 진짜 기반 — NVIDIA의 GPU를 다룬다. 1999년 GeForce 256에서 2024년 Blackwell까지. CUDA가 어떻게 모든 학계의 표준이 됐는지, 그리고 Google이 왜 자체 칩(TPU)을 만들었는지.

🧪

직접 해보기 · AI Lab

노이즈 → 이미지 1000단계 직접 보기 →

Stable Diffusion이 어떻게 작동하는지 슬라이더 하나로 — Forward(학습 시 노이즈 추가)와 Reverse(생성 시 노이즈 제거)가 거울상이라는 것을 직접 확인하세요.

AI 진화사 · 시리즈 네비게이션

← 이전

EP04 · 5일 만에 100만 명 — ChatGPT 시대

EP06 · 패밀리 레스토랑에서 시작된 회사가 AI 시대를

술집에서 떠올린 아이디어가그림 그리는 AI를 만들었다