2014년 어느 밤, 몬트리올의 한 술집. 28세의 박사과정 학생이 친구와 맥주를 마시다가 아이디어를 꺼냈다 — "두 신경망이 서로 속이고 잡아내는 게임을 시키면 어떨까?" 친구는 비웃었다. 그날 밤 그는 집에 가서 코드를 써서 돌렸다. 첫 번째 시도에 그게 작동했다.
아이디어 한 줄 — "Generator(생성자) vs Discriminator(판별자)의 적대적 게임". Generator는 가짜 이미지를 만들고, Discriminator는 진짜와 가짜를 구분한다. 둘이 동시에 학습하면, Generator는 점점 진짜 같은 이미지를, Discriminator는 점점 정밀한 판별을 배운다. 게임이 균형에 이르면 — Generator가 만든 이미지가 진짜와 구별 불가능해진다.
그가 만든 모델의 이름은 GAN (Generative Adversarial Network). 처음엔 흐릿한 28×28 손글씨 숫자를 생성했다. 그러나 4년 만에 — StyleGAN이 가짜 사람 얼굴을 1024×1024 해상도로 만들었고, 누구도 진짜와 구분하지 못했다.
"술집에 있을 때 갑자기 떠올랐다. 친구들은 절대 안 될 거라 했다. 집에 와서 와인 한 잔 마시고 코드를 짰다. 첫 시도에 작동했다. 그게 GAN이다."
— Ian Goodfellow, 2019 인터뷰GAN은 6년간(2014-2020) 이미지 생성의 왕이었다. StyleGAN, BigGAN, CycleGAN 등 화려한 후속이 쏟아졌다. 그러나 학계는 이미 알고 있었다 — GAN에는 두 가지 고질병이 있다.
2020년 6월. UC Berkeley의 한 박사과정 학생이 한 논문을 NeurIPS에 제출한다. 제목은 "Denoising Diffusion Probabilistic Models". 줄여서 DDPM.
아이디어는 거꾸로다. 이미지에 점점 노이즈를 추가해서 완전한 잡음으로 만든다 (forward). 그 과정을 신경망에게 학습시킨다. 그리고 반대로 잡음에서 점점 노이즈를 제거하면 — 원본 같은 이미지가 나온다 (reverse). 1000번의 작은 단계로 나누면 안정적으로 학습된다.
처음엔 GAN보다 한참 느렸다. 1장 생성에 몇 분. 그러나 품질·다양성·안정성이 압도적이었다. 모드 붕괴 없음. 학습이 망가지지 않음. 그리고 스케일을 키우면 그대로 좋아진다.
2022년 4월 — OpenAI DALL-E 2 공개. 5월 — Google Imagen. 둘 다 Diffusion 기반. 둘 다 비공개 (API만).
그리고 2022년 8월 22일 — 한 독일 회사가 모든 걸 바꿨다.
Latent Diffusion 논문(CVPR 2022)을 만든 두 명이, Stability AI와 협업해서 Stable Diffusion을 공개했다 — 모델 weights, 코드, 학습 데이터까지 전부 오픈소스. 누구나 자기 GPU에서 돌릴 수 있게 됐다. 그날 이후 며칠 만에 수만 개의 fine-tuning 모델, 수백 개의 응용 도구가 등장했다.
2024년 2월 15일. OpenAI가 Sora를 발표한다. 60초짜리 영상을 텍스트만으로 생성. 자연스러운 카메라 움직임, 일관된 캐릭터, 실제 같은 물리. 기술적 핵심 — Diffusion Transformer (DiT): U-Net 기반 Diffusion이 아니라 Transformer 기반으로 바꿈. 영상의 시간축을 attention으로 처리.
그리고 같은 해. 2024년 6월 Runway Gen-3, 같은 시기 중국 Kuaishou Kling이 영상 생성에 합류. 2024년 12월 Google Veo 2 발표로 Sora급 또는 그 이상의 영상 품질을 보여주기 시작했다. Hollywood VFX 스튜디오 일부가 일찍이 이 도구들을 도입하기 시작했다.
EP04에서 우리는 ChatGPT가 언어를 정복했다고 했다. EP05에서는 — Diffusion이 시각을 정복했다. 일러스트, 사진, 디자인, VFX, 영상 광고. 이 모든 산업이 2년 사이에 이전 세대 도구를 잃었다.
그리고 의외의 곳에서도 — Diffusion은 반도체 공장의 결함 데이터 합성(Intel GFA)에, 의료 영상 보강에, 약물 분자 설계(AlphaFold 다음 세대)에 사용된다. 잡음에서 의미 있는 패턴으로 가는 메커니즘은 — 이미지를 넘어 모든 데이터에 적용 가능하다는 것이 드러났다.
다음 편(EP06)에선 이 모든 모델을 굴리는 진짜 기반 — NVIDIA의 GPU를 다룬다. 1999년 GeForce 256에서 2024년 Blackwell까지. CUDA가 어떻게 모든 학계의 표준이 됐는지, 그리고 Google이 왜 자체 칩(TPU)을 만들었는지.