1989년, Bell Labs 한 연구소에서 컴퓨터가 처음으로 손글씨 우편번호를 읽기 시작했다. 그리고 23년의 침묵. 2012년 가을, 한 모델이 ImageNet 대회를 박살내면서 — 모든 게 바뀐다.
1989년. New Jersey에 있는 AT&T Bell Labs. 28세의 프랑스인 연구자가 한 가지 발표를 한다. 그의 이름은 Yann LeCun. 발표 내용은 단순했다 — "신경망으로 손글씨 숫자를 인식했다."
1989년 LeNet, 1998년 LeNet-5를 만든 사람. CNN(Convolutional Neural Network)의 사실상 창시자. 2018년 Hinton·Bengio와 함께 튜링상 수상.
LeCun이 만든 모델 'LeNet'은 두 가지 핵심 아이디어를 도입했다. ① 국소성(locality) — 픽셀 한 점은 주변 픽셀과만 의미 있게 연관된다. ② 가중치 공유(weight sharing) — 같은 작은 필터(예: 3×3)를 이미지 전체에 슬라이딩한다.
이 두 가지 덕분에 100×100 흑백 이미지를 처리하는 데 필요한 가중치 수가 100만 개에서 9개로 압축됐다. 학습 가능해진 것이다.
1998년 LeCun이 'LeNet-5'를 발표한 이후, CNN은 학계 외에선 거의 언급되지 않았다. 1990년대~2010년대 초까지 컴퓨터 비전의 표준은 신경망이 아니었다. SVM, HOG, SIFT 같은 더 단순한 기법들이 더 잘 작동했다.
이유는 명확했다. 신경망을 제대로 학습시키려면 수십만~수백만 장의 라벨된 이미지 + 빠른 GPU가 필요한데, 둘 다 없었다. CNN은 1990년대 내내 "이론적으로는 우아하지만 실제로는 안 되는 것"으로 분류됐다.
2012년 ImageNet 대회(ILSVRC). 120만 장의 이미지를 1,000개 카테고리로 분류하는 글로벌 대회. 결과 발표는 그해 가을이었다. 토론토 대학의 한 팀이 압도적 1위를 했다 — Top-5 오차율 26.2% → 15.3%로 단숨에 떨어뜨렸다.
그 모델의 이름은 'AlexNet'. 만든 사람은 세 명.
Hinton(EP01의 그 Hinton)의 두 박사과정 학생이 함께 만들었다. AlexNet은 8층 CNN을 NVIDIA GTX 580 GPU 2개로 학습시켰다 — 이게 모든 것의 시작이었다. ReLU 활성화, dropout 정규화 등 오늘날의 표준 기법들이 모두 이 논문에서 정립됐다.
그리고 — 딥러닝의 시대가 본격 시작됐다.
2012-2014년. 모두가 신경망을 더 깊게 쌓으려 했다. AlexNet 8층 → VGG 16층 → 19층. 그런데 이상한 일이 일어났다 — 20층 넘어가면 오히려 성능이 떨어졌다.
2015년 12월, 베이징에서 ResNet을 발표. 핵심 아이디어 한 줄 — "한 층의 출력에 그 층의 입력을 더한다." 이걸 skip connection (y = F(x) + x)이라 부른다. 이 단순한 변경으로 152층까지 학습이 가능해졌다.
ResNet은 ImageNet에서 인간 수준 분류 정확도(상위-5 오차 3.57%)를 달성했다. 그리고 — 오늘날 거의 모든 vision 모델, 그리고 Transformer까지도 skip connection을 쓴다. 2026년 현재 ResNet 논문은 인용 횟수 기준 AI 분야 1-2위를 다툰다.
2017년 Google이 발표한 Transformer(EP03에서 다룰 예정)가 언어 처리를 정복한 후, 사람들은 묻기 시작했다 — "Transformer를 이미지에도 쓸 수 있을까?"
2020년 10월, Google Research가 ViT (Vision Transformer)를 발표했다. 이미지를 16×16 patch로 잘라 token처럼 취급하고, 그 patch들 사이의 attention을 학습. 결과 — CNN을 큰 데이터셋에서 능가하기 시작했다.
지금 당신이 쓰는 폰 카메라의 자동 인물 인식, Tesla 자율주행의 보행자 감지, Samsung·LG 반도체 공장의 결함 검출, 의료 X-ray 분석 — 모두 CNN(또는 그 후예)이 핵심이다.
1989년 LeCun이 만든 9개 가중치의 작은 필터가, 지금은 ResNet-152로 1000만 개 가중치, ViT-Huge로 6억 개 가중치까지 커졌다. 그러나 "작은 필터를 슬라이딩한다"는 핵심 아이디어는 변하지 않았다.
다음 편(EP03)에선 1997년 Sepp Hochreiter & Jürgen Schmidhuber가 만든 LSTM에서 시작해서, 2017년 Google의 "Attention is All You Need" 논문으로 모든 것을 통일한 Transformer까지 — 컴퓨터가 언어를 다루는 법을 배운 20년사를 따라간다.