AI 진화사 · EP 02

컴퓨터가 눈을
가지게 된 30년 이야기

1989년, Bell Labs 한 연구소에서 컴퓨터가 처음으로 손글씨 우편번호를 읽기 시작했다. 그리고 23년의 침묵. 2012년 가을, 한 모델이 ImageNet 대회를 박살내면서 — 모든 게 바뀐다.

5분 read 2026.05.04 1989 → 2020

011989년, 우편번호를 읽기 시작한 기계

1989년. New Jersey에 있는 AT&T Bell Labs. 28세의 프랑스인 연구자가 한 가지 발표를 한다. 그의 이름은 Yann LeCun. 발표 내용은 단순했다 — "신경망으로 손글씨 숫자를 인식했다."

📷
Yann LeCun
b.1960 · Bell Labs → NYU → Meta Chief AI Scientist

1989년 LeNet, 1998년 LeNet-5를 만든 사람. CNN(Convolutional Neural Network)의 사실상 창시자. 2018년 Hinton·Bengio와 함께 튜링상 수상.

LeCun이 만든 모델 'LeNet'은 두 가지 핵심 아이디어를 도입했다. ① 국소성(locality) — 픽셀 한 점은 주변 픽셀과만 의미 있게 연관된다. ② 가중치 공유(weight sharing) — 같은 작은 필터(예: 3×3)를 이미지 전체에 슬라이딩한다.

이 두 가지 덕분에 100×100 흑백 이미지를 처리하는 데 필요한 가중치 수가 100만 개에서 9개로 압축됐다. 학습 가능해진 것이다.

📮 어떻게 쓰였나
AT&T는 LeNet을 미국 우편국 우편번호 자동 분류기에 실제 투입했다. 1990년대 미국에서 처리된 손글씨 수표·우편물의 상당수가 LeCun의 모델로 읽혔다 — 일반인들은 알지 못했지만.

02그런데 23년간 변두리에 머물렀다

1998년 LeCun이 'LeNet-5'를 발표한 이후, CNN은 학계 외에선 거의 언급되지 않았다. 1990년대~2010년대 초까지 컴퓨터 비전의 표준은 신경망이 아니었다. SVM, HOG, SIFT 같은 더 단순한 기법들이 더 잘 작동했다.

이유는 명확했다. 신경망을 제대로 학습시키려면 수십만~수백만 장의 라벨된 이미지 + 빠른 GPU가 필요한데, 둘 다 없었다. CNN은 1990년대 내내 "이론적으로는 우아하지만 실제로는 안 되는 것"으로 분류됐다.

032012년 가을, 모든 것이 바뀐 대회

2012년 ImageNet 대회(ILSVRC). 120만 장의 이미지를 1,000개 카테고리로 분류하는 글로벌 대회. 결과 발표는 그해 가을이었다. 토론토 대학의 한 팀이 압도적 1위를 했다 — Top-5 오차율 26.2% → 15.3%로 단숨에 떨어뜨렸다.

그 모델의 이름은 'AlexNet'. 만든 사람은 세 명.

🏆
Alex Krizhevsky · Ilya Sutskever · Geoffrey Hinton
University of Toronto · NeurIPS 2012

Hinton(EP01의 그 Hinton)의 두 박사과정 학생이 함께 만들었다. AlexNet은 8층 CNN을 NVIDIA GTX 580 GPU 2개로 학습시켰다 — 이게 모든 것의 시작이었다. ReLU 활성화, dropout 정규화 등 오늘날의 표준 기법들이 모두 이 논문에서 정립됐다.

📌 그날의 의미
AlexNet의 Top-5 오차율은 15.3%. 2위인 ISI 일본팀(전통 기법)은 26.2%. 10%p 격차는 ImageNet 역사상 가장 큰 도약이었다. 그날 이후 모든 vision 논문이 CNN 기반으로 전환됐다 — SVM·HOG·SIFT는 사실상 사라졌다.

그리고 — 딥러닝의 시대가 본격 시작됐다.

042015년, 152층까지 쌓은 사람

2012-2014년. 모두가 신경망을 더 깊게 쌓으려 했다. AlexNet 8층 → VGG 16층 → 19층. 그런데 이상한 일이 일어났다 — 20층 넘어가면 오히려 성능이 떨어졌다.

🇨🇳
Kaiming He
Microsoft Research Asia · ResNet (2015) · arXiv:1512.03385

2015년 12월, 베이징에서 ResNet을 발표. 핵심 아이디어 한 줄 — "한 층의 출력에 그 층의 입력을 더한다." 이걸 skip connection (y = F(x) + x)이라 부른다. 이 단순한 변경으로 152층까지 학습이 가능해졌다.

ResNet은 ImageNet에서 인간 수준 분류 정확도(상위-5 오차 3.57%)를 달성했다. 그리고 — 오늘날 거의 모든 vision 모델, 그리고 Transformer까지도 skip connection을 쓴다. 2026년 현재 ResNet 논문은 인용 횟수 기준 AI 분야 1-2위를 다툰다.

052020년, Transformer가 vision까지 먹었다

2017년 Google이 발표한 Transformer(EP03에서 다룰 예정)가 언어 처리를 정복한 후, 사람들은 묻기 시작했다 — "Transformer를 이미지에도 쓸 수 있을까?"

2020년 10월, Google Research가 ViT (Vision Transformer)를 발표했다. 이미지를 16×16 patch로 잘라 token처럼 취급하고, 그 patch들 사이의 attention을 학습. 결과 — CNN을 큰 데이터셋에서 능가하기 시작했다.

🎯 그래도 산업 현장에선 ResNet
ViT가 학술 SOTA를 가져갔지만, 2026년 현재 실제 산업 (반도체 검사, 자율주행 vision, 의료영상)에선 여전히 ResNet 기반이 표준이다. 이유: 작은 데이터셋에선 ResNet이 더 안정적, 추론이 더 빠름, 모바일 배포가 쉬움. ViT는 거대 모델·거대 데이터일 때만 우월.

06그래서 컴퓨터의 눈은 어디에 있나

지금 당신이 쓰는 폰 카메라의 자동 인물 인식, Tesla 자율주행의 보행자 감지, Samsung·LG 반도체 공장의 결함 검출, 의료 X-ray 분석 — 모두 CNN(또는 그 후예)이 핵심이다.

1989년 LeCun이 만든 9개 가중치의 작은 필터가, 지금은 ResNet-152로 1000만 개 가중치, ViT-Huge로 6억 개 가중치까지 커졌다. 그러나 "작은 필터를 슬라이딩한다"는 핵심 아이디어는 변하지 않았다.

다음 편(EP03)에선 1997년 Sepp Hochreiter & Jürgen Schmidhuber가 만든 LSTM에서 시작해서, 2017년 Google의 "Attention is All You Need" 논문으로 모든 것을 통일한 Transformer까지 — 컴퓨터가 언어를 다루는 법을 배운 20년사를 따라간다.

🧪
직접 해보기 · AI Lab
CNN 필터 슬라이딩을 직접 보기 →
8×8 입력에 3×3 커널을 슬라이딩하면서 feature map이 어떻게 만들어지는지. 6가지 커널(수평/수직 에지, Sobel, blur, sharp, identity)을 비교해 보세요.
AI 진화사 · 시리즈 네비게이션