AI 진화사 · EP 03

한 편의 논문이 AI
전체를 통일한 날

2017년 6월 12일. Google Brain의 8명이 한 편의 논문을 arXiv에 올렸다. 제목이 도발적이었다 — "Attention is All You Need." 그날 이후 9년이 지난 지금, AI 연구의 99%가 이 논문 위에서 굴러간다.

5분 read 2026.05.04 1997 → 2017

01먼저 — RNN의 짧은 행복

1980년대 후반. Michael Jordan(이 책 그 Jordan 아님)과 Jeffrey Elman이 RNN(Recurrent Neural Network)을 제안했다. 아이디어는 단순했다 — "지금 입력에다 어제의 출력을 같이 넣으면, 시퀀스를 처리할 수 있다."

이론적으로 우아했다. 한 줄의 시간 흐름을 그대로 학습할 수 있으니까. 그런데 문제가 있었다 — 긴 문장에서 처음 본 단어를 잊어버린다. 수학적으로 표현하면 'vanishing gradient' 문제. 10단어만 넘어가도 첫 단어의 영향이 거의 사라진다.

021997년, 두 독일인이 만든 '잊지 않는 RNN'

1997년. 독일 뮌헨공대에서 박사과정 중이던 한 명이 지도교수와 함께 한 논문을 발표한다. 제목은 "Long Short-Term Memory". 줄여서 LSTM.

🧬
Sepp Hochreiter & Jürgen Schmidhuber
TU Munich · 1997 · Neural Computation 9(8):1735-1780

핵심 아이디어 — 신경망 안에 3개의 게이트를 만든다. ① forget gate: 어제 기억 중 뭘 잊을지, ② input gate: 새 정보 중 뭘 받을지, ③ output gate: 지금 뭘 내보낼지. 각 게이트는 0~1 값을 학습해서 자동으로 정한다.

LSTM은 RNN의 'vanishing' 문제를 해결했다. 100단어 떨어진 의존 관계도 학습 가능. 2014~2017년이 LSTM의 황금기였다 — Google 번역, Apple Siri, Amazon Alexa 모두 LSTM 기반이었다.

032014년, Google이 LSTM에 머리 두 개를 달았다

2014년 12월 NeurIPS. 토론토 대학에서 Hinton의 박사 학생이었던 한 명이 Google Brain으로 옮겨와 발표한 논문 — "Sequence to Sequence Learning with Neural Networks."

📐
Ilya Sutskever · Oriol Vinyals · Quoc V. Le
Google Brain · NeurIPS 2014

"Encoder-Decoder" 구조의 시작. 한 LSTM이 입력 문장을 통째로 압축(encoder)하고, 또 다른 LSTM이 그걸 받아서 출력 문장을 차례로 생성(decoder)한다. 영어→프랑스어 번역에 적용해서 당시 최고 성능(BLEU 34.8) 달성. Sutskever는 EP01의 그 Hinton 제자, EP02 AlexNet의 공동저자, 훗날 OpenAI 공동 창업자다.

⚠️ 그런데 한 가지 결정적 문제가 있었다
Encoder가 입력 문장 전체를 고정 크기 벡터 하나로 압축한다. 짧은 문장이면 OK인데, 긴 문장은 정보가 너무 많이 손실됐다. 50단어 문장을 한 벡터에 욱여넣는 건 불가능에 가까웠다.

2015년 Bengio 그룹이 'attention'이라는 보조 메커니즘을 추가해서 이 문제를 일부 해결했지만, 본질적으로 LSTM의 순차 처리 (한 단어씩 차례로)가 발목을 잡고 있었다. GPU 병렬화가 안 되니 학습이 너무 느렸다.

042017년 6월 12일, 모든 게 바뀌었다

2017년 6월 12일. arXiv:1706.03762. 제목은 도발적이었다 — "Attention Is All You Need." 저자는 8명. 모두 Google Brain / Google Research 소속.

Vaswani · Shazeer · Parmar · Uszkoreit · Jones · Gomez · Kaiser · Polosukhin
Google Brain / Google Research · NeurIPS 2017

핵심 주장 — "RNN도 CNN도 다 필요 없다. attention만 있으면 된다." 그들이 만든 새 구조의 이름은 Transformer. 한 토큰이 모든 다른 토큰을 동시에 본다 (Self-Attention). 순차 처리 X, 완전 병렬. GPU에 완벽히 맞는 구조.

"우리는 RNN과 CNN을 완전히 제거하고도 모든 task에서 SOTA(state-of-the-art)를 달성했다. 학습 시간도 한참 짧다."

— Vaswani et al., "Attention is All You Need" 초록 中

이 논문이 발표된 뒤 9년이 지난 지금. 거의 모든 AI 모델이 Transformer 기반이다. ChatGPT, Claude, Gemini, Llama, BERT, GPT-4, ViT(Vision Transformer), AlphaFold(단백질 구조 예측), Sora(영상 생성), Whisper(음성 인식), 자율주행 vision까지. "Attention is All You Need" 논문은 인용 횟수 기준 AI 분야 역대 1위 (12만 회+ in 2026).

05그래서 attention이 뭐냐면

비유 하나. 검색 엔진을 생각해보자. 당신이 "고양이"를 검색하면 (Query), 모든 웹페이지의 키워드(Key)와 비교해서, 가장 비슷한 페이지의 내용(Value)을 가져온다.

Transformer attention도 똑같다. 각 단어(토큰)가 자기만의 Q·K·V 벡터를 갖고 있다. 한 토큰의 Q를 모든 다른 토큰의 K와 비교해서 — 비슷할수록 그 토큰의 V를 더 많이 가져온다. 이걸 모든 토큰이 동시에, 모든 다른 토큰에 대해 한다. 그래서 — 한 토큰이 문장 전체의 의미를 한 번에 흡수한다.

🎯 Multi-head의 의미
Transformer는 attention을 여러 head로 동시에 한다. 한 head는 구문 관계(주어-동사), 다른 head는 장거리 의존(this → 가리키는 명사), 또 다른 head는 인접 관계(앞뒤 단어). 사람도 한 문장을 읽을 때 여러 관점에서 보는 것과 같다.

다음 편(EP04)에선 이 Transformer가 어떻게 GPT-1, GPT-3, 그리고 2022년 11월 30일 ChatGPT의 폭발로 이어졌는지를 다룬다. 5일 만에 사용자 100만 명을 모은 그 사건의 기술적 배경.

🧪
직접 해보기 · AI Lab
Attention 한 토큰이 어디를 보는지 직접 클릭 →
"the cat sat on the mat" 같은 문장에서 한 단어를 클릭하면, 그 단어가 다른 단어들을 얼마나 보는지 화살표와 heatmap으로 표시. 3가지 attention head 비교.
AI 진화사 · 시리즈 네비게이션