2017년 6월 12일. Google Brain의 8명이 한 편의 논문을 arXiv에 올렸다. 제목이 도발적이었다 — "Attention is All You Need." 그날 이후 9년이 지난 지금, AI 연구의 99%가 이 논문 위에서 굴러간다.
1980년대 후반. Michael Jordan(이 책 그 Jordan 아님)과 Jeffrey Elman이 RNN(Recurrent Neural Network)을 제안했다. 아이디어는 단순했다 — "지금 입력에다 어제의 출력을 같이 넣으면, 시퀀스를 처리할 수 있다."
이론적으로 우아했다. 한 줄의 시간 흐름을 그대로 학습할 수 있으니까. 그런데 문제가 있었다 — 긴 문장에서 처음 본 단어를 잊어버린다. 수학적으로 표현하면 'vanishing gradient' 문제. 10단어만 넘어가도 첫 단어의 영향이 거의 사라진다.
1997년. 독일 뮌헨공대에서 박사과정 중이던 한 명이 지도교수와 함께 한 논문을 발표한다. 제목은 "Long Short-Term Memory". 줄여서 LSTM.
핵심 아이디어 — 신경망 안에 3개의 게이트를 만든다. ① forget gate: 어제 기억 중 뭘 잊을지, ② input gate: 새 정보 중 뭘 받을지, ③ output gate: 지금 뭘 내보낼지. 각 게이트는 0~1 값을 학습해서 자동으로 정한다.
LSTM은 RNN의 'vanishing' 문제를 해결했다. 100단어 떨어진 의존 관계도 학습 가능. 2014~2017년이 LSTM의 황금기였다 — Google 번역, Apple Siri, Amazon Alexa 모두 LSTM 기반이었다.
2014년 12월 NeurIPS. 토론토 대학에서 Hinton의 박사 학생이었던 한 명이 Google Brain으로 옮겨와 발표한 논문 — "Sequence to Sequence Learning with Neural Networks."
"Encoder-Decoder" 구조의 시작. 한 LSTM이 입력 문장을 통째로 압축(encoder)하고, 또 다른 LSTM이 그걸 받아서 출력 문장을 차례로 생성(decoder)한다. 영어→프랑스어 번역에 적용해서 당시 최고 성능(BLEU 34.8) 달성. Sutskever는 EP01의 그 Hinton 제자, EP02 AlexNet의 공동저자, 훗날 OpenAI 공동 창업자다.
2015년 Bengio 그룹이 'attention'이라는 보조 메커니즘을 추가해서 이 문제를 일부 해결했지만, 본질적으로 LSTM의 순차 처리 (한 단어씩 차례로)가 발목을 잡고 있었다. GPU 병렬화가 안 되니 학습이 너무 느렸다.
2017년 6월 12일. arXiv:1706.03762. 제목은 도발적이었다 — "Attention Is All You Need." 저자는 8명. 모두 Google Brain / Google Research 소속.
핵심 주장 — "RNN도 CNN도 다 필요 없다. attention만 있으면 된다." 그들이 만든 새 구조의 이름은 Transformer. 한 토큰이 모든 다른 토큰을 동시에 본다 (Self-Attention). 순차 처리 X, 완전 병렬. GPU에 완벽히 맞는 구조.
"우리는 RNN과 CNN을 완전히 제거하고도 모든 task에서 SOTA(state-of-the-art)를 달성했다. 학습 시간도 한참 짧다."
— Vaswani et al., "Attention is All You Need" 초록 中이 논문이 발표된 뒤 9년이 지난 지금. 거의 모든 AI 모델이 Transformer 기반이다. ChatGPT, Claude, Gemini, Llama, BERT, GPT-4, ViT(Vision Transformer), AlphaFold(단백질 구조 예측), Sora(영상 생성), Whisper(음성 인식), 자율주행 vision까지. "Attention is All You Need" 논문은 인용 횟수 기준 AI 분야 역대 1위 (12만 회+ in 2026).
비유 하나. 검색 엔진을 생각해보자. 당신이 "고양이"를 검색하면 (Query), 모든 웹페이지의 키워드(Key)와 비교해서, 가장 비슷한 페이지의 내용(Value)을 가져온다.
Transformer attention도 똑같다. 각 단어(토큰)가 자기만의 Q·K·V 벡터를 갖고 있다. 한 토큰의 Q를 모든 다른 토큰의 K와 비교해서 — 비슷할수록 그 토큰의 V를 더 많이 가져온다. 이걸 모든 토큰이 동시에, 모든 다른 토큰에 대해 한다. 그래서 — 한 토큰이 문장 전체의 의미를 한 번에 흡수한다.
다음 편(EP04)에선 이 Transformer가 어떻게 GPT-1, GPT-3, 그리고 2022년 11월 30일 ChatGPT의 폭발로 이어졌는지를 다룬다. 5일 만에 사용자 100만 명을 모은 그 사건의 기술적 배경.