AI Lab · #03 Attention

한 단어가 다른 단어를
얼마나 보는지 직접 클릭

2017년 Google의 "Attention is All You Need"의 핵심 — Transformer의 self-attention. 문장의 한 토큰을 클릭하면, 그 토큰이 다른 토큰들을 얼마나 보는지 화살표 굵기와 막대 높이로 표시됩니다.

📌 이게 뭐 하는 랩인가 Transformer의 attention이 "한 토큰이 다른 토큰을 얼마나 본다"는 의미인지 직접 확인합니다. 토큰을 클릭하면 ① 화살표 굵기 = attention 가중치, ② 그 토큰의 attention 분포(막대), ③ 우측 전체 attention 행렬(heatmap). Head 1·2·3이 각자 다른 패턴(구문 관계 / 장거리 의존 / 인접 관계)을 학습한 것을 비교해 보세요.

📋 사용법

위 토큰 중 하나를 클릭하면 그 토큰이 어디를 보는지 화살표로 표시됩니다.
각 토큰 아래의 막대 = attention 분포 (모든 막대 합 = 1, softmax 결과).
우측 6×6 heatmap = 전체 attention 행렬 (행=Query, 열=Key). 각 행의 합 = 1.
Head 변경으로 같은 문장의 3가지 head를 비교 — 각 head가 다른 관계를 학습했음을 확인.
문장 변경으로 한국어/영어 시퀀스도 시도해 보세요.

Self-Attention — 토큰 클릭 → 어디를 보나

문장

Head

위 토큰을 클릭하면 그 토큰이 어디를 보는지 화살표로 표시됩니다.

화살표 굵기 = attention 가중치. 우측 행렬 = 전체 attention. 막대 합 = 1 (softmax).

이게 왜 중요한가

실제 거대 LLM은 수십~백 개의 layer × 수십 개의 heads = 수천 개의 attention 패턴을 동시에 학습합니다. 공개된 예 — Llama 3 70B는 80 layer × 64 heads, Llama 3 405B는 126 layer × 128 heads. 비공개 모델(GPT-4 등)의 정확한 수치는 알려져 있지 않습니다. 위 시뮬레이션은 단 3개 head를 보여주는 단순화 버전이지만, 메커니즘은 같습니다.

그리고 — Transformer의 가장 큰 강점은 완전 병렬 처리입니다. LSTM은 단어를 한 개씩 순서대로 처리해야 하지만, Transformer는 모든 단어가 모든 단어를 동시에 본다. GPU에 완벽히 맞는 구조 → 학습이 100배 빨라짐 → 모델 크기를 1000배 늘릴 수 있게 됨 → 결과가 GPT-3, GPT-4, ChatGPT.

다음 EP04에서 이 Transformer가 어떻게 GPT 시리즈로 발전해서 2022년 11월 30일 ChatGPT의 폭발로 이어졌는지 다룹니다.

📖

한 단어가 다른 단어를얼마나 보는지 직접 클릭

이게 왜 중요한가

한 단어가 다른 단어를
얼마나 보는지 직접 클릭