AI Lab · #04 Tokenizer

한 문장이 GPT 토큰으로
어떻게 잘리는지 직접 보기

GPT가 받는 입력의 단위는 글자가 아니라 토큰(token)입니다. 영어 단어 1개 ≈ 1 토큰, 한국어 글자 1개 ≈ 2-3 토큰, 이모지 1개 ≈ 1-2 토큰. 문장을 입력해서 어떻게 잘리는지, 왜 한국어가 영어보다 비싼지 직접 확인합니다.

📌 이게 뭐 하는 랩인가 GPT-4·Claude 같은 LLM은 글자가 아니라 토큰 단위로 비용을 매기고 길이 제한을 둡니다. "tokenization"이 1 토큰일까요? 영어는 보통 1단어=1토큰이지만, "tokenization" 같은 긴 단어는 token + ization 으로 잘립니다. 한국어는 byte 단위까지 분해되는 경우가 많아 같은 의미인데 영어 대비 2-3배 토큰을 쓴다. 이 랩은 OpenAI의 cl100k_base 토크나이저(GPT-4 사용)의 동작을 단순화한 시뮬레이터입니다.
📋 사용법
  1. 아래 입력창에 아무 문장을 입력하면 실시간으로 토큰화됩니다.
  2. 각 색깔 박스 = 1 토큰. 같은 색은 같은 종류(영어/한글/이모지/공백 등).
  3. 위의 예시 버튼으로 다양한 입력을 비교해 보세요.
  4. 토큰 수 / 글자 수 / byte 수 비율을 확인 — 한국어는 토큰이 글자보다 많은 경우가 흔합니다.
  5. 이 시뮬레이터는 교육용 단순화. 실제 GPT-4 토큰화는 BPE merge rules 100K개로 훨씬 정밀합니다.
📝 입력 (실시간 토큰화)
0
토큰
0
글자
0
바이트 (UTF-8)
🔻 토큰 분해 결과

왜 한국어는 영어보다 비싼가

OpenAI의 cl100k_base 토크나이저는 영어 텍스트로 주로 학습됐습니다. 그래서 자주 등장하는 영어 단어 50,000개 이상이 각자 1 토큰으로 매핑되어 있습니다. 반면 한국어는 — 자주 등장하는 단어가 훨씬 적게 매핑되어, 대부분 byte fallback으로 처리됩니다. 한 글자(예: "안")가 UTF-8로 3 byte → 보통 2-3 토큰으로 잘립니다.

실제 영향: GPT-4 API에서 같은 의미의 문장을 처리할 때 한국어는 영어 대비 약 2.5-3배 토큰을 소비합니다. 즉, API 비용도 그만큼 더 듭니다. 이게 한국어 LLM 응용에서 비용이 빨리 쌓이는 이유입니다.

이 격차를 줄이기 위해 한국 회사들은 자체 토크나이저를 학습합니다 — Naver HyperCLOVA X, KT Mi:dm, LG EXAONE, Kakao KoGPT 등. 한국어 vocab을 우선 매핑해서 같은 문장을 1.2-1.5배 정도까지 줄였습니다.

📖
관련 글로 돌아가기
AI 진화사 EP04 — 5일 만에 100만 명. 그게 어떻게 가능했나.