GPT가 받는 입력의 단위는 글자가 아니라 토큰(token)입니다. 영어 단어 1개 ≈ 1 토큰, 한국어 글자 1개 ≈ 2-3 토큰, 이모지 1개 ≈ 1-2 토큰. 문장을 입력해서 어떻게 잘리는지, 왜 한국어가 영어보다 비싼지 직접 확인합니다.
token + ization 으로 잘립니다. 한국어는 byte 단위까지 분해되는 경우가 많아 같은 의미인데 영어 대비 2-3배 토큰을 쓴다. 이 랩은 OpenAI의 cl100k_base 토크나이저(GPT-4 사용)의 동작을 단순화한 시뮬레이터입니다.
OpenAI의 cl100k_base 토크나이저는 영어 텍스트로 주로 학습됐습니다. 그래서 자주 등장하는 영어 단어 50,000개 이상이 각자 1 토큰으로 매핑되어 있습니다. 반면 한국어는 — 자주 등장하는 단어가 훨씬 적게 매핑되어, 대부분 byte fallback으로 처리됩니다. 한 글자(예: "안")가 UTF-8로 3 byte → 보통 2-3 토큰으로 잘립니다.
실제 영향: GPT-4 API에서 같은 의미의 문장을 처리할 때 한국어는 영어 대비 약 2.5-3배 토큰을 소비합니다. 즉, API 비용도 그만큼 더 듭니다. 이게 한국어 LLM 응용에서 비용이 빨리 쌓이는 이유입니다.
이 격차를 줄이기 위해 한국 회사들은 자체 토크나이저를 학습합니다 — Naver HyperCLOVA X, KT Mi:dm, LG EXAONE, Kakao KoGPT 등. 한국어 vocab을 우선 매핑해서 같은 문장을 1.2-1.5배 정도까지 줄였습니다.