ChatGPT, Claude, Gemini와 같은 AI 도구를 사용해 보셨다면 "토큰(tokens)"이라는 용어를 어디에서나 보셨을 것입니다. API 가격 책정, 모델 제한, "컨텍스트 창" 등 토큰은 AI가 실제로 작동하는 방식의 핵심입니다.
그렇다면 토큰이란 정확히 무엇이며, 왜 그렇게 중요한 걸까요? 이 가이드는 그 모든 내용을 명확하고 실용적인 방식으로 설명해 드립니다.

토큰이란 무엇인가요?
기본적으로:
토큰은 AI 모델이 처리하는 텍스트의 가장 작은 단위입니다.
그것은 단어나 문자와 정확히 일치하지는 않습니다. 토큰은 다음과 같을 수 있습니다:
- 온전한 단어 하나
hello) - 단어의 일부
un+believable) - 문장 부호
.,,) - 단일 한자 또는 단어 (토큰화 방식에 따라 다름)
예시:
I love AI tools다음과 같이 토큰화됨:
[“I”, “love”, “AI”, “tools”] → 4 tokens하지만 더 복잡한 단어의 경우:
unbelievable다음과 같이 나뉠 수 있습니다:
[“un”, “believ”, “able”] → 3 tokens왜 단어 수로 요금을 책정하지 않을까요?
흔히 제기되는 질문이 있습니다. 왜 AI 플랫폼은 전통적인 번역 서비스처럼 단순히 단어나 글자 수로 요금을 책정하지 않을까요? 토큰 기반 과금 체계로의 전환은 세 가지 근본적인 기술적 필요성에 의해 주도됩니다. 첫째, 단어 수로는 언어의 표준화가 거의 불가능하기 때문입니다. 영어는 단어 사이에 명확한 공백이 있지만, 중국어와 같은 언어는 그렇지 않으며, 일본어나 한국어와 같은 언어는 매우 복잡한 형태소 구조를 가지고 있습니다. 토큰은 모든 인류 언어에 걸쳐 처리 비용을 표준화할 수 있는 보편적인 측정 기준을 제공합니다.
둘째, 토큰은 모델이 실제로 생각하는 방식을 나타냅니다. AI 모델은 인간처럼 문장이나 단어를 보는 것이 아니라, 수학적 벡터의 시퀀스를 처리합니다. 워크플로우는 $Input \rightarrow Tokenization \rightarrow Vectors \rightarrow Model$을 거쳐 최종적으로 $Output Tokens$로 돌아옵니다. 이러한 구조에서 토큰은 시스템 두뇌의 진정한 계산 단위입니다.
마지막으로, 토큰화는 실제 계산 복잡도를 바탕으로 더 정확한 요금 책정을 가능하게 합니다. 단순하고 일반적인 단어는 단 하나의 토큰만 필요할 수 있지만, 희귀한 전문 용어나 복잡한 코딩 문자열은 이를 분해하기 위해 여러 개의 토큰이 필요합니다. 글자 수가 아닌 토큰을 기준으로 과금함으로써, 플랫폼은 특정 응답을 생성하기 위해 모델이 소비한 실제 GPU 전력과 컴퓨팅 자원을 요금에 정확히 반영할 수 있습니다.
토큰 vs 단어: 어떤 차이가 있나요?
| 콘텐츠 유형 | 1 토큰 ≈ |
|---|---|
| 영어 | ~0.75 단어 |
| 중국어 | ~1자 |
| 혼합 텍스트 | 1–4자 |
예시:
- 1,000 토큰 ≈
- ~750개 영어 단어
- ~1,000개 중국어 글자
많은 경우, 중국어 콘텐츠는 토큰 효율성이 더 높습니다.
AI 요금 체계의 작동 원리
AI 과금의 기본 공식은 간단합니다: 입력 토큰 + 출력 토큰 = 총 사용량. 이를 시각화하기 위해 시스템에 작업을 요청하는 일반적인 상호작용을 예로 들어보겠습니다. "SEO 기사를 작성해줘"라는 프롬프트를 입력하면, 이 짧은 지시는 약 10개의 입력 토큰을 차지할 수 있습니다. 그 후 AI는 약 500개의 출력 토큰에 달하는 상세한 답변을 생성합니다. 이 시나리오에서 해당 트랜잭션의 총 과금량은 510 토큰이 됩니다. 대부분의 서비스 제공업체는 입력 토큰과 출력 토큰에 서로 다른 요율을 적용하므로 이러한 세부 구분은 매우 중요합니다. 일반적으로 새로운 텍스트를 생성하는 것이 제공된 지시사항을 읽는 것보다 더 많은 계산 능력을 필요로 하기 때문입니다.
출력 토큰이 더 비싼 이유
많은 플랫폼에서:
- 입력 토큰 = 더 저렴함
- 출력 토큰 = 더 비쌈
이유:
텍스트를 생성하는 것은 읽는 것보다 더 많은 계산이 필요합니다
컨텍스트 윈도우란 무엇인가요?
또 다른 핵심 개념:
컨텍스트 윈도우는 모델이 한 번에 "기억"할 수 있는 최대 토큰 수입니다.
예시:
- 8K 컨텍스트 → ~8,000개 토큰
- 32K 컨텍스트 → ~32,000개 토큰
- 128K 컨텍스트 → 매우 긴 문서
실제 사례:
대화 기록:
첫 번째 턴: 100개 토큰 두 번째 턴: 200개 토큰 세 번째 턴: 300개 토큰컨텍스트 윈도우가 중요한 이유
컨텍스트 윈도우는 AI의 운영 능력 범위를 직접적으로 정의하기 때문에 매우 중요한 요소입니다. 첫째, 모델이 한 번에 처리할 수 있는 콘텐츠 길이의 제한을 결정합니다. 긴 글을 생성하거나, 두꺼운 PDF 문서를 분석하거나, 방대한 다회차 대화를 유지할 때, 컨텍스트 윈도우는 모델이 초기 데이터를 놓치기 시작하기 전까지 얼마나 많은 정보를 처리할 수 있는지를 결정합니다.
둘째, 이 윈도우의 크기는 AI의 기억력과 성능의 전반적인 품질에 큰 영향을 미칩니다. 더 큰 컨텍스트 윈도우는 데이터 내의 복잡한 관계를 더 깊이 이해할 수 있게 하여, 더욱 일관성 있고 문맥적으로 관련성이 높은 응답을 이끌어냅니다. 모델이 대화 기록이나 문서를 한 번에 더 많이 "볼" 수 있으면, 환각 현상을 일으키거나 스스로 모순되는 말을 할 가능성이 줄어듭니다. 마지막으로, 컨텍스트 윈도우는 비용에 직접적인 영향을 미칩니다. 가용 컨텍스트를 더 많이 활용한다는 것은 더 많은 양의 토큰을 처리한다는 것을 의미하며, 이는 필연적으로 토큰 사용량 증가와 각 요청에 대한 운영 비용 상승으로 이어집니다.
더 많은 토큰 → 더 높은 비용
토큰은 AI 시스템의 화폐, 기억, 그리고 계산 단위입니다.

이미지와 비디오에서의 AI 토큰
AI가 텍스트 처리를 넘어 시각적 매체를 이해하는 방향으로 진화함에 따라 토큰의 개념도 확장되었습니다. GPT-4o나 Gemini 1.5 Pro와 같은 멀티모달 모델을 사용하여 이미지나 비디오를 생성하거나 분석할 때, 시스템은 이를 파일로 보는 것이 아니라 특수한 시각적 토큰으로 인식합니다.
이미지 토큰 계산 방법
AI 모델에 이미지를 업로드하면, 인간이 하는 것처럼 그림을 전체로 해석하지 않습니다. 대신, 이미지는 먼저 모델이 수학적으로 처리할 수 있는 구조화된 형식으로 변환됩니다. 이 과정은 이미지를 보통 패치(patches) 또는 타일(tiles)이라고 불리는 작은 영역의 격자로 나누는 것으로 시작됩니다. 각 패치는 모델 설계에 따라 16x16 또는 32x32 픽셀과 같은 고정된 크기의 픽셀 블록을 나타냅니다. 이렇게 나눈 후, 각 패치는 임베딩(embedding)이라고 알려진 수치적 표현으로 변환됩니다. 이 임베딩은 색상, 가장자리, 질감 및 패턴과 같은 중요한 시각적 특징을 포착합니다. 이런 의미에서 각 패치는 텍스트 처리에서의 토큰과 유사하게 기능합니다. 문장이 언어 모델을 위해 토큰으로 분해되는 것처럼, 이미지는 비전 모델을 위해 패치로 분해됩니다. 이미지에서 생성된 패치의 총 개수는 필요한 계산량에 직접적인 영향을 미칩니다.
과금 목적으로 대부분의 AI 플랫폼은 고정 토큰 비용이나 해상도 기반 가격 체계를 사용하여 이 기저의 과정을 단순화합니다. 저해상도 이미지는 종종 이미지당 보통 85개에서 800개 토큰 사이의 표준 토큰 범위가 할당됩니다. 이를 통해 플랫폼은 사용자가 패치 수준의 복잡한 계산에 노출되지 않도록 하면서도 예측 가능한 가격을 제공할 수 있습니다. 고해상도 이미지를 다룰 때는 계산이 더 세분화됩니다. 시스템은 이미지를 단일 단위로 처리하는 대신 여러 개의 타일로 나눕니다. 그런 다음 각 타일은 개별적으로 처리되어 자체 패치 세트를 생성하고 추가 토큰을 소비합니다. 이미지 해상도가 높아짐에 따라 타일의 수도 증가하며, 이는 전체적인 토큰 사용량 증가로 이어집니다. 예를 들어, 고해상도 이미지는 포함된 시각적 요소의 수가 더 많기 때문에 작은 이미지보다 몇 배 더 많은 토큰이 필요할 수 있습니다.
또 다른 중요한 요소는 시각적 복잡성입니다. 단색의 넓은 영역이 있는 단순한 이미지는 이를 표현하는 데 더 적은 수의 패치가 필요하지만, 차트, 스크린샷 또는 도표와 같이 세밀한 이미지는 더 많은 가장자리, 텍스트 및 미세 구조를 포함합니다. 이러한 세부 사항을 정확하게 인코딩하려면 더 많은 패치가 필요하며, 이는 필요한 총 토큰 수를 증가시킵니다. 두 이미지의 해상도가 같더라도 더 복잡한 이미지가 더 많은 계산 리소스를 소비할 수 있습니다. 일부 고급 모델은 세부 사항이 더 많은 영역에 더 많은 주의를 기울이거나 더 세밀하게 표현하고, 단순한 영역은 더 효율적으로 압축하는 동적 처리 전략을 적용하기도 합니다. 이러한 과정은 내부적으로 발생하며 사용자에게 직접 보이지는 않지만, 해상도와 콘텐츠 모두 토큰 사용량에 영향을 미친다는 점을 시사합니다.
요약하자면, 이미지 토큰 계산은 이미지가 패치로 분할되고 수치 데이터로 변환되는 방식에 기반합니다. 각 패치는 텍스트에서의 토큰과 유사하게 하나의 계산 단위로 작동합니다. 플랫폼들이 고정 비용이나 해상도 기반 모델을 통해 가격 책정을 단순화하는 경우가 많지만, 핵심 원칙은 동일합니다. 해상도가 높고 세부 사항이 많을수록 더 많은 패치가 생성되며, 이는 더 높은 토큰 소비로 이어집니다.
비디오 토큰 계산 방법

비디오 처리는 '시간'이라는 추가적인 차원이 도입되기 때문에 이미지 처리보다 훨씬 더 복잡합니다. AI 모델은 단일 정지 프레임을 분석하는 대신, 움직임과 맥락을 형성하는 일련의 프레임 시퀀스를 해석해야 합니다. 이를 효율적으로 관리하기 위해 대부분의 모델은 비디오의 모든 프레임을 처리하지 않습니다. 대신 작업 및 모델 설정에 따라 1초당 한 프레임 또는 몇 프레임씩 고정된 간격으로 프레임을 추출하는 '프레임 샘플링(frame sampling)' 기술을 사용합니다. 추출된 각 샘플 프레임은 이미지와 동일한 방식으로 처리됩니다. 모델은 프레임을 패치로 나누고, 이 패치들을 수치적 임베딩으로 변환하여 시각적 토큰으로 처리합니다. 즉, 샘플링된 모든 프레임은 개별 이미지와 마찬가지로 고유한 토큰 세트를 생성합니다. 이는 비디오 토큰 사용량이 본질적으로 모든 샘플링된 프레임에서 발생한 토큰의 누적임을 의미합니다.
비디오에 필요한 총 토큰 수는 샘플링된 프레임 수에 프레임당 토큰 비용을 곱하여 추정할 수 있습니다. 예를 들어, 모델이 1분 길이의 비디오에서 초당 한 프레임을 샘플링한다면 총 60개의 프레임을 처리하게 됩니다. 각 프레임이 해상도에 따라 특정 수의 토큰에 해당한다면, 총 입력 토큰은 해당 프레임들의 모든 토큰을 합산한 값이 됩니다. 해상도가 높은 프레임이나 각 프레임 내의 복잡한 시각적 요소는 토큰 수를 더욱 증가시킬 수 있습니다. 이것이 긴 비디오를 처리할 때 비용이 빠르게 비싸지는 이유입니다. 비디오의 길이를 늘리면 샘플링된 프레임 수가 증가하고, 샘플링 속도를 높이면 이러한 증가세는 훨씬 더 빨라집니다. 예를 들어, 초당 한 프레임 대신 두 프레임을 샘플링하면 프레임 수가 두 배가 되어 결과적으로 토큰 사용량도 두 배가 됩니다. 마찬가지로 고해상도 비디오는 각 프레임에 인코딩해야 할 시각적 데이터가 더 많이 포함되어 있어 비용을 증폭시킵니다.
또 다른 중요한 요소는 시간적 일관성(temporal coherence)입니다. 일부 고급 모델은 프레임을 단순히 분리된 이미지로 취급하는 것이 아니라, 프레임 간의 움직임과 관계를 이해하려고 시도합니다. 이는 동작 인식이나 장면 이해와 같은 작업에서 정확도를 높일 수 있지만, 계산 복잡성을 증가시키며 단순한 프레임 기반 토큰 계산을 넘어서는 추가적인 내부 표현을 필요로 할 수 있습니다. 비디오 토큰 사용량은 길이와 해상도 모두에 따라 급격히 증가하기 때문에 모델의 컨텍스트 윈도우에 큰 부담을 줍니다. 샘플링된 모든 프레임은 관련된 텍스트 입출력과 함께 모델의 최대 토큰 제한 내에 포함되어야 합니다. 이것이 비디오 분석에 대용량 컨텍스트 모델이 주로 필요한 이유입니다. 때로는 100만 개 이상의 토큰을 수용하는 매우 큰 컨텍스트 윈도우를 가진 모델들이 중요한 정보를 잃지 않고 긴 시각적 및 텍스트 데이터 시퀀스를 처리하도록 특별히 설계되었습니다.
요약하자면, 비디오 토큰은 비디오를 샘플링된 프레임으로 나눈 다음 각 프레임을 이미지로 처리하여 계산됩니다. 총 토큰 사용량은 비디오의 길이, 프레임 샘플링 속도, 그리고 각 프레임의 해상도와 복잡성이라는 세 가지 주요 요소에 의해 결정됩니다. 이러한 요소가 증가함에 따라 토큰 소비가 급격히 늘어나며, 이로 인해 비디오는 AI 시스템에서 가장 많은 리소스를 소모하는 입력 유형 중 하나가 됩니다.
텍스트 모델이 시간이 지남에 따라 더 효율적으로 변한 것처럼, 시각적 토큰화 기술도 발전하고 있습니다. 최신 모델들은 시각적 데이터를 압축하는 능력이 향상되어, 비용이 비례해서 증가하지 않더라도 더 긴 비디오와 더 높은 해상도의 이미지를 이해할 수 있게 되었습니다. 사용자 입장에서 이를 이해하면 워크플로를 최적화하는 데 도움이 됩니다. 예를 들어, 이미지를 가장 중요한 영역으로 크롭하거나 비디오 클립의 길이를 줄이는 것만으로도 토큰 수를 크게 줄이고 API 비용을 절감할 수 있습니다.