Gem Heaven

什么是 AI Token?定价、上下文窗口及图像/视频 Token 详解

如果你使用过 ChatGPT、Claude 或 Gemini 等 AI 工具,你可能随处可见“Token”这个词。无论是 API 计费、模型限制还是“上下文窗口”,Token 都是 AI 实际运作方式的核心。

那么,Token 到底是什么?为什么它如此重要?本指南将以清晰、实用的方式为你全面解析。

AI Token
AI Token

什么是 Token?

从基础层面来看:

Token 是 AI 模型处理文本的最小单位。

它并不完全是一个单词或一个字符。一个 Token 可以是:

  • 一个完整的单词hello)
  • 单词的一部分un + believable)
  • 标点符号., ,)
  • 单个中文字符或词语(取决于分词方式)

示例:

I love AI tools

标记化(Tokenize)为:

[“I”, “love”, “AI”, “tools”] → 4 tokens

但如果是更复杂的单词:

unbelievable

可能会变成:

[“un”, “believ”, “able”] → 3 tokens

为什么不按单词数计费?

一个常见的问题随之而来:为什么 AI 平台不直接像传统翻译服务那样,按单词或字符数计费呢?转向基于 Token 的计费模式是由三个根本性的技术必要性驱动的。首先,按单词计数几乎无法实现语言的标准化。虽然英语依赖单词之间明确的空格,但中文等语言并非如此,而日语或韩语等其他语言则拥有高度复杂的形态结构。Token 提供了一个通用的衡量标准,使所有人类语言的处理成本得以标准化。

其次,Token 代表了模型的实际思考方式。AI 模型并不像人类那样看待句子或单词;相反,它们处理的是数学向量序列。工作流程从 $Input \rightarrow Tokenization \rightarrow Vectors \rightarrow Model$,最后回到 $Output Tokens$。在这种架构中,Token 是系统大脑真正的计算单位。

最后,Token 化能够根据实际的计算复杂度实现更精准的计费。简单常见的单词可能只需要一个 Token,而罕见的技术术语或复杂的代码字符串则需要多个 Token 来进行拆解。通过基于 Token 而非字符进行计费,平台可以确保价格准确反映了模型在生成特定回答时所消耗的真实 GPU 算力和计算资源。

Token vs 单词:有什么区别?

内容类型1 Token ≈
英语~0.75 个单词
中文~1 个字符
混合文本1–4 个字符

示例:

  • 1,000 Token ≈
    • ~750 个英文单词
    • ~1,000 个中文字符

在许多情况下,中文内容的 Token 效率更高。

AI 定价机制详解

AI 计费的基本公式非常简单:输入 Token + 输出 Token = 总用量。为了直观理解这一点,我们可以看一个典型的交互案例。如果你输入指令“写一篇 SEO 文章”,这个简短的指令可能占用 10 个输入 Token。随后,AI 生成了一篇约 500 个输出 Token 的详细回答。在这种情况下,你该次交易的总计费用量为 510 个 Token。这种拆分至关重要,因为大多数服务商对输入和输出 Token 的定价费率不同,毕竟生成新文本通常比阅读现有指令需要消耗更多的计算资源。

为什么输出 Token 更贵

在许多平台上:

  • 输入 Token = 更便宜
  • 输出 Token = 更贵

原因:
生成文本比阅读文本需要更多的计算资源

什么是上下文窗口?

另一个核心概念:

上下文窗口是模型一次性可以“记住”的最大 Token 数量。

示例:

  • 8K 上下文 → ~8,000 个 Token
  • 32K 上下文 → ~32,000 个 Token
  • 128K 上下文 → 极长文档

真实案例:

对话历史:

第 1 轮:100 个 Token 第 2 轮:200 个 Token 第 3 轮:300 个 Token

为什么上下文窗口很重要

上下文窗口是一个关键因素,因为它直接定义了 AI 运行能力的边界。首先,它决定了模型一次性可以处理的内容长度限制。无论你是生成长篇文章、分析厚重的 PDF 文档,还是维持广泛的多轮对话,上下文窗口都决定了在模型开始丢失早期数据之前,能够处理的信息量有多少。

其次,窗口的大小显著影响 AI 记忆和性能的整体质量。更大的上下文窗口允许对数据内部的复杂关系进行更深层次的理解,从而生成更连贯、更具上下文相关性的回答。当模型能够一次性“看到”更多的对话历史或文档内容时,它产生幻觉或自相矛盾的可能性就会降低。最后,上下文窗口对成本有直接影响。利用更多的可用上下文意味着处理更高数量的 Token,这不可避免地会导致 Token 使用量增加,并提高每次请求的运行开销。
更多 Token → 更高成本

Token 是 AI 系统的货币、记忆和计算单位。

人工智能正在深刻地影响并重塑我们的日常生活。
人工智能正在深刻地影响并重塑我们的日常生活。

图像和视频中的 AI Token

随着 AI 从文本处理进化到理解视觉媒体,Token 的概念也随之扩展。当你使用 GPT-4o 或 Gemini 1.5 Pro 等多模态模型来生成或分析图像和视频时,系统并不会将它们视为文件,而是将其视为专门的视觉 Token。

图像 Token 是如何计算的

当你向 AI 模型上传图像时,它并不会像人类那样将图片作为一个整体来理解。相反,图像首先被转换为模型可以进行数学处理的结构化格式。该过程始于将图像分割成小区域网格,这些区域通常被称为“补丁”(patches)或“瓦片”(tiles)。每个补丁代表一个固定大小的像素块,例如 16x16 或 32x32 像素,具体取决于模型设计。分割完成后,每个补丁都会被转换为一种称为“嵌入”(embedding)的数字表示形式。这种嵌入抓取了颜色、边缘、纹理和图案等重要的视觉特征。从这个意义上说,每个补丁的功能类似于文本处理中的 Token。正如句子被分解为 Token 以供语言模型使用一样,图像被分解为补丁以供视觉模型使用。图像生成的补丁总数直接影响所需的计算量。

出于计费目的,大多数 AI 平台通过使用固定 Token 成本或基于分辨率的定价系统简化了这一底层过程。低分辨率图像通常被分配一个标准的 Token 范围,通常在每张图 85 到 800 个 Token 之间。这使得平台能够提供可预测的定价,而无需让用户面对复杂的补丁级计算。在处理高分辨率图像时,计算变得更加详细。系统不再将图像作为单个单元处理,而是将其划分为多个瓦片(tiles)。随后每个瓦片被分别处理,生成各自的一组补丁并消耗额外的 Token。随着图像分辨率的提高,瓦片的数量也会增加,从而导致整体 Token 使用量上升。例如,由于包含更多数量的视觉元素,一张高分辨率图像所需的 Token 可能是小图的数倍。

另一个重要因素是视觉复杂性。具有大面积纯色的简单图像仅需要较少的补丁来表示,而详细的图像(如图表、屏幕截图或示意图)则包含更多的边缘、文本和精细结构。这些细节需要更多的补丁才能准确编码,从而增加了所需的 Token 总数。即使两张图像的分辨率相同,更复杂的那张可能仍会消耗更多的计算资源。一些高级模型还采用了动态处理策略,其中细节较多的区域会获得更多的关注或更精细的表示,而简单的区域则被更高效地压缩。虽然这一切发生在模型内部且对用户并不直接可见,但它进一步证实了分辨率和内容都会影响 Token 的使用。

总而言之,图像 Token 的计算基于图像如何被分割为补丁并转换为数值数据。每个补丁都作为一个计算单元,类似于文本中的 Token。虽然平台通常通过固定成本或基于分辨率的模型来简化定价,但核心原则始终如一:更高的分辨率和更丰富的细节会导致生成更多的补丁,从而导致更高的 Token 消耗。

视频 Token 是如何计算的

OpenAI Sora 视频展示界面的截图
OpenAI Sora 视频展示界面的截图

视频处理比图像处理复杂得多,因为它引入了一个额外的维度:时间。AI 模型不再是分析单个静态帧,而是必须解释构成动作和上下文的一系列帧。为了高效地管理这一过程,大多数模型并不会处理视频的每一帧。相反,它们使用一种称为“帧采样”(frame sampling)的技术,即根据任务和模型配置,按固定间隔(例如每秒一帧或每秒几帧)提取帧。随后,每个采样帧都以与图像相同的方式进行处理。模型将帧分割成补丁,将这些补丁转换为数值嵌入,并将其作为视觉 Token 进行处理。换句话说,每个采样帧都会像单张图像一样产生自己的一组 Token。这意味着视频 Token 的使用量本质上是所有采样帧 Token 的累积。

视频所需的 Token 总数可以通过采样帧数乘以每帧的 Token 成本来估算。例如,如果模型从一段一分钟的视频中每秒采样一帧,它将处理 60 帧。如果每帧根据其分辨率对应一定数量的 Token,那么总输入 Token 将是所有这些帧的总和。更高分辨率的帧或每帧内更复杂的视觉效果会进一步增加 Token 数量。这就是为什么长视频的处理成本会迅速上升。增加视频时长会增加采样帧数,而提高采样率会使这种增长变得更快。例如,每秒采样两帧而不是一帧,将使帧数翻倍,从而使 Token 使用量翻倍。同样,高分辨率视频会放大成本,因为每一帧都包含更多的视觉数据需要编码。

另一个重要因素是时间连贯性。一些高级模型试图理解帧与帧之间的动作和关系,而不仅仅将它们视为孤立的图像。虽然这可以提高动作识别或场景理解等任务的准确性,但它也增加了计算复杂度,并且可能需要超出简单基于帧的 Token 计数之外的额外内部表示。由于视频 Token 的使用量随着长度和分辨率的增加而迅速增长,这对模型的上下文窗口提出了极高的要求。所有采样帧以及任何相关的文本输入和输出都必须符合模型的最大 Token 限制。这就是为什么视频分析通常需要大上下文模型的原因。拥有极大型上下文窗口(有时超过 100 万个 Token)的模型是专门为处理长序列的视觉和文本数据而设计的,且不会丢失重要信息。

总而言之,视频 Token 的计算方式是将视频分解为采样帧,然后将每一帧作为图像进行处理。总 Token 使用量取决于三个主要因素:视频时长、帧采样率以及每一帧的分辨率和复杂度。随着这些因素的增加,Token 消耗会迅速增长,使视频成为 AI 系统中资源消耗最高的数据输入类型之一。

正如文本模型随着时间的推移变得更加高效一样,视觉 Token 化技术也在不断进步。新一代模型在压缩视觉数据方面表现得越来越出色,使其能够在成本不按比例增加的情况下理解更长的视频和更高分辨率的图像。对于用户而言,理解这一点有助于优化工作流程——例如,将图像裁剪至最重要的区域或缩短视频剪辑,可以显著减少 Token 数量并降低你的 API 开销。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注