什么是 Token?理解 AI API 计费的核心概念

什么是 Token?

在 AI 大模型的世界里,Token 是文本处理和计费的基本单位。你可以把它理解为模型"阅读"和"写作"时的最小单元。

简单说:你发给 AI 的每一段文字,以及 AI 回复给你的每一段文字,都会被拆分成一个个 Token,而你最终的费用就取决于这些 Token 的总数。

Token ≠ 字 ≠ 词

Token 的切分方式取决于模型使用的分词器(Tokenizer)。不同语言、不同模型的分词规则有所不同:

语言示例文本大致 Token 数
英文"Hello, world!"4
中文"你好,世界!"5-7
代码console.log("hi")5-6

经验法则

  • 英文:1 个 Token ≈ 4 个字符,或约 0.75 个单词
  • 中文:1 个汉字通常 = 1-2 个 Token
  • 代码:因符号和关键字较多,Token 数通常比等长的自然语言更多

Token 如何影响费用?

AI API 的计费公式很简单:

总费用 = (输入 Token 数 × 输入单价) + (输出 Token 数 × 输出单价)

以 GPT-4o 为例:

项目单价(每百万 Token)
输入$2.50
输出$10.00

如果你发送了 1,000 个 Token 的提示词,AI 回复了 500 个 Token,那么这次调用的费用为:

(1000 / 1,000,000) × $2.50 + (500 / 1,000,000) × $10.00 = $0.0025 + $0.005 = $0.0075

为什么输出比输入贵?

因为生成文本读取文本需要更多的计算资源。模型在生成每一个输出 Token 时,都需要执行一次完整的前向推理。

上下文窗口与 Token 的关系

每个模型都有一个**上下文窗口(Context Window)**限制,表示一次对话中能处理的最大 Token 数量:

模型上下文窗口
GPT-4o128K
Claude Sonnet 4200K
Gemini 2.5 Pro1M+
DeepSeek-V3128K

上下文窗口越大,意味着你可以在一次对话中传入更多的背景信息,但同时也意味着更多的 Token 消耗和更高的费用

如何估算和控制 Token 用量?

1. 使用 Tokenizer 工具

OpenAI 提供了在线 Tokenizer 工具,可以直观地看到文本被拆分成了多少个 Token。

2. 精简提示词

去掉不必要的冗余描述,用结构化格式(如列表、表格)代替长段落。

3. 控制输出长度

在提示词中明确要求输出长度,如"请用 100 字以内回答"。

4. 利用上下文缓存

部分 API 提供商支持上下文缓存(Context Caching),对重复的系统提示词只收取缓存价格(通常为原价的 10%-25%)。

💡 使用 APIS 费用计算器 输入你的 Token 用量,即可一键对比各中转站的实际费用。