什么是 Token?
在 AI 大模型的世界里,Token 是文本处理和计费的基本单位。你可以把它理解为模型"阅读"和"写作"时的最小单元。
简单说:你发给 AI 的每一段文字,以及 AI 回复给你的每一段文字,都会被拆分成一个个 Token,而你最终的费用就取决于这些 Token 的总数。
Token ≠ 字 ≠ 词
Token 的切分方式取决于模型使用的分词器(Tokenizer)。不同语言、不同模型的分词规则有所不同:
| 语言 | 示例文本 | 大致 Token 数 |
|---|---|---|
| 英文 | "Hello, world!" | 4 |
| 中文 | "你好,世界!" | 5-7 |
| 代码 | console.log("hi") | 5-6 |
经验法则
- 英文:1 个 Token ≈ 4 个字符,或约 0.75 个单词
- 中文:1 个汉字通常 = 1-2 个 Token
- 代码:因符号和关键字较多,Token 数通常比等长的自然语言更多
Token 如何影响费用?
AI API 的计费公式很简单:
总费用 = (输入 Token 数 × 输入单价) + (输出 Token 数 × 输出单价)以 GPT-4o 为例:
| 项目 | 单价(每百万 Token) |
|---|---|
| 输入 | $2.50 |
| 输出 | $10.00 |
如果你发送了 1,000 个 Token 的提示词,AI 回复了 500 个 Token,那么这次调用的费用为:
(1000 / 1,000,000) × $2.50 + (500 / 1,000,000) × $10.00 = $0.0025 + $0.005 = $0.0075为什么输出比输入贵?
因为生成文本比读取文本需要更多的计算资源。模型在生成每一个输出 Token 时,都需要执行一次完整的前向推理。
上下文窗口与 Token 的关系
每个模型都有一个**上下文窗口(Context Window)**限制,表示一次对话中能处理的最大 Token 数量:
| 模型 | 上下文窗口 |
|---|---|
| GPT-4o | 128K |
| Claude Sonnet 4 | 200K |
| Gemini 2.5 Pro | 1M+ |
| DeepSeek-V3 | 128K |
上下文窗口越大,意味着你可以在一次对话中传入更多的背景信息,但同时也意味着更多的 Token 消耗和更高的费用。
如何估算和控制 Token 用量?
1. 使用 Tokenizer 工具
OpenAI 提供了在线 Tokenizer 工具,可以直观地看到文本被拆分成了多少个 Token。
2. 精简提示词
去掉不必要的冗余描述,用结构化格式(如列表、表格)代替长段落。
3. 控制输出长度
在提示词中明确要求输出长度,如"请用 100 字以内回答"。
4. 利用上下文缓存
部分 API 提供商支持上下文缓存(Context Caching),对重复的系统提示词只收取缓存价格(通常为原价的 10%-25%)。
💡 使用 APIS 费用计算器 输入你的 Token 用量,即可一键对比各中转站的实际费用。