Token 用量计算

很多人看 AI 相关的理论头大，其实不用死记硬背，咱们直接从实际用的角度说 —— Token 就是 AI 处理文字的「基本单位」，搞懂它怎么算、怎么回事，用 AI 拿结果才更顺手。

Token 是什么？

官方说，AI 处理文本都是以 Token 为最小单位，它是常见的字符组合：

Deepseek 平台对 Token 的定义更直观：Token 是模型用来表示自然语言文本的基本单位，也是计费单元，可以直观理解为「字」或「词」；通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号 计为 1 个 Token。

不同模型有差异，以下为常见参考：

重要：因不同模型分词逻辑不同，实际用量以模型返回的 usage 字段为准，您可从返回结果中查看。

英文：有空格，单词天然分开，如 "I love AI" 可直接分成 3 个 Token，较省事
中文：无空格，按「意思块」分：单字「我」「好」各 1 个 Token，双字词「喜欢」「女友」各 1 个 Token，成语「马到成功」也可算 1 个 Token，故 Token 与汉字换算会有浮动

和 AI 聊天、发指令时，Token 消耗分两部分：您输入的文字 + AI 回复的文字，两者相加即为本次对话的总 Token 数。

示例：

同一对话页面的所有轮次（前面内容不变的前提下），Token 会累加：

您可以通过项目提供的压缩包中的代码运行 tokenizer，离线计算一段文本的 Token 用量，便于提前预估。

上下文 不是「整个页面所有对话」的简单堆砌，而是 AI 处理问题时能「记住」的信息范围，包括：

就像和朋友聊天：您说「今天天气好」，朋友接「适合出去走走」，这就是基于上下文回应；若朋友突然说「昨天披萨好吃」而前面没提过，就显得突兀。AI 同样依赖上下文理解需求，例如您问「余华最后一本书啥时候出的」，它需要结合之前关于余华作品的讨论才能给出准确答案。