想理解大模型,就避不开“token”这个词。它到底是什么?为什么大模型必须依赖它才能运行?今天,我们就从日常的表达习惯出发,把这个概念讲清楚。
一、从人类的表达习惯说起
我们平时说话或打字,很少会逐字往外“蹦”,更多是以词语为基本单位自然组合成句。
列如,当你想表达“我目前在阅读文章”时,脑海中浮现的是“我”“目前”“在”“阅读”“文章”这几个词,组合起来既流畅又高效。
如果换成逐字表达——“我-现-在-在-阅-读-文-章”,不仅别扭,还容易卡顿。这就是“以词为单位”的天然优势。
二、语言理解的核心逻辑
大模型理解语言的方式,实则和人类超级类似。如果仅以“单字”为处理单位,不仅效率低下,还容易误解语义。我们来看两组对比:
- “我”“明天”“上午”“早餐”“吃”“包子”
- “我”“明”“天”“上”“午”“早”“餐”“吃”“包”“子”
第一组一眼就能看懂:“我明天上午早餐吃包子”。第二组虽然也能勉强理解,但明显费劲不少。
如果大模型以字为单位处理,效率和准确性都会大打折扣。因此,主流的大模型都借鉴了人类“以词为单位”的思维方式,只不过在AI领域,这个基本单位被称作“token”。
三、Token:本质上是“词”的扩展
你可以把“token”理解为“词”的泛化版本——它的涵盖范围比传统意义上的“词”更广。
大模型在处理文本之前,会先进行“分词”(tokenization),将句子拆分成一个个token。不过,具体的拆分方式并没有统一标准,取决于模型自身的设计。
例如“吃包子”这三个字:
- 有的模型会拆成两个token:[“吃”、“包子”];
- 有的模型则认为“吃包子”是一个常用组合,将其视为一个整体token:[“吃包子”]。
具体怎么拆分,取决于模型在训练过程中形成的“分词习惯”——就像不同方言区的人有不同的用语习惯。
四、为什么不同模型的分词方式不同?
分词规则并非人为设定,而是模型从海量文本中学来的。模型通过统计分析,识别哪些字常常共同出现。列如“明天”这两个字频繁成对出现,模型就会将其视为一个token。
但由于不同模型训练的语料不同——有些基于新闻数据,有些侧重日常对话,训练方法也各有差异,最终形成的“分词词典”自然不同,拆分方式也就有所区别。
五、如何估算文本的token消耗?
许多人更关心实际问题:输入一段文字,会消耗多少token?准确数字只有在模型实际处理之后才能知道,但我们可以借助一些经验比例进行估算。
例如,DeepSeek曾提供如下参考:
- 1个英文字符≈0.3个token
- 1个中文字符≈0.6个token
按照这个比例,100个中文字符大约对应60个token。掌握这个规律,有助于大致估算使用成本,合理规划预算。
希望这篇文章帮你对“token”建立了清晰的认识。如果还有疑问,欢迎在评论区留言,我们一起探讨~
如果您有大模型或智能体开发(如腾讯Adp、火山Coze)相关的采购需求,欢迎访问「深圳市云趣星图科技有限公司」官网,与我们联系。作为腾讯云、火山引擎、京东云的官方授权合作伙伴,我们致力于为客户提供专业的上云与用云服务,涵盖免费试用指导、定制方案设计等全流程陪伴式支持。














- 最新
- 最热
只看作者