词元(Token)为何重要?
  • 来源:科普时报
  • 作者:
  • 2026-03-27 09:45

近日,相关部门给出了Token的官方翻译——词元,还给出了一组数据。到今年3月,我国日均词元调用量超过140万亿,相比2024年初的1000亿增长了1000多倍。

词元到底是什么

词元是大模型处理语言时使用的基本单位。大模型要先把一段语言拆分,再将其转成数字才能继续计算。拆分的基本单元就是词元。

每个汉字通常对应1-2个词元,每次对答会消耗一定数量的词元。

词元如何贯通数据、算法与算力

词元是串联大模型数据、算法、算力的核心枢纽。如果用做饭来类比——

★ 数据训练阶段,词元是切好的菜丁。数据质量取决于“菜丁”是否新鲜、丰富。

★ 厨艺越高(算法机制越先进),菜越美味(生成的词元序列质量越好)。

★ 煤气用量越大(算力越强),炒菜速度(生成速度)越快,但煤气费(词元费用)也越贵。

编辑:吴桐
相关新闻

  • TEL:010-58884104
  • E-Mail:kepu@kepu.gov.cn
  • 如果您有任何意见或建议,请联系我们!
  • TEL:010-58884104
  • E-Mail:kepu@kepu.gov.cn
  • 如果您有任何意见或建议,请联系我们!