
近日,相关部门给出了Token的官方翻译——词元,还给出了一组数据。到今年3月,我国日均词元调用量超过140万亿,相比2024年初的1000亿增长了1000多倍。
词元到底是什么
词元是大模型处理语言时使用的基本单位。大模型要先把一段语言拆分,再将其转成数字才能继续计算。拆分的基本单元就是词元。
每个汉字通常对应1-2个词元,每次对答会消耗一定数量的词元。
词元如何贯通数据、算法与算力
词元是串联大模型数据、算法、算力的核心枢纽。如果用做饭来类比——
★ 数据训练阶段,词元是切好的菜丁。数据质量取决于“菜丁”是否新鲜、丰富。
★ 厨艺越高(算法机制越先进),菜越美味(生成的词元序列质量越好)。
★ 煤气用量越大(算力越强),炒菜速度(生成速度)越快,但煤气费(词元费用)也越贵。