在这轮“词元经济”的大潮下,普通企业需要把自己变成“高质量词元的供给方”或“词元效能的放大器”,从而开辟新的商业赛道
用户端,问天气、查资料、写文案;企业端,智能客服、合同分析、数字人交互……如今,人工智能应用落地的每一个场景,都离不开对词元(Token)的海量调用。
近日,国家数据局为大模型核心计量单位Token定下官方中文名“词元”。词元是大模型处理信息的最小信息单元。今年3月,我国日均词元调用量已突破140万亿,较2024年初增长超千倍。那么,怎么理解词元?它的定价逻辑是什么?它与人工智能产业的关系如何?
调用量暴增,技术迭代降低门槛
“词元既不是一个字,也不是一个词,而是介于两者之间的‘语言碎片’。”百度千帆平台产品负责人张婷举例说,“我”是一个词元,“今天”可能是一个词元,“国际化”则可能被拆成“国际”和“化”两个词元。之所以不用“字”或“词”,是因为大模型要处理全球多种语言、代码、公式等,词元是通用的“最大公约数”,能让模型用统一方式处理所有语言和符号。她又打比方说,词元更像乐高积木,单个积木无意义,但按顺序拼接就能搭建出复杂场景,大模型训练本质就是学习词元序列的“拼法”。
江苏省人工智能学会专家、出门问问创新科技有限公司ToB事业群总经理孙鹏飞解释说,若把大模型比作“超级大脑”,数据就是原材料,词元就是这个“大脑”能直接识别、消化和处理的“最小营养颗粒”,是连接不同类型信息、消除模态差异的唯一通用接口。
“说白了,词元就是AI的‘文字细胞’或‘信息原子’,人类用字词说话,AI则用词元思考交流。”南京硅基智能科技有限公司创始人司马华鹏的比喻更为通俗。他解释说,计算机只能处理数字,不认识字和句子,必须通过分词把语言转换成数字序列,词元的粒度是工程验证的“最优解”,既不粗也不细,还能灵活处理行业术语、专有名词,在各垂直领域尤为重要。
一个个基础的词元,构成了智能经济运行的“细胞”。今年3月,我国成为全球大模型应用活跃度最高的国家之一。“词元调用量的爆发,绝非偶然,而是技术普及与应用爆发的双重必然结果。”孙鹏飞表示。
技术迭代是词元调用量增长的核心驱动力。司马华鹏介绍,高端计算设备价格高昂,大型推理集群的运营成本也不容小觑,再加上研发、运维与安全等相关投入,词元生产的初始门槛并不低。“而国内相关企业的持续技术创新,正不断降低词元成本:通过推理引擎优化、自研芯片加持、词元压缩缓存等各类技术手段,大幅提升词元处理效率,在相同成本下能处理更多词元,推动词元服务更具性价比。”
同时,新的应用形态、新的商业模式,也驱动词元调用量大幅上涨。孙鹏飞表示,今年3月词元调用量爆发的直接原因,是“小龙虾”智能体的走红。它让AI从“工程师的工具”变成“全民可用的生产力”,而每一个智能体的交互、每一次任务的执行,背后都是海量词元的消耗。“‘小龙虾’等智能体单周词元消耗量,就相当于去年四季度全平台周均的60%,带动词元需求非线性增长。”张婷补充道。
应用场景多元
普通企业加速“拥抱”
百亿级,是出门问问目前的日词元调用量规模;数亿词元,能让一款AI玩具的软件系统开发周期从半年压缩至两个月;一块钱,能让AI写出约1000篇800字作文……这些数字背后,是词元在各领域的深度融合,也折射出不同用户群体的需求差异。
走进南京硅基智能的办公区,技术团队正在调试数字人直播系统。“我们所有数字人相关业务,从实时对话到直播互动,每一个环节都离不开词元的驱动。”司马华鹏介绍,没有词元,数字人就只是不会动、不会说的静态模型,正是词元的持续流转,让数字人拥有了“思考”和“表达”的能力,也让其广泛应用于金融、电商、政务等多个领域。
出门问问的“听到”系列产品,则是C端词元消耗的典型场景。这款面向录音需求用户的软硬件一体化产品,能实现“硬件精准识音+软件智能整理”,一场访谈的音频转写、语义理解、文本总结,每一秒都在持续消耗词元。“词元贯穿了我们所有AI产品矩阵,主要集中在C端智能体应用和B端企业级AI服务两大板块。”孙鹏飞说。
中国计算机学会理事、南京理工大学计算机科学与工程学院副院长肖亮分析,词元调用量的分布呈现出鲜明的行业与场景特征,主要集中在信息密度更高、产品迭代周期更快以及模型与生产系统联系更紧密的领域。
那么,普通企业如何加速拥抱这轮“词元经济”?肖亮表示:“不需要去研发大模型,而是要把自己变成‘高质量词元的供给方’或‘词元效能的放大器’。”他表示,企业的内部数据转化成的“私有词元”,是高价值稀缺资源,若能将细分领域经验打包成“领域词元API”卖给同行,还能开辟新的商业赛道。
可计量可交易,未来将像水电一样普及
“词元本身具备可计量、可定价、可交易属性,使其能够成为连接技术供给与商业需求的结算单位,成为AI时代的‘算力货币’。”张婷表示,这背后是AI商业化逻辑的重构,按词元计费的新型模式,正颠覆传统互联网流量变现模式。
过去一段时期,人工智能产业聚焦于模型性能的比拼,技术创新与商业落地之间缺乏可量化的衔接桥梁,难以形成“技术迭代、价值产出、持续投入”的良性循环。而词元的出现,恰好解决了这一痛点。它就像工业时代的石油、电力,其消耗量直接反映着AI经济的活跃度,更有望成为未来智能社会的基础资源。
“打个比方,大模型输出的智能好比电,智算中心好比发电厂,电用千瓦时来计量,智能调用就用词元来计费。”司马华鹏表示,未来,人工智能有望成为像水、电一样支撑社会运转的基础资源,随取随用,用多少买多少。孙鹏飞也认同这一观点:“水电是现代工业的基础,而词元则是智能经济时代的基础能源,所有公司和个人在使用AI工具的过程中,本质上都是在消耗词元。”
从词元视角出发,打造智能经济新形态,我国具备先天优势。肖亮表示,中国14亿庞大人口和上下五千年文化底蕴,本身就拥有世界最大的数据资源。同时,我国算法创新持续突破,国产大模型通过底层架构优化,与全球顶尖技术的代差逐渐缩小,能以更少的词元完成复杂任务;基础设施也具备领先优势,建成了全球门类最全、规模最大的能源体系,电力成本不断降低,有效降低了词元调用成本。
对于词元的未来趋势,张婷判断,词元价格还会继续下降,三到五年内有望达到“白菜价”,普通个人开发者将不用在意词元成本。但她强调,未来竞争焦点会转向模型能力、响应速度、定制化程度和行业理解深度。
司马华鹏则表示,硅基智能将持续深耕词元技术研发,推动词元技术普惠化,降低企业使用门槛,“我们希望通过技术创新,释放词元的核心价值,实现‘碳基生命享受生活,硅基生命为您干活’的美好场景。”据《新华日报》
出门问问录音卡
硅基智能打造的数字人