8月21日,大模型公司深度求索正式发布DeepSeek-V3.1,实现了混合推理架构、更高的思考效率、更强的Agent能力等提升,并增加了对Anthropic API格式的支持。值得注意的是,深度求索特意提醒用户DeepSeek-V3.1使用了UE8M0 FP8 Scale 的参数精度,并在其公众号评论区补充:UE8M0 FP8是针对即将发布的下一代国产芯片而设计的。
摩尔线程技术专家向《中国电子报》表示,UE8M0指无符号8位指数的FP8格式,用于对FP8张量数据进行分块缩放,提升表达精度,从而提升大模型训练推理的精度。
随着大模型的参数量呈指数级增长,其训练所需的计算资源和存储空间急剧攀升,采用低精度数值格式成为大模型继续扩容并降低训练成本的关键。相比FP32、FP16等浮点格式,FP8可显著降低大模型运行过程中的显存占用和通信带宽,提升GPU内存读写的吞吐效率,在提升大模型性能和能效表现的同时,进一步降低大模型部署成本。
深度求索团队对FP8的运用和优化由来已久。在去年12月发布的DeepSeek-V3中,该团队提出了一种基于FP8数据格式的细粒度混合精度框架,用于DeepSeek-V3的训练。尽管低精度训练具有巨大潜力,但其应用往往受到激活值、权重和梯度中异常值的限制。为解决这一挑战并有效扩展FP8格式的动态范围,深度求索团队引入了一种细粒度的量化策略:采用1×Nc元素的分块分组或Nc×Nc元素的块级分组。此外,为了进一步减少混合专家(MoE)训练中的内存和通信开销,该团队以FP8格式缓存并分发激活值,同时以BF16格式存储低精度的优化器状态。与BF16基线相比,该团队将FP8训练模型的相对损失误差始终保持在0.25%以下,处于训练随机性的可接受范围内。
而DeepSeek-V3.1采用的UE8M0 FP8 Scale,有利于大模型进一步降本增效。具体来看,UE8M0 FP8 Scale的U代表无符号(Unsigned),E8代表指数位(Exponent)占8位,M0代表尾数位(Mantissa)为0位,Scale是用于缩放数值的因子。无符号代表该格式仅表示非负数,尾数位为0则仅表示2的幂次,8个比特全部用来表示指数。而Scale通过对数据进行分块缩放,将数值保持在FP8能够精确表示的范围内,从而在进一步压缩计算和存储开销的同时,保持张量精度。
而深度求索团队透露的“UE8M0 FP8是针对即将发布的下一代国产芯片设计”,瞬间燃起资本市场对于国产算力芯片的热情。8月22日,寒武纪、海光信息的股价涨幅均达到20%,触及涨停。
目前,国内已有量产芯片原生支持FP8。比如摩尔线程旗舰AI训推产品MTT S5000采用的MUSA架构原生支持硬件FP8张量加速计算,能够很好地支持UE8M0 FP8 Scale,相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。此外,燧原科技、沐曦、芯原等国内企业均有支持FP8的算力芯片。
此次深度求索团队主动释放适配国产芯片的信息,也有利于国产计算生态的协同。在此前发布的DeepSeek-V3技术报告中,DeepSeek团队也曾向人工智能硬件供应商提出了芯片设计建议,包括提高张量核心中FP8通用矩阵乘法的累加精度、支持分块和块级量化等。
“DeepSeek针对下一代国产芯片引入参数精度,能够充分发挥出已量产的国产芯片架构特性,通过国产大模型和国产芯片协同设计优化,实现1+1>2。”摩尔线程技术专家向记者表示。