阿里云通义万相大模型正式开源

日期：02-28

字号：大 中 小

版面：第03版：天下上一篇 下一篇

bgcolor="#efefef">

　　本报讯（通讯员笑宁记者郑锋龙） 25日晚，阿里云旗下视觉生成基座模型万相2.1（Wan）正式开源。此次开源采用宽松的Apache2.0协议，14B和1.3B两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务，开发者可在Github、HuggingFace和魔搭社区下载体验。

　　据介绍，14B万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出，在权威评测集VBench中，万相2.1以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外模型，稳居榜首位置。

　　1.3B版本测试结果不仅超过了更大尺寸的开源模型，甚至还接近部分闭源模型，同时能在消费级显卡运行，仅需8.2GB显存就可以生成高质量视频，适用于二次模型开发和学术研究。

　　在算法设计上，万相基于主流DiT架构和线性噪声轨迹Flow Matching范式，研发了高效的因果3D VAE、可扩展的预训练策略等。

　　以3D VAE为例，为了高效支持任意长度视频的编码和解码，万相在3D VAE的因果卷积模块中实现了特征缓存机制，从而代替直接对长视频端到端的编解码过程，实现了无限长1080P视频的高效编解码。此外，通过将空间降采样压缩提前，在不损失性能的情况下进一步减少了29%的推理时内存占用。

　　万相团队的实验结果显示，在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中，万相均达到了业界领先表现，并斩获5项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升，万相能稳定展现各种复杂的人物肢体运动，如旋转、跳跃、转身、翻滚等；能精准还原碰撞、反弹、切割等复杂真实物理场景。

　　自2023年8月起，阿里云相继开源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型，囊括0.5B、1.5B、3B、7B、14B、32B、72B、110B 等全尺寸，大语言、多模态、数学和代码等全模态，多次登上国内外权威榜单，已成为全球开源社区最重要的模型系列。阿里云Qwen衍生模型数量已超过10万个，是全球最大的AI模型家族。

　　随着万相的开源，阿里云实现了全模态、全尺寸大模型的开源。

　　今年1月DeepSeek 火爆出圈至今，开源正在成为国内外众多大模型的“必选项”。今年2月，字节豆包、昆仑万维、百度文心、阿里通义千问等均推出开源模型。

阿里云通义万相大模型正式开源

日期：02-28 字号：大中小 版面：第03版：天下 上一篇 下一篇

日期：02-28

字号：大中小

版面：第03版：天下上一篇下一篇