电子报阅读机
2025-12-06
星期六
当前报纸名称:江苏商报

中国AI创新势力
加速涌现

日期:01-08
字号:
版面:第A04版:热点       上一篇    下一篇

  中国科技企业深度求索打造的大模型DeepSeek-V3,通过技术创新,在较短的训练时间、较低的投入成本的情况下,达到海外知名大模型同等的水平,给当前的人工智能技术与发展路径提供了一个新的方向

  一家来自中国的科技企业,正成为全球AI领域的“顶流”。就连OpenAI(美国开放人工智能中心)创始人山姆·奥特曼都不得不开始关注这家公司,它在硅谷甚至被称为“来自东方的神秘力量”。

  这家公司就是DeepSeek,中文名为“深度求索”,是国内量化巨头幻方量化的子公司。2024年12月26日,其发布了最新AI大模型DeepSeek-V3,并同步开源,刷屏中外AI圈。据了解,DeepSeek-V3能够在性能上和世界顶尖的闭源模型GPT-4o及Claude-3.5-Sonnet比肩,但成本却只有行业主流模型的1/10。

  在不少业内人士看来,被冠以“AI界高效低价典范”的DeepSeek,给当前的人工智能技术与发展路径提供了一个新的方向,贡献了AI竞赛中的中国力量。

  来自东方的神秘力量

  2024年12月26日,深度求索官方微信公众号推文称,旗下全新系列模型DeepSeek-V3首个版本上线并同步开源。该国产大模型性能对齐海外领军闭源模型,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

  在百科知识、长文本、代码、数学及中文能力上的表现,DeepSeek-V3超越其他模型,尤其是在数学上,在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

  更重要的是,深度求索使用2000张英伟达H800GPU在短短两个月内就训练出了DeepSeek-V3,仅花费了约558万美元。其训练费用相比GPT-4o等大模型要少得多。OpenAICEO山姆·奥特曼曾表示,GPT-4o的训练成本大约1亿美元,未来训练大模型的成本将高于10亿美元。尚未完成训练的GPT-5大模型,为时约半年的一轮训练就消耗了大约5亿美元。

  DeepSeek-V3的横空出世,引发了海外AI圈热议。OpenAI创始成员Karpathy甚至对此称赞道:“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。”

  深度求索被硅谷誉为“来自东方的神秘力量”,在2024年5月6日发布由AI“天才少女”罗福莉参与研发的DeepSeek-V2开源MoE模型时,就以其高效性能在全球AI界掀起了一波热度。

  而其API接口价格与同类产品相比堪称“断崖式定价”,为每百万Tokens(Token是计算机科学中的信息或价值的基本单位,用于表示、传输或存储数据)输入1元、输出2元(32K上下文),仅为海外知名大模型GPT-4Turbo的近百分之一。

  如今,DeepSeek-V3的API定价提高到每百万Tokens输入2元、输出为8元(45天的价格优惠期后),虽然比V2大幅上涨,但也只相当于Claude-35-Sonnet费用的1/53,后者每百万Tokens输入3美元、输出15美元。

  “花小钱办大事”的秘密

  在不少业内人士看来,DeepSeek做到了“花小钱办大事”,背后则是通过更先进的MoE架构、多技术融合优化、FP8混合精度训练框架等技术,以及与开源社区合作的方法,在成本较低的情况下,就训练出文字生成和逻辑推理能力不输乃至领先主流AI大模型DeepSeek-V3。

  DeepSeek-V3的成功离不开其独特的技术创新。首先,其采用的混合专家(MoE)架构通过稀疏激活机制,仅激活37亿参数,显著降低了计算量,同时提升了模型的处理能力。其次,DeepSeek团队开发的多头潜在注意力(MLA)机制和FP8混合精度训练框架,进一步优化了模型的训练效率和生成速度,使其生成速度从每秒20个Token提升至60个Token。此外,DualPipe算法的引入,有效降低了跨节点通信的开销,使得训练成本大幅降低。

  这些技术创新不仅让DeepSeek-V3在性能上比肩顶尖闭源模型,更在成本控制上实现了突破,展现了“四两拨千斤”的技术实力。

  更有业内人士认为,DeepSeek-V3的成功,某种程度上是中国在AI领域突破外国技术封锁的缩影。

  2022年,美国对中国实施芯片出口限制,旨在遏制中国在AI领域的发展。然而,DeepSeek团队通过软件层面的创新,充分利用性能受限的H800GPU,实现了训练效率的显著提升。

  DeepSeek团队通过FP8混合精度训练框架的运用,不仅降低了内存占用,还加快了计算速度,使得在硬件性能受限的情况下,依然能够高效完成大规模模型的训练。

  这种“硬件不足,软件补足”的策略,不仅让DeepSeek-V3在技术上实现了突破,更在某种程度上打破了美国对中国的技术封锁。

  正如一位硅谷AI工程师所言:“DeepSeek的成功证明,创新并不一定依赖于最先进的硬件,而是可以通过聪明的工程设计和高效的训练方法实现。”这种由需求驱动的创新,不仅为中国AI技术的发展注入了新的活力,也为全球AI领域提供了新的可能性。

  为人工智能产业发展提供新思路

  DeepSeek-V3的出现,也为人工智能产业的发展提供了新的思路。

  不少业内人士提出,大模型研发,存在多种可能的发展路径。例如ChatGPT走的是大参数、大算力、大投入的路子,对算力和资金的要求极高,这种资源消耗是绝大多数创业公司无法支撑的。即使是OpenAI、Anthropic融资较丰沛的公司,也面临投资回报的商业化难题。

  行业内正在探索的推理模型是另一条路子。但同样,它也是建立于相对高昂的算力和资金成本基础上,尤其是算力。

  而DeepSeek-V3走出了“第三条路”,与当前大模型训练动辄要求万卡集成相比,它只用2000张GPU训练,就实现了与GPT-4o和Claude-3.5-Sonnet几乎等效的成果,不能不令人敬佩。

  另外一个值得关注的点是,人工智能竞争,中国不仅仅是跟随者,而是正在大幅提升创新能力。

  DeepSeek创始人梁文锋2024年7月在接受媒体采访时说,硅谷习惯于将中国AI公司视为跟随者的角色,当一个中国公司以创新贡献者的身份,加入到他们的竞争里去,而且表现优异时,他们就很震惊。

  梁文锋认为,更多的投入并不一定产生更多的创新,否则大厂可以把所有的创新包揽了。研究和技术创新将永远是DeepSeek第一优先级。值得注意的是,根据业内专家测算,DeepSeek在V2、V3上并不亏钱。

  DeepSeek-V3获得硅谷一批知名AI大佬的点赞。LeptonAI创始人、阿里巴巴原副总裁贾扬清表示,DeepSeek是智慧和实用主义的体现:在有限的计算资源和人力条件下,通过聪明的研究产生最好的结果。

  DeepSeek-V3也让不少业内人士看到创新从来不是单维度、单向度的,AI颠覆式创新正在成为可能。

  过去两三年,AI界一个流行的看法是,如果说硅谷企业擅长从0到1,那么中国企业则擅长从1到10,因为中国有宽广的应用市场。但梁文锋认为,当前阶段仍是AI技术创新的爆发期,而不是应用的爆发期。

  从理性的角度,需要承认中国企业与OpenAI、Anthropic、DeepMind这些世界先进AI公司仍存在较大的差距。但这一轮人工智能浪潮之所以更加令人期待,就是因为,它带来的革命性想象力甚至要超越互联网之于传统经济的变革力量。正如梁文锋所说,中国产业结构的调整升级,会更依赖硬核科技的创新。在半导体、大模型等领域,远未触达技术天花板,前所未有的机会在等待着中国企业,那些带来AI颠覆性创新产品或方案模式的公司,就非常可能成为下一个伟大的企业。

  延伸阅读

  我国人工智能核心产业规模接近6000亿元

  2024年12月举办的2024数字科技生态大会主论坛发布的相关消息显示,我国初步构建了较为全面的人工智能产业体系,人工智能核心产业规模已接近6000亿元,产业链上下游的企业数超过4700家,覆盖芯片、算力、数据、平台、应用等各相关环节。

  星辰语音大模型支持中英双语及40种方言任意混说;政务、工业、教育等垂直领域专用大模型加快赋能经济社会的数智化转型;“星海”数据智能中台,形成了9万亿Tokens高质量数据集……当前,生成式人工智能产品在我国百花齐放。

  工业和信息化部总工程师赵志国表示,我国大力推进现代化技术产业体系完善升级,初步建成了较为全面的人工智能产业体系。1至10月,三家基础电信企业的大数据、云计算、人工智能、物联网等新兴业务收入同比增长8.9%。

  “当前人工智能产业规模发展具备了良好条件。”中国电信董事长柯瑞文认为,过去两年来,生成式人工智能以前所未有的速度进行迭代和创新,大模型能力得到快速提升。从近期实践来看,AI手机、AIPC等智能终端逐步走进日常生活,行业大模型在金融、工业、医疗等领域加快落地,借助大模型解决生产实际问题逐步形成共识。

  据悉,多方将加快构建信息通信业与人工智能融合发展的产业生态,促进实体经济和数字经济的深度融合。

  赵志国表示,要超前布局6G、人工智能、量子信息等领域的研发创新,加强人工智能通用大模型和垂直领域专用大模型的开发,建设高质量的数据集和语料库,持续提升创新能力,更好赋能新型工业化。着力推动算力基础设施高质量发展,加快制定算力互联互通、算力市场培育等行动方案,建立健全算力网络协同发展的标准规范体系,增强算网的融合能力,加速构建全国统一的算力服务大市场。

  国家数据局副局长陈荣辉表示,要加快培育数字新产业、新业态,发展下一代通信技术、人工智能、智能算力等数字产业,推动数字化产品消费,通过数字改造赋能,对传统产业进行全方位全链条的改造,推动互联网、大数据、人工智能同产业深度融合应用,激发数字化转型的内生动力。

  据每日经济新闻、《证券时报》《经济参考报》、财联社等