DeepSeek-V4上線並開源

日期：04-25

字号：大 中 小

版面：A08 上一篇 下一篇

【香港商報訊】DeepSeek-V4的預覽版本24日上線並同步開源。DeepSeek-V4模型上下文處理長度由原有的128K顯著擴展至1M，支持百萬字超長上下文，在Agent能力、世界知識和推理性能上均實現內地與開源領域的領先。

百萬上下文成標配

DeepSeek-V4模型按大小分為兩個版本：DeepSeek-V4-Pro（1.6T參數，49B激活）和DeepSeek-V4-Flash（284B參數，13B激活），且同時支持「非思考模式」與「思考模式」，均擁有百萬字超長上下文的能力。

據介紹，V4系列採用DSA稀疏注意力機制，實現Token維度壓縮，讓1M（一百萬字）超長上下文成為標配，降低了長文本處理對計算和顯存的需求，為複雜長程任務提供了支撐。

其中，DeepSeek-V4-Pro，相比前代模型，DeepSeek-V4-Pro的Agent能力有所增強。在Agentic Coding評測中，它已經達到當前開源模型最佳水平。

DeepSeek-V4-Pro在世界知識測評中，大幅領先其他開源模型，僅稍遜於頂尖閉源模型Gemini-Pro-3.1。

在數學、STEM、競賽型代碼的測評中，DeepSeek-V4-Pro超越當前所有已公開評測的開源模型，取得了比肩世界頂級閉源模型的成績。

而DeepSeek-V4-Flash模型參數下降至284B，推理成本進一步降低，模型參數和激活更小。

相比DeepSeek-V4-Pro，DeepSeek-V4-Flash在世界知識儲備方面稍遜一籌，但展現出了接近的推理能力。而由於模型參數和激活更小，相較之下V4-Flash能夠提供更加快捷、經濟的API服務。

在Agent測評中，DeepSeek-V4-Flash在簡單任務上與DeepSeek-V4-Pro旗鼓相當，但在高難度任務上仍有差距。

帶動芯片股強勢上漲

目前，華為昇騰超節點全系列產品已支持DeepSeek V4系列模型，實現DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低時延推理。

國產GPU廠商天數智芯完成了與DeepSeek-V4的Day 0級適配。據悉，天數智芯以天垓系列訓練芯片與智鎧系列推理芯片為核心，承接DeepSeek-V4的全場景應用。

而寒武紀基於vLLM推理框架完成了對此次285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro兩個版本的Day 0適配，適配代碼已開源到GitHub社區。

此外，DeepSeek方面稱，受限於高端算力，目前V4-Pro的服務吞吐仍有限，預計下半年昇騰950超節點批量上市後，Pro價格會大幅下調。

受DeepSeek?V4預覽版發布帶動，國證半導體芯片指數昨日強勢上漲1.06%，成分股海光信息上漲6.43%，龍芯中科上漲5.87%，華潤微上漲3.68%，中芯國際，聖邦股份等個股跟漲，半導體ETF鵬華上漲1.08%。

值得一提的是，據媒體援引知情人士消息稱，騰訊和阿里正在洽談投資DeepSeek，DeepSeek目前正尋求以超過200億美元估值籌集資金。不過，DeepSeek並未對此予以回應。此前，DeepSeek目標估值超過100億美元，DeepSeek計劃融資至少3億美元以補充資金儲備，應對成本日益高昂的AI軍備大賽。

DeepSeek-V4上線並開源

日期：04-25 字号：大中小 版面：A08 上一篇 下一篇

日期：04-25

字号：大中小

版面：A08 上一篇下一篇