电子报阅读机
2026-05-18
星期一
当前报纸名称:香港商报

DeepSeek-V4上線並開源

日期:04-25
字号:
版面:A08       上一篇    下一篇

【香港商報訊】DeepSeek-V4的預覽版本24日上線並同步開源。DeepSeek-V4模型上下文處理長度由原有的128K顯著擴展至1M,支持百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現內地與開源領域的領先。

百萬上下文成標配

DeepSeek-V4模型按大小分為兩個版本:DeepSeek-V4-Pro(1.6T參數,49B激活)和DeepSeek-V4-Flash(284B參數,13B激活),且同時支持「非思考模式」與「思考模式」,均擁有百萬字超長上下文的能力。

據介紹,V4系列採用DSA稀疏注意力機制,實現Token維度壓縮,讓1M(一百萬字)超長上下文成為標配,降低了長文本處理對計算和顯存的需求,為複雜長程任務提供了支撐。

其中,DeepSeek-V4-Pro,相比前代模型,DeepSeek-V4-Pro的Agent能力有所增強。在Agentic Coding評測中,它已經達到當前開源模型最佳水平。

DeepSeek-V4-Pro在世界知識測評中,大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1。

在數學、STEM、競賽型代碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的成績。

而DeepSeek-V4-Flash模型參數下降至284B,推理成本進一步降低,模型參數和激活更小。

相比DeepSeek-V4-Pro,DeepSeek-V4-Flash在世界知識儲備方面稍遜一籌,但展現出了接近的推理能力。而由於模型參數和激活更小,相較之下V4-Flash能夠提供更加快捷、經濟的API服務。

在Agent測評中,DeepSeek-V4-Flash在簡單任務上與DeepSeek-V4-Pro旗鼓相當,但在高難度任務上仍有差距。

帶動芯片股強勢上漲

目前,華為昇騰超節點全系列產品已支持DeepSeek V4系列模型,實現DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低時延推理。

國產GPU廠商天數智芯完成了與DeepSeek-V4的Day 0級適配。據悉,天數智芯以天垓系列訓練芯片與智鎧系列推理芯片為核心,承接DeepSeek-V4的全場景應用。

而寒武紀基於vLLM推理框架完成了對此次285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro兩個版本的Day 0適配,適配代碼已開源到GitHub社區。

此外,DeepSeek方面稱,受限於高端算力,目前V4-Pro的服務吞吐仍有限,預計下半年昇騰950超節點批量上市後,Pro價格會大幅下調。

受DeepSeek?V4預覽版發布帶動,國證半導體芯片指數昨日強勢上漲1.06%,成分股海光信息上漲6.43%,龍芯中科上漲5.87%,華潤微上漲3.68%,中芯國際,聖邦股份等個股跟漲,半導體ETF鵬華上漲1.08%。

值得一提的是,據媒體援引知情人士消息稱,騰訊和阿里正在洽談投資DeepSeek,DeepSeek目前正尋求以超過200億美元估值籌集資金。不過,DeepSeek並未對此予以回應。此前,DeepSeek目標估值超過100億美元,DeepSeek計劃融資至少3億美元以補充資金儲備,應對成本日益高昂的AI軍備大賽。