罗福莉
创始人梁文锋
近日,一款名为深度求索(DeepSeek)的中国大模型,不但惊艳了全世界,更让行业几乎“洗牌”。由杭州深度求索开发的DeepSeek应用,1月27日登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。
因DeepSeek美欧股市蒸发1万亿美元。日本芯片相关股票下跌,欧洲光刻机设备制造商ASML的股价早盘下跌逾8%。异军突起的DeepSeek到底有多强大?扬子晚报/紫牛新闻记者下载DeepSeek进行了体验。
扬子晚报/紫牛新闻记者 徐兢 宋世锋
记者实测
用大模型做奥数题写作文
1月27日,记者在华为应用市场搜索DeepSeek,免费下载后注册手机号,收到验证码后便可使用。打开DeepSeek主页,便可以看到熟悉的人机对话界面,并且在右下角还有“深度思考”。
到底有多强大呢?先来一道三年级学生的奥数题“小试牛刀”——小猫把15条鱼分成数量不等的4堆,问最多的一堆有多少条??在数秒思考后,DeepSeek给出了最终答案:9条。这与百度给出的答案一致。值得注意的是,DeepSeek在做题时列出了它全部的解题步骤,条理清晰,像一位耐心的数学老师在写板书。
如果说这道题目比较简单,那么换了一道比较难的奥数题——已知9个连续偶数的和是90,求这连续的9个偶数。DeepSeek依然给出了正确答案,有兴趣的网友可以自己试一下。
测过了数学题,我们再来测一测作文能力:“用鲁迅的风格,写一篇南京人如何过除夕的作文,字数500字。”在一两秒的思考后,DeepSeek交出了一篇作文,提到了“腊八粥”“盐水鸭”“蛋饺”“什锦菜”等南京传统过年美食,细节很多,也用到了比喻等修辞手法,但是文章感染力一般。
这么“惊艳”的功能,价格究竟是多少呢?现在完全免费,只要手机号注册,就可以享受所有功能。业界给出的评价是:DeepSeek推出的AI智能对话助手,集搜索、写作、阅读、解题和翻译功能于一体。在与用户对话时,能够快速、清晰地响应,在解决复杂问题时智能化水平较高。
重塑AI市场
成本仅是ChatGPT的1/10
记者了解到,DeepSeek来自国产大模型公司深度求索,系量化巨头幻方量化旗下大模型公司。公开信息显示,杭州深度求索人工智能基础技术研究有限公司成立于2023年7月17 日。
1月20日,该公司正式发布推理大模型DeepSeek-R1。一经推出,DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发轰动。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。
目前,在国外大模型排名榜Chatbot Arena上,DeepSeek-R1的基准测试排名已经升至全类别大模型第三,与OpenAI的ChatGPT-4o最新版并列,并在风格控制类模型(StyleCtrl)分类中与OpenAI的o1模型并列第一。
DeepSeek之所以被科技圈关注,在于DeepSeek-V3的出现极大地降低了大模型训练和应用的成本,DeepSeek-V3训练成本仅557.6万美元,而OpenAI训练ChatGPT-4o所花费的成本高达7800万美元甚至是1亿美元,双方的成本至少是10倍的差距。
业内人士认为,DeepSeek的出现,对以OpenAI 为代表的传统AI巨头构成了实质性威胁。在AI市场中,DeepSeek凭借其技术和成本优势,迅速吸引了大量用户,尤其是对成本敏感的中小企业和初创公司。
“东方神秘力量”背后的年轻人
DeepSeek大模型发布之后,便如同一头年轻的野兽,冲入公众视野,搅动整个AI圈。据了解,深度求索的创始人梁文锋是金融圈成名已久的高手。他创立的幻方量化,为国内量化私募巨头之一。
梁文锋毕业于浙江大学
据报道,创始人梁文锋,1985年出生于广东省湛江市。2002年,他考上浙江大学电子信息工程专业,毕业后在浙江大学攻读研究生。在大学期间,梁文锋就已积累市场行情数据和探索全自动量化交易。
2013年,他与浙大同学徐进共同创立了杭州雅克比投资管理有限公司,两年后又成立了杭州幻方科技有限公司,致力于通过数学和人工智能进行量化投资。2016年,公司推出了首个基于深度学习的交易模型,并实现了所有量化策略的AI化转型。
2021年,幻方的资产管理规模突破千亿大关,跻身国内量化私募领域的“四大天王”之列。2023年,他宣布将正式进军通用人工智能领域,并创办了深度求索DeepSeek。
2024年5月,DeepSeek发布混合专家语言模型DeepSeek-V2。同年12月,DeepSeek-V3问世,这款性能优越且性价比极高的大语言模型,被硅谷同行誉为“来自东方的神秘力量”。
“他初中就学完高中的数学,甚至已经开始学大学的数学,数学思维能力很强。”梁文锋的初中班主任容先生表示,初中时期的梁文锋性格很文静,但不是书呆子,他在学习上很有自己的“一套方法”,很注重劳逸结合,仿佛不需要花很多时间来学习就可以学好每一个学科。
1月26日,记者联系上梁文锋的高中同学兼好友陈先生。陈先生表示,读书的时候,梁文锋就经常做课题实验,学习刻苦,也热爱足球。
大学时期,梁文锋读的电子信息工程专业前景并不明朗,但他很有前瞻的眼光。“完全是白手起家,创业以来还做过全自动绣花机等产品,不断探索总结溯源。”
在团队配置上,DeepSeek团队只有139名研发人员,对比ChatGPT的OpenAI团队则有1200名研究人员,团队规模是DeepSeek的近乎9倍之多。
团队的工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,鲜有“海归”,而且工作时间都不长,不少还是在读博士。即便是团队的管理者,也非常年轻。
95后“少女”参与关键研发
2024年12月底,有媒体报道,雷军以千万年薪招揽一名“天才AI少女”来领导小米的AI大模型团队。这位95后“少女”名叫罗福莉,过去两年供职于DeepSeek团队,曾参与大模型的关键研发。
罗福莉在北京大学读计算语言学硕士期间,曾因在ACL(国际计算语言学协会)学术会议上发表多篇论文而受到关注。毕业后,她进入阿里巴巴达摩院,从事预训练语言模型相关的工作。2022年加入深度求索母公司幻方量化,之后成为DeepSeek大模型项目成员。目前小米和当事人并未就此回应。
突破性创新的全是年轻人
2024年5月,DeepSeek-V2发布,相比于国内外主流大模型,大幅减少了计算量和推理显存,一问世就备受关注。做出这一突破性创新的,是年轻的高华佐和曾旺丁等人。
两人都刚从学校出来没几年。高华佐来自广东,2012年在华南师范大学附属中学就读时,曾获第29届全国中学生物理竞赛一等奖,并于次年保送至北京大学物理学院学习。曾旺丁来自湖南省新化县,2017年至2023年就读于北京邮电大学人工智能学院,硕士期间主要学习人工智能方向,导师为张洪刚,2018年曾获全国大学生数学竞赛(非数学类)二等奖。
核心成员之一邵智宏此前是清华大学交互式人工智能(CoAI)课题组博士生,主要研究自然语言处理、深度学习,对构建稳健且可扩展的AI系统有着独特见解。GRPO算法创新的另一重要贡献者是朱琪豪。这位北京大学计算机学院2024届的博士毕业生,专注于深度代码学习研究。在校期间,他展现了惊人的学术能力,发表CCF(中国计算机学会)-A类论文16篇。
综合南方人物周刊等报道