深圳17岁高中生破解AI底层难题

日期：03-19

字号：大 中 小

版面：第A05版：热搜上一篇 下一篇

　　3月16日，埃隆·马斯克在社交平台称赞中国人工智能公司月之暗面（Moonshot AI）Kimi团队的一项技术成果“令人印象深刻”。这项受到关注的新工作名为“注意力残差”，旨在改进大模型的底层信息传递结构，其技术论文的共同第一作者中，包括一位来自深圳的17岁在读高中生陈广宇。

　　扬子晚报/紫牛新闻记者宋世锋综合深圳发布

　　该论文由陈广宇、张宇、苏剑林三人作为同等贡献作者共同完成。其中，张宇是Kimi高效模型架构的重要研究者，苏剑林则是大模型旋转位置编码（RoPE）方法的提出者。陈广宇在接受采访时强调，这是团队共同完成的成果，希望外界多关注技术本身。

　　当前主流大模型普遍基于Transformer架构，但模型层与层之间的信息传递长期沿用较为固定的“残差连接”方式。这种方法在层数加深时，关键信息容易被稀释。Kimi团队提出的“注意力残差”提供了新思路：让当前层能够主动选择并聚合前面层中更重要的信息，而非无差别传递全部内容。

　　这一改进的意义在于，为提升大模型能力开辟了除堆叠参数和算力之外的新路径——通过优化底层结构来提高信息利用效率。马斯克评论这个论文时说：“Kimi的工作令人印象深刻。”

　　论文第一作者陈广宇是深圳一所国际学校的高三学生。其社交媒体信息显示，他已拥有顶尖竞技编程背景，参加过美国计算机奥林匹克竞赛铂金组比赛，在Kimi内部拿下48小时“黑客马拉松”比赛冠军。

　　陈广宇通过自学经典论文、追踪开源项目打下基础，后因在社交平台的技术分享获得硅谷AI初创公司实习机会，并于去年11月加入Kimi团队实习。在此期间，他在Kimi担任机器学习研究员，参与中国最顶尖的开源大模型的核心研发，并从“学生”变成“一线贡献者”。

　　此前他入选罗德信托的高潜力未来领袖计划，这是面向全球15~17岁潜力青年的选拔计划。他还在美国顶尖小型实验室Tilde Research做过AI研究。

　　他一再表示，此次成绩离不开团队中每一位成员的贡献。对陈广宇而言，17岁以第一作者身份主导Kimi这样顶级独角兽的核心架构论文，堪称“硅谷震动级”事件，也让全球AI圈注意到“中国高中生已经在做前沿架构创新”。陈广宇说，kimi的成员都有投入，不少人作出同等贡献。