深圳17岁高中生破解AI底层难题
日期:03-19
3月16日,埃隆·马斯克在社交平台称赞中国人工智能公司月之暗面(Moonshot AI)Kimi团队的一项技术成果“令人印象深刻”。这项受到关注的新工作名为“注意力残差”,旨在改进大模型的底层信息传递结构,其技术论文的共同第一作者中,包括一位来自深圳的17岁在读高中生陈广宇。
扬子晚报/紫牛新闻记者 宋世锋 综合深圳发布
该论文由陈广宇、张宇、苏剑林三人作为同等贡献作者共同完成。其中,张宇是Kimi高效模型架构的重要研究者,苏剑林则是大模型旋转位置编码(RoPE)方法的提出者。陈广宇在接受采访时强调,这是团队共同完成的成果,希望外界多关注技术本身。
当前主流大模型普遍基于Transformer架构,但模型层与层之间的信息传递长期沿用较为固定的“残差连接”方式。这种方法在层数加深时,关键信息容易被稀释。Kimi团队提出的“注意力残差”提供了新思路:让当前层能够主动选择并聚合前面层中更重要的信息,而非无差别传递全部内容。
这一改进的意义在于,为提升大模型能力开辟了除堆叠参数和算力之外的新路径——通过优化底层结构来提高信息利用效率。马斯克评论这个论文时说:“Kimi的工作令人印象深刻。”
论文第一作者陈广宇是深圳一所国际学校的高三学生。其社交媒体信息显示,他已拥有顶尖竞技编程背景,参加过美国计算机奥林匹克竞赛铂金组比赛,在Kimi内部拿下48小时“黑客马拉松”比赛冠军。
陈广宇通过自学经典论文、追踪开源项目打下基础,后因在社交平台的技术分享获得硅谷AI初创公司实习机会,并于去年11月加入Kimi团队实习。在此期间,他在Kimi担任机器学习研究员,参与中国最顶尖的开源大模型的核心研发,并从“学生”变成“一线贡献者”。
此前他入选罗德信托的高潜力未来领袖计划,这是面向全球15~17岁潜力青年的选拔计划。他还在美国顶尖小型实验室Tilde Research做过AI研究。
他一再表示,此次成绩离不开团队中每一位成员的贡献。对陈广宇而言,17岁以第一作者身份主导Kimi这样顶级独角兽的核心架构论文,堪称“硅谷震动级”事件,也让全球AI圈注意到“中国高中生已经在做前沿架构创新”。陈广宇说,kimi的成员都有投入,不少人作出同等贡献。