bgcolor="#efefef">
近日,之江实验室与华大生命科学研究院联合发布了最新版的人类基因组基础模型Genos-10B。该模型在参数规模上达到百亿级,将为破解人体基因组中那些未知的区域提供新的技术范式。
2003年,人类基因组测序计划完成,至今已有22年。这个“大工程”产生了海量人类基因数据。但人类基因组中,还有超过98%的区域不直接编码蛋白质。非编码区域的功能至今仍然如同“天书”,由于缺乏有效的解读工具和方式,它们被长期被视为基因组“暗物质”。
据之江实验室介绍,Genos的出现,标志着大模型技术开始真正适配人类基因组的超长、高维度特征。它将通过数据底座创新、架构创新等,引入涵盖全球多民族及中国人群的长读长数据,捕捉全球人群范围内复杂的基因多样性,避免模型对于不同人群的偏好性歧视。同时,通过卓越的推理能力,让AI从“读懂序列”向“赋能诊疗”迈出关键一步。
值得一提的是,此前,Genos已在多项标杆任务中表现优异。比如在罕见病诊断案例中,模型展现出联合基因序列与临床文本表型进行推理的能力,其诊断精度已接近资深临床遗传学专家水平。
Genos团队强调“技术全民化”的理念,同步发布了1.2B和10B参数版本,适应从个人PC到算力集群的不同需求,并公布了开源路径。
中国最大的AI开源社区之一魔搭社区对此评论:Genos的发布不仅仅是参数量的竞争,更是计算范式的变革。它将建模对象从传统的局部序列拓展到了全基因组尺度。之江实验室和华大生命科学研究院借助Genos的发布在这场生物AI的竞赛中抢占了先机。
对于AI研发人员,Genos提供了处理极长序列、复杂动态路由的工程参考;对于生物研发人员,它则是一台可以透视“基因组暗物质”的高分辨率显微镜。随着Genos生态的开源,全基因组尺度的生命机制解读或许将迎来真正的爆发。
(综合潮新闻、之江实验室)