首个百亿级人类基因组基础模型发布
日期:10-24
深圳特区报讯(记者 闻坤)10月23日,在第二十届国际基因组学大会(ICG-20)上,华大生命科学研究院与之江实验室联合发布全球首个百亿参数人类基因组通用基础模型——Genos。这一针对人类基因组深度优化的基因组基础模型,可支持高达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别。
该模型的推出标志着基因组研究实现从“读出”碱基序列迈向“读懂”生命底层逻辑的一次关键转折,有望为临床疾病诊断、个人基因组解读及前沿科学研究带来突破性变革。
据介绍,基因组学领域内的现有模型大多基于一到两个参考基因组进行训练,难以捕捉人类丰富的遗传多样性。Genos系统整合人类泛基因组参考联盟、人类基因组结构变异图谱计划等多个权威公开资源,首次汇聚全球范围内636个“端粒到端粒”级别的高质量人类基因组作为训练数据。这些数据覆盖了全球不同人群,旨在从源头减少数据偏见,更全面地代表人类遗传多样性。
Genos既有“显微镜”般的单碱基精度,又有“广角镜”般的百万级超长上下文理解能力。在一系列测试中,在基因组元件识别、远程调控预测、突变致病性预测等经典评测任务里,Genos在超过一半的任务里比所有现有模型表现更好,而且长序列评测任务里,如突变热点识别和族群分类上,Genos的表现远超同类模型,展现了强大的上下文分析能力,有效破译基因组中的“暗物质”。
目前,全球基因组学领域尚无一款能够被开发者和研究者直接部署、用于下游应用的百亿级人类基因组基础大模型。Genos的发布,填补了这一空白。华大生命科学研究院宣布,Genos模型将全面、彻底地开源开放,且同时提供12亿和100亿参数两个版本,满足不同应用场景的需求。