大模型之家讯 近日,之江实验室与华大生命科学研究院联合发布人类基因组基础模型Genos-10B。该模型参数规模达百亿级,采用分层混合专家架构(HMoE)与分形注意力机制(Fractal Attention),首次实现对百万碱基(1Mb)超长上下文序列的单碱基精度建模,为解析人类基因组中超过90%功能未知的非编码区域提供了新路径。
据研究团队披露,Genos-10B基于端粒到端粒(T2T)完整基因组构建数据底座,整合了人类泛基因组参考联盟(HPRC)与HGSVC项目中的636个高精度T2T组装样本,并纳入覆盖全球多民族及中国人群的长读长测序数据,以提升模型在不同人群中的泛化能力,避免因训练数据偏差导致的群体偏好问题。
在架构层面,Genos-10B引入HMoE机制,在Transformer基础上通过专家负载均衡与动态路由技术,在维持10B参数容量的同时优化推理效率。其分形注意力机制则突破传统注意力计算复杂度随序列长度平方增长的限制,使模型可有效捕捉染色体级别的长程调控互作,适配人类基因组超长、高维特性。
实验数据显示,Genos-10B在多项基准任务中表现突出:在基因功能元件识别任务中准确率达88.72%;在RNA表达量模拟中,其预测结果与真实RNA-seq数据高度相关;在罕见病诊断测试中,模型结合基因序列与临床表型文本进行联合推理,诊断精度接近资深临床遗传学专家水平。
同期发布的多模态融合模型021-Genos,将之江021科学基础模型与Genos基因模型集成,打通基因序列与领域知识间的壁垒,进一步提升基因型疾病诊断准确性。
在工程落地方面,Genos已实现全栈优化。团队同步开源1.2B与10B两个参数版本,适配从个人PC到算力集群的多样化部署需求。模型已完成国产算力平台适配,并集成vLLM推理框架以降低异构环境使用门槛。目前,Genos已部署于华大DSC Cloud平台,提供RESTful API服务,支持DNA序列嵌入提取与碱基功能预测。
据悉,Genos系列模型已在GitHub、ModelScope、Hugging Face及之江Zero2x科学家工作台等平台开放,同时提供在线体验入口。该模型的发布标志着AI for Science在生命科学领域迈入“编程生物学”新阶段,为破解基因组“暗物质”提供可扩展的技术基础设施。
原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/14220