首页 >> 新闻动态
中国农业大学生物学院胡晓湘、王宇哲团队开发可解释性机器学习基因组预测方法

发布日期:2026-04-07访问次数: 信息来源:模式动物重大设施建设办公室字号:[ ]


近日,中国农业大学生物学院胡晓湘教授、王宇哲青年研究员团队在人工智能辅助基因组预测研究方面取得重要进展。相关成果以 “Automated interpretable artificial intelligence genomic prediction with AIGP”为题发表在国际自然指数期刊Genome Research。该研究系统评估了多种机器学习方法在复杂性状基因组预测中的表现,系统揭示了机器学习在不同遗传架构条件下的适用规律,提出了一套融合可解释人工智能的预测框架,为解析复杂性状遗传机制和推动智能育种技术发展提供了新的思路。

AIGP2

基因组预测(Genomic Prediction)是现代动植物育种的重要技术,其核心目标是通过全基因组遗传变异信息预测个体表型。然而,传统统计模型如GBLUPBayesR通常依赖线性假设,难以充分刻画复杂性状中普遍存在的非线性效应和基因互作关系。机器学习方法具有较强的模式识别能力,在处理高维基因组数据方面展现出巨大潜力,但也存在预测性能不稳定的现象,其黑箱特性制约着数量性状的生物学解释和育种应用的落地。针对这一问题,研究团队结合多种机器学习算法与可解释人工智能技术,对多物种复杂性状的基因组预测进行了系统分析。

研究利用鸡、猪、马和玉米等农业物种的大规模基因型与表型数据,对12种机器学习方法与传统基因组预测方法进行了全面比较。结果表明,在具有明显功能QTL或较高遗传力的性状中,机器学习方法整体表现优于传统方法,其中 LightGBM CatBoost 等提升算法在预测准确率和稳定性方面表现最佳。进一步的模拟数据实验显示,当遗传效应呈非正态分布或存在基因互作效应时,机器学习模型能够更有效地捕捉复杂遗传信号,从而显著提升预测性能。

研究还发现,性状的遗传结构和特征工程是影响预测性能的重要因素。通过在关键QTL区域增加遗传标记密度并结合麻雀搜索算法进行模型参数搜索,可以显著提升模型预测精度。此外,研究团队利用SHAP方法对机器学习模型进行解释分析,定量评估每个SNP位点对预测结果的贡献。通过引入SHAP解释框架,能够在位点、个体以及群体层面量化不同基因型对预测结果的贡献,使机器学习模型具有生物学解释能力。同时,机器学习模型能够在无需显式构建交互项的情况下自动捕捉非加性效应及多位点互作关系,更高效地表达复杂遗传结构。在计算效率方面,使用原始SNP标记时,大部分机器学习方法与GBLUP速度相当,若使用PCAPHATE等降维方法,可在保持预测性能基本稳定的前提下,使模型训练时间缩短至数分钟以内,整体效率提升数百倍,为大规模基因组数据分析提供了高效解决方案。

在此基础上,研究团队开发了 AIGPArtificial Intelligence Genomic Prediction)智能基因组预测软件。该平台集成了数据预处理、特征选择、模型训练、参数优化以及SHAP解释分析等功能模块,可自动评估多种模型并输出最优预测结果,同时支持并行计算与高效数据处理流程。该工具不仅提升了基因组预测的自动化程度,也为研究人员探索复杂性状的遗传机制提供了可解释性的AI分析工具。

29999

中国农业大学生物学院博士生卫雷为本论文第一作者,王宇哲青年研究员和胡晓湘教授为论文的共同通讯作者,博士生闫艺丹参与该研究。广东温氏南方家禽育种有限公司徐振强博士、姜自琴博士、河北农业大学樊宝良教授为该工作做出重要贡献。该研究得到了生物育种国家重点专项、国家重点研发计划、中央高校基本科研业务费和2115创新团队等项目的资助。中国农业大学模式动物表型与遗传研究国家重大科技基础设施(国家模式动物科学中心)的羲和高性能计算平台提供了运算支持。

原文链接:https://genome.cshlp.org/content/early/2026/03/05/gr.281006.125

 






打印本页 关闭窗口