近日,公司关于COVID-19重症风险预测的研究在期刊Scientific Reports上发表。该研究通过整合SARS-CoV-2基因组序列及患者临床信息,利用机器学习方法构建了高精度预测模型,为COVID-19重症患者的早期识别提供了有力工具。
这项研究由太阳成集团的门可教授团队完成,他们通过从全球共享数据库(GISAID)获取了超过160万条SARS-CoV-2全基因组序列及患者信息,利用这些数据构建了COVID-19重症风险预测模型。研究团队采用了随机森林、极端梯度提升(XGBoost)、轻量级梯度提升机(LightGBM)和高斯过程提升(GPBoost)四种机器学习方法,并通过集成学习进一步提高了预测精度。
图1 基于SARS-CoV-2基因组多样性的COVID-19重症风险预测研究框架
研究结果表明,该集成模型在全球测试数据集上取得了F-score为88.842%、AUC为0.956的优异表现。此外,研究还识别了包括患者年龄、性别、疫苗接种状态以及SARS-CoV-2基因组中超过40个氨基酸位点突变特征在内的多个对COVID-19病情严重程度有显著影响的因素。
值得注意的是,该研究在模型构建过程中充分考虑了SARS-CoV-2基因组的多样性,通过提取氨基酸位点特征、优化模型参数及集成模型,显著提高了预测准确性。此外,研究还采用了SHAP(Shapley Additive exPlanes)方法对模型进行可解释性分析,量化了不同特征对预测结果的影响,为模型的广泛应用提供了有力支持。

图2 全球以及各大洲预测模型的测试结果ROC曲线
图3 基于COVID-19患者样本的SHAP力图(a)轻症患者和(b)重症患者
文章链接: https://www.nature.com/articles/s41598-024-78493-1
(太阳成集团 文图/苗苗 审核/门可 张东宁)