近日,孙慧妍团队在因果学习与生物医学交叉领域取得研究进展,两篇论文在Briefings in Bioinformatics期刊上发表。Briefings in Bioinformatics是生物信息学和计算生物学领域中科院一区top期刊。
1. 研究工作一
孙慧妍研究员指导的2022级硕士研究生吴思威提出一种基于因果特征选择进行癌症关键预后基因识别的新方法CPCG。
论文题目:Identifying cancer prognosis genes through causal learning
发表期刊:Briefings in Bioinformatics
论文链接:https://doi.org/10.1093/bib/bbae721
第一作者:吴思威(主要研究方向:生物信息学、因果推断等。共同编著《因果推断:原理解析与应用实践》一书,将继续攻读博士学位。)
论文概述:精准识别癌症预后关键基因对于指导肿瘤治疗至关重要。由于混杂偏差、选择性偏差等,使得传统基于广义相关性的特征选择方法识别出的生物标志物的预测性能常常不稳定。加之临床数据常伴随样本量少、删失数据多等情况,进一步加剧了有效生物标志物识别的挑战,相较而言,因果特征的稳定性在这些方面具有显著优势。针对上述情况,本研究提出新的计算框架CPCG,通过集成参数和半参数比例风险模型评估基因表达对患者预后的影响,确定候选基因集合;随后通过因果关系推断构建候选基因与患者总生存时间关系的因果骨架,最后与总生存时间直接相关的一阶邻居基因作为癌症预后的核心基因。实验结果表明,CPCG能够显著消除基因与患者预后之间的虚假关联,直接从高维转录组数据中识别出一组简洁可靠、具有可解释性、泛化性和稳健性的癌症预后关键基因。CPCG也为其他医学任务的稳健生物标志物识别提供参考。
2. 研究工作二
孙慧妍研究员指导的2022级硕士研究生曾浩龙提出了一种融合大语言模型和因果推理的癌症基因识别新框架ICGI。
论文题目:Cancer gene identification through integrating causal prompting large language model with omics data-driven causal inference
发表期刊:Briefings in Bioinformatics
论文链接:https://doi.org/10.1093/bib/bbaf113
第一作者:曾浩龙(主要研究方向:因果机器学习、大语言模型等。腾讯AI算法岗实习生,将入职华为昇腾AI工程师。作为核心贡献者参与了GitHub LLM Cookbook项目,该项目拥有超过16,000颗星标。)
论文概述:从多组学角度识别癌症基因对于理解癌症机制和改进治疗策略至关重要。由于忽略了混杂因素、选择偏差以及黑盒属性等问题,使得基于深度学习方法识别的癌症基因易产生虚假、有偏且不可解释的预测。综合考虑LLM的涌现能力和因果推理的优势,本研究提出一种融合大语言模型和因果推理的癌症基因识别新框架ICGI。通过思维链提示和检索增强生成技术,结合因果提示和因果学习机制,ICGI能从基因组、转录组甚至其他组学的变异中识别癌症基因,区分癌症和正常样本,并提供生物学机制方面的解释,也为挖掘LLM在生物医学预测任务中的潜力提供参考。此外,本研究还开发及部署了一个Web应用界面(https://huggingface.co/spaces/ICGI/ICGI),以推动上述研究工作的推广与应用。