为大家分享一篇发表在Nat. Commun.上的文章Interpreting biologically informed neural networks for enhanced proteomic biomarker discovery and pathway analysis,通讯作者是来自隆德大学的Johan Malmström教授和第一作者Erik Hartman。基于质谱的蛋白质组学技术的不断发展,扩大了其在生物医学和临床研究中的应用范围,为分析复杂的生物体系提供了新的机会,对疾病机制的探究和生物标志物的鉴定弥合了转化和临床研究间的差距,这对于许多疾病领域有很重要的意义,例如传染病,不同临床和分子亚型的鉴定可能会影响新的治疗方案的发展。疾病的亚表型通常根据其不同症状的严重程度,用临床参数确定,很难区分。先前工作提出了新冠和败血症的临床亚表型,但是由于基础分子机制不明确,因此需要开发方法确定不同亚型的诊断和预后的候选生物标志物。此前研究的常用策略是确定亚型之间的显著差异表达蛋白,随后根据蛋白确定富集通路。这种策略忽略了蛋白质丰度、共表达和信号通路共调节等重要信息。为了减少这些信息造成的影响,作者将机器学习方法纳入蛋白质组学工作流程。由于深度神经网络缺乏可解释性,可解释的人工智能方法被开发,可以通过计算每个特征对于模型输出的重要性来解释复杂模型。为了进一步提高可解释性,作者将Reactome通路数据库纳入生物信息神经网络(BINN)中,得到以蛋白质、生物途径或生物过程注释节点的稀疏结构,以蛋白质组学数据为输入,作者注释、训练和解释生物信息神经网络,以分析脓毒症诱导的急性肾损伤(AKI)和新冠(COVID-19)亚型之间血浆蛋白质组学差异。通过对训练后的生物信息神经网络进行解释,作者确定了一组潜在的蛋白质生物标志物,可以高精度地对AKI和COVID-19亚表型进行区分,并有助于为定义的临床亚表型提供分子解释。在AKI-BINN中,打分较高的节点主要与代谢过程有关,如脂质代谢相关过程;而COVID-BINN更强调与免疫系统、细胞死亡相关的节点。此结果强调了两种疾病之间的关键差异,即脓毒症中代谢相关蛋白非常重要,而COVID中与免疫系统相关的蛋白质和通路最重要。同时可以发现此方法中排序最靠前的蛋白不一定是亚型之间的显著差异表达蛋白,也包括其他报道的已知生物标志物,可能是因为其连接的通路,以及与其他蛋白共调节导致其被算法认为比较重要。后续为了证明其能够推广到不同的蛋白质组学平台,作者利用olink平台的蛋白质组学数据来分析急性呼吸窘迫综合征(ARDS)的各病因之间的差异。 总之,作者发展一种深度学习方法,将蛋白质和生物通路的先验知识集成到稀疏神经网络中,进而创建具有生物学信息的神经网络,为疾病亚型之间新的生物标志物的发现和通路分析提供了新途径。
本文作者:LJF
责任编辑:TZY
原文链接:https://www.nature.com/articles/s41467-023-41146-4
文章引用:DOI: 10.1038/s41467-023-41146-4
目前评论: