Nat. Mach. Intell. | 从有标记和无标记的基因表达数据中学习分布外泛化预测药物反应

  • A+

分享的是发表在nature machine intelligence上的一篇文章,题目是Out-of-distribution generalization from labelled and unlabelled gene expression data for drug response prediction,通讯作者是来自加拿大Simon Fraser University的Martin Ester教授,研究兴趣在于数据挖掘和迁移学习,以及生物医药上的应用。

1

      基于病人基因组特征的药物反应预测(也称为药物基因组学)是精准肿瘤学的一项关键任务。因为报道病人药物反应的数据集通常很小或不公开,所以大规模的临床前资源比如来源于病人的异种移植物 (PDX)或癌细胞系被用来作为病人的代理,然而,这些代理缺乏肿瘤微环境/免疫系统等等,使得它们在一些重要方面仍与病人有所不同。
      迁移学习是处理此类场景的可行的机器学习方法:访问来自多个资源(称为源域,source domains)的不同数据集,来对感兴趣的数据集(称为目标域,target domains)进行预测。在药物反应预测的背景下,研究者们已经提出了许多迁移学习方法来预测药物反应。然而,这些方法大多假设模型在训练期间可以访问所需的标记或未标记的目标域,而在现实世界中,我们在源域上训练模型时无法访问目标域,例如,我们不知道未来可能走进诊所的病人。此外,生成大量高质量标记的临床前数据集是一个昂贵且耗时的过程。因此,理想的计算方法需要将有标记的以及未标记的源域数据作为输入,并学习到可推广到未来目标域的表示。这个问题被称为分布外泛化(out-of-distribution generalization)或域泛化(domain generalization),其中目标域在训练期间不可访问。


2

3

      在本文中,作者提出了一种方法名为Velodrome。这是一种深度神经网络方法,结合了对域不变(domain-invariant)的特征的学习以及假设不变(hypothesis-invariant)的特征的学习两种策略,并利用了有标记和未标记的样本。Velodrome 将细胞系(有标记)和病人(未标记)数据集中的基因表达作为输入域,并通过共享的特征提取器(细胞系和病人之间)和针对特定域的预测器来预测药物反应,测量值为剂量反应曲线上方的面积,AAC。模型使用具有三个组件的损失函数进行训练:(1)标准监督损失,使得特征可以预测药物反应;(2) 一致性损失,使得未标记样本中的特征可以被学习;(3)对齐损失,使得特征可泛化。根据作者报道,Velodrome 是第一种从有标记的细胞系和未标记的病人到不同的临床前和临床数据集的半监督分布外泛化的方法。
      作者评估了 Velodrome 的性能并且与其他利用监督分布外泛化、域适应和半监督学习的先进方法的性能相比较。作者观察到 Velodrome 在多种药物的不同临床和临床前药物基因组学数据集上表现出明显更好的性能,证明了半监督分布外泛化对药物反应预测的潜力。此外,作者发现Velodrome 对癌症基因组图谱 (TCGA)中患有前列腺癌和肾癌的病人 (未标记)的预测结果与所研究药物的靶基因的表达值具有统计学意义的相关性,这表明 Velodrome 捕捉了药物反应的生物学方面。

      最后,他们经过测试认为,虽然 Velodrome 只在固体组织类型上进行了训练但它对源自非固体组织类型的细胞系能够做出准确预测,展示了 Velodrome 模型的分布外泛化能力。


本文作者:CYao

责任编辑:Guo ZH

原文链接:https://www.nature.com/articles/s42256-021-00408-w

文章引用:DOI:10.1038/s42256-021-00408-w


weinxin
我的微信
关注我了解更多内容

发表评论

目前评论: