分享一篇发表在JACS Au上的文章,文章标题“Machine Learning Models to Interrogate Proteome-Wide Covalent Ligandabilities Directed at Cysteines”,文章的通讯作者是来自马里兰大学的Jana Shen教授,其课题组主要从事分子模拟方面的研究。
靶向共价抑制剂是扩大可成药蛋白质组的主流方法。其中半胱氨酸是亲核性最强的氨基酸,也是被广泛研究的靶向氨基酸。事实上,目前FDA批准的靶向共价抑制剂均是针对半胱氨酸而开发出来的。近年来,发展了很多计算方法用以评估半胱氨酸的配体能力(ligandability)。在本文中,作者建立了一个新的数据库LigCys3D,包含778个蛋白质可靶半胱氨酸的注释信息,并以此训练了一个机器学习模型用以预测半胱氨酸的可靶性。
作者首先从PDB数据库中收集了778个蛋白质,其中包含1133个具有已知配体的半胱氨酸,且大约76%是酶。在构建训练数据集的过程中,作者注意到此前的数据集如CovPDB和CovalentInDB等只采用包含半胱氨酸配体的PDB结构。作者认为这可能忽略构象的多样性,限制模型的泛化能力。因此,作者将数据集扩充到10105个X射线晶体衍射结构(包含apo态、holo态结构),并同时采样负样本,最终得到20259个样本用于训练和测试。值得一提的是,其中超过一半样本是二聚体或多聚体蛋白。
作者随后使用基于物化特征的编码方法,考察了树模型和CNN模型的表现。二者显示出接近的性能,F1-score大约0.92。并且模型在对于不同的蛋白质四级结构是无偏的,即,在单体和多聚体蛋白中的表现相当。最后,作者强调了在数据集中增加未修饰半胱氨酸的蛋白质结构的重要性。如果只采用包含已修饰半胱氨酸的蛋白质结构,模型F1-score下降至0.77。作者也开发了预测服务器供研究人员使用(https://deepcys.computchem.org/)。
本文作者:ZF
责任编辑:WYQ
原文链接:https://pubs.acs.org/doi/10.1021/jacsau.3c00749
文章引用:10.1021/jacsau.3c00749
目前评论: