分享一篇发表在Nature Biotechnology上的文章,文章标题“Computational scoring and experimental evaluation of enzymes generated by neural networks”,文章的通讯作者是来自微软研究院的Kevin K. Yang和查尔姆斯理工大学的Aleksej Zelezniak。其中Kevin K. Yang主要从事机器学习蛋白质工程方面的研究,Aleksej Zelezniak主要研究兴趣是基于计算预测的系统生物学研究。
蛋白质序列生成模型是一种通过拟合自然界中蛋白质序列分布、不断采样获得新序列的生成模型。然而,预测生成的蛋白质能否折叠并发挥相应功能仍具有挑战性。其中主要困难在于,蛋白质序列生成模型通常以生成序列和自然界已有序列的比对分数(相似性)作为评估指标。而这种基于序列同一性、对每个位置赋予相同权重的指标有利于捕获全局的、一般的序列特性,但是却不利于捕获某些特定位置的上位效应。这导致模型对于致病性错义突变(表达水平或者活性不良)不够敏感。因此,一种可行的思路是联合其它类型的指标预测生成序列的活性。比如,将蛋白质语言模型的评估结果考虑在内,可能增强模型对于序列中某些缺陷的识别能力;引入Rosetta打分或者AlphaFold2的残基置信度打分,则有望增强模型对于蛋白质能否折叠至稳定结构的判断能力。基于此,本文作者开发并实验验证了蛋白质序列选择的复合指标(composite metrics for protein sequence selection, COMPSS),用于挑选具有酶活性的蛋白质序列。COMPSS包含如下三类指标:基于单序列的指标、基于多序列比对的指标、基于结构的指标。作者设计的实验框架如下:针对某一蛋白质功能,首先使用简单的评估指标(比如基于单序列的相似性)过滤序列并加以实验验证;根据实验验证给出的结果进一步训练模型、优化COMPSS;最后实验验证COMPSS的表现。在本文中,作者针对苹果酸脱氢酶(MDH)和铜超氧化物歧化酶(CuSOD)来优化COMPSS的指标。在第一轮简单过滤的实验中,作者从超过30000条生成序列中挑选了144条序列用于实验验证。这些序列与天然序列的相似度在70%到80%之间。结果表明,大约19%具有活性。在第二轮训练中,作者引入了新的指标(ESM-1v和ProteinMPNN等等)并在额外加入校准后的数据重新训练了序列生成模型。其中,60%以上的蛋白质呈现出酶活性。在第三轮的验证环节,COMPSS表现出对活性蛋白质的富集能力。作者最后指出,COMPSS 的核心思想是通过生物学驱动的质量检查和蛋白质语言模型评分进行预过滤来选择序列,最后利用相对耗时的结构预测进行最终评分。作者不建议在不考虑生物学复杂性的情况下盲目地将COMPSS应用于新的蛋白质家族。文章链接:https://www.nature.com/articles/s41587-024-02214-2原文引用:DOI: 10.1038/s41587-024-02214-2
目前评论: