分享一篇发表在Nature Biotechnology上的文章:Fast and accurate protein structure search with Foldseek,通讯作者是来自韩国首尔大学的Martin Steinegger和德国Max Planck研究所的Johannes Söding,他们的研究方向主要是计算和定量生物学中的算法开发。计算蛋白结构预测的成功使得结构数据库快速扩充,这些数据库的规模对相应的分析方法提出了挑战。最广泛使用的蛋白质注释和分析方法是序列相似性搜索,以找到同源序列,从而推断查询序列的特征。然而,仅从序列检测远距离的进化关系仍然具有挑战性,通过三维(3D)结构对齐来直接检测蛋白结构上的相似性为识别同源蛋白提供了更高的灵敏度,但当前的可用工具速度过慢,已经无法应对现有的数据库规模。为提高结构比对的速度,一个要点是将蛋白质的氨基酸骨架描述为一串序列信息,并使用快速的序列比对方法进行结构比对。现有的方法大多将3~5个Cα原子的构象进行离散化,但在本文中,作者开发了一种新型的FoldSeek算法,它不描述骨架构象,而是描述三级相互作用(3Di)。概括地说,3Di状态描述了残基i与其最近邻残基j之间的三级相互作用,包括两个残基所处的骨架片段提取出的7个余弦值、1个欧氏距离和2个序列距离特征,将这组10维特征通过VQ-VAE的编码器映射为20种3Di状态字母表之一,这里的VQ-VAE架构在已有的对齐结构残基上训练,以学习进化上最为保守的状态。这样的结构编码方式使得连续字母之间的依赖性较弱,且状态频率分布更为均匀,也使得最高的信息密度编码在保守的蛋白核心区域,而不是无序、较不保守的环区。
实现了查询结构的离散化编码后,FoldSeek使用预训练的3Di替换矩阵和MMseqs2执行类似的序列搜索,以完成结构比对。作者使用FoldSeek与Dali、TM-align、CE等结构比对方法进行了比较,发现FoldSeek可将比对计算时间缩短四到五个数量级,在灵敏度上达到Dali和TM-align的86~88%。作者还开发了网络服务器https://search.foldseek.com供所有人使用。总之,作者开发了变革性的快速结构比对算法FoldSeek,将结构比对速度提高了四到五个数量级。
本文作者:WFZ
责任编辑:MB
原文链接:https://doi.org/10.1038/s41587-023-01773-0
文章引用:DOI:10.1038/s41587-023-01773-0
目前评论: