Science | 使用Evo实现从分子到基因组规模的序列建模与设计

  • A+

分享一篇发表在Science上的文章,文章标题“Sequence modeling and design from molecular to genome scale with Evo”,文章的通讯作者是来自斯坦福大学的Brian L. Hie教授和UC伯克利的Patrick D. Hsu教授,其中Brian L. Hie教授主要从事蛋白质语言模型的研究。

1

大语言模型已成功地用于解释生物序列数据。然而,这些模型是模态特异性的,即,它们专门地用于某种特定的生物序列,比如蛋白质序列、RNA序列、DNA中的编码序列等等。这些模型难以建模跨模式的分子互作,比如基因调控(蛋白质-DNA)、CRISPR(蛋白质-RNA)等等。因此本文中,作者开发了一个基于基因组数据的、具有7B参数的模型Evo,并声称它作为一个多模态模型能够实现不同分子的协同设计。

2

作者将训练数据集限定在原核生物和病毒的基因组中,共包含约270万个基因组。为实现对长序列的建模(预训练中最长的基因组可达10 Mb),作者通过比较不同架构下模型参数量和验证集上困惑度(Perplexity)的关系,最终选择StripedHyena架构用于自回归预测。在一系列预测任务上,比如零样本下的细菌蛋白质适应度预测、ncRNA适应度预测,以及启动子活性预测等任务上均与现有模型表现相当。

3

随后,为测试Evo的多模态协同设计能力,作者在包含CRISPR-Cas序列的数据集上微调了Evo。以需要设计的Cas系统种类(Cas9、Cas12、Cas13)为输入,微调后的模型能够生成与对应系统相似的序列分布。生成的EvoCas9-1与已知的SpCas9具有73%的氨基酸序列同一性、相当的体外切割活性以及更高的切割效率。

5

最后,作者在基因组规模上测试了Evo的生成能力。以物种类型为输入,Evo将生成大约1 Mb长的基因组。在很多评估指标上,比如序列的编码密度、编码序列的排布模式、不同终止子的使用频率等等均与天然序列相似。作者还展示了由生成基因组所编码的、由ESMFold所折叠的蛋白质结构。这些结构大部分呈现出球形折叠,并且与自然界中的一些功能蛋白呈现出结构相似性。

本文作者:ZF
责任编辑:WYQ
原文链接:https://doi.org/10.1126/science.ado9336
文章引用:10.1126/science.ado9336

weinxin
我的微信
关注我了解更多内容

发表评论

目前评论: