- A+
分享一篇发表在Science上的文章,文章标题“Sequence modeling and design from molecular to genome scale with Evo”,文章的通讯作者是来自斯坦福大学的Brian L. Hie教授和UC伯克利的Patrick D. Hsu教授,其中Brian L. Hie教授主要从事蛋白质语言模型的研究。
大语言模型已成功地用于解释生物序列数据。然而,这些模型是模态特异性的,即,它们专门地用于某种特定的生物序列,比如蛋白质序列、RNA序列、DNA中的编码序列等等。这些模型难以建模跨模式的分子互作,比如基因调控(蛋白质-DNA)、CRISPR(蛋白质-RNA)等等。因此本文中,作者开发了一个基于基因组数据的、具有7B参数的模型Evo,并声称它作为一个多模态模型能够实现不同分子的协同设计。
作者将训练数据集限定在原核生物和病毒的基因组中,共包含约270万个基因组。为实现对长序列的建模(预训练中最长的基因组可达10 Mb),作者通过比较不同架构下模型参数量和验证集上困惑度(Perplexity)的关系,最终选择StripedHyena架构用于自回归预测。在一系列预测任务上,比如零样本下的细菌蛋白质适应度预测、ncRNA适应度预测,以及启动子活性预测等任务上均与现有模型表现相当。
随后,为测试Evo的多模态协同设计能力,作者在包含CRISPR-Cas序列的数据集上微调了Evo。以需要设计的Cas系统种类(Cas9、Cas12、Cas13)为输入,微调后的模型能够生成与对应系统相似的序列分布。生成的EvoCas9-1与已知的SpCas9具有73%的氨基酸序列同一性、相当的体外切割活性以及更高的切割效率。
最后,作者在基因组规模上测试了Evo的生成能力。以物种类型为输入,Evo将生成大约1 Mb长的基因组。在很多评估指标上,比如序列的编码密度、编码序列的排布模式、不同终止子的使用频率等等均与天然序列相似。作者还展示了由生成基因组所编码的、由ESMFold所折叠的蛋白质结构。这些结构大部分呈现出球形折叠,并且与自然界中的一些功能蛋白呈现出结构相似性。
目前评论: