分享的是发表在nature communications上的一篇文章,题目是“Attention-based multi-label neural networks for integrated prediction and interpretation of twelve widely occurring RNA modifications”。文章通讯作者是来自西交利物浦大学的Daiyun Huang和Jia Meng教授。
转录后 RNA 修饰增加了 RNA 分子的结构和功能多样性,并调节了 RNA 生命的所有阶段。因此,精确识别 RNA 修饰位点对于理解各种 RNA 的功能和调控机制至关重要。已经确定了 100 多种不同类型的 RNA 修饰,比如m6A,m1A等等。研究者们已经提出了许多计算方法来从RNA 序列中预测RNA 修饰位点,包括iRNA tookits、SRAMP、DeepPromise、WHISTLE、Gene2vec、m6A-Atlas、RMDisease、PEA、PPUS、BERMP、m5Upred和m6AmPred。这些工作极大地促进了人们对不同物种在不同条件下的多种 RNA 修饰类型的定位的理解。然而,这些方法主要的局限性在于:1)现有的预测器大多是针对某种单一类型(尤其是m6A)的二分类预测,不利于不同修饰之间的关系的研究;2)大多数工作的数据来自单一来源(单一数据库或一次实验结果),数量有限,未能充分利用表观转录组信息;3)大多数工作缺少对其预测结果提供清晰直观的解释。

基于此,作者开发了一种新的预测方法名为MultiRM,这是一种基于注意力机制的多标签神经网络方法,用于对来自RNA 序列(或相应 DNA 序列)的 RNA 修饰进行综合预测和解释。他们的模型支持 12 种 RNA 修饰类型,包括 m6A、m1A、m5C、m5U、m6Am、m7G、Ψ、I、Am、Cm、Gm 和 Um,因为这些是唯一可以使用现有的碱基分辨率技术在转录组范围内进行分析的广泛存在的 RNA 修饰。他们在模型上测试了三种不同的嵌入技术,发现 Word2vec 大大增强了其预测能力,比较了窗口为21bp,51bp和101bp,发现51bp时平均最好。为了处理标签不平衡的问题,他们实施了 OHEM 和不确定权重策略。最终他们的 MultiRM 模型实现的整体性能优于经典的机器学习模型 XGBoost 和一些先进的多标签学习器。

他们的模型可以展示对预测贡献最大的关键序列组件(motif)。此外有一个主要优点是能够了解不同 RNA 修饰之间的潜在关联。为了更好地理解不同 RNA 修饰之间固有的共享结构,他们提取了注意力机制中前馈神经网络的权重。这些权重分别对应于 12 个 RNA 修饰的 12 个向量,计算每对向量的皮尔逊相关性 ( ρ ) 以揭示两个任意 RNA 修饰的相关性。他们发现RNA 修饰之间都显示出强烈而显著的正相关,包括源自不同核苷酸的那些。这表明存在被多个RNA修饰密集修饰的区域,这些区域可能是基因调控的表观转录组层的关键调控成分。文章链接:https://www.nature.com/articles/s41467-021-24313-3原文引用:DOI: 10.1038/s41467-021-24313-3
目前评论: