用组蛋白修饰标记预测染色质三维结构

A+

http://www.ncbi.nlm.nih.gov/pubmed/26272203
Genome Biol. 2015 Aug 14;16:162.
Predicting chromatin organization using histone marks.
Huang J, Marco E, Pinello L, Yuan GC.

这篇文章是使用公共数据做生物信息研究的典型例子。因为三维基因组的Hi-C数据（如A/B区间）和组蛋白修饰相关，作者很自然联想到用后者（有很多公共数据）预测前者（实验很费钱）。我们读文章时也留意各图之间的承接关系。

图1先从Hi-C数据定义互作最多的一维区域（hub，受蛋白互作hub的启发），然后和已知基因组特征关联，如序列保守性、离TSS（转录起始位点）的距离、和增强子的重合、附近基因的功能富集、疾病相关的GWAS SNP。这些相关性说明hub可能有生物和医学意义。

图2证明hub周围富集染色质转录激活marker（组蛋白修饰），为用后者预测hub做铺垫。

图3用机器学习做了这个预测，如果预测成功，进一步加强说明X和Y之间的相关性。如何选择特征、选取正样本和负样本是建模的经验和艺术。最好的预测模型所保留的特征，往往包含不重复的信息、可能更有生物意义。图3D用一个具体的样本点解释保留的特征的合理性和生物意义（方式很新颖）。

生物信息研究常被问的问题是：你的发现是不是只特异于这个数据集？前面的分析和发现只用了一个细胞系的数据，那这些规律是不是换一个数据集、在其他细胞类型中还能看到？图4证明找到的hub在不同数据集中类似，一个细胞系/数据集训练的模型可以成功预测另一个细胞系/数据集中的hub，但需要细胞系特异的组蛋白修饰数据。

拓扑结构域TAD是三维基因组学的基本模型之一，类比蛋白质的二级结构。TAD之间的边界DNA常富集某些组蛋白修饰标记或结合蛋白，所以这些标记也可能预测TAD边界。分析做图和预测模型（图5）类似前面。一点差异是，预测TAD边界不需要细胞类型特异的Chip-seq数据（预测hub需要；图6），这和TAD在不同细胞类型间保守的文献知识一致。

讨论部分一般深化（升华）结果的意义。例如找到的能预测TAD边界和hub的染色质修饰，可能预示有因果关系的生物假说（如后者导致前者），验证实验则可以用CRISPR破坏后者而看看前者的变化。如果提出的新概念（染色质互作hub）在文献中有类似的概念，或者近期有支持本文的工作的新文章（Nature），都要讨论异同，既得到佐证也强调创新的贡献。

我的微信

关注我了解更多内容

生物素标记服务网

用组蛋白修饰标记预测染色质三维结构

发表评论取消回复

目前评论：

微信

发表评论 取消回复

目前评论：

微信

发表评论取消回复