- A+
http://www.ncbi.nlm.nih.gov/pubmed/26272203
Genome Biol. 2015 Aug 14;16:162.
Predicting chromatin organization using histone marks.
Huang J, Marco E, Pinello L, Yuan GC.
这篇文章是使用公共数据做生物信息研究的典型例子。因为三维基因组的Hi-C数据(如A/B区间)和组蛋白修饰相关,作者很自然联想到用后者(有很多公共数据)预测前者(实验很费钱)。我们读文章时也留意各图之间的承接关系。
图1先从Hi-C数据定义互作最多的一维区域(hub,受蛋白互作hub的启发),然后和已知基因组特征关联,如序列保守性、离TSS(转录起始位点)的距离、和增强子的重合、附近基因的功能富集、疾病相关的GWAS SNP。这些相关性说明hub可能有生物和医学意义。
图2证明hub周围富集染色质转录激活marker(组蛋白修饰),为用后者预测hub做铺垫。
图3用机器学习做了这个预测,如果预测成功,进一步加强说明X和Y之间的相关性。如何选择特征、选取正样本和负样本是建模的经验和艺术。最好的预测模型所保留的特征,往往包含不重复的信息、可能更有生物意义。图3D用一个具体的样本点解释保留的特征的合理性和生物意义(方式很新颖)。
生物信息研究常被问的问题是:你的发现是不是只特异于这个数据集?前面的分析和发现只用了一个细胞系的数据,那这些规律是不是换一个数据集、在其他细胞类型中还能看到?图4证明找到的hub在不同数据集中类似,一个细胞系/数据集训练的模型可以成功预测另一个细胞系/数据集中的hub,但需要细胞系特异的组蛋白修饰数据。
拓扑结构域TAD是三维基因组学的基本模型之一,类比蛋白质的二级结构。TAD之间的边界DNA常富集某些组蛋白修饰标记或结合蛋白,所以这些标记也可能预测TAD边界。分析做图和预测模型(图5)类似前面。一点差异是,预测TAD边界不需要细胞类型特异的Chip-seq数据(预测hub需要;图6),这和TAD在不同细胞类型间保守的文献知识一致。
讨论部分一般深化(升华)结果的意义。例如找到的能预测TAD边界和hub的染色质修饰,可能预示有因果关系的生物假说(如后者导致前者),验证实验则可以用CRISPR破坏后者而看看前者的变化。如果提出的新概念(染色质互作hub)在文献中有类似的概念,或者近期有支持本文的工作的新文章(Nature),都要讨论异同,既得到佐证也强调创新的贡献。
目前评论: