【摘要】 ChIP-Seq现在已经成为研究DNA与蛋白质相互作用的主要方法
ChIP-Seq现在已经成为研究DNA与蛋白质相互作用的主要方法,随着人类基因组计划的完成,启动于2008年的“国际千人组计划”和启动于2010年的“英国10K项目”都需要进行大量的测序工作,而且这些项目也会产生大量的ChIP-Seq数据,这些都会为ChIP-Seq技术的发展及ChIP-Seq数据的分析带来新的挑战与机会。
搜峰是ChIP-Seq数据分析很重要的一个步骤,很多后续分析都取决于搜峰的结果。搜峰就是根据峰富集区域来预测DNA结合蛋白在基因组上结合的区域。不同的DNA结合蛋白在基因组上的分布模式是不同的,具体体现于ChIP-seq峰形的不同,如转录因子的峰型为尖锐状(sharp peak,即信号高度集中),组蛋白标记的峰型为连绵状(broad peak,信号跨越一定范围),而RNA聚合酶II的峰型则两者兼有。不同类型的DNA结合蛋白对灵敏度和特异度之间的平衡有不同的要求。在搜峰的过程中,需要综合考虑灵敏度和特异度之间的平衡(增加灵敏度将降低特异度,增加特异度将降低灵敏度)。只有针对不同的DNA结合蛋白选择合适的搜峰算法和数据标准化方法,才能取得灵敏度和特异度之间的最佳平衡。
目前适用于分析尖锐信号的代表性搜峰软件主要有MACS,CisGenome,分析连绵信号的代表性搜峰软件有SICER,CCAT,而分析混合型峰的代表搜峰软件有ZINBA和MACS。尽管大部分的搜峰软件都可以通过GC含量,读可作图性这些信息来计算,但是还是强烈建议在测序的时候提供对照样本。目前MACS是使用最为广泛的搜峰软件,MACS的最新版本MACS2不仅可以分析尖锐信号,而且还可以分析连绵信号。
免责声明:部分文章整合自网络,因内容庞杂无法联系到全部作者,如有侵权,请联系删除,我们会在第一时间予以答复,万分感谢。