【摘要】 染色质免疫共沉淀—测序(Chromatin Immunoprecipitation followed by Sequencing,ChIP-Seq)这项技术,相对于以前的测序方法,他的优点是可以在短时间内产生海量的生物信息数据。

染色质免疫共沉淀—测序(Chromatin Immunoprecipitation followed by Sequencing,ChIP-Seq)这项技术,相对于以前的测序方法,他的优点是可以在短时间内产生海量的生物信息数据。如何有效且准确地分析这些生物数据,是现在生物信息学面临的一项重大挑战。在这种情况下,运用不同算法的生物数据分析软件应运而生。

 

新一代测序结果的原始数据形式是图像文件。因此,对测序结果进行图像识别(base calling)是数据分析的第一步。在每一次测序结束之后,这些图像通过一定的计算机算法处理可转换为碱基序列,然后通过对这些碱基序列进行接头序列过滤处理获得大量的、具有一定长度的原始序列,这一过程又称reads或tags。在此环节可完成reads长度和reads数量的统计以及数据产生量的估算。

 

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因组大小为2M,测序深度为10X,那么获得的总数据量就为20M。要想对ChIP-Seq数据进行准确而有效的分析,那么就需要足够的测序深度。测序深度主要取决于参考基因组的大小,DNA结合蛋白结合位点的宽窄及数量。哺乳动物的转录因子的DNA结合位点和基因组与组蛋白修饰相关的位点通常落在特定的、狭窄的区域(6~20bp),位点的个数大约有成千上万。对于这种情况,测序后至少需要产生2000万个原始序列才能获得足够的信息。如果某种蛋白与DNA有更多的结合位点(比如RNA PolII)或者结合的位点比较宽(比如大部分的组蛋白修饰),那么则需要更多的原始序列(大约6000万)才能获得足够多的信息。

 

免责声明:部分文章整合自网络,因内容庞杂无法联系到全部作者,如有侵权,请联系删除,我们会在第一时间予以答复,万分感谢。