> 文章列表 > n5095a与n5095的区别(n50)

n5095a与n5095的区别(n50)

n5095a与n5095的区别(n50)

很多人对n5095a与n5095的区别,n50不是很了解那具体是什么情况呢,现在让我们一起来瞧瞧吧!

1、因为如果n50越大,表明那些含有较多碱基的reads就较多,也就是长片段的reads很多,当然拼接的效果也就越好

2、举个例子,比如一个基因组大小是1M,测序得到若干条reads,这些reads进行拼接,如果完全可以拼接起来,中间没有gap的序列称为contig,即连续的意思。

3、如果中间有gap,但是可以知道gap的长度,这样的序列就叫做scaffold, 即脚手架(非连续)的意思。

4、然后把contig 和 scaffold 从长到短进行排列,然后相加,当恰好加到1M的50%,也就是500k的时候 ,那一条 contig 或者scaffold 的长度就叫做Contig N50和Scaffold N50。

5、很明显这个数值越大说明组装的质量越好。

6、 即:从最长的开始倒数,数到长度为总长度一半的片段,最后一个被数到的片段越长,说明长的片段越多,最后组装的质量越好。

7、 拼接分析原理:测序仪器一次测量的长度有限,通常会对样本中的序列进行饱和式测量,原始数据文件中会包含大量来自基因不同位置、长度不同的短序列。

8、拼接工作将这些短序列按照一定顺序排列并筛除重复部分,合成长序列。

9、首先需要弄懂n50的定义。

10、 n50就是把contig或scaffold从大到小排序,并对其长度进行累加,当累加长度达到基因组序列长度一半时,最后一个contig或scaffold长度。

11、如果这个值越大,就是说在这些个contig中含有较大长度。

本文【n5095a与n5095的区别(n50)】到此讲解完毕了,希望对大家有帮助。