为了获得百子莲较全面的转录组序列信息,我们应用百子莲实生苗各器官组织与愈伤组织建立混合样品,提取富集m RNA建立Illumina测序文库,应用Illumina HiSeq TM 2000平台进行测序。测序总共得到53 075 520条90 bp的Clean reads组成的4 776 797 340 nt(4.7 Gb)的数据,通过Q20碱基质量检测过滤后得到数据量占总测序数据的97.44%,碱基中GC含量为48.19%(见图6-4)。
图6-4 百子莲转录组测序产量统计
注:Total Raw Reads和Total Clean Reads分别表示原始reads和clean reads的总数量;Total Clean Nucleotides表示clean reads总的碱基数;Average Read Length表示clean reads的平均长度;Q20 percentage表示过滤后质量不低于20的碱基的比例;N percentage代表过滤后不确定的碱基的比例;GC percentage表示过滤后碱基G和C数占总碱基数的比例。
所有高质量的测序片段(Clean reads)经过Trinity软件de novo组装后,共得到200 651个Contig片段,平均长度为277 bp,N50长度为398 bp;Contigs通过连接组装得到的Unigene数量为71 258个,平均序列长度为755 bp,N50长度为1 227 bp,总长度为53.8 Mb,这些序列经过同源转录本聚类分析后共得到34 483个同源聚类(见图6-5)。
(www.xing528.com)
图6-5 子莲测序组装质量统计
组装序列的长度分布如图6-6所示,Contig序列主要分布在200 bp长度(136 759条;68.16%),大于500 bp的Contig序列有26 645个,占总数的13.3%[见图6-6(a)];组装好的Unigene共有71 258个,其长度都≥300 bp,其长度超过500 bp的Unigene有38 183条(53.58%),长度超过1 000 bp的有19 686个(27.63%),长度超过2 000 bp的Unigene有5 672条(8%)[见图6-6(b)];在各蛋白数据库中共比对上44 256个蛋白cds编码序列,大部分cds长度重要分布于200~2 000 bp,其中有24 001个cds长度介于200~500 bp,大于500 bp的cds有23 602个,大于1 000 bp的有11 078个序列[见图6-6(c)];在EST数据库比对上的Unigene有4 724个[见图6-6(d)]。
图6-6 百子莲转录组片段组装片段长度分布统计
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。