Unigene注释为组装基因提供了功能信息,其中包含:蛋白序列相似度分析、蛋白功能注释、COG分类、GO功能注释、KEGG Pathway分析。各大蛋白数据库(NR,NT,Swiss-prot,KEGG,COG,GO)比对结果显示有45 579个Unigene(63.96%)具有较好的比对结果(BLASTX,E-value<10-5),并对这些Unigene进行了蛋白功能注释(见图6-7),且比对结果中蛋白相似度在60%以上的Unigene占55.2%,同时,对比结果表明与百子莲蛋白序列相似度最高的物种是葡萄(29.3%),其次为水稻(28.4%)(见图6-8)。
图6-7 百子莲转录组测序Unigene注释结果统计
图6-8 百子莲转录组NR分类图
COG是直系同源蛋白分类数据库,百子莲Unigene进行了COG数据库比对并进行功能分类。共有39 745个Unigene进行了COG分类,分布于25个组中[见图6-9(a)],其中general function prediction only为最大的一组,包含基因数量最多(5 986,15%),其次为Transcription(4 175,10.5%)、Replication,recombination and repair(3463,8.7%)、Signal transduction mechanisms(2 905,7.3%)、Posttranslational modification,protein turnover,chaperones(2 877,7.2%)、Translation,ribosomal structure and biogenesis(2 409,6.1%)、Function unknown(2 307,5.8%)、Carbohydrate transport and metabolism(2 258,5.7%),最小的组为Extracellular structures(24)与Nuclear structure(9)。
GO分类系统是一个国际标准的基因功能分类系统,GO数据库由3个本体构成:分子功能(molecular function)、细胞组分(cellular components)和生物过程(biological processes),每个本体组下由基本单元“GO terms”组成,每个term都对应一个属性。我们应用BLAST2GO与WEGO软件获得了百子莲转录组序列的GO注释分类,百子莲共有31 447个Unigene被分于3个主要的GO本体组中及59个基本单元中[见图6-9(b)]。
(www.xing528.com)
图6-9 百子莲Unigene的COG与GO分类图
(a)COG分类图 (b)GO分类图
应用Mapman网站在线软件Mercator共对百子莲44 256个氨基酸序列进行了功能注释,并获得了本物种Mapman生物学功能分析的Mapping。获得注释的蛋白在功能上分为35类(见图6-10),其中65%的氨基酸序列获得了已知功能注释。
图6-10 百子莲Unigene编码蛋白的mapman功能注释分类图
基因通路分析(pathway analysis)能够帮助我们更好地理解基因的生物功能,KEGG基因通路数据库包含了细胞内分子相互作用的网络信息[40]。百子莲的26 624个Unigene与KEGG数据库中的基因具有较好的相似性,这些基因分布于128个生物学通路中。其中包含基因最多的通路为Metabolic pathways(6 730 Unigene,23.9%),其次是Biosynthesis of secondary metabolites(2 467)、Endocytosis(1 796)、Glycerophospholipid metabolism(1 701)、Ether lipid metabolism(1 487)、Plant hormone signal transduction(1325)、Plant-pathogen interaction(1 260)、RNA transport
(1 144)、Spliceosome(1 097)、Starch and sucrose metabolism(990)等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。