首页 理论教育 基因功能注释:基于云计算大数据处理技术的发展与应用

基因功能注释:基于云计算大数据处理技术的发展与应用

时间:2023-10-17 理论教育 版权反馈
【摘要】:各式各样数据库的建立,使得利用计算机、数学及统计学的方法进行基因功能注释成为可能。近年来,生物信息学家不断地改进算法和策略,试图更加准确地对基因进行功能注释,其中最为常见的是机器学习方法。机器学习方法用于基因功能注释中。因此,基因功能注释的机器学习方法可以说是一个多示例,多标记学习的问题。交叉验证和ROC曲线、PR曲线常用于模型预测性能的分析。

基因功能注释:基于云计算大数据处理技术的发展与应用

随着高通量技术如基因芯片、测序的发展,涌现出关于物种的各种高通量数据,如基因表达谱、蛋白相互作用(protein protein interaction,PPI)、蛋白质结构、基因组突变、表观遗传修饰、转录因子结合位点等。各式各样数据库的建立,使得利用计算机、数学统计学的方法进行基因功能注释成为可能。近年来,生物信息学家不断地改进算法和策略,试图更加准确地对基因进行功能注释,其中最为常见的是机器学习方法。

机器学习方法用于基因功能注释中。常将输入数据分为正集合和负集合,正集合为具有该功能的基因及其特征,负集合为不具有该功能的基因及其特征。这些特征主要包括提取自蛋白质序列与结构,互作网络,包括蛋白质序列长度、分子量、原子数、总平均亲水指数、氨基酸组成、理化特性、二级结构、亚细胞定位、表达等。这些特征输入模型进行训练,以构建该功能的分类器,从而对新基因是否具有该功能进行预测。因此,基因功能注释的机器学习方法可以说是一个多示例,多标记学习(multi-instance multi-label learning,MIML)的问题。用于训练预测模型的数据集称为训练集。此外,机器学习方法还需要验证集(validation set)以调整模型的参数,以及测试集(test set)来测试模型的性能。交叉验证和ROC曲线、PR曲线常用于模型预测性能的分析。最常用的评价指标为ROC曲线下面积(areaunder the ROC curve,AUC)和PR曲线下面积(areaunder the PR curve,AUPRC)等。(www.xing528.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈