首页 理论教育 降噪数据分析结论与展望

降噪数据分析结论与展望

时间:2023-11-17 理论教育 版权反馈
【摘要】:采用降噪数据进行模型求解,得到了4个特征基因与结肠癌肿瘤分类识别直接相关,且这4个基因包含于去噪前分析所得到的6个特征基因之中。这正说明噪声对基因表达谱数据的处理会造成负面影响,去噪后可以更加精确地提取出与肿瘤分类直接相关的特征基因。

降噪数据分析结论与展望

本文建立了特征基因筛选模型,该模型主体部分可分为四个分模型:

(1)数据初筛选模型。

该模型中对数据进行初步筛选的模型主要由单因素方差分析法和巴氏距离分析法构建,在2 000个基因中筛选出324个信息基因。

(2)特征子集生成模型。

该模型由K均值聚类和主基因提取两部分构成。K均值聚类采用了欧氏距离准则(Euclidean Distance)、皮尔森相关准则(Pearson’s Correlation)、余弦相似度准则(Cosine Similarity)同时对信息基因进行聚类。按每种聚类准则分类时,类数从2到100,三个聚类准则共得到297个聚类结果。对于某个聚类结果,在单独一类的基因中选择巴氏距离最大的基因作为该类主基因,由此得到297个分类特征子集。

(3)基因表达能力测试模型。

该模型采用支持向量机(SVM)作为分类器,用两种检验方法对样本类别进行识别:① 在样本上采用留一交叉验证法(Leave-One-Out Cross Validation)进行样本识别。② 将样本分为训练集和测试集两部分,在测试集上用独立验证法(Hold-Out Method)进行分析。取错误率最低且维数最小的特征子集作为该聚类方法下的特征基因组。然后将三种聚类方法下的特征基因组求交集,由此求出与结肠癌肿瘤类型识别直接相关的特征基因组合。(www.xing528.com)

取两种检验方法的误分率都为0时且维数最小的特征子集作为该聚类准则下的特征基因组合,得到三个特征基因集合。对三个特征基因集合取交集,最终得到了6个与结肠癌肿瘤分类识别直接相关的特征基因。

(4)基因表达谱去噪模型。

基于小波包去噪原理开发了基因表达谱去噪模型。模型对第一步提取出的信息基因经过两重去噪,并通过对比得到了最佳的降噪效果。采用降噪数据进行模型求解,得到了4个特征基因与结肠癌肿瘤分类识别直接相关,且这4个基因包含于去噪前分析所得到的6个特征基因之中。这正说明噪声对基因表达谱数据的处理会造成负面影响,去噪后可以更加精确地提取出与肿瘤分类直接相关的特征基因。

本文还对先验信息如何应用于数学模型进行了初步探索。在临床实践中,一些与某种肿瘤有着密切联系的先验信息基因,其巴氏距离不一定能够保证它们在数据分析时被保留。针对该问题,本文的观点是在生成分类特征子集后,直接提取含有先验信息基因的组合进行基因表达能力测试。这样既保证了先验信息基因不在能力表达测试时丢失,又保证了特征基因选取后的分类准确率。该方法的不足在于,不能从理论上解释这些基因为什么在数据表现上与肿瘤的关系不明显。这不仅仅是数学模型问题,更是生物科学与其他各种学科的交叉问题。

本文所提出的对基因表达谱分析数学模型的适用性,还有待大量重复试验和相关研究成果做进一步验证。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈