本文的分析对象是结肠癌数据集。该数据集包含了62个样本,其中22个为正常样本(normal),40个为肿瘤样本(cancer),每个样本包含有2 000个基因。如何从2 000个基因中提取出与结肠癌直接相关或有较强相关性的基因,是本文解决的主要问题。
特征基因筛选模型如图1所示。
图1 特征基因筛选模型示意图
2.1 对题目一的分析
解答题目一的目的是建立数学模型对数据进行初步分类筛选,剔除大量与结肠癌肿瘤类型识别无关的非信息基因,为进一步精筛选做好铺垫,即假设某个基因对于正常样本(normal)和肿瘤样本(cancer)的数据分析结果基本没有区别,那么我们认为这个基因与结肠癌是无关的,将其归类为非信息基因。
从统计学的角度分析,单因素方差分析法能找出对分类结果有显著影响的因素[1],可以有效解决这一问题。而从生物信息学角度分析,在初步处理基因表达谱数据时,常用的方法是采用基因的巴氏距离[2]来衡量基因中蕴含的分类信息量,从而剔除与肿瘤类型识别无关的非信息基因。
但是两种方法所得到的结果不一定完全一致,为避免在初步筛选时将与该肿瘤类型识别直接相关的基因意外剔除,本文对两种方法筛选出的与该肿瘤类型识别相关的基因求并集,该并集就是第一题的答案。
2.2 对题目二的分析
题目二是对题目一得到的信息基因进行精筛选的过程,从而得到与结肠癌肿瘤类型识别直接相关的特征基因。假设第一问中信息基因集合中含有n个信息基因,就可以有2n-1个不同的基因组合,每个基因组合称为一个特征子集。很明显可以看出,特征子集的数量是很庞大的。考虑到通常认为表达模式相近的基因具有相似功能,在此我们采用聚类的方法先对信息基因集合进行处理,将表达模式相近的基因聚在一起。
聚类的方法有很多种,在此我们选用K均值聚类法来聚类基因表达数据。这种方法虽然能够动态聚类,具有自适应性,但是其结果易受聚类中心个数和初始聚类中心的影响,而且必须事先确定聚类个数。实际中往往没有任何信息能预知理想聚类的个数。如果聚类的个数选取太小,会丢失很多原始基因表达数据的信息;如果聚类的个数选取太大,则会保留很多冗余的信息。为了取得更好的聚类效果,设定聚类的个数从2到100不等,在后面的工作中通过多次重复试验,找到分类效果最好的聚类个数值。
K均值聚类有很多种不同的聚类准则,每一种聚类准则所得到的聚类结果也是不相同的。为避免在选择特征子集时将与该肿瘤类型识别直接相关的特征基因意外剔除,本文选用三种不同的常用聚类准则对信息基因集合进行处理,这三种聚类准则分别为:欧氏距离准则(Euclidean Distance)、皮尔森相关准则(Pearson’s Correlation)、余弦相似度准则(Cosine Similarity)[3]。(www.xing528.com)
基因聚类后,每个类别中的基因所包含的信息是相似的,因此可以从每类中选择一个主基因来代表这个类别,在此我们选用每类中巴氏距离最大的那个基因作为该类的主基因。每种聚类准则下的K均值聚类可以得到99个不同特征子集,这些特征子集的基因个数从2递增到100。最后要确定的与结肠癌肿瘤类型识别直接相关的特征基因组合,就在通过三种聚类方法所得到的这297个特征子集中。
特征基因组合是具有最佳分类能力和最少基因个数的候选分类特征子集。依据生成的297个候选分类特征子集,采用支持向量机(SVM)作为分类器。由于基因表达谱数据样本数目少,为了获得对分类错误率的可靠估计,用两种检验方法对样本类别进行识别:① 在样本上采用留一交叉验证法(Leave-One-Out Cross Validation)进行样本识别。② 将样本分为训练集和测试集两部分,在测试集上用独立验证法(Hold-Out Method)进行分析。
综合两种检验方法的分类结果,取错误率最低且维数最小的特征子集作为该聚类方法下的特征基因组,然后将三种聚类方法下的特征基因组求交集,由此求出的特征基因组合可认为与结肠癌肿瘤的类型识别直接相关或具有最强相关性。
2.3 对题目三的分析
题目三主要是要研究噪声过程对确定基因标签的影响。基因图谱中存在的噪声包含两大类:冗余基因信息、系统测量误差。在第一步的求解过程中,已经把冗余基因信息剔除,此问所建立的数学模型主要是去除系统测量误差产生的噪声,并研究它对筛选结肠癌肿瘤类型识别特征基因的影响。
数字图像处理技术成熟,而且便于计算。将基因表达谱数据进行灰度变换,映射到灰度图像平面上。这样,基因表达谱数据的降噪问题可转化为对灰度图像的降噪问题。常用滤波模型均可做到不同程度的去噪。中值滤波是滤除强噪声点的较好方法;高斯滤波器则能很好地抑制随机性噪声。但是,传统的滤波器都是各向同性的,滤波时对图像平滑区和边缘过渡区进行了相同的处理,这样就会导致滤去噪声后图像信息的过分丢失。考虑到模型随后的特征基因筛选,需要选择更为合适的降噪模型。
小波包分析(Wavelet Packet Analysis)能够为图像去噪提供一种更加精细的分析方法[4]。小波包分析是以小波分析为基础,做进一步推演后得到的。它能对小波分析过程中没有细分的高频部分进行分解,并可以自适应地选择相应的频带,从而提高图像的时频分辨率。正是因为小波包分析可以同时对图像的高频和低频部分做进一步细分,它可以在更好地保留原图像信息的前提下去除噪声,有效避免有效信息被作为噪声去除。
对基因表达谱数据进行去噪后,再使用题目一、题目二中所建立的模型进行求解;求解结果与问题二所解得的结论对比,可以分析去噪过程对确定基因标签的影响。
2.4 对题目四的分析
上述模型的筛选都是在没有先验信息的前提下进行的,具有一定的盲目性。对于已知的与结肠癌有关的先验信息,如题目四中给出约有90%的结肠癌患者在结肠癌初期,5号染色体长臂APC基因会失活,40%~50%的ras相关基因会发生突变等信息,考虑到模型在进行筛选时,可能由于巴氏距离偏小而将包含先验基因的基因组合剔除掉,因此要优先考虑所有包含先验基因的基因组合。本文在对信息基因进行K均值聚类分类时,首先筛选出所有的包含这些先验基因的基因组合,再对这些包含先验基因的组合进行表达能力测验,这样不仅大大缩小了搜索的范围,而且也保证了所选基因的准确率。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。