首页 理论教育 分类准确率实验结果:基于支持向量机的个性化推荐研究

分类准确率实验结果:基于支持向量机的个性化推荐研究

时间:2023-11-24 理论教育 版权反馈
【摘要】:表6.2不同批采样规模k值的大小对分类准确率的影响 Table 6.2The different average classification accuracy on Votes data set with different values of k表6.2的实验结果展示了5种方法在迭代3次的情况下,分类准确率的平均值。从图6.4的实验结果可以发现,本章提出的主动学习方法相对于以前的主动学习方法,也就是利用先前标注样本的相邻样本的预测类标签与利用当前分类器预测的类标签相比较,从总体

分类准确率实验结果:基于支持向量机的个性化推荐研究

该实验是通过UCI数据集验证本章提出方法的有效性和合理性,并将提出的算法与其他的方法进行对比分析。下面通过3个不同的方面对算法进行对比分析。

(1)设定初始标记样本集的大小L=10,批采样大小k=1

该实验的主要目的是综合测试提出算法的性能,包括主动学习采样策略与随机采样策略的比较;引入流形正则项前后对样本特征结构信息利用情况的比较等,其对比结果如图6.3所示。

①采用主动学习的方法优于非主动学习的方法,分类准确率要高。在样本数量比较小的情况下,主动学习可以有针对性地主动选择信息量最大的样本并提供给用户(一般是领域专家)进行标注,标注的样本(最有可能是“支持向量”的样本)被认为是对提高分类器性能起最大作用的样本,这样可以不断地扩充标记样本集,为分类器提供尽可能小的,高质量的训练样本集,也就是说主动学习可以在学习的过程中,主动选择那些对分类器性能提升最有利的样本,并提交给领域专家进行标注,尽可能用更少的样本训练出与大量训练样本训练出的分类性能近似,从而有效减少需要评价的样本数量,减轻用户的标注负担;虽然传统的SVM在小样本情况下,比其他分类模型具有更好的性能,但是SVM不能很好地利用大量的未标记样本中隐含的对提高分类器性能有用的信息,图6.3(c)和(d)也说明了这点。随着标记样本数量的增加,TSVMAL+Graph的分类性能在逐渐提升,当达到一定比例时,分类的性能超过了传统的SVM。这也表明了主动学习在样本选择策略上的有效性、合理性,对提高分类器的性能有很大帮助。

②主动学习策略选择的样本比随机采样策略选择的样本更能反映数据的真实分布特征,选择的样本更有可能是“支持向量”,并可保证选择的样本能够进一步提升分类器的性能。同时,随机采样具有很大的随机性,并不能保证采样的数量越大,分类器性能的提升越明显,相反,在采样的样本不能很好地反映数据特征时,采样的数量越大,分类准确率也将大幅下降,对分类器性能的提升起到反作用,从图6.3(a)—(d)中可以发现随机采样策略对应的准确率具有很大的波动性,基本不适合实际应用。特别是对于Bupa liver数据集和Votes数据集,TSVMRandom的波动幅度最大,这可能与数据的分布特征有关。

图6.3 不同标记样本比率下得准确率比较
Fig.6.3 The classification accuracy of each comparing algorithm changes as the number of labeled training instances increases

③引入流形正则项后,本章提出的方法可以更好地利用未标记数据的流形结构信息,也就是对数据的潜在结构特征(数据的分布特征)可以有很好的理解。通过对比图中不同的数据集可以发现,对于Bupa liver数据集,Hepatitis数据集和WPBC数据集,TSVMAL+Graph与TSVMAL的性能差别很小;而对于Votes数据集,TSVMAL+Graph比TSVMAL的性能提升度高了很多,特别是在标记样本率为10%时,TSVMAL+Graph的性能得到了迅速提升,而TSVMAL的性能提升较为缓慢。显然,在引入流形正则项后,对TSVM的分类性能提升有较大的帮助,验证了本章提出方法的可行性和合理性。

(2)对比批采样大小k对主动学习的影响

为了比较一次查询所标记的样本数量对分类器性能影响的大小,设定初始标记样本集的大小为10(L=10),并不断改变批采样规模k值的大小,以观察不同k值下,分类准确率的变化情况。为避免一次实验造成的误差,将实验反复运行5次,取平均值作为衡量指标。该实验以数据集Votes为例,结果见表6.2。(www.xing528.com)

表6.2 不同批采样规模k值的大小对分类准确率的影响
Table 6.2 The different average classification accuracy on Votes data set with different values of k

表6.2的实验结果展示了5种方法在迭代3次的情况下,分类准确率的平均值(3次迭代对未标记样本进行标记,并进行训练)。在此过程中,固定标记样本数据集的大小,不断改变批采样规模k值的大小。从表中的结果可以发现它们之间的分类性能差别随着k值的变化而不同。在每次迭代中,标记的样本数量达到一定数目时,即k≥15时,本章提出的方法总比SVMAL的性能好。这可能是因为每次迭代标记样本的数量越多,对隐含在未标记样本中的流形结构理解得更好(数据特征的概率分布)。通过详细观察,发现随着每次迭代标记的样本数量增加,TSVMAL+Graph的性能提升越来越高。例如:在k=15时,TSVMAL+Graph相对于SVMAL的分类性能提升了0.9%,而TSVMAL相对于SVMAL的分类性能提升几乎为负。当k=20时,TSVMAL+Graph相对于SVMAL分类性能的提升程度比TSVMAL更高,此时,TSVMAL的分类性能也超过了SVMAL。实验结果表明本章提出的主动学习方法在选择批量信息量丰富的样本时,具有一定的有效性和可行性。

(3)对比利用当前分类器预测的类标号与利用先前标注样本的相邻样本的类标号对训练分类器的影响

为进一步比较预测样本标号利用策略的不同对分类器性能的影响,该实验以SVMAL,SVMOAL,TSVMOAL+Graph和TSVMAL+Graph作为对比分析的方法,并在Votes数据集和Hepatitis数据集上进行。其中,SVMOAL表示采用当前分类器标注的样本的类标号作为主动学习的度量依据;SVMAL表示采用先前分类器标注的相邻样本的标号作为主动学习的度量依据,充分利用了数据之间的聚类假设,即相似预测结果的样本有相同的预测类标号;TSVMOAL+Graph和TSVMAL+Graph方法与SVMAL和SVMOAL类似。

从图6.4的实验结果可以发现,本章提出的主动学习方法相对于以前的主动学习方法,也就是利用先前标注样本的相邻样本的预测类标签与利用当前分类器预测的类标签相比较,从总体上讲,本章提出的方法要有一定的优势。

图6.4 当前预测标号和先前预测标号利用策略实验结果
Fig.6.4 The comparative results of different predicted predicted labels utilization strategies

对于Votes数据集[图6.4(a)],TSVMAL+Graph与TSVMOAL+Graph相比,两者之间的分类性能差别并不大,这可能与数据集的分布特征有关。同时,在前面的实验中可以发现传统的SVM与TSVMAL+Graph相比,分类性能很接近,甚至在样本数量不是很大的情况下还要优于TSVMAL+Graph,说明传统的SVM在相对较小的训练样本集上就能得到较高的分类准确率(其他机器学习方法不能媲美),并能很好地对数据集的分布特征进行正确估计。而TSVMAL+Graph在训练样本集较小时,分类性能还不及传统的SVM。可能是因为TSVMAL+Graph在主动选择样本时,还没有充分挖掘到隐藏在未标记样本中的数据分布特征,不能有效地估计数据的分布情况。而随着标记样本数量的增加,TSVMAL+Graph的性能逐渐超过了传统的SVM,这一点表明本章提出的主动学习方法能较好地利用隐藏在未标记样本中的数据分布特征,是对流形假设正确性的一种肯定。对于Hepatitis数据集[图6.4(b)],TSVMAL+Graph与TSVMOAL+Graph相比,两者之间的分类性能差别相对图6.4(a)是比较大的。虽然在标记样本数量为10%时,TSVMOAL+Graph的分类性能超过了TSVMAL+Graph,但随着标记样本数量的增加TSVMAL+Graph的分类性能在逐渐提高,并超过了TSVMOAL+Graph。特别是,在标记样本数量为15%和20%时,TSVMAL+Graph的分类性能要明显优于TSVMOAL+Graph。这进一步说明了本章利用先前标注样本的相邻样本的预测类标签是有效、可行的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈