基于项目的协同过滤根据计算用户曾经喜欢的项目与待推荐项目的相似度来进行推荐,仅利用了用户的行为信息。而基于SVM先分类再回归的方法在模型建立时不但利用了用户的行为信息,而且也利用了项目的内容信息。
在MovieLens数据集中选择2 000个用户的评分数据作为实验数据集。对于每一个用户,随机选择10个评分数据作为测试数据加入测试样本集中,其余的作为训练样本集。与第3章类似,将这些数据分为“喜欢”和“不喜欢”两类,然后建立模型。为了防止随机选择样本造成的误差,重复实验5次,并取其平均值,作为最终的分类准确率。图4.6展示了基于IPSO算法优化的SVM分类模型与基于PSO算法、GA算法和GS算法优化的分类模型的对比结果。
通过图4.6可以发现,IPSO算法相对于其他3种方法,具有更高的参数优化性能。在训练数据为90%时,基于IPSO算法优化的分类模型的准确率达到了75.4%;而基于PSO算法优化的分类模型的准确率为73.7%,基于GA算法优化的分类模型的准确率为72.2%,基于GS算法优化的分类模型的准确率为74.5%。
图4.6 基于4种方法推荐模型的准确率
Fig.4.6 Accuracy of recommended models based on four methods(www.xing528.com)
表4.3给出了IPSO算法、PSO算法、GS算法和GA算法在5次实验后的平均分类准确率和偏差值。从表4.3可以发现,虽然IPSO优化算法和GS算法的分类准确率比较接近,但是,GS优化算法的偏差比其他3种优化算法的偏差都大,这意味着在实际应用中GS优化算法存在一定的不稳定性。因为GS算法是一种穷举搜索算法,在每次实验时,搜索的步长决定了其搜索精度。如果搜索步长很短,那么搜索精度很高,而对应的时间复杂度就特别高;相反,则搜索精度不是很高,这样就造成了精度的降低,偏差就增大。而本书提出的IPSO优化方法,不存在这样的问题,它在分类准确率和时间复杂度方面有个很好的折中。
表4.3 4种优化方法在5次实验中的平均分类准确率
Table 4.3 The average classification accuracy(%)of the four algorithms
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。