在上一步得到的分类结果基础上,在推荐类的电影列表上建立一个回归模型,预测电影的评分,即建立基于先分类再回归的评分预测模型。在这个过程中,采用IPSO算法来优化SVM的参数。参数优化的结果如图4.7所示。从图4.7可以看出经过100次迭代后,IPSO算法得到最优参数组合(c=2.180 3,g=10.462),并且也可以清晰地看到每一个粒子的最优适应度函数值和平均适应度函数值。
同时,采用GA算法和GS算法在相同的样本数据集上对SVM的参数进行优化,并与IPSO算法进行对比。GA算法对应的参数优化结果如图4.8所示。从图中可以发现,经过100次迭代后,GA算法得到了最优参数组合(c=90.154,g=42.056 5),并且也可以清晰地看到每一个粒子的最优适应度函数值和平均适应度函数值。GS算法的参数优化结果如图4.9所示。从图中可以发现,经过100次迭代后,GS算法得到了最优参数组合(c=90.509 7,g=0.5),并且也可以清晰地看到粒子的适应度函数值在不同参数组合下在不断地变化。
图4.7 IPSO算法对应的参数优化曲线
Fig.4.7 The parameters optimization curve corresponds to IPSO algorithm
图4.8 GA算法对应的参数优化曲线
Fig.4.8 The parameters optimization curve corresponds to GA
图4.9 GS算法对应的参数优化曲线
Fig.4.9 The parameters optimization curve corresponds to GS algorithm
图4.7至图4.9展示了3种方法在参数优化方面的性能。可以发现,从总体适应度来讲,IPSO算法比其他两种算法的性能要好。需要说明的是,在上面的实验中,3种方法都采用了5折交叉验证,并且设置了算法的参数搜索范围。其中,IPSO算法的搜索范围是[0,100],进化代数为100;GA算法的搜索范围和IPSO算法基本一致;GS算法的搜索步长为0.5,参数优化区间为[-2-8,28]。(www.xing528.com)
在研究中,为了验证提出模型的有效性,也采用了其他5种对比方法来预测电影的评分。预测误差值MAE如图4.10所示可以发现本章提出的方法——基于SVM先分类再回归的个性化推荐方法(The regression based on SVM classification)的误差最低;基于SVM直接回归(SVR)的方法次之;基于用户的协同过滤(User-based collaborative filtering,UserCF)的方法最高;基于项目的协同过滤(Item-based collaborative filtering,ItemCF)的方法次高;基于BP神经网络(BP neural network,BP)的方法与基于多元线性回归(Multiple linear regression)的方法很接近。随着样本数量的增加,各种方法的预测误差也在降低,因为随着样本规模的变大,可利用的相似用户和相似电影的数量也在增加,对提升推荐系统的准确率有一定的帮助。
图4.10 6种方法对评分预测的误差
Fig.4.10 The MAE of ratings based on six methods
分析基于协同过滤的算法可以发现,与基于机器学习方法的最大不同在于:传统的协同过滤算法仅利用用户对电影的评分来计算相似度;而基于机器学习的方法不仅利用了用户的评分信息,而且也利用了电影的内容信息和用户的人口统计学信息。这种方法的优点是可以在一定程度上解决用户的冷启动,通过用户的人口统计学信息发现用户的潜在兴趣爱好。
特别是对于本章提出的基于SVM先分类再回归的评分预测方法,首先是判断需要推荐给用户的电影列表,然后再对推荐列表中的电影评分数据进行预测,这样缩小了预测样本的范围,将注意力集中在推荐列表中的电影数据上,在一定程度上提升了个性化推荐模型的预测准确率和效率。该方法充分利用了支持向量机的优点,具有以下优势:
①SVM将低维空间的非线性问题通过核函数将其转化为高维空间的线性问题(构造分类超平面),从而实现分类任务。利用SVM的这一个优点,基于SVM先分类再回归的方法可以获得较高的预测精度,即使分类存在一些误差。因为SVM本身就具有分类准确率高的特点,并且回归是在相同类标号的电影数据上进行,具有类似或是相同的变化趋势。
②根据电影数据的特征变化以及实际需求和领域知识,将电影数据分成两类:一类“推荐”(“喜欢”);另一类“不推荐”(“不喜欢”)。这样将预测模型的训练限制在同类样本集上(喜欢类样本集),充分利用了样本的变化趋势,缩小了预测的范围(或是样本数量),提高了预测模型的精确度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。