基于内容的推荐其关键是分析项目的内容信息,并提炼能够描述项目内容的特征词,从而挖掘文本内容的实质。但在互联网中,除了易分析的文本资源外,还有大量的多媒体资源(如视频和音频等)都难以分析,导致了基于内容的推荐无法完成。而基于协同过滤的推荐则是通过用户关于项目的评分来计算相似度,从而为用户提供推荐。该方法不受对象内容的限制,应用领域更为广泛,且具有简单、通用和可以很好地发现用户新兴趣的特点,因此该方法自产生以来就得到了快速的发展。但随着电子商务的发展,协同过滤系统的缺点也逐渐凸显,例如稀疏性、冷启动、相似度计算等。
降维是解决数据稀疏性问题的一种重要方法,该方法通过将高维的用户评分空间映射到隐式的低维语义空间,降低推荐算法对数据稀疏性的敏感度。在该类方法中矩阵的奇异值分解与主成分分析是两种具有代表性的方法。Billsus等[27]提出的奇异值分解方法将那些对相似度计算影响不大的用户或项目评分直接移除来提高评分矩阵的密度;著名的隐语义索引模型(Latent Semantic Indexing,LSI)[28]其本质也是利用奇异值分解方法来对用户向量进行降维,然后计算用户间的相似度。Glodberg等[29]将推荐过程分为两个步骤,在离线阶段用主成分分析对评分矩阵进行降维,在线阶段为用户提供推荐;Kim等[30]提出了迭代的主成分分析来实现矩阵的降维处理。虽然该方法在某种程度上能够缓解数据稀疏性问题,但是它舍弃了部分的用户评分或用户,不可避免地要损失一些有价值的信息。
缺失值填充也是缓解数据稀疏性问题的一种重要方法,该方法采用有效的预测方法对缺失值进行预测并填充,来提高数据的密度。最简单也是最方便的方法是采用平均评分值、评分中值、众数等来填充[4];张锋等[31]确定候选邻居集的方法是依据用户评分矩阵交集的大小,并且采用BP神经网络对未评分的项目进行评分预测,减小了候选邻居评分矩阵的稀疏程度;Ma等[32]对基于项目和基于用户的方法进行结合,来预测评分矩阵中的缺失值,提高了矩阵的密度和推荐精度;Sun等[33]采用多种方法,例如贝叶斯分类预测、均值填补、预测均值匹配、线性回归预测等对评分矩阵填充,并对比分析了各种方法的准确性。
为解决传统相似度计算方法对矩阵稀疏性比较敏感的问题,学者们提出了一些新的相似度计算方法。周军锋等[34]提出了一种优化的协同过滤算法,该方法采用修正的条件概率方法计算项目间的相似度,得到了更准确的结果;张光卫等[35]提出了一种新的基于云模型的相似度计算方法,并且在数据极其稀疏的情况下可以得到理想的推荐效果;Luo等[36]提出了分别计算用户的局部相似度和全局相似度,并根据相似度的大小选择各自的近邻,然后对两种最近邻的预测评分进行计算,并采用权值来平衡两种预测的重要性;Choi等[37]考虑了目标项目与所有项目的相似度,凡是与目标项目相似度越高的项目,在最近邻搜寻中起到的作用越大。(www.xing528.com)
此外,基于模型的方法也可以解决数据稀疏性、算法的扩展性和实时性等问题。基于模型的协同过滤是通过收集到的评分数据并形成用户行为模型,随之根据目标用户的历史评分和该模型对目标用户的未评分项目进行评分预测。Delgado等[38]采用基于概率的协同过滤进行推荐;Billsus等[39]提出了基于机器学习的协同过滤算法;Breese等[40]提出了采用基于贝叶斯模型和聚类模型的概率选择模型来实现协同过滤。其他常用的还有线性回归模型[41]、线性分类模型[42]等。
针对冷启动问题,Schein等[43]提出了一种隐变量模型,该模型可以很好地将内容信息和评分信息融合到一个模型中;Li等[44]提出了基于项目的概率模型,并使用内容信息来填充项目的评分向量,来缓解新项目的冷启动问题;Ahn[45]设计了相似度度量方法(Proximity Impact Popularity,PIP)来计算用户的影响度、共同评分的近似度和流行度,并将三者的乘积作为寻找最近邻的基础;Liu等[46]针对PIP的3个不足,提出了一种新的启发式相似性度量方法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。