基于Web挖掘的商品信息推荐原型系统从预定义的母婴用品网站中收集顾客购物的点击流数据,并将获取的点击流数据存储到本地Web日志文件中。系统已有约100个会员顾客和25种类型(商品分类树中的第三层)的母婴用品。相关会员顾客的购物记录通过Web日志分析模块定时存储在Web日志文件中,系统随机抽取2000条会员顾客的商品销售数据作为实验数据。由于顾客偏好分析和商品关联规则挖掘计算量较大,因此可以将这两部分放在离线部分进行,而仅将产生推荐商品模块放在在线部分进行,以提高系统的人机交互能力。
商品推荐质量衡量一般采用信息检索领域评价系统的标准,即用查准率(Precision)和查全率(Recall)来衡量,其计算公式分别如下:
其中,是推荐算法产生的全部商品数量;是推荐的商品中所有符合顾客需求的商品数量,可根据公式(5-5)预先设置一个阈值(Threshold)进行计算,即满足不等式σmn≥Threshold的商品数量; 则是在线B2C商务网站中所有满足顾客需求的商品总数。
一种常见的方法是同时考虑查准率和查全率而全面地评价算法的优劣。查准率和查全率测试指标往往是负相关的而且依赖于推荐列表长度[17]。一般情况下,随着推荐列表长度的增大,查准率指标会减少而查全率会增大。所有当一个系统没有固定的推荐列表长度时,就需要一个包含查准率和查全率的二维向量来反映系统的性能。本系统采用综合评价指标F-measure[18],其计算公式为:
F-measure综合考虑了顾客对系统商品推荐的准确性和全面性要求,其值越高,则表明推荐服务质量越高,越能满足电子商务环境下顾客网上选购商品信息的实际需求。在实验中,推荐的商品数量Top-N中的N值分别取2~20等不同值(推荐的商品类型数量设置为k=2)。根据前面提出的推荐算法,对于每种推荐的商品类型,系统可以向目标顾客推荐N/k=[1,10]个不同的商品实例。对顾客在线购物数据随机抽样10次并取平均值,所得的平均F-measure值如图5-7所示。
(www.xing528.com)
图5-7 商品导购算法性能测试
从图5-7可以看出,在不同的推荐商品数量N值下,导购算法F-measure是不同的,当N=8时,F-measure值最大,算法推荐性能最佳。随着N值的减小或增加,F-measure值逐渐降低。这是因为F-measure综合考虑了查全率和查准率,当N值增加,虽然查全率会上升,但查准率会降低,F-measure值因而会降低。同理,当N值减小,查准率会提高,但查全率降低会导致F-measure值的下降。因此,N=8是商品推荐算法性能的相对最佳点,能够最大程度上提高算法的推荐质量。
评价本系统导购质量的另外一个重要方面就是推荐算法的可信度,即推荐评价分数更高的商品相比评价分数较低的商品,其被顾客接受和实际购买的偏好程度。在推荐算法测试的实验中,通过对比实际购买商品和所有的推荐商品评价分数(由公式5-5计算)的分布情况,来评价该算法的推荐服务质量,实验结果如图5-8所示。这里,实际购买商品的样本数据来自50张不同导购列表中的120个候选商品的评价分数。
图5-8 所有推荐商品和实际购买商品评价分数的分布比例
从图5-8可以看出,实际购买商品的推荐评价分数要比一般推荐商品的评价分数高。例如,所有推荐商品中76%的商品的评价分数低于0.1,而在实际购买商品中仅22%的商品评价分数在这个区间内。另外,所有推荐商品的评价分数均值为0.072,而实际购买商品评价分数均值为0.165,两者之间的均差为0.093。使用T检验统计学方法,计算该均差在置信区间[0.089,0.106]之内,其置信度为0.095。因此,基于公式(5-5)的商品推荐算法是可行的,可以为顾客产生符合其偏好的商品,提供个性化的商品推荐服务。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。