图书评价任务主要是通过分析用户对图书的评价信息,发现哪些是真实的、有价值的评价,哪些是垃圾评价,通过进一步分析那些有价值的评价信息,以便发现用户的购买特征和偏好。这主要是通过分析评论信息中的一些关键词和关键模式(表6.2),来发现用户的购买习惯。在发现用户的购买习惯后,可以通过个性化的推荐方法,对用户的这些行为数据进行建模,从而实现个性化推荐,为用户提供有针对性的商品。在这里将图书评价好坏信息过滤任务看作二分类问题。为了训练分类器,选择了6个特征作为模型的输入,具体见表6.2。
为了充分比较本章方法的优势,从两个角度对数据集进行对比分析。一是“词法视角”(Lexical perspective)。对于词汇视角,由于在汉语评价中没有空格将中文词组分开,所以采用中科院的中文分词工具——ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)对评论信息进行分词和词性标注。然后,将每一句评论转换为一个词汇向量形式(Term frequency inverse document frequency,TF-IDF)。二是统计视角(Statistical Perspective)。对于统计视角,统计每一句评论中包含的关键词和关键模式所占的比例,形成一个量化的矩阵。
将6个特征进行量化,采用的方法是:
①在一个评价句子中意见短语所占的比例是多少。
②在一个评价句子中询问模式所占的比例是多少。(www.xing528.com)
③在一个评价句子中语言出现的比例是多少。
④在一个评价句子中图书类别被提及到的比例是多少。
⑤一个评价句子的长度是多少。
⑥用户对图书总体评价所给的五角星个数是多少(最多为5个星)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。