首页 理论教育 信息推荐系统:数据挖掘技术

信息推荐系统:数据挖掘技术

时间:2023-10-31 理论教育 版权反馈
【摘要】:信息推荐系统中的数据挖掘主要包括关联规则挖掘和分类挖掘两类[7]。关联规则挖掘是数据挖掘中的一个重要研究内容[8]。在电子商务领域,关联规则挖掘根据销售数据发现不同类型商品在销售过程中的相关性。关联规则的挖掘可以离线进行,基于关联规则的商品推荐根据生成的关联规则模型和用户的购买行为产生推荐结果。

信息推荐系统:数据挖掘技术

数据挖掘(Data Mining)是指从大量的数据(结构化和非结构化)中提取有用的信息和知识的过程[5][6]。在这个定义中,要求数据源应该是大量的、真实的、含有噪音的;所发现的信息和知识是潜在的并隐藏在大量数据背后的,是用户感兴趣的、可理解的、可运用的知识。所以,数据挖掘有时也被人们称为知识挖掘、知识提取、知识发现等。数据挖掘采用的技术包括数据库数据仓库和OLAP、统计、机器学习可视化、神经元网络等不同领域的技术。并且在诸如零售、银行保险、基因分析、股票市场分析、Web挖掘等不同行业都得到了应用。

数据挖掘过程一般由三个主要的阶段组成:数据准备、数据挖掘、结果表达和解释。数据挖掘可以描述为上述三个阶段的反复过程。数据准备阶段主要包括数据集成、数据选择和预处理三个步骤。数据挖掘阶段对预处理的数据进行数据挖掘,得到各种模式。结果表达和解释则对得到的模式进行评价,抽取出有价值的模式作为知识存储。数据中隐藏的知识有各种各样的形式,这些知识实际上是大量数据之间的某种关系。大致说来,数据挖掘中的知识可以分为如下几类:

①分类:将数据划分到事先定义好的类别中。

回归:将数据项映射到若干预定义的变量上。

③聚类:将数据划分到几个聚类之中。

④链接分析:判断数据库或数据仓库中字段之间存在的关系,如关联规则。

⑤序列分析:构造顺序模型,发现数据之间在时间上的相关性。(www.xing528.com)

信息推荐系统则是将数据挖掘技术应用到智能信息系统领域的范例,其系统工作流程如图2-1所示。

随着电子商务等信息领域的应用,数据库中可以收集到大量的用户数据,如用户交易数据、用户注册数据、用户评分数据、用户投票数据等;同时Web服务器中也保存着用户访问电子商务系统的日志数据、用户购物篮信息等,这些数据中蕴涵着丰富的知识,基于数据挖掘的推荐系统通过数据挖掘技术对用户行为和用户属性进行学习,从中获取有价值的知识,根据得到的知识产生推荐。

图2-1 基于数据挖掘的推荐系统工作流程

基于数据挖掘的推荐系统根据数据挖掘技术建立用户档案。用户档案的建立可以基于长期对用户长期行为的分析,如用户的浏览记录、购买历史、性别、职业、收入、年龄等。也可以基于用户的当前行为,如用户当前的会话行为、当前购物篮信息、当前浏览商品等。

信息推荐系统中的数据挖掘主要包括关联规则挖掘和分类挖掘两类[7]。关联规则挖掘是数据挖掘中的一个重要研究内容[8]。在电子商务领域,关联规则挖掘根据销售数据发现不同类型商品在销售过程中的相关性。关联规则的挖掘可以离线进行,基于关联规则的商品推荐根据生成的关联规则模型和用户的购买行为产生推荐结果。分类挖掘模型根据用户的输入信息将之划分为相应类别,基于分类挖掘的推荐系统根据用户输入信息和项的特征信息,预测是否向用户推荐该项。分类挖掘通过对训练集进行学习,训练出对应的分类器,然后利用该分类器对新用户进行分类。分类挖掘模型可以通过多种方法实现,例如Bayesian网络、聚类、神经网络等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈