首页 理论教育 信息推荐系统:Web挖掘概述

信息推荐系统:Web挖掘概述

时间:2023-10-31 理论教育 版权反馈
【摘要】:Web文本挖掘包括分词技术、文本的特征表示和提取、文本摘要、文本分类和聚类等内容。基于Web结构的数据挖掘是对Web页面超链关系、文档内部结构、文档URL中的目录路径结构等的挖掘。一般来说,Web日志挖掘整个过程被划分为两种主要任务,即数据收集和模式发现。Web挖掘相关技术有很多,现介绍常用的三种Web挖掘技术。

信息推荐系统:Web挖掘概述

随着以数据库数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,海量数据不断产生和发展。随之而来的问题是如此多的数据让人难以消化,无法从表面上看出他们所蕴含的有用信息,更不用说有效地指导接下来的工作。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。近年来,随着Web信息技术的迅猛发展和电子商务的普及和流行,使各种商务信息能够以非常低的成本在网络上获得,如何在Web网络中发现有价值的商务信息无疑将成为数据挖掘研究的热点,因而出现了Web挖掘技术。Web挖掘就是从Web的超链接结构、Web内容和Web使用数据中发现有用的信息或者知识[10]。虽然Web挖掘采用了很多传统数据挖掘的方法,但它不仅是传统数据挖掘在Web网上的应用,而且是需要根据Web数据具有的海量、异构和半结构化、非结构化的特点发现新方法和算法的新领域。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学人工智能中的机器学习神经网络等。Web挖掘分为三类:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structur Mining)和Web日志挖掘(Web Log Mining)。

①Web内容挖掘。

Web内容挖掘是从Web文档的内容中提取或挖掘有的用信息或知识[10][11]。Web文档通常包含多种类型的数据,如文本数据、图像数据、音频数据、视频数据等。从内容方面,Web内容挖掘可分为Web文本挖掘和Web多媒体挖掘,它们的不同在于提取的特征不同。在Web文档数据中最多的是非结构化的文本数据,因此Web内容挖掘在一定程度上可以看成是一个文本挖掘问题,如对Web内容挖掘的主题进行分类、聚类等。Web文本挖掘包括分词技术、文本的特征表示和提取、文本摘要、文本分类和聚类等内容。分词技术是在提取特征前对Web文本信息进行的预处理,主要有基于词库的分词算法和基于无词典的分词技术两种。文本特征表示和提取就是用一组特征词来代表文档信息,然后构造一个评价函数,对Web文档的每个特征词进行评估,并将特征词按评分值高低排序,以事先预定的个数从中选取评分值最高的特征词。文本摘要是指从Web文档中抽取关键信息,用简洁的形式对文档内容进行解释和概括。文本分类是将待分类的Web文本分配到已经存在的某些类别中,属于监督的机器学习问题。文本聚类是对Web文本进行无监督的机器学习,聚类没有预先定义好的主题类别,其目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能扩大,而不同簇间的相似度尽可能缩小。目前,已有的Web内容挖掘主要是对Web上大量文档的集合进行总结、分类、聚类、关联分析、趋势预测和科学文献资料浏览导航等[10]

②Web结构挖掘。

基于Web结构的数据挖掘是对Web页面超链关系、文档内部结构、文档URL中的目录路径结构等的挖掘。对于基于Web结构的数据挖掘而言,一个重要的问题是获得有关不同网页间相似度及关联度的信息有助于用户找到相关主题的权威站点。在Web中有两种特殊且相互关联的网页:权威网页和引导网页。权威网页往往对于某一主题包含比较多的用户所需要的信息,常常有许多指向它的链接。引导网页虽然不一定包含很多某个特定主题的内容,但是它包含许多指向这个主题的网页的链接。HITS(Hyperlink Induced Topic Search)算法就是这样一个通过分析权威页面和引导页面进行Web结构挖掘的算法[12]。使用HITS算法对一组Web页面进行分析,可以得到这组页面中的权威页面和引导页面。一般来说,好的引导页面指向许多好的权威页面,而好的权威页面是有许多好的引导页面所指向的Web网页。引导页面与权威页面之间的相互加强关系,可用于自动发现权威页面、Web结构和信息资源。

③Web日志挖掘。

Web日志挖掘是将数据挖掘技术应用于Web服务器的日志,通过分析日志文件发现用户访问行为、频度、内容、兴趣等信息。Web服务器的访问日志通常包含IP地址、请求时间、访问方法、被请求文件的URL等。通过分析Web日志记录,可以发现用户访问Web站点的规律,识别电子商务中的潜在客户,提升对目标客户的服务质量,并以此为目的改进Web服务器系统的性能和结构,进而实现为客户提供个性化的服务。在电子商务的发展中,Web日志挖掘的重要性越来越大,从提高网站的设计到改善客户关系的管理方面都得到了广泛的应用。一般来说,Web日志挖掘整个过程被划分为两种主要任务,即数据收集和模式发现。数据收集任务建立一个服务器会话文件,其中每个会话文件代表单个顾客访问某个网站的一系列不同类型的请求。Cooley等针对挖掘Web浏览模式提出了一种数据收集方法的详细描述[13]。模式发现任务包括关联规则发现、序列模式发现、使用聚类分析、顾客分类方法以及其他模式发现方法。从Web日志数据中提取的使用模式可以得到广泛的应用,例如Web个性化、系统性能优化、网站更新、商业智能发现等。

目前已有几种面向电子商务的顾客行为模型,分别用于不同的分析目的。其中最典型的是Lee等[14]提出的关于在线零售商店的点击流分析。点击流是用于Web挖掘的有效低级数据,它对理解顾客购物行为模式提供了必要的信息,例如顾客浏览了哪些商品,将哪些商品放到了购物车上,以及实际购买了哪些商品。通过Web使用挖掘方法对这些点击流数据进行分析,和单纯地分析顾客购买记录相比,能够更精确地分析顾客的偏好。

Web挖掘相关技术有很多,现介绍常用的三种Web挖掘技术。(www.xing528.com)

①关联规则挖掘。

关联规则挖掘技术可以发现不同商品在顾客购买过程中的相关性。设所有项目集合为I={i1,i2,…,im},给定一组事务集合D,其中每个事务T是一个项目子集(T⊆I),每一个事务具有唯一的事务标识Tid。设A是一个由项目构成的集合,称为项集。事务T包含项集A,当且仅当A⊆T。如果项集A中包含k个项目,则称其为k项集。项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集。

一个关联规则是形如X⇒Y的蕴含式,X和Y表示项目集,且X∩Y=Φ,X和Y分别称为关联规则X⇒Y的前提和结论。规则X⇒Y的支持度(Support)是事务集中包含X和Y的事务数与所有事务数之比,记为support(X⇒Y),它的值为项集X∪Y的支持度,即support(X⇒Y)=support(X∪Y)。规则X⇒Y的置信度(Confidence)是指包含X和Y的事务数与包含X的事务数之比,记为confidence(X⇒Y),它的值等于support(X∪Y)/support(X),这是一个条件概率,表示项集X在事务中已出现的情况下,项集Y在该事务中出现的概率。支持度和置信度是描述关联规则的两个重要概念,支持度用于衡量所发现规则在整个数据集中的统计重要性,而置信度用于衡量关联规则的可信程度。一般来说,只有支持度和置信度均较高的关联规则才可能是顾客感兴趣的、有用的关联规则。

给定一个事务集D,挖掘关联规则问题就是发现支持度和置信度分别高于顾客给定的最小支持度(Minsupp)和最小置信度(Minconf)的关联规则。针对关联规则挖掘,目前研究者提出了一系列挖掘算法,其中,Apriori算法是最流行的关联规则算法。该算法是一个基于两阶段频集思想的方法,即可以把关联规则挖掘划分为两个子问题:第一,找到所有支持度大于最小支持度的项集,这些项集称为频集(Frequent Itemset);第二,根据频集和最小置信度产生关联规则。其中,第一个问题通过迭代,迅速挖掘出事务数据库中所有频繁项目集,是该算法的中心问题。关联规则挖掘从传统的商业领域(例如商品分类设计、商品货架和目录设计等)到电子商务领域(例如网页更新、Web个性化和网上顾客购买模式等)都得到了广泛的使用。

②序列模式挖掘技术。

序列模式数据挖掘技术就是要挖掘出交易集合之间有时间序列关系的模式。它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术注重事务内的关系,而序列模式技术则注重事务之间的关系。发现序列模式,便于预测用户行为特征和访问模式。在商业领域,序列模式挖掘主要是根据在一个时间段内顾客的购买序列出现的频繁程度来判断其是否构成一个序列模式,它和传统的关联规则挖掘的不同之处在于:序列模式挖掘针对的目标数据都是带有时间属性的序列数据,通过对顾客的购买序列的分析挖掘可以预测顾客下一次可能会购买的商品,因而具有较高的商业价值

③分类聚类技术。

分类在Web数据挖掘中是一项非常重要的任务,它的目的是通过分析输入数据,利用部分数据构造一个分类函数或分类模型(也常称为分类器),利用该模型将数据库中其他数据项映射到某一个给定的类别中。分类技术包括统计方法、机器学习方法和神经网络、支持向量机等,利用分类技术可挖掘出某些共同的特性,而这一特性可对新添加到数据库中的数据项进行分类。在Web数据挖掘中,分类技术可根据访问用户而得到个人信息、共同的访问模式以及访问某一服务器文件的用户特征。聚类技术用于从数据集中找出相似的数据并组成不同的组,与分类模型不同,聚类没有明显的目标变量属性。因此在聚类中,预先不知道目标数据集存在多少组,需要以某种聚类度量为基础,将所有的数据对象进行聚类,使得同一组之间的距离尽可能小,而不同组之间的距离尽可能大,使得用户只需要考虑那些相关的组,从而大大缩小了所需浏览的结果数量。常用的聚类技术有k-means算法、分层凝聚法和基于密度的聚类方法等[15]。聚类技术的用途非常广泛,在商业领域中,聚类可以从Web访问信息数据库中聚集出具有相似特征的消费群体,以帮助市场分析人员总结出不同用户的行为模式,从而进行有针对性的市场营销。同时,在找出用户共同兴趣后,可以进行协同式信息推荐,聚集在相同的用户聚类中的成员可以互相推荐新的滚动信息;系统自动给一个特定的用户聚类发送销售邮件,为用户聚类动态地改变一个特殊的站点等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈