首页 理论教育 常用数据挖掘技术及科学化图书馆管理与阅读推广

常用数据挖掘技术及科学化图书馆管理与阅读推广

时间:2023-07-30 理论教育 版权反馈
【摘要】:根据需求的不同,关联规则可以发现数据库中海量数据之间的关联网。在数据挖掘的过程中,关联规则的使用分为两个步骤:第一步是生成频繁项集,目的是找出所有符合最小支持度的项集合,即频繁项集;第二步是生成规则。在数据挖掘时使用关联规则,大量的时间会耗费在频繁项集上。因此,我们只有不断优化生成的频繁项集,才能够获得更好的数据挖掘效果。在数据库中选择和目前信息相似的数据,然后使用它们分析和评估目前的信息。

常用数据挖掘技术及科学化图书馆管理与阅读推广

(一)关联规则

关联规则用于发现两个或者多个行为之间存在的某种规律性关联。根据需求的不同,关联规则可以发现数据库中海量数据之间的关联网。在数据挖掘的过程中,关联规则的使用分为两个步骤:第一步是生成频繁项集,目的是找出所有符合最小支持度的项集合,即频繁项集;第二步是生成规则。在前一步频繁项集的基础上,进而产生合适最小可信度的规则。在数据挖掘时使用关联规则,大量的时间会耗费在频繁项集上。因此,我们只有不断优化生成的频繁项集,才能够获得更好的数据挖掘效果。

(二)基于历史的分析

人类在不断失败中得到知识的总结就是经验。基于历史的分析的本质是根据经验寻找相似的信息,并将它们用于目前的项目。在数据库中选择和目前信息相似的数据,然后使用它们分析和评估目前的信息。使用基于历史的分析主要有如何寻找准确的历史数据;如何确定函数和选取历史数据的数量[3]

(三)差别分析

发现数据中的异常信息,比如噪音数据、欺诈数据等,我们可以使用差别分析。当然,这些异常数据也是有益的。

(四)遗传算法

基于生命进化理论,并结合“物竞天择,适者生存”的原则对技术进行优化,遗产算法根据合适的规则组成最佳群体,是基于模拟基因联合、突变、自然进化理论和选择过程的不断迭代搜索特征的过程[4]。评估样本分类的准确率是遗传算法最典型的应用。

(五)神经网络(www.xing528.com)

输入层、隐含层和输出层是神经网络的典型结构。需要预测的变量作为输入,经过升维和降维对输入的变量进行处理,从而保证输入维度的一致性。在隐含层进行数据处理,处理过程相当于黑盒原理,对外部是不可见的,神经网络的复杂度是由隐含层包括的层数和每层的节点数量决定的。隐含层的参数可根据输入的变量进行优化调整,特别是权重W和偏执b的选择,以便结果达到最优[5]

(六)决策树

决策树向用户提供在特定条件下可以得到特定值的规则方法。决策树是映射值—属性的预测模型。

(七)粗糙集和模糊集

粗糙集是针对数据类进行粗略定义的理论。在现实生活中,很多类别的事物并不是按照属性进行区分的,粗糙集就是用来对属性模糊的事物进行分类而建立的。模糊集是一种模糊逻辑的方法,利用抽象的方法定义“模糊”阈值和边界进行类的判定。

(八)聚集检测

聚类是将类似对象抽象化进行分组的过程,分组后的数据对象称为簇,这些对象彼此间具有属性的相似性,与其他簇中的对象具有明显差异,在空间上利用度量的方式进行区分,相似性大的距离近,相似性小的距离远。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈