从技术角度,大数据被定义为[10]:所涉及的资料的数据量规模是巨大的,并且已经膨胀到无法通过当前主流软件工具在合理时间内完成撷取、管理、处理以及整理成帮助决策者做出更好决策的有效信息的程度。大数据的另一个含义是指下一代新的数据分析技术和框架,可以被用于支持高速的海量数据获取、高效存储和实时分析。我国虽然在大数据研究领域起步晚,但是发展迅速,并已成为我国信息技术革命的驱动力。李国杰院士[14]介绍了大数据时代的特征,也描述了大数据的一些挑战:高效处理非结构化数据或半结构化数据、新型数据表示方式、数据融合等,提出在大数据时代下的战略需求以及数据处理方式都需要进行重新的思考和研究,并试图引起广大研究者对于基于大数据的科学研究。
在数据挖掘方面,其理论技术可分为传统技术与改良技术。传统技术以统计分析为代表,统计学内所含序列统计、概率论、回归分析、类别数据分析等都属于传统数据挖掘技术;数据挖掘在改良技术方面,应用较普遍的有决策树理论(Decision Trees)、类神经网络(Neural Network)以及规则归纳法(Rules Induction)等。
(1)决策树
决策树是一种用树枝状展现数据受各变量影响的预测模型,根据对目标变量产生效应的不同而建构分类的规则,一般多运用在对客户数据的分析上,例如,针对有回函与未回函的邮寄对象,找出影响其分类结果的变量组合,常用分类方法为CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)两种。
(2)类神经网络(www.xing528.com)
类神经网络是一种仿真人脑思考结构的数据分析模式,为非线性的设计。与传统回归分析相比,好处是在进行分析时无须限定模式,特别当数据变量间存有交互效应时可自动侦测出;缺点则在于其分析过程为一黑盒子,无法详细呈现模型的具体格式。因此,类神经网络多利用于数据属于高度非线性且带有相当程度的变量交感效应分析。
(3)规则归纳法
规则归纳法是知识发掘领域中最常用的格式,使用一连串的[如果…/则…(If/Then)]逻辑规则对数据进行细分,通常将数据中发生数太少的项目先剔除,以避免产生无意义的逻辑规则,然后制定规则,从而实现知识的归纳过程。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。