大数据分析可以分为5种基本方法。
3.1.2.1 预测性分析
大数据分析最普遍的应用就是预测性分析,从大数据中挖掘出有价值的知识和规则,通过科学建模的手段呈现出结果,然后可以将新的数据带入模型,从而预测未来的情况。
例如,麻省理工学院的研究者约翰·古塔格和柯林·斯塔尔兹创建了一个计算机预测模型来分析心脏病患者丢弃的心电图数据。他们利用数据挖掘和机器学习在海量的数据中筛选,发现心电图中出现3类异常者一年内死于第二次心脏病发作的概率比未出现者高1~2倍。这种新方法能够预测出更多的、无法通过现有的风险筛查被探查出的高危患者,如图3-2所示。
图3-2 心电图大数据分析
3.1.2.2 可视化分析
不管是对数据分析专家还是普通用户,对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观地呈现大数据特点,同时能够非常容易被用户所接受,就如同看图说话一样简单明了。可视化可以直观地展示数据,让数据自己说话,让观众听到结果。数据可视化是数据分析工具最基本的要求。图3-3是《北京日报》发行量数据分析,图3-4是超市新店开业数据分析。
图3-3 《北京日报》发行量数据分析
图3-4 超市新店开业数据分析(www.xing528.com)
3.1.2.3 大数据挖掘算法
可视化分析结果是给用户看的,而数据挖掘算法是给计算机看的,通过让机器学习算法,按人的指令工作,从而呈现给用户隐藏在数据之中的有价值的结果。大数据分析的理论核心就是数据挖掘算法,算法不仅要考虑数据的量,也要考虑处理的速度。目前在许多领域的研究都是在分布式计算框架上对现有的数据挖掘理论加以改进,进行并行化、分布式处理。
常用的数据挖掘方法有分类、预测、关联规则、聚类、决策树、描述和可视化、复杂数据类型挖掘(Text、Web、图形图像、视频、音频)等。有很多学者对大数据挖掘算法进行了研究和文献发表。例如,有文献提出对适合慢性病分类的C4.5决策树算法进行改进,对基于MapReduce编程框架进行算法的并行化改造。有文献提出对数据挖掘技术中的关联规则算法进行研究,并通过引入了兴趣度对经典Apriori算法进行改进,提出了一种基于MapReduce的改进的Apriori医疗数据挖掘算法。有文献提出在高可靠安全的Hadoop平台上,结合传统分类聚类算法的特点给出一种基于云计算的数据挖掘系统的设计方案。
3.1.2.4 语义引擎
数据的含义就是语义。语义技术是从词语所表达的语义层次上来认识和处理用户的检索请求。
语义引擎通过对网络中的资源对象进行语义上的标注,以及对用户的查询表达进行语义处理,使得自然语言具备语义上的逻辑关系,能够在网络环境下进行广泛有效的语义推理,从而更加准确、全面地实现用户的检索。大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词来分析和判断用户的需求,从而实现更好的用户体验。
例如,一个语义搜索引擎试图通过上下文来解读搜索结果,它可以自动识别文本的概念结构。如你搜索“选举”,语义搜索引擎可能会获取包含“投票”“竞选”“选票”的文本信息,但是“选举”这个词可能根本没有出现在这些信息来源中。也就是说语义搜索可以对关键词的相关词和类似词进行解读,从而扩大搜索信息的准确性和相关性。
3.1.2.5 数据质量和数据管理
数据质量和数据管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程,原始信息的校验,错误信息的反馈、矫正等一系列的过程。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
例如,假设一个银行的客户文件中有50万个客户。银行计划向所有客户以邮寄方式直接发送新产品的广告。如果客户文件中的错误率是10%,包括重复的客户记录、过时的地址等,假如邮寄的直接成本是5.00美元(包括邮资和材料费),则由于糟糕数据而产生的预期损失是:50万客户×0.10×$5,即25万美元。可见在充满“垃圾”的大数据环境中也只能提取出毫无意义的“垃圾”信息,甚至导致数据分析失败,因此数据质量在大数据环境下显得尤其重要。
综上所述,大数据分析的基础就是以上5个方面,如果进行更加深入的大数据分析,还需要更加专业的大数据分析手段、方法和工具的运用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。