大数据分析是指对规模巨大的数据进行分析。通过多个学科技术的融合实现数据的采集、管理和分析,从而发现新的知识和规律。大数据时代的数据分析首先要解决的是海量、结构多变、动态实时的数据存储与计算问题,这些问题在大数据解决方案中至关重要,决定大数据分析的最终结果。
通过美国福特公司利用大数据分析促进汽车销售的案例,可以初步认识大数据分析。分析过程如图9-6所示。
图9-6 福特促进汽车销售的大数据分析流程
大数据分析可以分为以下5种基本方法。
1)预测性分析
大数据分析最普遍的应用就是预测性分析,从大数据中挖掘出有价值的知识和规则,通过科学建模的手段呈现结果,然后可以将新的数据代入模型从而预测未来的情况。例如,麻省理工学院的研究者创建了一个计算机预测模型来分析心脏病患者丢弃的心电图数据。他们利用数据挖掘和机器学习在海量的数据中筛选,发现心电图中出现三类异常者一年内死于第二次心脏病发作的概率比未发现者高1~2倍。这种新方法能够预测更多的、无法通过现有的风险筛查被探查出的高危患者。
2)可视化分析
不管是对数据分析专家还是普通用户,他们两者对于大数据分析最基本的要求就是可视化分析。因为可视化分析能够直观地呈现大数据特点,同时能够非常容易地被地用户所接受。可视化可以直观地展示数据,让数据自己说话,让观众听到结果。数据可视化是数据分析最基本的要求。(www.xing528.com)
3)大数据挖掘算法
可视化分析结果是给用户看的,而数据挖掘算法是给计算机看的,通过让机器学习算法,按人的指令工作,从而呈现给用户隐藏在数据之中的有价值的结果。大数据分析的理论核心就是数据挖掘算法,算法不仅要考虑数据的量,也要考虑处理的速度,目前在许多领域的研究都是在分布式计算框架上对现有的数据挖掘理论加以改进,进行并行化、分布式处理。
常用的数据挖掘方法有分类、预测、关联规则、聚类、决策树、描述和可视化、复杂数据类型挖掘(Text、Web、图形图像、视频、音频)等,有很多学者对大数据挖掘算法进行了研究和文献发表。
4)语义引擎
数据的含义就是语义。语义技术是从同语所表达的语义层次上来认识和处理用户的检索请求。
语义引擎是通过对网络中的资源对象进行语义上的标注以及对用户的查询表达进行语义处理,使得自然语言具备语义上的逻辑关系,能够在网络环境下进行广泛有效的语义推理,从而更加准确、全面地实现用户的检索。大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词来分析和判断用户的需求,从而实现更好的用户体验。
例如,一个语义搜索引擎试图通过上下文来解读搜索结果,它可以自动识别文本的概念结构。如有人搜索“选举”,语义搜索引擎可能会获取包含“投票”“竞选”和“选票”的文本信息,但是“选举”这个词可能根本没有出现在这些信息来源中,也就是说语义搜索可以对关键词的相关词和类似词进行解读,从而扩大搜索信息的准确性和相关性。
5)数据质量和数据管理
数据质量和数据管理是指为了满足信息利用的需要,而对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。