大数据技术能够分为大数据工程、大数据科学与大数据应用。大数据工程就是按照规划而开展的对大数据的建设以及运行管理的整个系统。大数据科学致力发现在大数据不断发展与运行中存在的规律,并且对大数据和活动之间的关系进行检验。大数据应用指的是将大数据技术投入到社会生活的应用之中,以帮助社会大众解决现实问题。大数据要求对庞大的数据实现高效处理,如云计算平台、分布式数据库、大规模并行处理(MPP)数据库、可扩展的存储系统、分布式文件系统与数据挖掘电网等。现在进行大数据分析所使用的工具来自两个生态圈,即开源和商用,HBase、Hadoop HDFS、Hadoop MapReduce都属于开源生态圈,数据仓库、数据集市与一体机数据库则属于商用生态圈。随着人们对大量数据处理的需求不断增多,大数据技术也不断升级,储存与处理技术、有关分析算法研发及超级计算机的出现使大数据在社会各领域的运营成为可能。
综合来看,大数据技术指的是能够从大规模的数据中提取出有用信息的科学技术。这些年,与大数据相关的新技术不断被开发研制出来,社会各行各业也愈加重视大数据技术,而新技术的出现也有效推动了大数据的收集、储存、分析处理与使用等工作的进行。具体而言,大数据应用过程中最常使用的技术有以下几种:大数据收集技术、大数据分析与挖掘技术、大数据展示与使用技术、大数据储存与管理技术以及大数据预处理技术。
(一)大数据收集技术
大数据收集包括两个层次,一个是智能感知层,另一个是基础支撑层。智能感知层能够对不同类别的庞大数据进行感知,可以感知的数据类型包括结构化数据、半结构化数据以及其他的数据类别。智能感知层的运行过程包括多个阶段,先对不同类别的数据进行自动识别,然后对大数据定位、跟踪与访问、上传、转换信号、监测、初步处理与管理。基础支撑层指的是为大数据提供数据和资源支撑的系统环境,具体包括计算存储资源、关系型数据库、列式数据库、中间件、大数据处理平台等,既包括软件支撑环境,又包括硬件支撑环境。
(二)大数据分析与挖掘技术
大数据分析的目的是经过对庞大的数据的分析,从中发现一些有价值的信息,从而为用户适应环境的改变提供帮助,提高决策的准确性和合理性。大数据分析技术由下面五个要素构成:第一是可视化分析。当人们应用大数据分析时,不管是专业人员还是一般用户,都需要用到可视化分析。数据可视化分析能够使结果更加直观,让人们读懂数据。第二是数据挖掘。数据挖掘是大数据分析形成的理论基础。不同类型的算法能够增强我们分析数据的能力,提取数据中的有效信息,发挥数据的价值。这些算法既可以处理大规模的数据,又可以使数据处理速度实现最大化的提高。第三是预测分析能力。专业人员在开展预测性分析工作时,需要使用之前数据分析与挖掘所得到的结果,从而对之后的形势做出预测性判断。第四是语义引擎。语义引擎在设计时要注重人工智能功能的研发,使其可以自动对数据进行信息提炼,找出数据的规律。第五是数据质量与数据管理。当前,社会生活中每天都会产生大量的数据,如何在大量的数据中找到有价值的信息,需要增强数据质量与数据管理水平。
(三)大数据展示与使用技术(www.xing528.com)
随着社会中的数据规模急剧增加与上涨,人们通过大数据技术便能发现蕴藏于庞大数据中的信息与知识。这些信息与知识可以为人们进行各项活动提供参考,有利于增强社会各行业的运营效率。大数据主要应用于公共服务、市场销售与商业智能等领域。
我们有理由相信,随着大数据使用范围的不断扩展,大数据技术将得到改进和优化,从而与更多的行业领域相融合。
(四)大数据存储与管理技术
当需要对收集的各类数据进行储存,构建专门的数据库,对大数据进行管理与调配时,储存和管理技术就显得十分必要。在处理复杂的非结构化数据、半结构化数据与结构化数据时,加强储存与管理技术在这些数据上的使用和研究非常必要。如今,大数据技术中受到众多关注的技术主要包括索引技术、安全管理技术与新型数据库技术。
(五)大数据预处理技术
使用上述收集技术收集到庞大的数据后,需要使用大数据预处理技术,这一技术一般应用于那些已经接受的数据。大数据预处理主要包括四个环节,即数据清理、数据集成、数据变换、数据规约。其中,数据清理的内容包括噪声数据、不相同数据以及数据中的遗漏值,这一环节能够为之后的数据分析、挖掘工作打下精确、系统、清晰的数据基础。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。