首页 理论教育 大数据技术的类型与挑战:数据预处理、管理与保护

大数据技术的类型与挑战:数据预处理、管理与保护

时间:2023-07-08 理论教育 版权反馈
【摘要】:大数据预处理技术主要包括数据清理、数据集成、数据转换以及数据规约四种类型。要解决大数据储存的关键问题,需要重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。根据数据类型的不同,大数据存储技术大致可以分为三类:第一类主要针对大规模的结构化数据。只有大数据安全技术得以突破,数据的真伪鉴别、数据销毁、隐私保护、数据的复制与转移等问题才能得到有效的解决。

大数据技术的类型与挑战:数据预处理、管理与保护

大数据技术可以包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统分布式数据库、云计算平台、互联网、可扩展的存储系统等。图1.4 是一个典型的大数据技术栈,底层是大数据技术架构的基础层,涵盖计算资源、内存与存储和网络互联,具体表现为计算节点、集群、机柜数据中心。与以往的存储孤岛不同,大数据基础设施必须在容量、性能和吞吐量方面都可以线性扩展,成为具有共享能力的高容量储存池。第二层是管理层,主要对结构化和非结构化数据进行管理,实现数据的实时传送、查询和计算。管理层既包括数据的存储和管理,也涉及数据的计算。数据存储和管理包括文件系统、数据库和类似YARN的资源管理系统。数据的计算处理如Hadoop、MapReduce、Spark 等,以及在此之上的各种不同计算范式,如批处理、流处理和图计算等,包括如BSP、GAS 等衍生的编程模型的计算模型。第三层是分析层,能够通过统计学的数据挖掘和机器学习算法对数据集进行分析和解释,从而获得对数据价值深入的理解,包括数据分析和可视化。数据分析包括简单的查询分析、流分析以及更复杂的分析(如机器学习、图计算等)。一般的可视化是对分析结果的展示,交互式可视化还可以形成迭代的分析和可视化,使分析获得新的线索。第四层是应用层,为终端用户提供决策和服务,帮助用户实现竞争优势,也是大数据价值的体现。

1.大数据关键技术

麦肯锡报告详细列举了“大数据的关键技术”,包括A/B 测试、数据挖掘、遗传算法神经网络、时间序列预测模型、BigTable、Hadoop、标签云、Clustergram、历史流、空间信息流等技术和应用。可以从大数据采集和传输、大数据预处理、大数据储存、大数据分析挖掘、大数据应用这五个方面来认识大数据关键技术。

图1.4 大数据技术栈

(1)大数据采集和传输技术

大数据采集是通过多个数据库获得结构化、半结构化及非结构化的海量数据的过程。由于在采集过程中可能会有成千上万的用户并发访问和操作,因此必须采用专门的方法采集大数据,主要包括:系统日志采集法,通过一些分布式架构、可靠的海量日志聚合系统,支持在系统中定制各类数据发送方,在收集数据的同时还可以对数据进行简单处理,能满足每秒数百兆日志数据的采集和传输。很多互联网企业都有此类数据采集工具,如Hadoop 的Chukwa,Cloudera的Flume等;网络数据采集法,借助网络爬虫或网站公开API等方式,从网站上获取数据信息,能够将非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式将其存储为统一的本地数据文件;其他数据采集法,针对保密性要求较高的数据,通过和相关机构合作,采用特定系统接口等方式采集。

只有高速的传输技术才能保证数据及时载入分析平台、提供实时有效的数据供用户使用,保持数据分析系统的运算峰值和运作效率。随着数据量的不断攀升,需要更加快速的传输技术与之相适应。在探索如何提高传输速度上,人们取得了一次又一次的进步。现在,利用光纤传输,每秒能轻松传输几十TB的数据。在无线数据传输方面,2017 年Facebook使用毫米波技术,在13 km距离上实现了破纪录的36 GB点对点数据速率。

(2)大数据预处理技术

大数据预处理是对采集到的原始数据进行清理,将杂乱无章的数据转化为相对单一且便于处理的数据,提高数据质量,为之后的数据分析奠定基础。大数据预处理技术主要包括数据清理、数据集成、数据转换以及数据规约四种类型。

数据清理主要采用ETL(Extraction/Transformation/Loading)和Potter's Wheel等清洗工具对遗漏数据进行填充处理、对错误数据进行降噪处理、对不一致数据进行更正处理。

来自多个数据集合的数据会因为命名的差异导致对应的实体名称不同、数据属性命名不同导致数据冗余、不同来源的同一实体具有有冲突的数据值,数据集成可以解决这些问题,它将不同来源的数据合并存放到一个一致的数据存储库中。

数据转换是对数据中存在不一致的情况进行处理,主要包括统一数据名称及格式、进行字段的组合、分割或计算等。依据业务规则对异常数据进行清洗后能保证后续分析结果的准确性。

数据归约能最大限度地精简数据量,使数据集变小,但同时仍能基本保持原数据的完整性。具体方法主要包括数据方聚集、维规约、数据压缩、数值规约和概念分层等。

(3)大数据储存技术

采集到的数据需要存储起来,建立相应的数据库,方便进行管理和调用。传统的数据存储和管理以结构化数据为主,通常关系数据库系统就能够满足需要。而大数据以半结构化和非结构化数据为主,结构化数据为辅,在应用上也需要对不同类型的数据综合分析,因此,传统的数据库已经远不能满足需要。要解决大数据储存的关键问题,需要重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。

根据数据类型的不同,大数据存储技术大致可以分为三类:第一类主要针对大规模的结构化数据。目前最佳选择是MPP(Massive Parallel Processing)数据库,它可以有效支撑起PB量级的结构化数据的存储和分析。通过高效的分布式计算,MPP 可以在低成本下实现对分析类应用的支持,具有高性能和高扩展性特点。第二类主要针对半结构化和非结构化数据。更擅长对此类数据进行分析的是Hadoop,它能处理传统关系数据库较难处理的数据和场景。利用Hadoop 开源的优势,通过扩展和封装Hadoop 来实现对互联网大数据存储、分析的支撑。第三类主要针对结构化和非结构化混合的数据,需要集合MPP 并行数据库集群与Hadoop集群,发挥各自应对结构化或非结构化数据的优势,实现对EB 量级数据的存储和管理。

另外,大数据安全技术也必不可少。只有大数据安全技术得以突破,数据的真伪鉴别、数据销毁、隐私保护、数据的复制与转移等问题才能得到有效的解决。

(4)大数据分析挖掘技术

数据挖掘就是从大量的数据中提取出隐含其中的、有价值的信息的过程。这些原有数据可能并不完全甚至是有噪声的、模糊的随机数据,通过数据挖掘能从中获得人们事先并无预想的信息。

数据挖掘的技术有很多种,按照不同的标准可以对其进行分类。根据挖掘任务可以分为分类或预测模型发现、关联规则发现、异常和趋势发现等;根据挖掘对象可以分为关系数据库、空间数据库、时态数据库、多媒体数据库、异质数据库等;根据挖掘方法可以分为机器学习法、统计方法、神经网络方法和数据库方法等。(www.xing528.com)

大数据分析挖掘技术是对原有数据挖掘和机器学习技术进行改进,开发出新型数据挖掘技术,如数据网络挖掘、特异群组挖掘、图挖掘等。大数据分析挖掘技术将侧重在可视化分析、数据挖掘算法、预测性分析、语义引擎等方面取得突破。

(5)大数据应用技术

大数据技术通过挖掘隐藏在海量数据中的信息,最终为人们的社会经济活动提供支持,提高各行业的运作效率,从而大大提高整个社会经济的集约化程度。在我国,大数据将重点应用于以下三大领域商业智能、政府决策、公共服务。商业智能可以有效提高企业经营活动的效率。如对消费者行为及趋势的分析与预测、提供个性化的购物体验以提高客户忠诚度、制订适合的广告策略等。大数据运用在政府决策上可以提高政府决策的科学性和时效性。借助民意调查、听证会等形式,大数据可以帮助建立政府与公民之间的双向信息流动机制,产生出共同的政务信息,作出的决策更符合民意。大数据在公共服务领域的应用可以涵盖教育医疗社会保障环境保护等各个方面。通过信息和数据的共建共享,能够避免资源的闲置与重复供给,降低了成本,提高了公共服务供给的效率。

2.大数据相关技术

数据的不断膨胀和技术的飞速发展已经对国家治理、经济运行和人们的生活各方面都产生了巨大的影响,大数据时代下,互联网、移动互联网、物联网、云计算、人工智能、区块链等技术都和大数据技术紧密相关、互相影响,推动着国家管理、企业生产和人们生活发生本质的变化。

(1)互联网和移动互联网

互联网是将计算机网络相互连接在一起,并在此基础上发展出覆盖全世界的相互连接在一起的全球网络结构。互联网能够不受空间限制来进行信息的交换,并且更新速度快、使用成本低。大量的互联网使用者也催生了海量的数据。这些数据可以以视频、图片、文字等半结构化或非结构化的形式存在,这也促进了大数据分析技术的发展。另一方面,互联网也是大数据分析应用最广泛的领域之一,比如依托大数据分析发展起来的搜索引擎、面向互联网用户的精准营销等。

移动互联网是移动通信和互联网的结合。移动互联网包含3 个层面:终端、软件和应用,通过智能移动终端,采用移动无线通信方式来获取业务和服务。随着宽带无线接入技术和移动终端技术的发展,移动互联网用户数量不断攀升,据统计,截至2018 年12 月,中国手机网民规模已经达到8.17 亿人。人们可以利用各种智能移动终端,如智能手机平板电脑、电子书等,随时随地在网上交流信息,用户规模的增长带来了移动互联网市场的繁荣,也推动了数据的大爆炸。

互联网和移动互联网的数据都具有大量化、多样化和快速化的特点,是目前大数据信息采集的主要来源,采集信息的范围、速度、数量、类型也直接影响大数据应用功能最终效果的发挥。

(2)物联网

物联网是通过射频识别装置(Radio Frequency Identification,RFID)、传感器红外线感应器全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,以进行信息交换和通信,从而实现智慧化识别、定位、跟踪、监控和管理的一种网络体系。[3]物联网把客户端延伸到了任何物品与物品之间的信息交换,可以看成互联网的延伸和扩展,因此其核心和基础仍是互联网。

物联网数据囊括了所有连接于网络上的物品,比起主要以人和服务器为数据产生来源的互联网有更大的数据量,以及更多样的数据类型。物联网所带来的大数据也正在引起社会的广泛关注。物联网的核心商业价值也是将物与物之间产生的大数据进行智能化的处理、分析,最后运用到各种商业模式中,如智慧城市、智慧交通、智慧家居、智慧医疗、智慧物流等。将大数据和物联网结合起来,可以以物联网促进大数据技术的发展,以大数据的应用带动物联网更快地向前发展。

(3)云计算

云计算是一种基于互联网的计算方式,凡是共享的软硬件资源和信息都可以通过这种计算方式根据需求提供给计算器或者其他设备。云计算相当于把起到“主机”作用的计算、服务和应用由云服务提供商的服务器集群提供,而使用者只需要“显示器”就好,并且这种“主机”是可以由多人共享的。根据开放对象的不同,可以分为向公众开放的公有云和仅供企业或组织内部使用的私有云。

云计算的产生和大数据不无关系,正是因为传统的计算架构难以处理日益膨胀的数据,才促成了云计算的产生。以亚马逊为例,亚马逊需要对大量的网上用户的数据资料进行整理、挖掘和提炼,而仅靠传统的计算方法是无法完成的,因此催生出亚马逊的海量数据处理平台,进而又在2006 年推出亚马逊云计算服务(Amazon Web Services),以Web 服务的形式向企业提供IT基础设施服务。

可见,云计算的基础是大数据,没有大量的数据,云计算的计算能力也不能得以发挥,而大数据需要利用云计算强大的数据存储技术、数据管理技术、数据计算能力来处理数据、挖掘信息,以便提供更加周到、及时的服务。

(4)人工智能

人工智能是集计算机科学、控制论信息论仿生学心理学语言学等多个学科于一体的综合性学科,是用计算机来模拟、延伸、扩展人的智能。人工智能不仅有科学研究价值,还有广阔的商业应用前景,它和大数据技术有着天然的联系。经过长期研究,人工智能领域已经积累起了人工神经网络模式识别、自动定理证明、机器学习等研究方法和应用技术,这些技术可以应用于大数据技术领域中,为大数据的挖掘和应用提供支持。我们所熟悉的购物网站的推荐、新闻头条的推送等就是基于人工智能对用户日常的浏览、购买所产生的大量数据进行不断深入的分析,得以对用户需求精准把握,从而实现巨大的商业价值。无人驾驶机需要通过人工智能软件完成操作,大量的传感器会产生海量数据,处理这些数据同样也需要大数据技术的支持。

(5)区块链

比特币的火热将区块链从幕后推到了台前,并使其迅速成为全球科技创新领域的焦点。国际社会对区块链高度重视,将其视为重构金融秩序甚至是社会秩序的希望。从广义上来讲,区块链技术是利用分布式节点共识算法来验证和生成数据,利用块链式数据结构来存储数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式。[4]区块链的本质是一种去中心化的分布式账本,也可以把它看成一种不可篡改的、可追溯的、分布式数据库存储技术。因此区块链技术能够释放出更多的数据,同时,由于区块链技术有不可篡改性,也保证了数据的安全性。

大数据可以和区块链技术相互协作、结合发展。区块链提供的数据虽然具有完整性,但其数据统计分析的能力却相对较弱,大数据技术具有海量数据存储技术和高效的分析技术,能够大幅提升区块链数据的价值。而区块链具有可追溯的特性,当大数据包在区块链网络上交易的时候,能够在全网看到其流向,保证数据包的完整性和安全性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈