首页 理论教育 大数据采集技术与安全保障

大数据采集技术与安全保障

时间:2023-05-18 理论教育 版权反馈
【摘要】:健全大数据安全保障体系,强化安全支撑。数据采集大数据采集技术就是对数据进行ETL 操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值。

大数据采集技术与安全保障

7.1.1 大数据的含义

2015 年9 月,国务院印发《促进大数据发展行动纲要》,部署了3 个方面主要任务:一要加快政府数据开放共享,推动资源整合,提升治理能力。大力推动政府部门数据共享,稳步推动公共数据资源开放,统筹规划大数据基础设施建设,支持宏观调控科学化,推动政府治理精准化,推进商事服务便捷化,促进安全保障高效化,加快民生服务普惠化。二要推动产业创新发展,培育新兴业态,助力经济转型。发展大数据在工业、新兴产业农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。三要强化安全保障,提高管理水平,促进健康发展。健全大数据安全保障体系,强化安全支撑。

大数据一般是指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。它具有4 个基本特征:一是数据体量巨大;二是数据类型多样;三是处理速度快;四是真实性。

大数据不仅是指数据量大,更是指这些数据包含的信息量巨大。从企业管理的角度理解,大数据是指可以被现代先进媒体记录、采集和开发利用的数据集、数据流和数据体。

就企业经营管理而言,大数据可帮助企业在一定的合理时间内将所搜集数据通过认真仔细的选择,并对其进行一定的管理处理,从而来帮助企业更快、更好地经营。它的价值体现在以下3 个方面:

①对大量消费者提供产品或服务的企业可利用大数据进行精准营销。

②做小而美模式的中小微企业可利用大数据做服务转型。

③面临互联网压力之下必须转型的传统企业需要充分利用大数据的价值。

7.1.2 大数据的基本特点(www.xing528.com)

IBM 在高德纳分析员道格·莱尼的理论基础上,提出大数据的4V 特征,得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB 级别跃升到PB 级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;第三,速度(Velocity),即处理速度快;第四,真实性(Veracity),即追求高质量的数据。

7.1.3 大数据技术

大数据技术主要包括数据采集、数据存储、数据清洗、数据挖掘及数据可视化等。

(1)数据采集 大数据采集技术就是对数据进行ETL 操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值。然后提供给用户解决方案或者决策参考。ETL 是英文Extract-Transform-Load 的缩写,数据从数据来源端经过抽取(extract)、转换(transform)、加载(load)到目的端,然后进行处理分析的过程。

(2)数据存储 数据存储即用存储器把采集到的数据存储起来,建立相应的数据库,以便管理和调用。存储器有分布式文件系统HDFS、分布式键值系统Amazon Dynamo、NoSQL 数据库、 云数据库等。

(3)数据清洗 数据清洗就是对数据进行重新审查和校验的过程。其目的在于删除重复信息、纠正存在的错误,并提供数据一致性。它主要包括缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗。

(4)数据分析 数据分析即对清洗后的数据利用统计分析方法对数据使用目的进行挖掘、建模、预测等的过程。除方差分析、简单回归等传统统计分析方法外,大数据更多地使用ElasticNet回归、决策树、随机森林、XGBoost 及深度学习等机器学习方法进行处理。

(5)数据可视化 数据可视化即借助于图形化手段,清晰、有效地传达与沟通信息。比较常用的软件包括Jupyter,Tableau,Google Chart,D3.js 等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈