首页 理论教育 数据科学中的大数据应用

数据科学中的大数据应用

时间:2023-06-27 理论教育 版权反馈
【摘要】:大数据与海量数据的重要区别在两方面:一方面,大数据的数据规模更大;另一方面,大数据对处理数据的响应速度有更严格的要求。数据的增长速度和处理速度是大数据高速性的重要体现。而大数据中有70%~85%的数据是诸如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。大数据背后潜藏的价值巨大。

数据科学中的大数据应用

大数据(Big Data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的4V特点:规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值性(Value)。

1.规模性(Volume)

随着信息化技术的高速发展,数据开始爆发式增长。大数据中的数据不再以GB或TB为单位来衡量,而是以PB(1千个TB)、EB(1百万个TB)或ZB(10亿个TB)为计量单位。

2.高速性(Velocity)

这是大数据区分于传统数据挖掘最显著的特征。大数据与海量数据的重要区别在两方面:一方面,大数据的数据规模更大;另一方面,大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

3.多样性(Variety)(www.xing528.com)

多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。

(1)数据来源多。企业所面对的传统数据主要是交易数据,而互联网和物联网的发展带来了诸如社交网站、传感器等多种来源的数据。

(2)数据类型多,并且以非结构化数据为主。传统的企业中,数据都是以表格的形式保存。而大数据中有70%~85%的数据是诸如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。

(3)数据之间关联性强,频繁交互,如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。

4.价值性(Value)

尽管企业拥有大量数据,但是发挥价值的仅是其中非常小的部分。大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小,大数据真正的价值体现在从大量不相关的各种类型的数据中挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,运用于农业金融医疗等各个领域,以期创造更大的价值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈