首页 理论教育 大数据的基本概念和应用场景介绍

大数据的基本概念和应用场景介绍

时间:2023-06-08 理论教育 版权反馈
【摘要】:为了获取大数据中的价值,必须选择一种方式来对其进行处理。大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据。

大数据的基本概念和应用场景介绍

1.大数据的定义

何为大?对于如下数据度量:

1Byte=8Bits

1KB=1024Bytes

1MB=1024KB=1048576Bytes

1GB=1024MB=1048576KB=1073741824Bytes

1TB=1024GB=1048576MB=1099511627776Bytes

1PB=1024TB=1048576GB=1125899906842624Bytes

1EB=1024PB=1048576TB=1152921504606846976Bytes

1ZB=1024EB=1180591620717411303424Bytes

1YB=1024ZB=1208925819614629174706176Bytes

挑战一下:谁能在10秒钟内念完最后一行?

大数据(Big Data)或称巨量资料,是指所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策的巨量数据。它的数据规模和传输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,必须选择一种方式来对其进行处理。

2.大数据的产生

1)物理世界的信息大量数字化

门户网站(如新浪搜狐网易等)和垂直型网站将各种信息数字化,如新浪微博是将茶馆聊天的行为(弱关系产生的信息数字化)和朋友聊天的行为数字化(强关系产生的信息数字化),视频监控探头将图像数字化等。

2)社交网络

进入了社交时代、移动时代,随着大量移动终端设备的出现,用户不仅主动提交自己的行为,还和自己的社交圈进行了实时互动。因此数据被大量创造出来并且具有了极其强烈的传播性。

3)数据保存

很多数据会在时间跨度上产生价值。随着技术进步和存储设备日益低廉,用户自己产生的数据得到了重视,数据的价值被重视了。因此越来越多的数据被持续保存。

3.大数据的特点

1)大量(Volume)

大量是指存储量大,计算量大。通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态。

2)多样(Variety)(www.xing528.com)

多样是指来源多,格式多。大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据。

3)快速(Velocity)

快速是指增长速度快,处理速度要求快。涉及感知、传输、决策、控制这样的开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。

4)持久(Vitality)

数据持续到达并且只有在特定时间和空间中才有意义。

5)复杂性(Complexity)

通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求。

4.大数据时代发生的推动力

1)互联网社会化拉开帷幕

You Tube、Twitter、FaceBook、新浪微博等社交网站的出现致使海量的视频、图片、文本、短消息以及社会间关系信息的数据需求出现。网络用户的高速增长和用户平均网络使用时间的不断延长使得用户网络行为数据大增,网络服务从单一的文字形式走向图片、语音和影像等多媒体形式,互联网与用户之间的互动导致数据量大增。

2)技术支撑

企业时刻想掌握用户数据(生活数据、行为数据和心理数据等)、竞争对手数据、合作伙伴数据、外部环境数据等。一方面,囿于数据存储技术,企业对于已经得到的数据因无合适、低成本的存储空间而不得不放弃或只能简单利用;另一方面,企业又缺少关键主题下的有效数据,这些数据可能远在天边,近在眼前。因缺少相应数据汇集技术,无法将离散无序的数据进行归集;因缺少先进的存储技术,不得不对数据进行取舍,可能丧失数据的有效性,无法刻画数据暗含的真实关系或潜在价值;因缺少实时的、先进的数据分析技术,数据的利用停留在单纯的、静态的数据描述性分析,无法发挥数据时效性,无法将复杂的数据内涵简单、清晰地展现出来,进而无法为营销决策提供实时参考。

技术的进步打破了数据利用桎梏,使得大规模收集数据、高容量存储数据和实时处理分析数据成为可能。大数据要能运转需要三个条件:

(1)数据的汇集:如ETL(Extract-Transform-Load)工具。

(2)数据的存储:如关系数据库、NoSQL(非关系型数据库)等。

(3)数据的分析又分为以下几方面:

①数据处理:自然语言处理技术等。

②统计和分析:A/B Test、Top N 排行榜、地域占比、文本情感分析等。

③数据挖掘:关联规则分析、分类和聚类等。

④模型预测:预测模型、机器学习和建模仿真等。

⑤基础架构支持:云存储、分布式文件系统等。

⑥计算结果展现:云计算、标签云和关系图等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈