【摘要】:大数据特征定义为4V,即规模性、高速性、多样性和价值性1.数据量大人类社会产生的数据每两年就增加一倍——“大数据摩尔定律”。这是大数据区别于传统数据挖掘的显著特征。利用大数据多样性的原理就是:保留一切对你有用的你需要的信息,丢弃那些你不需要的信息。
大数据特征定义为4V,即规模性(Volume)、高速性(Velocity)、多样性(Variety)和价值性(Value)
1.数据量大(Volume)
人类社会产生的数据每两年就增加一倍——“大数据摩尔定律”。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
2.速度快时效高(Velocity)
数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。(www.xing528.com)
3.类型繁多(Variety)
这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。利用大数据多样性的原理就是:保留一切对你有用的你需要的信息,丢弃那些你不需要的信息。发现那些有关联的数据,加以收集、分析、加工,使其变成可以利用的信息。
4.价值密度低(Value)
价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。