首页 理论教育 大数据常见误解:揭秘真相

大数据常见误解:揭秘真相

时间:2023-11-16 理论教育 版权反馈
【摘要】:数据越多,不一定就能代表信息越多,更不能代表信息就会成比例增多。这些非结构化的数据却不一定可破译。不幸的是,很多时候,我们只有在处理了大量的数据和信息以后,才能判断它们的新颖性。

大数据常见误解:揭秘真相

1.数据不等于信息

经常有人把数据和信息当作同义词来用。其实不然,数据指的是一个原始的数据点(无论是通过数字,文字,图片还是视频等),信息则直接与内容挂钩,需要有资讯性(Informative)。数据越多,不一定就能代表信息越多,更不能代表信息就会成比例增多。例如:多个社交网站上的信息。我们当中的很多人在多个社交网站上活跃,随着我们上的社交网站越多,我们获得的数据就会成比例的增多,我们获得的信息虽然也会增多,但却不会成比例的增多。不仅因为我们会互相转发好友的微博(或者其他社交网站上的内容),更因为很多内容会十分类似,有些微博虽然具体文字不同,但表达的内容十分相似。

2.信息不等于智慧(Insight)

现在去除了数据中所有重复的部分,也整合了内容类似的数据,现在剩下的全是信息了,这对我们就一定有用吗?不一定,信息要能转化成智慧,至少要满足一下三个标准:(www.xing528.com)

可破译性:这可能是个大数据时代特有的问题,越来越多的企业每天都会生产出大量的数据,却还没想好怎么用,因此,他们就将这些数据暂时非结构化(Unstructured)的存储起来。这些非结构化的数据却不一定可破译。比如,你记录了某客户在你网站上三次翻页的时间间隔:3秒,2秒,17秒,却忘记标注这三个时间到底代表了什么,这些数据是信息(非重复性),却不可破译,因此不可能成为智慧。

关联性:无关的信息,至多只是噪音

新颖性:这里的新颖性很多时候无法仅仅根据我们手上的数据和信息进行判断。举个例子,某电子商务公司通过一组数据/信息,分析出了客户愿意为当天送货的产品多支付10块钱,然后又通过另一组完全独立的数据/信息得到了同样的内容,这样的情况下,后者就不具备新颖性。不幸的是,很多时候,我们只有在处理了大量的数据和信息以后,才能判断它们的新颖性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈