过去,因为记录、存储和分析数据的工具的限制,掌握被分析事物的所有数据几乎不可能。大规模收集和分类数据只有政府或者教会才有能力做到,而普通的企业或者个人只能收集少量数据进行分析。1086 年英国国王威廉一世为了让子民纳税,组织了人口普查,对整个国家的人口、土地、财产都做了前所未有的全面记载。然而人口普查是一项耗时耗力的事情,威廉一世在人口普查完成之前就去世了,而且收集上来的信息也只是一个大概情况。考虑到人口普查收集信息的时间长,收集到的数据具有滞后性,分析处理这些数据又会耗费很多的时间,因此政府极少进行人口普查。随着国家人口的逐渐增多,数据变化的速度超过了人口普查局统计分析的能力,即使低频率的人口普查仍然很困难。三百多年前,一个英国的缝纫用品商John Graunt提出一种新的方法来推算人口数量。John Graunt 注意到伦敦每年大约有13 000 场葬礼,每11 个家庭平均每年3 人死亡,1 个家庭平均有8 个人,因此估算伦敦人口在38 万左右。这一方法演变成后来的统计学,虽然比较粗糙,但是可以利用少量有用的样本信息来获取整体情况。
随后统计学家们又发现随机取样分析比有目的地选取具有代表性的样本分析更好。样本选择的随机性比样本数量更重要,因为当样本数量达到某个数值后,新增样本所能提供的信息会越来越少。有了随机取样,我们可以只用较少的花费就能完成精确度很高的推断。政府每年通过随机采样的方法对人口进行小规模调查成为可能。除开政府,在私人领域中,对商品质量的检查可以通过随机取样完成,对消费者喜好的认识可以通过随机取样完成,对风险的监测也可以通过随机取样完成。
然而随机采样本身存在许多固有缺陷。如果采样过程中存在任何偏见,做不到绝对随机,则分析结果就会相去甚远。另外,对细分领域的情况随机采样不能给出满意的分析。样本分析的方法固化于要解决的问题,很少能够从随机样本的数据中发现事先设定问题之外的新价值。
当随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨,我们就把数据采集和处理的困难看成自然的,而没有意识到这只是拘于技术条件的一种人为限制。虽然如今我们可以处理的数据仍然是有限的,但我们能够处理的数据量已经大大增加了。大数据为我们带来了更高的精确性,也让我们发现了随机样本无法揭示的细节信息。(www.xing528.com)
和随机取样不同,大数据是要掌握所有的数据,从中发现问题。对于少数异常值的处理,大数据显得尤为在行。Xoom是一个专门从事跨境汇款业务的公司,因为得到了很多拥有大数据的公司支持,它能够对每一笔交易的所有相关数据进行分析。2011 年,Xoom 注意到用“发现卡”从新泽西州汇款的交易量比正常情况多一些,系统于是启动报警。虽然单独来看,每笔交易都是合法的,但是后来的事实证明这是一个犯罪集团在试图诈骗。
在大数据时代下,获取更多的数据成为可能,而且对数据的获得和处理的花费会逐渐减小。尽可能多的数据可以帮助我们考察细节并进行新的分析,掌握微观层面的情况。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。