首页 理论教育 思维革命:揭示大数据的三种思维模式

思维革命:揭示大数据的三种思维模式

时间:2023-05-21 理论教育 版权反馈
【摘要】:大数据时代,“量化一切”“让数据发声”成为时代口号,人们更加重视“全数据而非样本”的全样思维,强调“相关性而非因果性”的相关性思维,以及容错思维等。在大数据时代,用大数据思维方式思考问题、解决问题已经成了当下企业的潮流,用大数据思维去开启新一轮的时代转型势在必行。图1-4大数据三大思维全样思维说到样本,就会考虑是全部样本还是部分样本。

思维革命:揭示大数据的三种思维模式

所谓思维方式,就是我们思考问题的根本方法,是大脑活动的内在程序,涉及我们看待事物的角度、方式和方法,并对我们的言行起决定性作用。任何个体都生活在一定的社会历史时代和环境下,因此其思维方式必定会受到时代和环境的影响。

大数据时代,“量化一切”“让数据发声”成为时代口号,人们更加重视“全数据而非样本”的全样思维,强调“相关性而非因果性”的相关性思维,以及容错思维等。这无疑对通过追求规律性、因果性和抽样方法来把握事物之间相互关系的传统思维产生巨大的冲击,导致思维革命的产生。

在大数据时代,用大数据思维方式思考问题、解决问题已经成了当下企业的潮流,用大数据思维去开启新一轮的时代转型势在必行。随着大数据概念的深入人心,很多大数据的技术专家、战略专家、未来学者等都开始提出、解读并丰富大数据思维概念的内涵和外延。总体来说,大数据思维包括全样思维、容错思维和相关思维(如图1-4所示)。

图1-4 大数据三大思维

(1)全样思维

说到样本,就会考虑是全部样本还是部分样本。抽取部分样本的目的是从被抽取的样品单位中研究分析,进而估计和推断全部样品的特性。当数据采集难度大、分析和处理困难时,一般会选择抽取部分样本进行研究。这种方法,在一定历史时期曾经极大地推动了社会的发展。例如,要计算洞庭湖银鱼的数量,我们可以事先对10000条银鱼打上特定记号,并将这些鱼均匀地投放到洞庭湖中,过一段时间进行捕捞,假设捕捞上来10000条银鱼,有4条存在预先的记号,那么我们可以得出结论,洞庭湖大概有2500万条银鱼。抽取部分样品进行研究的好处显而易见,缺陷也显而易见。抽样虽然可以解决在客观条件不能全样本研究分析的情况,并且可能得出一个相对靠谱的结论,但同时也会带来新的问题,由于抽取的样本每次都是不一样的,所以会存在稳定性差的问题,从而导致结论与实际可能差异非常明显。上面的例子中,有可能今天去捕捞得到打了记号的银鱼4条,明天去捕捞有可能打了记号的银鱼有400条。这就是抽样在不同情况下结论不稳定的极端表现。

我们一直采取抽样技术是因为以前的数据采集、存储、分析技术达不到实际要求,或成本远远超过预期。但随着数字技术的不断发展,过去不可能获取的全样数据,现在因为技术智能化、数字化转而成为可能,以前不能存储和分析全样数据的情况都将一去不复返,大数据时代将走向全样的时代。正如舍恩伯格指出:“要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本”[5],“当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,‘样本’=‘总体’。”[6]

(2)容错思维

前面已经提到,在过去我们习惯了抽样,但是抽样从理论上讲结论是不稳定的,所以抽样的“失之毫厘”,都容易导致结论的“谬以千里”。因此,为保证抽样得出的结论相对正确,人们对抽样的数据精益求精,容不得半点差错,对数据质量的追求也是到了近乎疯狂的程度。但是,这样也仍然存在很多的问题:一方面会极大地增加数据预处理的代价,提出的一大堆数据清洗算法和模型会导致系统逻辑特别复杂;另一方面,不同的数据清洗模型可能会造成清洗后数据差异很大,从而进一步加大数据结论的不稳定性。而且现实中的数据本身就存在异常、纰漏,甚至错误,将抽样数据做了极致清洗后,很可能会导致结论反而不符合客观事实,这也是为什么很多数据模型在测试阶段效果非常好,而在实际环境效果就较差的原因。(www.xing528.com)

大数据时代,因为我们采集了全样数据,而不是一部分数据,数据中的纰漏、疏忽、错误都是数据的实际情况,没有必要进行任何清洗,其结果却是最接近客观事实的。在大数据时代,“只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法使用,只有接受不精确性,我们才能打开一扇从未涉足的世界窗户。”[7]美国纽约大学教授冯启思(Kaiser Fung)在《数据统治世界》一书中论述了“出错的好处”,指出:“虽然明知容易犯错,可依然信心饱满,这是大统计学家的标志。他们认识到没人能独占真理,只要世界上还有不确定性存在,真理就未可知。”[8]

(3)相关思维

过去大家总是相信因果关系,而不认可其他关系。例如,以前大家都认为天鹅是白色的,“因为是天鹅,所以是白色的”曾被世界上所有人认为是经典,但是当人们在澳大利亚发现有天鹅是黑色的时候,世人关于天鹅的知识体系崩溃了。我们曾经认为千真万确的牛顿力学理论,在高速运行的世界里全颠覆了。许许多多的曾经认为理所当然的因果关系荡然无存,这说明因果关系是非常不稳定的。

在大数据时代,我们不追求抽样,而追求全样。当全部数据都加入分析的时候,只要有一个反例,因果关系就不成立。因此,在大数据时代,因果关系变得几乎不可能,而另一种关系就进入大数据专家的眼里——相关关系。

很多人去超市买了零食后会顺便买纸巾,但不是买零食就一定买纸巾。因此,零食和纸巾的关系不能算因果关系,而只能是一种相关关系。舍恩伯格认为,“我们的思想发生了转变,不再探求难于捉摸的因果关系,转而关注事物的相关关系。”而建立在相关关系分析的基础上的预测正是大数据的核心所在[9]

在20世纪90年代的美国沃尔玛超市,管理人员在分析商品销售数据时吃惊地发现,某种情况下,“啤酒”与“尿片”在很大一段时间内会频繁地出现在同一个购物篮里。这种现象引起了管理人员的广泛注意,研究人员经过长期调查研究后总结出,这种现象大多出现在年轻男士身上。准确地说,是出现在年轻父亲身上。

原来,在20世纪90年代的美国新生婴儿家庭中,一般是母亲在家照顾婴儿,年轻父亲则担任出门置办物品的任务。当婴儿母亲让年轻父亲去超市购买尿片时,年轻父亲通常都会为自己买瓶啤酒。由此,就出现了啤酒与尿片在一个购物篮出现的“神奇”现象。并且,经管理人员调查研究还发现,若年轻父亲在超市购买这两种商品时,其中一种没有或售空时,那么年轻父亲通常会放弃在此间超市购物转而去另一家超市,直到可以同时买到两种商品。

沃尔玛的管理人员在发现这一特殊现象时,尝试着将超市内的啤酒与尿片放一起,却取得了意想不到的效果。在这种组合模式下,年轻父亲可以在短时间内迅速地同时找到这两种商品,从而很快完成了购物,使年轻父亲们的购物效率大大提高了,从而极大地带动了超市的回头率及运行效率。沃尔玛在采用这种组合模式时,可以让顾客一次性购买两种商品,从而产生商品的连带效应,在一定程度上发展了潜在顾客,从而增加了商品的销售额度。

“啤酒与尿片”这种销售组合并不是随机发生的,而是美国学者Agrawal在根据大数据进行运算时所提出的著名的Aprior算法。其原理是,通过大数据分析顾客购物篮中的商品总数,找出所有商品里相互联系的一些商品,然后进行组合分析,根据商品之间的关系,得出顾客的购买搭配组合。在大数据中,通过大量的实例分析,减少在顾客中搭配组合购买商品的误差率,从而精准到顾客的购买组合,进行精准营销。而沃尔玛在20世纪90年代就将Aprior算法运用到沃尔玛超市中,从而得出“啤酒与尿片”这个神奇的组合,成为营销界广为流传的故事。

当然,同任何思维方式一样,大数据思维也有其局限性。因此,在高度重视大数据思维的同时,也要保持理性,认真对待其存在的局限性:全数据模式的错识、量化思维的焦虑和相关性的过度崇拜。在实践中运用大数据思维,要注意整体兼顾部分、量化整合质化、因果强调相关,在互补中实现大数据思维的超越,从而更好地发挥大数据思维的价值。[10]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈