就像前文提到的,数据分析师经常被误解为“拉报表的”或者“跑数的”,做苦力让我们拿到数据统计结果而已,这种误解就类似外界以为产品经理的核心技能是画原型和写文档一样——它们都只是工具,如同作家的笔和纸,是呈现作家价值的方式,而不是价值本身。
真正的数据分析师像我在滴滴出行的同事、数据分析界的前辈宋世君老师,他关注的当然不是建立一个庞大的数据统计团队。他对业务的认知深度,以及用数据来辅助产品的业务能力,比大多数产品经理都要专业。作为脸书出身的数据科学总监,他总结过自己的“数据分析十条”:
从这十个法则里,1、6、7、8、9、10都是在表述“数据分析产生的价值应当是洞察”这个道理。分析师应当通过数据发现问题,这其实是最低的门槛,而不是大家想象中的“我懂得分析数据”就能成为分析师。如果能够在发现问题的基础上给出更多的洞见,那才能够成为更高级的分析师,比如前文提到的,知其然,且知其所以然。
数据分析天然会给人客观、中立的感觉,让人在严谨性上有所松懈,忘记了本身做分析的其实是非理性的人,这样就很容易出各种问题,做出许多主观臆测。例如,下图就是网上流传的一个小段子,用不均匀的坐标轴刻意让观看者产生错误认知。
除了刻意行为,常见的数据分析方面的认知偏误也有许多,它们会暗地里影响数据决策的准确性,有些也会影响用户调研结果的准确性。
·样本选择偏误(sample selection bias/self selection)指的是抽样的方法并不严格随机,比如我们取样时只看苹果的用户情况,显然是无法代表大多数用户的;又或者,我们上线了新的功能,只关注使用新功能的用户的反馈,没有关注不使用新功能用户的反馈,这都是取样偏颇。因此在大规模的用户基础上,也经常采取分层抽样的方法,即按照主要属性区分抽样,比如新用户/老用户、男/女、活跃用户/沉默用户,等等。
·选择性偏误(selection bias)指的是因样本选择的非随机性而导致得到的结论存在偏差,与样本选择偏误类似,但更加隐晦且难以被发现。比如看我做的产品经理公众号“刘言飞语”是否能帮到新人产品经理,于是统计了公众号的粉丝和非公众号的新人产品经理之间的差异,发现前者的确有更好的工作机会和收入情况。这就意味着“刘言飞语”真的帮了大家吗?其实未必,因为关注了公众号的新人产品经理本来就有“更积极地获取有效信息”的特点,这个属性决定了他们会有更好的结果,而不是因为关注了公众号。选择性偏误是内生性(endogeneity)的一种特殊情况,指的是结果会受选择或者数据获取过程影响。
·幸存者偏误(survivorship bias)指的是只看到了筛选的结果而无视筛选过程中的关键因素。这应该是数据方面最知名的一个认知偏误了。比如,我们看到有的公司创业成功了,自称是某个决定性的策略(考虑了某个产品的形态或者运营活动)左右了公司的生死,于是大家往往信以为真,认为只要这类策略做得足够好,自己也可以成功。实际上,执行了同样策略的公司,可能不只这一家,我们之所以没听说过,是因为它们都很快退出了市场,成为历史。只观察幸存者的行为和听信幸存者的理论,很难找出他们取得成果的关键因素,这也是选择性偏误的另一种表现。有本书叫作《成功与运气》,讲的就是许多人的成功因素中,个人影响是一方面,更多其实还是运气,只是成功者从个人视角看,不可能将自己的成功归为运气,于是就有了许多成功学方法论。(www.xing528.com)
·基本归因错误(fundamental attribution error)指的是考察某些行为或后果的原因时高估个人因素,低估场景和环境影响的双重倾向。幸存者偏误也与基本归因错误有关,是我们在观察一件事的结果时,更倾向于相信人对结果的影响,而忽视环境的作用。比如,我们做一个司机使用的接单工具,发现司机的点击情况很奇怪,跟乘客的使用习惯相比,他们经常点错误触,取消返回,这是不是代表司机群体比乘客群体平均年龄大,受教育程度低,因此使用手机的能力差?当然不是,考虑到具体场景,是司机在车内环境下使用手机,手机可能是在支架上,使用难度变大导致的。
·回归谬误(regression fallacy)指的是没有考虑随机起落的正常波动现象,造成不准确的因果推论。生活中最常见的就是许多药物的药效,大多治标不治本,而我们吃药后病情好转会认为是药效好,其实大都是自愈(比如感冒)。在做用户数据分析时,也经常可能遇到以下情况:我们做了一些事情A,结果用户似乎有了变化,做出了反应B,于是我们推导出A一定会导致B。其实未必,还是要洞察是否存在随机现象,是否存在外界影响等。
·社会期望偏误(social desirability bias)是在做用户调研时经常遇到的:相较于真实的答案,被调查者更有可能选择符合社会期望的答案。最典型的例子是在一个社会文化过于传统的环境中,同性恋极少会公开自己的性取向。有的公开调查里,喜欢性玩具的大都是男性,是因为女性在并不太开放的文化氛围中一般难以启齿。我们在做日常的调研时,很可能会遇到用户认为某些真实答案会显得自己“自私”“不合群”“过分夸张”等,于是就选择一个更符合社会普遍预期的答案。所以,一定要谨慎选择调研方法,打消被调查者的疑虑,尽可能地发现这些偏误。
·受试者期望效应(subject-expectancy effect)是指用户会有自己的目的性和预期,所以不选择更真实的答案,社会期望偏误是其中的一种。还有的情况,可能涉及利益关系,比如我们做了一个商品,询问用户在涨价20%的情况下是否还会购买,虽然用户内心清楚涨价20%还是会买,但考虑到不希望涨价,就会表示不会购买,这样得到的结论就是错误的。
还有关于统计误用的更多信息,可以参考https://zh.wikipedia.org/wiki/%E 7 %B 5 %B 1 %E 8 %A 8 % 88 %E 8 %AA%A 4 %E 7 % 94 %A 8。这只是统计学里和认知心理学里对数据分析认知偏误的沧海一粟,不过已经能够覆盖多数数据分析新人会犯的错误了。统计学,尤其概率的一些初步知识,对我们做迭代流程中的判断来说极为重要,这个学科已经非常成熟,有海量的知识可以自行获取。
“数据分析十条”里的2、3、4,描述的是科学精神,我们接下来要讲的就是实事求是的道理。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。