如果你能将好的问题和好的数据结合起来,那么简单的计数也会变得有趣。
虽然表述社会研究的语言听起来很复杂,但许多社会研究实际上就是计数而已。在大数据时代,研究人员所能统计的数字要比以往任何时候都多,但这并不意味着他们就可以随意计数。相反,研究人员应该考虑这样的问题:哪些事情是值得计数的?这似乎是一个完全主观的问题,但其实也有一些规律。
“我要对别人从未统计过其数量的东西进行计数”,这经常会成为学生们进行计数研究的出发点。例如,一个学生可能会说,许多人研究过移民,也有许多人研究过双胞胎,但没有人研究过双胞胎移民。我将这种策略称作由缺位引起的动机。但根据我的经验,这一动机通常是不可能激发好的研究的。
相比于将别人未计数过的事情作为研究对象,我认为更好的策略是寻找重要的或有趣的问题(或两者兼备的理想情况)进行研究。重要和有趣这两个术语都有点难以界定,但判断研究重要性的一个方法是看它是否对决策者的重要决定有显著影响或是否能为其提供可观的信息。例如,统计失业率就是重要的,因为它是推动政策制定的一项重要经济指标。一般来说,我认为研究人员对什么是重要的都有着很好的认识。因此,在本节剩余部分,我将举两个我认为其计数符合有趣这一标准的事例。在每个例子中,研究人员都不是在随意地进行计数;相反,他们是在特定的背景下进行计数的,并且提出了关于“社会系统如何运作”这种更加普遍的问题的重要见解。换句话说,这些特定的计数研究之所以有趣,在很大程度上是因为这些更加普遍的问题,而不是因为数据本身。
其中一个能体现计数作用的事例是亨利·法伯(Henry Farber)在2015年对纽约市出租车司机行为的研究。尽管出租车司机这一群体本身听起来可能不是很有趣,但他们是测试劳动经济学中的两个对立理论的合适群体。出租车司机的工作环境中有两个重要的特征有助于实现法伯的研究目的,它们分别是:(1)出租车司机的小时收入每天都会波动,这部分程度上是由于天气等因素;(2)他们每天工作的小时数也会因其个人决定而波动。这些特征引出了一个有趣的问题,即小时收入与工作小时数之间的关系问题。根据经济学中的新古典主义模型,出租车司机的小时收入高时,其一天的工作小时数也会更高。而根据行为经济学中的模型,则得到恰恰相反的结论:如果司机设定一个特定的收入目标,比如每天100美元,然后达到目标就结束工作,那么当他们的小时收入较高时,其一天的工作小时数会相应地较低。也就是说,如果你是这样的司机,那么当收入好的时候(每小时25美元),你可能一天就工作4个小时,而当收入不好的时候(每小时20美元),你则一天工作5个小时。那么,出租车司机究竟是在小时收入较高时工作更长时间(符合新古典主义模型),还是在小时收入较低时工作更长时间(符合行为经济学模型)?(www.xing528.com)
为了回答这一问题,法伯拿到了从2009年到2013年纽约市出租车每趟行程的数据,这些数据现在已经是公开数据了。纽约市要求出租车都安装电子计量器,而这些数据正是通过电子计量器搜集来的,其包含了每趟行程的起始时间、起始位置、结束时间、结束位置、车费以及小费(仅限用信用卡支付的小费)。根据这些电子计量器搜集来的数据,法伯发现,大多数司机在小时收入较高时工作时间更长,这与新古典主义理论是一致的。
除了这个主要发现之外,上述大规模的数据还让法伯更好地理解了异质性和动力学。他发现,随着时间的推移,较新的司机会逐渐学会在小时收入较高时工作更长时间。例如,他们会学着像新古典主义模型预测的那样行事。而那些倾向于设定收入目标的新司机则更有可能转行干其他事情。这两个更加微妙的发现有助于解释法伯依据电子计量器数据了解到的当前司机的行为模式。但如果法伯没有如此大规模的数据集,那他就不会得出这两个发现。早期的研究只拥有少量出租车在短期内的纸质行程单,所以没能得出上述两个发现(Camerer et al.1997)。
法伯的研究基本上可以算作一个理想的使用大数据资源进行的研究,因为纽约市通过电子计量器搜集的数据基本上就是法伯想要的数据。(有一个区别就是,法伯想要的是包括车费和小费在内的总收入的数据,而纽约市搜集的收入数据仅包括车费和用信用卡支付的小费。)然而,仅有数据也是不够的。关键是法伯的研究为数据找到了一个有趣的问题,这个问题在该研究之外也具有重要的意义。
纽约市出租车司机的行为模式这个事例表明,针对大数据的相对简单的计数,有时会成为有趣的、重要的研究。在每个事例中,研究人员都必须为大数据资源找一个有趣的问题,只有数据是不够的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。