首页 理论教育 算法干扰:可见的结果和不可见的干扰性

算法干扰:可见的结果和不可见的干扰性

时间:2023-07-21 理论教育 版权反馈
【摘要】:系统设计者的目标能将模式引入数据,这被称为算法干扰。而且,与用数字追踪其他一些问题不同的是,算法干扰在很大程度上是不可见的。在上述例子中,算法干扰产生了一个奇怪的结果,一个细心的研究人员可能会发现并进一步研究这一结果。当系统存在述行性算法干扰时,数据的干扰性可能是不可见的。然而,脸谱网社交图中可迁性的强弱部分上是由算法干扰驱动的。具有动态属性的算法干扰也是一种系统漂移。

算法干扰:可见的结果和不可见的干扰性

大数据系统中的行为不是自然发生的,而是在系统设计目标的驱使下发生的。

尽管许多大数据资源是不反应的,因为用户不知道他们的数据正在被记录(2.3.3小节),但研究人员也不能因此就认为这些在线系统中的行为是“自然发生的”。事实上,记录行为的数字系统都是经过精心设计的,目的是诱导特定行为,例如点击广告或发布一些内容。系统设计者的目标能将模式引入数据,这被称为算法干扰。社会科学家相对而言不太了解算法干扰这个概念,但谨慎的数据科学家很关注这一问题。而且,与用数字追踪其他一些问题不同的是,算法干扰在很大程度上是不可见的。

一个相对简单的算法干扰的例子是,在脸谱网上,拥有约20个好友的用户异常多,正如约翰·乌甘德(Johan Ugander)和同事在2011年所发现的一样。分析这一数据的科学家如果对脸谱网的工作原理一无所知,无疑会提出许多有关“‘20’是某种神奇的社交数字”的说法。幸运的是,乌甘德和同事对产生这一数据的过程十分了解,他们知道脸谱网会鼓励那些好友较少的用户多交朋友,直到他们有20个好友为止。尽管乌甘德和同事在其研究论文中没有提及这一点,但这一政策应该是脸谱网为鼓励新用户变得更加活跃而创建的。如果不知道这一政策的存在,就很容易从数据中得出错误的结论。换句话说,拥有约20个好友的用户的数量异常多,但这一数据告诉我们的更多的是关于脸谱网的信息,而不是关于人类行为的信息。

在上述例子中,算法干扰产生了一个奇怪的结果,一个细心的研究人员可能会发现并进一步研究这一结果。然而,当在线系统的设计者意识到社会理论的存在并将其录入系统的运行方式中时,就会产生更为复杂的算法干扰。社会科学家称之为述行性,即当一个理论以使世界与理论更为符合为目的改变着世界时,我们就说该理论具有述行性。当系统存在述行性算法干扰时,数据的干扰性可能是不可见的。(www.xing528.com)

在线社交网络中的可迁性是一种由述行性引发的规律。在20世纪七八十年代,研究人员屡次发现,随机选择的名为艾丽斯和鲍勃的两个人,如果他们同时是你的朋友,那么这两个人将更容易成为朋友。研究人员在脸谱网的社交图中也发现了这一规律(Ugander et al.2011)。因此,有人可能会得出这样的结论:脸谱网上的交友模式复制了线下的交友模式,至少就可迁性而言是这样的。然而,脸谱网社交图中可迁性的强弱部分上是由算法干扰驱动的。也就是说,脸谱网的数据科学家了解有关可迁性的实验研究和理论研究,并将其融入脸谱网的运行程序中。脸谱网有一项功能是“可能认识的人”,旨在向用户推荐新的朋友,而决定向你推荐谁的一个依据就是可迁性。也就是说,脸谱网更有可能将你朋友的朋友推荐给你。因此,这一功能还会增加脸谱网社交图中的可迁性。换句话说,可迁性的理论让世界变得更加符合这一理论的预测(Zignani et al.2014;Healy 2015)。因此,当大数据资源似乎印证了社会理论的预测时,我们必须确保理论本身并没有被纳入系统的运作方式。

有人将通过大数据资源观察人们比作在自然环境中观察他们,但我认为将其比作在赌场中观察人们会更贴切。赌场是经过精心设计的场所,旨在诱导特定的行为,研究人员肯定也不会期望在赌场中观察到的行为能为他们研究人类行为提供一个不受限制的窗口。当然,通过研究赌场中的人,你也能了解到一些关于人类行为的知识,但如果你忽略了数据是在赌场中生成的,你就可能无法得出正确的结论。

不幸的是,处理算法干扰是非常困难的,因为许多在线系统的功能都是专有的,缺乏文档记录,且不断变化。例如,正如我在本章后续内容中将解释的那样,算法干扰可能是导致谷歌流感趋势(Google Flu Trends)逐渐失灵的原因之一(2.4.2小节),但这一说法很难得到验证,因为谷歌搜索算法的内部工作原理是专有的。具有动态属性的算法干扰也是一种系统漂移。算法干扰意味着,我们要对基于某个单一数字系统得出的有关人类行为的任何说法都持谨慎态度,无论这个数字系统的规模有多大。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈