算法的运行过程是一个获取数据、筛选数据、分析数据、阐释数据的过程,计算机科学发展到今天,算法运行的基本逻辑与当年最著名的图灵机运行逻辑是基本一致的,都是“一部通过逻辑构建的机器,有着想象的纸带、任意的符号。它拥有无尽的时间和无限的记忆体,能完成任何可表示成一系列步骤或运算的工作”[10]。表面上看,算法运行环节并不太可能会产生某些偏见,它只是按照既定的程序输入数据并输出结果而已。数据是算法得以运行的基本生产要素,也是算法要加工和处理的主要对象。对于大多数算法来说,它们只不过是按照被设定好的规则来工作就可以了。理论上讲,如果规则本身没有偏见,那么算法得出的结果应该没有偏见。但我们却非常容易忽略数据这一基本生产要素。“从根本上说,大数据就是运用数学、统计学和科学的计算法则来对极其庞大的数据进行解读。”[11]这里的计算法则就是算法,大数据是算法加工的主要对象,算法是激活大数据的主要工具,如果输入的初始数据是存在偏见或者存在导致偏见的可能性的,那么算法最终输出的结论或者结果就有可能存在偏见。这里有几种典型的“数据驱动的偏见”类型,比如数据选择导致的算法偏见、数据分布导致的算法偏见等。“选择偏见”是指用来训练某个具体算法的那些数据本身在一开始被选择的时候就存在一定的倾向性,比如我们在训练招聘算法的时候只选择使用男性的简历数据来训练它,经过一段时间的深度学习之后,算法对女性求职者就会产生一定的偏见。再如,如果训练某个算法所选择的数据中,男性的职业都是CEO,而女性的职业都是秘书,算法就有可能得出女性更适合做秘书这样的助理工作而非CEO这样的领导管理工作。数据分布的不均衡现象也非常容易导致某种算法偏见的形成。例如在城市管理过程中,本地户籍居民的数据有可能会远远高于非本地户籍居民的数据,中产阶层和富人的数据有可能远远高于底层人的数据,这种数据分布的不均衡在输入算法之后也就非常有可能导致算法输出的结论是有偏差的甚至是错误的,经过一定时间的强化之后它就会形成一些对于不同社会阶层的偏见看法。今天的算法无论在广度还是在深度方面都已经远远超出了当年的图灵机,尽管其基本原理并无变化,但借助深度学习的技术,算法已经完全可以在大数据的基础之上创建更多的相关性及规则而实现自我教育和自我进化。我们希望它能够超越人类发现大数据中蕴含着的新模式和新机会,但我们同样害怕它所赖以发现新模式和新机会的数据本身存在各种各样的问题,以及我们不知道它怎样挖掘这些数据得出结论、做出决定。(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。