首页 理论教育 构建民主化未来:数据开放变革

构建民主化未来:数据开放变革

更新时间:2025-01-08 工作计划 版权反馈
【摘要】:主要基于数据的力量。人工智能将导致几乎所有经济部门的权力渐趋集中。简而言之,我们需要民主化地使用人T智能及其依赖的数据。特内尔是弗雷德·哈钦森癌症研究中心的首席数据官。该中心是西雅图领先的癌症研究中心,以当地一位英雄的名字命名。哈奇中心的使命雄心勃勃,那就是消灭癌症及其致死病例,使之不再成为人类痛苦的根源6。

数据和人工智能将对地缘政治权力和经济财富的分配产生什么影响?这又是一个围绕中美关系展开,但广泛影响世界其他地区的动态关系结构。同时,这也是我们这个时代的首要问题之一。针对这个问题,2018年秋出现了一种悲观的论调。

我们在华盛顿特区与国会议员会面的时候,一些参议员提到他们读过《Al·未来》(AI Superpowers)的赠阅版样书。这是一本新书,作者李开复曾在苹果、微软和谷歌担任过高管。他出生于新北,现在常住北京,是风险投资界的一位标杆人物。李开复的论点发人深省。他断言:“人工智能时代的世界秩序将会兼具两大特点,一个是‘赢家通吃’的经济模式,另一个是财富空前集中在中美少数几家公司手中。”1他随后指出:“留下其他国家捡拾残羹剩饭。”2

这个观点的立论基础是什么?主要基于数据的力量。论证逻辑是这样的,获得最多用户的公司也将获得最多的数据,又因为数据是人工智能的火箭燃料,公司的人工智能产品也将因此变得更强。有了更强大的人工智能产品,公司就能吸引更多的用户,进而吸引更多的数据。这一周期会不断循环往复,创造规模收益,最终帮助公司挤垮市场上的其他所有竞争对手。按照李开复的话说:“人工智能天然趋向于垄断……一旦一家公司脱颖而出,抢先取得领先地位,这种持续往复的周期就会将领先优势转化为其他公司进入市场时不可逾越的障碍。”3

这一概念对信息技术产业来说已属寻常,它被称为“网络效应”。以操作系统应用程序的开发为例,“网络效应”很早就已成为现实。一旦某个操作系统处于领导地位,每个人都愿意为它开发应用程序。虽然新的操作系统可能有更为出色的功能,但很难说服应用程序开发人员考虑它。“网络效应”使我们在20世纪90年代因Windows的出现而大获其利,但也使我们20年后在用Windows手机与iPhone和安卓手机竞争时头破血流,举步维艰。今天,任何想取代脸书的新社交媒体平台,也都会遇到同样的问题。谷歌自己的社交平台Google Plus之所以失败,部分原因就在于此。

根据李开复的叙述,人工智能也将受益于类似的网络效应,而且会像打了兴奋剂一样获得更明显的效果。人工智能将导致几乎所有经济部门的权力渐趋集中。无论哪一个行业,谁的人工智能部署得最有效,谁就能获得最多的客户数据,创建最强的反馈循环。有一种情况的结果甚至还会更糟。数据可能会被一些大型科技公司锁定和处理,而其他所有经济部门只能依赖这些公司提供人工智能服务。结果,随着时间的推移,就会有大量的经济财富从其他行业部门转移到这些人工智能领导企业那里。而且,如果按照李开复的预测,这些公司大多位于中国的东海岸和美国的西海岸,那么这两个地区就将以牺牲其他所有地区为代价,赚取巨额收益。

我们应该如何看待这些预测?像许多事情一样,它们都基于一个核心真理。而且对于这个问题,真理可能还不止一个。

人工智能依赖基于云的计算能力、算法的发展和海量数据。三大要素必不可少,其中最重要的是数据——关于物质世界、经济以及我们日常生活的数据。随着机器学习在过去10年中的迅速发展,很明显,对于人工智能开发者来说,根本不存在什么数据过多的情况。

数据对以人工智能驱动的世界的影响,远远超出对科技部门的影响。想想看,到2030年,新型汽车这样的产品会是什么样子呢?最近的一项研究估计,到那时,电子和计算零部件将占到汽车整整一半成本,远高于2000年的20%4。很明显,到2030年,汽车将一直保持互联网的联网状态,以便进行无人或半无人驾驶和导航,以及提供通信、娱乐、维护和安全等服务。所有这些都离不开人工智能和基于云计算的大量数据。

这样的情景提出了一个重要的问题:鉴于汽车未来将越来越像一台车轮上的以人工智能驱动的大型计算机,那么哪些行业和公司将从中获得利润?传统汽车制造商,还是科技公司?

这是一个意味深长的问题。如果这方面的经济价值能被汽车制造商保留,那么我们就有理由对通用汽车、宝马、丰田等汽车公司的长期前景表示更加乐观。当然,这些公司的薪酬和工作岗位以及占有这些岗位的人,也都有了更加光明的前景。在这种背景下,显然这些公司的股东,它们所在的社区乃至国家也必须对这个问题重视起来。毫不夸张地说,美国密歇根州、德国和日本等地的经济未来都依赖这一问题的答案。

如果这么说有点牵强,那请考虑一下亚马逊对图书出版业,以及现在对很多零售行业的影响,或者谷歌和脸书对广告业的影响。人工智能对航空业、制药业和航运业也都会产生同样的影响。这实际上就是李开复描绘的未来。至少我们有一个合理的基础可以得出以下结论:未来财富的转移,将越来越多地流向少数几家持有最大数据池的公司及其所在的地区。

不过,条条大路通罗马,通向未来的道路也不可能只有一条并且不能更改。虽然未来可能会以上面的方式展开,但我们可以设计和追求另一条道路。我们需要授权赋能,使人们能够更加广泛地使用所有必要的工具,让数据发挥最大的效能。我们还需要开发数据共享方式,为公司、社区和大大小小的国家创造有效机会,共同享受数据带来的收益。简而言之,我们需要民主化地使用人T智能及其依赖的数据。

那么,在一个由海量数据决定的世界里,我们如何为更小的参与者创造更大的机会呢?

有一个人可能有答案,他就是马修·特内尔。

特内尔是弗雷德·哈钦森癌症研究中心的首席数据官。该中心是西雅图领先的癌症研究中心,以当地一位英雄的名字命名。弗雷德·哈钦森为底特律老虎队当了10个赛季的投球手,并曾管理过三支大联盟棒球队。1961年,他率领辛辛那提红人队打进世界大赛——美国职棒大联盟的总冠军赛。

令人痛惜的是,弗雷德辉煌的棒球生涯连同生命都在1964年戛然而止。那年他因癌症去世,享年45岁5。他的哥哥比尔·哈钦森是一名外科医生,也曾参与弗雷德的治疗。弟弟死后,比尔创建了这个人们俗称“弗雷德·哈奇”的研究中心,致力于攻克癌症治疗的难关。

2016年,特内尔来到西雅图,就职于哈奇中心。研究中心共有2700名员工,在位于联盟湖南岸的13幢建筑中工作,与西雅图标志性的太空针遥遥相望。

哈奇中心的使命雄心勃勃,那就是消灭癌症及其致死病例,使之不再成为人类痛苦的根源6。它会集了一大批科学家(其中包括三位诺贝尔奖得主)、医生和其他研究人员,共同进行前沿研究和治疗。同城的华盛顿大学拥有全球知名的医学和计算机科学中心,也与哈奇中心展开密切合作。经过多年奋斗,哈奇中心在白血病和其他血液癌症的创新治疗,骨髓移植,以及现在新型免疫疗法等方面,都取得了骄人的成绩。

哈奇中心几乎已经成为地球上每一个领域的每一家机构和公司的写照:它的未来取决于数据。正如哈奇中心的主任加里·吉里兰德所总结的那样,数据“将改变癌症的预防、诊断和治疗”7。他指出,研究人员正在将数据转化为一台“神奇的新式显微镜”,能够显示“我们的免疫系统如何对癌症等疾病做出反应”8。因此,生物医学的未来不再取决于生物学本身,而是与计算机科学和数据科学的融合。

虽然特内尔从未见过李开复,但上面的认知使他走上了另一条道路,实际上挑战了李开复的论点,即未来只属于那些世界上最大数据供应源的控制者。如果真是那样,那么面对癌症这种地球上最具挑战性的疾病之一,即使是一个世界级的科学家团队,也很难在偏居北美一隅某个中型城市的情况下,敢于立志要最先找到癌症的治愈方法。原因很简单——虽然哈奇中心有权获取重要的健康记录数据集,帮助其进行基于人工智能的癌症研究,但它拥有的数据集肯定不是全世界最大的。像大多数组织和公司一样,如果哈奇研究中心想要继续引领未来,它必须在不实际拥有所需全部数据的情况下进行竞争。

好消息是,确实有一条通往成功的明确道路。它建立在两个特性之上,这两个特性将数据与其他最重要的资源区分开来。

首先,与石油或天然气等传统自然资源不同,数据是人类自己创造的。萨提亚曾在微软高管团队的周五例会上说过,数据可能是“世界上可再生性最强的资源”。还有什么其他有价值的资源是我们在一次又一次的不经意间创造出来的?人类不仅在创造数据,而且创造速度还在快速提高。与那些供应有限甚至短缺的资源不同,数据——如果一定要找句话来形容——是包裹着整个世界而且还在不断扩大的汪洋。

这并不意味着规模无关紧要,或者更大体量的玩家没有优势。它们当然重要。中国有更多的人,因此创造数据的能力也比任何其他国家都强。但是,与拥有世界已探明石油储量一半以上的中东不同,9任何国家都很难在数据上垄断世界市场。世界各地的人都在创造数据,而且在21世纪的百年进程中,似乎有理由期望世界各地的国家都能生成与它们各自人口规模和经济活动相加之和大体相当的数据。

中美两国固然可能是早期人工智能的领导者。不过,虽然中国体量庞大,但却只占世界人口的18%10,美国更是仅占世界人口的4.3%11。从经济规模看,美国和中国更具优势。美国占世界GDP(国内生产总值)的23%,而中国占16%12。但由于这两个国家走向竞争的可能性远远大于联手合作,所以真正的问题是,一个国家能否以不到全球供给量1/4的规模主导全世界的数据。

这个问题难有定论。不过基于数据的第二个特性,规模较小的国家甚至有更大的机会,而且事实证明,数据的第二个特性更为关键。正如经济学家所说,数据是“非竞争性的”。一家工厂需要一桶石油提供动力,那么这桶石油任何其他工厂就都用不了。与之不同的是,数据是可以反复使用的,同样一组数据可以让许多组织从中收获见解和知识,而数据的效用并不会受到影响。关键是确保数据可以在许多参与者之间共享和使用。

或许毫不奇怪,学术研究界就是以这种方式使用数据的,而且在这方面一直处于领先地位。鉴于学术研究的性质和作用,大学已经开始建立数据存储库,共享数据以实现多种用途。微软研究部也在采用这种数据共享的方法,提供一组免费的数据集开放使用,以推进自然语言处理、计算机视觉以及自然和社会科学等领域的研究。

正是这种共享数据的能力激发了马修·特内尔的灵感。他认识到,加速癌症治疗竞赛的最佳方法是让多个研究机构以新的方式共享它们的数据。

虽然这在理论上听起来很简单,但执行起来却很复杂。首先,即使是在一个单一的组织中,数据也常常被存储在一个个的数据孤岛上,必须打通彼此之间的联系通道,而如果数据孤岛位于不同的机构中,这一挑战会变得更加难以应对。此外,数据可能并不是以机器可读的形式存储的。即便机器可以读取,不同的数据集的格式化、卷标和结构化的方式也有可能不同,从而使共享和共用变得更加困难。如果数据来自个人,还需要解决有关隐私的法律问题。最后,即使数据不涉及个人信息,也需要解决其他大问题,例如组织间的治理流程,以及随着数据的增长和改进而出现的数据所有权问题。

这些挑战不仅仅是技术性的,也是组织性、法律性、社会性,甚至是文化性的。特内尔认识到,部分原因在于大多数研究机构在进行主要技术工作时所使用的是自己开发的工具。正如他所说:“这种方式不仅将数据孤立于一个组织之内,还常常导致重复收集数据,丢失患者病例和结果,以及对其他地方潜在的补充数据缺乏了解。这些问题一起阻碍了新的发现,放慢了健康数据的研究步伐,并提高了成本。”13

特内尔指出,在所有这些障碍的共同影响下,研究组织和科技公司很难展开相互合作。他发现,阻力甚至使数据集的聚合规模根本不足以支撑机器学习。实际上,无法克服这些障碍,确实为李开复设想的人工智能主宰一切的未来提供了最佳注脚。

特内尔和哈奇研究中心的其他人发现了这个需要解决的数据问题,并开始着手解决它。2018年8月,作为哈奇研究中心董事会成员,萨提亚邀请了一群微软资深员工共进晚餐,了解哈奇研究中心的工作进展。特内尔谈到了他的数据共享愿景,即让多家癌症研究机构能够以新的方式共享数据。他的愿景是将几个组织聚集在一起,与一家科技公司合作,共同收集数据。

听着他侃侃而谈,我的热情越来越高。从许多方面来看,这项挑战都和我们所了解的,甚至亲身经历过的许多其他挑战别无二致。特内尔对他的计划的描述,让我想起了软件开发的演变。在微软历史的早期,开发人员将源代码作为商业机密加以保护,大多数科技公司和其他组织都是自己开发代码的,但是开源已经彻底改变了软件的创制和使用。越来越多的软件开发人员在各种开源模型下发布他们的代码,这些模型允许其他人对其进行合并、使用和完善改进,从而使开发人员之间形成广泛协作,有助于加速软件创新。

在这些趋势显露之初,微软迟迟没有接受这一变化。不仅如此,我们还积极抵制它,甚至动用我们的专利权对抗那些销售使用开源代码产品的公司。我曾是微软发动专利战的核心参与者。但随着时间的推移,尤其是在萨提亚于2014年成为公司首席执行官之后,我们开始认识到这是一个错误。2016年,我们收购了扎莫林公司(Xamarin)——一家支持开源社区的初创企业。它的首席执行官纳特·弗里德曼加入了微软,为我们的管理层带来了一个重要的外部视角。

到2018年初,微软在其产品中使用了140多万个开源组件,反哺了许多开源项目的发展。我们甚至开放了许多我们自己的基础技术的源代码。我们在开源方面取得重大进步的一个标志是,在Github这个世界各地软件开发者(尤其是开源社区)的大本营,微软已经成为最多产的开源贡献者14。5月,我们决定斥资75亿美元收购Github。

我们决定由纳特来领导这项业务,在我们完成交易的过程中,我们得出结论,我们应该与关键的开源组织联手,采取与10年前截然相反的做法。我们将使用我们的专利保护那些创建了Linux和其他关键开源组件的开源开发者。当我和萨提亚、比尔·盖茨以及其他董事会成员讨论这个问题时,我指出,现在已经到了“痛下决心”的时候。我们一直站在历史的错误一边,而我们所有人的一致结论是,现在应该改弦更张,全力以赴地开放源代码。

特内尔对数据共享的描述令我想起了这些经验教训。眼下的这些挑战虽然复杂,但其实与开源社区曾经应对的许多挑战相类似。在微软内部,我们也在越来越多地使用开源软件,而这又让我们进一步思考创建开源环境所涉及的技术、组织和法律挑战。最近,我们刚刚赋予技术部门的一项主要工作,就是解决在共享数据使用方面的隐私和法律挑战。

与未来可能出现的困难相比,特内尔所描述的数据共享前景更加令人激动。如果我们发起一场开放数据革命,就像当年软件行业开放源代码一样,那将会对数据行业产生怎样的影响?如果这种方法令拥有最大专属数据集的内向型机构的工作相形见绌,又会造成怎样的后果呢?

这场讨论使我想起几年前参加的一次会议,在那次会议上,大家出人意料地集中讨论了共享数据对现实世界的影响。(www.xing528.com)

2016年12月初,在总统大选结束一个月后,微软在华盛顿特区的办公室举行了一次会议,研究科技对总统竞选的影响。民主、共和两党以及多个竞选活动都使用了我们的产品,当然还有其他公司的许多技术。两党人士已经同意分别与我们会面,讨论他们对科技的具体使用以及使用心得。

我们首先会见了希拉里竞选团队的几位顾问。在2016年整个竞选季,他们都被认为是美国政治数据的核心动力源。他们建立了一个庞大的分析部门,挟民主党全国委员会(DNC)提名获胜和奥巴马2012年连任成功之威,试图再下一城。

希拉里阵营邀请了顶尖的技术专家,制订了被认为是世界上最先进的竞选技术解决方案,以求充分利用和完善也许是这个国家最好的独立政治数据集。技术和竞选顾问们告诉我们,希拉里聪明友善的竞选经理罗比·穆克的大部分决策都是基于分析部门的深度分析。据报道,随着东海岸选举日的结束,整个竞选团队都相信他们赢得了大选,而且这在很大程度上要感谢他们的数据分析能力。大约在晚餐时间,分析团队离开电脑,全体竞选工作人员心怀感激之情,起立鼓掌向他们致敬。

一个月后,面对竞选失败的苦果,最初的掌声已经烟消云散,取而代之的是分析团队的日渐沉默。由于对密歇根州和威斯康星州这两个摇摆州共和党支持度上升的情况存在误判(密歇根州的失误到大选前一周才得以纠正,而威斯康星州的误判甚至直到点票当晚才发现),竞选团队受到了公开批评。但人们普遍对竞选团队的数据能力仍然充满信心。在我们即将结束调查的时候,我问了民主党团队一个简单的问题:“你们认为你们输在你们的数据操作呢,还是与此无关?”

他们的反应既迅速又充满自信:“毫无疑问,我们有更好的数据操作。尽管如此,我们还是输了。”

民主党的团队离开后,我们稍事休息,然后继续坐下来与共和党的团队交换意见。

根据他们所描述的竞选过程,唐纳德·特朗普的当选经历了出人意料的波折和反转,对他的竞选数据策略也产生了决定性的影响。2012年,奥巴马连任后不久,雷恩斯·普里巴斯也成功连任共和党全国委员会(RNC)主席。针对2012年大选失利,他和他的新幕僚长迈克·希尔兹对包括技术策略在内的RNC操盘工作进行了一次自上而下的审查。与快节奏的科技世界中经常发生的情况一样,他们也迎来了一次超越竞争对手的跨越式发展机会。

普里巴斯和希尔兹使用三家共和党技术咨询公司的数据模型,将它们在RNC内部投入使用。虽然他们很难借力于亲民主党的硅谷科技人才,但他们从密歇根大学请来了一位新的首席技术官,又从弗吉尼亚交通部请来了一位年轻的技术专家,搭建政治世界的新算法。两位RNC领导人相信并证明了顶尖的数据科学人才无处不在。

那天上午对共和党的科技策士们最为重要的一刻,是普里巴斯和他的团队接下来做成的事。他们成功地建立了一个数据共享模型,不仅说服了全国各地的共和党候选人,而且说服了各种超级政治行动委员会(super PAC)和其他保守组织将它们的信息贡献给一个庞大的、基础数据联合文件。希尔兹认为,从尽可能多的来源收集尽可能多的数据非常重要,因为RNC也不知道谁将成为最终的总统候选人,更无从得知候选人认为什么样的问题或选民最重要,只能等到总统候选人确定了再说。因此,RNC团队致力于与尽可能多的组织建立联系,并把尽可能多元的数据联合在一起。结果,共和党的团队创造了比民主党全国委员会和希拉里阵营拥有的任何数据都要丰富得多的全面数据集。

当唐纳德·特朗普在2016年春季获得共和党提名时,他的操盘缺乏希拉里阵营那么深厚的技术基础。为了弥补这一不足,特朗普的女婿贾里德·库什纳与竞选团队的数字总监布拉德·帕斯卡尔合作制定了一项数字战略,决定以RNC现有资源和架构为基础,不再另起炉灶。根据RNC的数据集,他们圈定了一个1400万共和党人的大群组,这些人全都说自己不喜欢唐纳德·特朗普。为了将这群怀疑论者转化为支持者,特朗普团队在帕斯卡尔的家乡圣安东尼奥创建了阿拉莫项目,整合资金筹集、信息传递和目标定位,特别是在脸书上,他们反复向这些选民传达信息,内容涉及数据显示可能对他们很重要的话题,如阿片类药物泛滥以及奥巴马任内通过的《平价医疗法案》。

共和党团队描述了选举临近时他们的数据操盘所揭示的情况。在大选前10天,他们估计在几个重点争夺的州比希拉里一方落后两个百分点。但他们同时也发现有7%的人口还没有决定是否投票。而且竞选团队拿到了70万人的电子邮件地址,他们相信这70万人如果出来投票,很可能会在这些州把票投给特朗普。他们全力以赴说服这群人出来。

我们问共和党团队从他们的经历中吸取了哪些技术方面的经验教训。他们提到两点。首先,不要从零开始建立数据操盘能力,不要做得像希拉里团队那样深入。相反,应该使用某个主要的商业技术平台,专注于在平台上构建自己的操盘能力。其次,打造一个更广泛的联合生态系统,将尽可能多的合作伙伴聚集在一起贡献和共享数据,就像RNC所做的那样。通过这种方式将资源集中在可以在商业平台上运行的差异化功能上,如帕斯卡尔开发的那些功能。而且永远不要假设你的算法和你想象的一样好。你要不断地测试和完善它们。

会议结束时,我问了一个类似于我向民主党提出的问题:“你们获胜是因为你们的数据操盘做得最好,还是与此无关,也就是说希拉里阵营有更好的操作?”

他们的反应和当天早些时候民主党人的回答一样迅速:“毫无疑问,我们的数据操盘做得更好。我们比希拉里阵营更早地发现密歇根州开始倒向特朗普。我们还发现了希拉里团队从未发现的一些东西。我们在大选日前的那个周末就发现威斯康星州倒向特朗普了。”

两个政治团队离开后,我转向微软团队,要求举手表决。看看大家认为是希拉里团队的数据操盘更好,还是RNC/特朗普团队的更好。投票结果完全一边倒。在座的每个人都认为,雷恩斯·普里巴斯和特朗普阵营所采用的方法更胜一筹。

希拉里阵营依赖其技术实力和先发优势。特朗普阵营则完全相反,其工作完全从需要出发,依赖的是更接近马修·特内尔所描述的共享数据方法。

对于到底是哪些因素决定了2016年总统大选的结果,尤其是在密歇根州、威斯康星州和宾夕法尼亚州等选票接近的“争夺州”,仍有很大的探讨余地。但我们那天得出的结论是,雷恩斯·普里巴斯和RNC的数据模型很可能帮助改变了美国历史的进程。

如果一种更加开放的数据处理方法可以取得这么大成就,那么它还能做些什么呢?我们不妨想象一下。

这种技术协作的关键,在于人的价值观和协作过程,而不仅仅是对技术的关注。组织需要决定是否共享数据,如果共享,则以何种方式共享,要把一些原则设定为基础和底线。

首先是要有保护隐私的具体安排。考虑到隐私问题的重要性日渐提高,良好的隐私保护已经成为确保组织能够共享关于人的数据以及人们能够放心共享关于自己的数据的前提条件。一项关键的挑战是开发和选择在保护隐私的同时共享数据的技术。这可能包括新的所谓“差分隐私”(differential privacy)技术,以新的方式保护隐私,以及提供对聚合数据或去标识数据的访问,或者实现对数据集的纯查询访问。此外,新技术可能还涉及机器学习的使用,可以训练机器对加密数据进行处理。我们很可能会看到新的模式出现,使人们能够决定是否愿意为了这个目的集体共享数据。

第二个关键需求将涉及安全。显然,如果数据是由不止一个组织联合集成和访问的,那么近年来的网络安全挑战就又增加了一个需要解决的问题。虽然其中一部分需要持续的安全强化,但我们也需要操作安全的完善,确保多个组织可以共同管理安全性。

我们还需要进行切实可行的安排来解决有关数据所有权的基本问题。我们需要确保群体和组织能够共享数据,同时不放弃对其共享数据的所有权和持续控制权。正如土地所有者有时订立地役权或其他安排,在不丧失所有权的情况下允许他人使用其财产一样,我们也需要创建新的方法来管理数据访问。这些新办法必须能够让群体通过协作的方式选择他们共享数据乃至数据使用的条件。

在解决所有这些问题的过程中,“开放数据运动”可以借鉴软件源代码的开放历程。起初,许可证授权问题阻碍了源代码的开放。但随着时间的推移,标准的开源许可证应运而生。我们可以期待在数据方面做出类似的努力。

政府政策也有助于推动开放数据运动的发展。首先可以开放更多的政府数据供公众使用,从而减少小型组织在数据方面的不足。一个很好的例子是美国国会在2014年决定通过《数字问责和透明度法案》,以标准化的方式公开更多的预算信息。在此基础上,奥巴马政府于2016年呼吁开放数据以发展人工智能。特朗普政府再进一步,提出了一项联邦综合数据战略,鼓励政府机构“将数据作为战略资产加以利用”15。英国和欧盟也在进行类似的努力。但今天,只有20%的政府数据集是开放的,还有很多很多的事情要做16

开放数据也对隐私保护法的发展提出了新的要求。现行法律大多是在人工智能开发提速之前制定的,因此与开放数据之间的关系比较紧张,需要认真对待。例如,欧洲的隐私保护法侧重于所谓的目的限制,即限制信息的使用,只能用于在收集数据时就已明确规定的目的。但很多时候,会出现新的数据分享机会,而且将推进社会目标的实现,例如治愈癌症。幸运的是,这项法律允许在公平且符合原始目的的情况下重新调整数据的用途。现在,关于如何解释这条规定,肯定会有一些关键性的问题冒出来。

还有一些重要的知识产权问题,特别是在版权领域。长期以来,人们已经接受这样一种认知,即任何人都可以使用受版权保护的作品,从中获取知识,比如阅读一本书。但现在有人质疑,这一规则是否适用于机器进行的学习。如果我们想鼓励更广泛地使用数据,那么机器也能使用它们将是至关重要的。

在为数据所有者制定了切实可行的安排并解决了政府政策问题之后,还有一项重要需求需要满足。这就是技术平台和工具的发展。只有技术平台和工具发展了,数据共享才能更容易,成本才能更低。

这是特内尔在哈奇研究中心遇到的需求之一。他注意到癌症研究界和科技公司所从事的工作之间的区别。技术部门开发的是新的尖端工具,用于各种数据集的管理、集成和分析。但特内尔意识到,“那些生产数据的人和那些制造新工具的人之间的鸿沟,其实是一个被错失了的巨大机会,利用每天生成的海量科学、教育和临床试验数据,获得有影响的、改变人生的,甚至有可能拯救生命的发现”17

要实现这一点,数据用户需要一个强大的,针对开放数据的使用进行了优化的技术平台。有了这个平台,市场才能开始运作。由于不同的科技公司会采用不同的商业模式,它们有不同的方案可供选择。有些企业可能会选择在自己的平台上收集和整合数据,并向客户提供访问权,作为某种技术或咨询服务。从许多方面来看,这就是IBM沃森[1]的运作模式,也是脸书和谷歌的网络广告模式。

有意思的是,就在8月的那个晚上马休·特内尔对我们侃侃而谈的同时,由微软、思爱普和奥多比组成的一个联合团队已经开始了一项各有侧重但相辅相成的工作。这三家公司宣布并在一个月后启动了开放数据计划,旨在提供一个技术平台和工具,帮助各类组织联合数据,同时继续拥有和保持对它们共享数据的控制。计划将提供多种技术工具,组织可以使用这些工具来识别和评估它们已经拥有的有用数据,并将其放入适合共享的机器可读和结构化格式中。

也许和其他任何工作一样,开放数据革命也需要实验来确保不会做错事。晚餐结束前,我拉来一把椅子在特内尔旁边坐下,问我们可以一起做些什么。我特别感兴趣的是,现在终于有机会推进我们微软业已与北美这个角落的其他癌症研究机构展开的合作,包括与不列颠哥伦比亚省温哥华市的几家领先组织的合作。

到12月,这项工作就取得了成果,我们宣布微软将出资400万美元支持哈奇研究中心的项目。这项工作被正式命名为卡斯卡迪亚数据发现计划,旨在帮助哈奇研究中心、华盛顿大学以及温哥华的两个机构——不列颠哥伦比亚大学和不列颠哥伦比亚省癌症研究所以保护隐私的方式识别与促进数据共享。这项计划开了一个好头。此后,数据共享渐渐普及开来,例如,加州数据协作组织将城市、自来水公司和土地规划机构的数据联合起来,通过分析研究解决方案,解决水资源短缺问题18

所有这些努力,令我们对开放数据的未来感到更加乐观,至少如果我们抓住时机。虽然有些技术现在会让一些公司和国家获得相对于其他公司与国家更大的收益,但情况并非总是如此。例如,从来没有哪个国家纠结于谁将成为世界电力领导者这类一两句话根本讲不清楚的问题。任何国家都可以使用这项发明,问题是谁更有远见,能够尽可能广泛地应用它。

在社会上,我们应该致力于使数据像电力一样容易被有效利用。这不是一项轻松的任务。但是,如果采用了恰当的数据分享方式,如果获得了政府的恰当支持,全世界完全有可能建立一种模式,确保数据不会成为少数大公司和国家的禁脔。相反,它可以发挥世界需要它发挥的作用——成为世界各地新一代经济增长的重要引擎。

【注释】

[1]沃森是IBM制造的,基于人工智能的计算机问答系统。——译者注

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈