照片城(PhotoCity)解决了分布式数据采集中的抽样和数据质量问题。
雅虎网络相册(Flickr)和脸谱网这样的网站可以让人们和朋友以及家人分享照片,它们还创建了可用于其他目的的存储大量照片的照片库。例如,萨米尔·阿加瓦尔(Sameer Agarwal)和同事就曾尝试利用这些照片“在一天内建成罗马”,具体来说就是利用15万张罗马的照片对这个城市进行三维重建。对其中一些被大量拍摄的建筑物,例如古罗马大竞技场而言,研究人员基本实现了重建(图5.10),但也遇到了问题,因为大多数照片都是从相同的标志性角度拍摄的,所以部分建筑没有被拍到。因此,照片库中的图像是不够的。但如果我们能招募到志愿者来搜集必要的照片以补充现有照片会怎么样呢?用第1章的艺术类比来说就是,如果我们能用非现成的图像丰富补充现成的图像会怎么样呢?
图5.10 “在一天内建成罗马”这个项目利用大量二维图像所实现的对古罗马大竞技场的三维重建。黑点代表拍摄照片的位置。经允许复制自计算机协会(Association for Computing Machinery)和Agarwal et al.(2011)。
为了能够有针对性地搜集大量照片,凯瑟琳·图特(Kathleen Tuite)和同事开发了一款上传照片的游戏“照片城”。照片城将搜集数据(即上传照片)这一艰巨的任务变成了一项包含团队、城堡和旗帜的类似游戏的活动(图5.11)。研究人员利用照片城对康奈尔大学和华盛顿大学进行了三维重建。首先,他们上传了某些建筑物的照片作为种子照片。然后,每个校园的玩家会根据重建的现状上传照片,如果照片有助于重建,玩家就会赢得相应的分数。例如,如果尤里斯图书馆(在康奈尔大学)当前的重建图缺失很多部分,那么玩家就可以通过上传该图书馆的新照片赢得分数。该上传过程有两个特征是非常重要的。首先,玩家的得分取决于他们的照片对重建的贡献量;其次,上传的照片必须与现有的重建图有重叠的部分才能有效。最后,研究人员成功创建了两所校园建筑物的高分辨率三维模型(图5.12)。
图5.11 照片城将搜集数据(即上传照片)这一艰巨的任务变成了游戏。经计算机协会允许复制自Tuite et al.(2011),图2。
图5.12 照片城这款游戏使研究人员能够利用参与者上传的照片构建高质量的建筑物三维模型。经计算机协会允许复制自Tuite et al.(2011),图8。
照片城的设计解决了分布式数据采集中经常出现的两个问题:数据有效性和抽样。首先,参与者需要比较上传的照片与之前的照片,以验证上传照片的有效性,然后需要比较后者与之前的照片,以此类推,直到追溯到研究人员最初上传的种子照片为止。换句话说,该内置的冗余设计使人们很难上传与当前建筑物不符的照片,无论是无意的还是有意的。该设计特性意味着系统可以保护自己免受不良数据的影响。其次,照片城的评分系统本身就能训练参与者搜集最有价值的数据,而不是最方便找到的数据。事实上,以下是玩家自述的为赢得更多分数所采取的一些策略,这其实就等同于搜集更有价值的数据(Tuite et al.2011):(www.xing528.com)
·我会在拍照的时间和光线上尽量接近某些照片的拍照时间和光线,这有助于防止我的照片被游戏拒绝。在这一点上,目前为止我觉得拍摄最好是在阴天,因为对比度的降低有助于游戏从我的照片中找出几何结构。
·阳光明媚的时候,我会在某个特定的地方边走边拍照片。相机的防抖功能让我不用停下脚步也能拍出清晰的照片。这还有一个好处就是不太引人注目。
·我用500万像素的相机拍照,而且同一个建筑物要多拍几张,然后回家上传,周末有时能拍5千兆字节的照片,这是主要的照片捕捉策略。我将照片整理储存在移动硬盘的文件夹中,按照校区、建筑物甚至按建筑物的哪一面来命名文件夹,以此方便有层次地上传照片。
这些陈述表明,当参与者得到适当的反馈时,他们就能在搜集研究人员感兴趣的数据方面成为专家。
总的来说,照片城项目表明了抽样和数据质量并不是分布式数据采集中不可克服的问题。此外,它还表明分布式数据采集并不是仅适用于人们已经在做的任务,例如观鸟。依靠正确的设计,志愿者也可以被鼓励去做其他的事情。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。