首页 理论教育 图情大数据:实践成果

图情大数据:实践成果

时间:2023-08-08 理论教育 版权反馈
【摘要】:图书馆必须关注大数据,利用大数据来帮助其运营。图书馆可以处理大数据的第二个领域是研究数据服务领域。目前,许多国家都已通过相关立法和规划,形成了相应的大数据战略,为图情大数据融合发展提供了基本政策保障。不管如何,这是图书馆大数据潜力的一个令人印象深刻的例子,尤其是拥有200多年历史的机构能够与当时只有4年历史的初创大数据公司合作。2013年,丹佛公共图书馆提出了其大数据项目——服务递送。

图情大数据:实践成果

图书馆必须关注大数据,利用大数据来帮助其运营。图书馆可以使用数据来优化其馆藏,更好地利用空间,评估其指令并向其用户提供信息。随着更多的数据记录到图书馆中,越来越多的数据可以通过开放和商业来源从外部获得,使用这些数据流的机会对图书馆来说是一个充满希望的途径,但在分配资源方面也有潜在的风险。

图书馆可以处理大数据的第二个领域是研究数据服务领域。越来越多的资助机构要求将资助研究的数据公开。研究人员经常发现自己在项目期间没有足够的技能和资源来适当地管理数据,更常见的是,他们没有技能、时间或资源来准备要归档的数据,并且常常找不到适合其数据的存储库。图书馆一直扮演着“住房协会”学术和研究输出的角色。尽管在以前,这主要集中在书籍和文章上,扩大研究数据的范围是对图书馆角色的自然延伸。

目前,许多国家都已通过相关立法和规划,形成了相应的大数据战略,为图情大数据融合发展提供了基本政策保障。建立在开放数据和大数据关键技术上的应用创新开始崭露头角,全球范围内的相关案例逐渐增多,形成了大数据在图情领域的应用模式和趋势。

1)德国数字图书馆:开放整合数据,提高资源利用效率

德国数字图书馆(Deutsche Digitale Bibliothek)并非一个实体图书馆,它是由德国政府和各联邦州共同建立的在线服务平台。弗劳恩霍夫协会(Fraunhofer-Gesellschaft)的智能分析和信息系统研究所和莱布尼茨信息基础设施研究所承担了此项目的技术支持工作。该馆以1 842家图书馆、档案馆和博物馆机构为支撑,开放在线资源560万件(主要为书籍资源)。

2012年,德国数字图书馆网站上线,公众能在最短的时间内检索到文化科学领域中可信且具代表性的结果。除此之外,公众还可以对搜索结果进行学术相关领域的分类,从而进行更有针对性且更为有效的检索。基于大规模的元数据,公众在搜索过程中会得到很多交叉信息内容。因此,从研究和教学方面来看,德国数字图书馆从根本上减轻了检索的负担。

德国数字图书馆的建设目标是,整合全德国3万多家图书馆、档案馆和博物馆的数字图书资源为公众服务并纳入欧洲数字图书馆平台,以文字、图片、音乐、录音、录像等多种形式免费提供文化和知识信息。

2)美国国会图书馆:创建和提供Twitter存档

图书馆环境中使用大数据的最著名、最壮观、最早的例子之一无疑是短消息服务Twitter与世界上最大的图书馆——美国国会图书馆之间的合作关系。该图书馆于2010年宣布,这次合作的目标应该是存档和保留所有已发布的推文。不幸的是,这件事比最初预期的要复杂。该项目于2010年启动时,每天约有5 500万条推文通过Twitter发送。后来,这一数字每天激增至超过5亿条。但是,从那时起,研究人员一直在徒劳地等待评估这些丰富的数据。国会图书馆迄今为止尚未能够公开提供该Twitter存档,国会图书馆的代表目前也无法估计是否以及何时能够公开。不管如何,这是图书馆大数据潜力的一个令人印象深刻的例子,尤其是拥有200多年历史的机构能够与当时只有4年历史的初创大数据公司合作。(www.xing528.com)

3)丹佛公共图书馆:开展服务递送大数据项目获取公众需求

丹佛公共图书馆(Denver Public Library)是美国科罗拉多州丹佛市城镇公共图书馆系统,该系统包括位于丹佛市中心的丹佛中央图书馆以及25个分馆和2个移动图书馆。丹佛公共图书馆收藏超过200万个项目,包括书籍、参考资料、电影、DVD和照片。该图书馆的藏品特色有美国西部历史和文化资料,并开展科罗拉多州和落基山脉西部非裔美国人教育和文化资源的研究。

2013年,丹佛公共图书馆提出了其大数据项目——服务递送(service delivery)。该项目采用CIVIC Technologies公司提供的多种技术支撑,利用私营部门常用的市场分割(market segmentation)概念和数据驱动的方法(包括综合利用图书馆数据、本地数据和国家统计数据),帮助图书馆了解社区邻里,预测公众的兴趣,以提供更相关的服务。

4)美国的联合大数据计划

大数据实践的一个突破性示例是美国10个公共图书馆、博物馆、图书馆服务研究所和数据分析软件提供商CIVIC Technologies之间的联合大数据项目。10个参与项目计划的图书馆在人口780万的地区运营,其中一半以上人口拥有图书馆卡(400万用户,占总人口的52%)。2014年共有6 740万册(印刷和数字)的图书馆外借流通量。该项目的目标是准确地了解用户和潜在用户的需求,并为他们提供服务。项目提出的核心问题包括:这些公共图书馆中哪些是最活跃的用户,即“核心客户”,这些核心客户的生活习惯是什么,他们的兴趣、爱好和行为是什么等等。项目将区域和国家级的大量公共统计数据(即“普查数据”)用于分析,然后链接到各个图书馆的数据。其结果显示,社区和图书馆用户群虽然是一个复杂结构的群体,但在通过与地理信息系统(geographic information system,GIS)兼容的地图上可视化显示细分市场之后,大数据以惊人的方式解释了这种复杂性。例如,位于拉斯维加斯克拉克的州立图书馆用户来自21个不同类型的家庭,仅此一项信息就可以确保离线和在线资源的定制方式可以专门解决特定人群的需求。

5)澳大利亚图书馆:与企业的合作为地球物理数据创建元数据库

2013年的《商业信息调查》显示,关于大数据的主要时尚话题,信息专业人员或多或少地被冷落,仅有少数受访者参与了此类项目。但是,澳大利亚的一个例子显示,图书馆使用来自壳牌公司澳大利亚石油公司的地球物理数据建立元数据库。地球物理数据非常难以管理,因为它涉及复杂的“大”数据,而这些数据无法使用传统的方式来记录。具体来说,这涉及多种文件格式、媒体格式和许可条件的PB级数据,范围从原始数据到已处理和可解释的数据。在项目开展期间,图书馆馆员与地球物理学家、地球物理数据分析师、IT专家和数据库开发人员合作。图书馆专家负责以下任务:建立必要的元数据字段;开发受控的词汇表和名称约定;定义必要的搜索参数;启发其他功能的可能性;测试数据库,包括反馈导入元数据;编制用户指南;提供培训课程。该案例表明,大数据项目不必局限于图书馆所拥有的资源,图书馆馆员尤其具有元数据领域大数据应用的关键专业知识也是开展图情大数据研究不可或缺的部分。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈