首页 理论教育 大数据时代图书馆信息系统的问题解决

大数据时代图书馆信息系统的问题解决

时间:2023-07-31 理论教育 版权反馈
【摘要】:本书所要解决的问题为《指南》“科技服务协同技术及平台研发”中的“大数据驱动的个性化定制服务”,主要针对图书馆管理的海量科技大数据,比如这些科技数据具备的行业新特性。根据中国科学技术协会的相关统计,中国有1亿名科研工作者,这些科研工作者日常需要和图书馆中的科研大数据打交道,本书通过优化图书馆信息系统,提高科研工作者使用科研数据的便利性和使用效率,服务中国的科研工作者。

大数据时代图书馆信息系统的问题解决

根据国家科学技术部为落实《国家中长期科学和技术发展规划纲要(2006—2020年)》《国家创新驱动发展战略纲要》《国务院关于积极推进“互联网+”行动的指导意见》《国务院关于加快科技服务业发展的若干意见》《国家文化科技创新工程纲要》等提出的任务,国家重点研发计划启动实施“现代服务业共性关键技术研发及应用示范”重点专项,并于2018年9月14日发布了《“现代服务业共性关键技术研发及应用示范”重点专项2018年度项目申报指南》(以下简称《指南》)。

《指南》“服务关键核心技术”中的“科技服务协同技术及平台研发(共性关键技术类)”为本研究指明了方向。《指南》指出:“研究跨平台科技资源与服务协同技术包括典型行业服务及资源模型与标准、跨平台服务业务流程及优化技术、跨平台服务描述/服务发现/服务选择/服务组合技术、大数据驱动的个性化定制服务以及服务价值链协同技术。”

本书所要解决的问题为《指南》“科技服务协同技术及平台研发”中的“大数据驱动的个性化定制服务”,主要针对图书馆管理的海量科技大数据,比如这些科技数据具备的行业新特性。

①海量异构数据源。在科技服务中,科技工作者申请一份专利,需要查询全球的专利数据库,如美国专利局、欧洲专利局、日本专利局和中国知识产权局。这些数据来自不同国家,数据语言、数据存储格式不同。海量的异构数据不适合进行结构化数据管理,比如MySQL单表存储容量上限仅仅为4GB。

②异构数据源的协同服务。发表专利不仅要查询海量异构数据,还要和其他数据进行协同,如专利查重需要和公开发表的论文进行对比,而论文专利的格式完全不同。常见的异构数据源协同一般采用无模式(Schemaless)的可扩展标记语言(Extensible Markup Language,XML)或者对象简谱(Java Script Object Notation,JSON)作为中间数据交换,而科技数据本身协同一般有行业文献管理格式,如RIS格式[14],是具备科技数据行业特点的格式。科技数据经常需要和历史数据打交道,但是历史数据的管理系统和最新的系统不兼容,缺乏有效的集成开发环境(Integrated Development Environment,IDE)管理。目前在其他领域有微服务(Microservice)环境的成熟解决方案,如Docker[15],但是专门针对科技数据服务行业的成熟解决方案却很少。

③数据的高频查询特点。科技数据服务,如查询论文,需要保持高频率的查询,以防止创新点失效。例如,通过SQL进行查询,SQL存储采用的是B树,而索引主要是B+树(如MyISAM索引)和B*树(如InnoDB索引),树的查询速度是0(log(N))。SQL查询中,关联表太多会导致查询速度极慢。另一方面,NoSQL中部分类别数据库采用哈希查询,查询速度是0(1),但是此种模式不支持范围查询和排序,同时,大多数NoSQL不支持定式查询,如不支持CRON表达式[16];(www.xing528.com)

④数据的深度分析。科技工作者使用科技数据往往要进行全文反复阅读,不会只停留在元数据的分析上,深度分析,如分析科技专利,需要反复地人机交互和询问专家[17],并且还会根据过去几十年的论文数据去判断未来科研的方向[18],或者根据当下的专利数据分析当下科技成果的转移情况[19]。但采用半结构化数据管理,如NoSQL,因为数据缺乏统一的模式(Schema),往往会带来分析的不便。同时,NoSQL分析数据需要编写代码,对非计算机专业的科技工作者来说,会带来使用难度。

⑤数据权限管理。科技数据往往来自不同实验室,因为不同实验室之间需要交换数据,但是各个实验室之间缺乏有效的互联互通,有效的数据权限管理机制缺乏导致很多实验室进行重复研究。

⑥个性化定制服务。科技数据的使用者每天使用大量的科技数据,缺乏个性化定制很难有效地管理数据。目前处理结构化数据的SQL和处理非结构化数据的NoSQL,往往不是针对科技数据行业的,比如SQL通常采用正整数标识符作为主键,NoSQL通常采用通用唯一识别码(Universally Unique Identifier,UUID)标识符作为主键。但在科技行业中,发表论文的唯一标识符的通用标准为DOI[20]标准或者Handle[21]标准。科技数据可以采用数字对象唯一标识符(Digital Object Unique Identifer,DOI)作为主键。因此,如果进行个性化定制,相关服务供应商需要编写大量程序代码。

基于以上国内外研究的不足,本书研究“大数据时代图书馆信息系统系统分析与设计”,基于编译原理技术[22],提出一种新的数据查询语言,该查询语言基于新的扩充巴科斯-瑙尔范式(ABNF)[23],专门针对科技服务大数据。同时,为了提高项目的稳定性和扩展性,基于微服务(Microservice)的系统架构,开发了扩展程序。

根据中国科学技术协会的相关统计,中国有1亿名科研工作者,这些科研工作者日常需要和图书馆中的科研大数据打交道,本书通过优化图书馆信息系统,提高科研工作者使用科研数据的便利性和使用效率,服务中国的科研工作者。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈