泛在知识环境的出现,对图书馆的管理、服务和发展带来深刻的影响,用户的信息行为和信息需求发生改变,泛在化、智能化、个性化成为图书馆发展的新目标。置于泛在知识环境下,图书馆不仅拥有海量静态数据,还拥有大量用户参与生成的海量动态数据,基于这些海量的数据资源,挖掘出有价值的知识,并用于图书馆的创新服务,成为图书馆实现新目标的重要途径。本书从泛在知识环境的大背景出发,首先探讨了新环境下图书馆的发展方向及知识发现技术在图书馆领域的应用,重点突破了泛在知识环境下图书馆知识发现中异构数据及动态数据的采集技术,立足于图书馆所处的泛在知识环境,结合图书馆动态数据与静态数据,综合运用数据挖掘、社会网络分析法、共词分析法、关键词共现、文献共被引分析等多种技术和方法,力图从采访经费比例预测模型、用户兴趣模型、学科主题知识热点、学科交叉、科研人员社会网络关系变迁等多角度、多途径,全方位地构建学科服务的立体网络,为资源采访科学化,学科服务深入化探索新的道路。
在数据采集方面,本书首先对泛在知识环境下图书馆知识服务所需的各类支撑数据的获取做了大量的技术工作和研究,包括五个方面。
(1)数据源的统一获取:通过定制开发网络信息监控产品,统一从网络底层获取用户对高校所有中英文数据库的检索、浏览、下载等信息行为的日志数据,以及对应数据库文献信息,如题名、关键字、作者、引用、发表时间等。已采集的2012年9月到2014年2月的复旦大学师生访问各类电子资源的信息行为数据80多万条,称之为“动态数据”。统一从网络底层获取数据,建立统一数据模型的方法,从根本上解决了目前业界存在的由于标准不统一、数据来源异构而导致的无法取得包含完整字段的跨系统、全面统一的统计数据源问题,彻底解决了基于应用层的数据源获取弊端,具有技术创新性和理论创新性。
(2)通过复旦大学图书馆馆藏自动化系统Aleph500获取2004~2012年的采访数据和借阅数据400多万条。
(3)通过新闻出版主管部门获取2005~2012年图书出版数据。
(4)对10所国外著名高校(哈佛大学、斯坦福大学、麻省理工学院、宾夕法尼亚大学、达特茅斯学院、芝加哥大学、哥伦比亚大学、杜克大学、密歇根大学安娜堡分校、弗吉尼亚大学)抓取馆藏数据371万条。
(5)通过SCI、SSCI数据库导出图书情报学、经济学1999~2013年共计15年的文献数据4万余条。
在模型构建方面,采用多种知识发现技术,完成了如下五方面内容。
(1)用多元回归分析,从海量实际数据中挖掘出影响采访经费比例的显著变量,确定它们之间的数学关系式,并经过各种校验,构建采访经费比例预测模型,经过实证验证,构建了适用于重点高校应用学科和非重点高校的采访经费比例预测模型。相比重点高校,非重点高校的经费更加有限,购书的主要目的不是收藏,而是满足师生的阅读需求,而本书第3章的采访经费比例预测模型特别适合这种情况下的应用。各学科的经费分配,除了使用率、各学科的师生人数、是否是重点学科等因素外,将出版大环境(新闻出版主管部门的每年初版再版书目)纳入考量,挖掘出影响经费预算的诸多变量之间的关系,将隐性知识显性表达出来,结合课题组研发的采访决策辅助支持系统,对图书馆分配采访经费工作起到了辅助支持的作用,具有一定示范推广价值。
(2)在用户兴趣模型的构建方面,针对目前学科知识服务无法把握用户确切需求和学科发展方向的瓶颈,首次尝试基于电子资源数据库(静态数据)和访问日志数据(动态数据)建立用户兴趣表示模型,提供学科热点研究和趋势研究,能较好解决当前学科知识服务深化发展的关键问题,具有创新意义。带动了图书馆在统计分析、计量分析和Web服务方面的发展,提升了整体科研水平,可以为其他高校图书馆所借鉴,具有实践推广价值。(www.xing528.com)
(3)以经济学为例进行学科的热点和趋势分析,在动、静态数据结合的基础之上,综合采用文献计量学和社会网络相关分析方法以达到较佳的分析结果,具体方法包括词频分析法、共词分析法和社会网络分析法中的中心性分析、凝聚子群分析、块模型分析,使用Bibexcel和Ucinet软件进行数据处理和数据分析。既可以对单个关键词进行个体属性研究,还可对整个关键词网络进行定性和定量分析,从而了解整个网络全貌,进而采用可视化表达方式,以更加直观的形式呈现经济学科研究领域研究热点,并邀请经济学科的专业人士参与报告的分析和结果解读,使研究报告更具专业性。
(4)以动态数据为基础的学科交叉程度与研究热点分析,区别于以往学科交叉研究,通过运用专门定制开发的电子资源利用数据采集平台,采集到用户在访问图书馆各类电子资源数据库时的各种行为数据,从网络底层统一获取其动态数据,利用Session ID关系、因子分析和聚类分析的方法,对学科交叉程度及学科交叉的研究热点进行分析。这一研究方法开拓了数据源的使用,拓展了研究的宽度,并且弥补了以往研究中仅针对静态数据分析研究的不足,可获得学科交叉的程度和学科交叉研究热点等信息,促进了在学术研究和科学创新上新的生长点的出现。
(5)图书情报学研究人员社会网络变迁研究和可视化分析运用社会网络分析的可视化方法和中心度指数计算方法,从国家、机构和学术群体网络三个层面探讨分析图书情报领域的科研人员社会网络变迁,比较全面地把握逐层关系,并用可视化的方法表达出来。
基于上述内容,课题组将研究成果进一步结合到泛在知识环境下的图书馆知识服务中。
在采访决策方面,完成采访决策辅助支持系统,系统包括OPAC检索日志分析模块、流通数据分析模块、馆藏分析模块、电子书使用统计分析模块、检索模块、输出报表模块、美国经管专业著名高校图书馆藏书分析模块及数据备份还原模块等。这些模块提供的功能,能够很好地辅助支持图书馆的采访决策。同时,在图书馆电子资源使用统计分析方面,研发了ERU系统,提供资源使用统计、读者行为统计、读者行为查询、数据深度查询、COUNTER标准报告和资源访问控制等功能,对图书馆采访工作提供了有效的、格式统一的使用数据统计,解决了厂商单方面提供用户使用数据统计不准确的问题,同时解决了读者恶意下载的难题,并对COUNTER标准中存在的操作层面不足提出了改进建议。目前,这两个系统已应用于复旦大学图书馆及全国多所高校图书馆。
在学科服务方面,通过对学科交叉、学科热点和趋势分析,对泛在知识环境下图书馆大数据进行深层挖掘,帮助研究人员最大限度地获得各个领域的信息资源,协助他们加强与其他学习者、研究者的互动和交流,配合他们利用各类工具对知识结构、知识构建过程快速了解,为他们提供能够解决问题的知识服务。构建的用户兴趣模型在资源推荐等个性化服务中得到应用。相关成果在学科服务的试点中,对于相关人员课题研究很有帮助。
正如前面章节中论述的那样,泛在知识环境对图书馆的发展提出了新的要求,也带来了新的机遇与挑战,知识发现技术无疑将成为未来图书馆科学化、高效化、全面化管理,泛在化、智能化、个性化服务的重要途径。尤其是随着大数据时代的到来,图书馆知识发现技术将朝着更高的层次发展,而其应用也将更加广泛、普遍和深入。本书将知识发现技术应用于泛在知识环境下图书馆的科学决策和知识服务中,在数据采集方面从网络底层统一获取动态数据,结合从电子资源数据库获取的各类静态数据,运用知识发现和智能信息技术,解决图书馆异构系统和异构数据库问题,大大拓展了图书馆知识发现的数据源,使发现的知识更具全面性和独特性,在改进和创新研究视角与研究方法的基础上,通过知识发现技术,从海量数据中挖掘知识,综合运用多种分析方法,在一定程度上解决了图书馆面临的采访压力和学科服务难以深化的问题,相关技术和成果在复旦大学、南京大学等高校得到应用。未来,课题组还将进一步拓展相关研究理论框架的深度与广度,并通过更大范围的实践进一步检验和完善相关技术与成果。
泛在知识环境下图书馆知识发现技术的发展与应用使图书馆能够有据可依地科学管理,并真正提供以用户为中心的服务,但无论何时,数据都将是图书馆知识发现技术应用的基础。在未来发展中,泛在知识环境下的图书馆数据必将更加多源化、复杂化,且与用户有关的敏感信息也将是这其中难以回避的问题。此外,泛在知识环境下所要求的泛在化、智能化、个性化、协同化的深层服务也对图书馆知识发现技术提出了新的挑战。这些问题都值得在未来的研究中进一步探讨。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。