首页 理论教育 获取复旦大学图书馆300个电子资源数据库用户信息数据

获取复旦大学图书馆300个电子资源数据库用户信息数据

时间:2023-08-08 理论教育 版权反馈
【摘要】:为获取复旦大学图书馆采购的近300个电子资源数据库的用户信息行为数据,研究团队调研并花费一年多的时间试用了市面上一些功能比较接近的产品,包括陕西诚泰公司研发的RGS1800产品和Netsight公司的产品等。经测试评估发现,RGS1800和Netsight的产品并不合适。

获取复旦大学图书馆300个电子资源数据库用户信息数据

日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等。以Web日志为例,最基本的有网站每类页面的PV值(PageView,页面访问量)、独立IP数(即去重之后的IP数量),稍复杂的可以计算得出用户所检索的关键词排行榜、用户停留时间最高的页面等,更复杂的还可构建广告点击模型、分析用户行为特征等[3]。数字图书馆的日志包括服务器日志、代理日志、查询日志、用户会话或事务、Cookies(储存在用户本地终端上的数据)等,主要功能是记录系统和用户之间的交互活动,为优化系统性能和提高系统安全提供管理手段[4]

对于利用用户访问电子资源产生的用户信息行为数据这类动态数据进行知识发现和分析所需的数据涵盖范围可分为基本数据和进阶数据。基本数据包括源IP、目的IP、数据库名称、访问时间、检索字段、检索关键词及逻辑关系,以及文献的题名、作者、作者单位、基金项目、DOI(数字对象唯一标识符)、关键词、摘要、学科分类、期刊名称、出版年份卷期;进阶数据包括相关检索词、相关专家、相关机构、相似文献、相关文献作者、参考文献、共引文献、二级参考文献、用户会话等。

为获取复旦大学图书馆采购的近300个电子资源数据库的用户信息行为数据(采集数据需求分析见附录1),研究团队调研并花费一年多的时间试用了市面上一些功能比较接近的产品,包括陕西诚泰公司研发的RGS1800产品和Netsight公司的产品等。经测试评估发现,RGS1800和Netsight的产品并不合适。RGS1800并未从网络底层来抓取数据,只是将用户访问的流量数据采集下来,所含信息字段较为简单,主要包括源IP、目的IP、URL(统一资源定位符)和网络流量数据,不能完全模拟用户的学术信息行为,也不能获取本书所需的数据。Netsight的设计思路完全从提取各个数据库资源的共同属性着手,但是通过分析复旦大学图书馆的300余个数据库资源,笔者发现:不同语种、不同类型资源的共性较少,如期刊论文和学位论文就有一定的差异,设计思路不符合最终数据的需求。(www.xing528.com)

基于此,研究团队和复旦光华公司合作研发相关产品来采集数据。其中,研究团队提供从网络底层统一采集用户学术信息行为数据的需求分析报告,研究提出技术实现路线和关键技术解决思路,复旦光华基于其网络安全审计硬件产品,在此基础上设计、编码实现团队的数据采集方案,并在此基础上开发基于用户学术信息行为数据的电子资源利用统计分析和恶意下载监控功能等,既实现满足各个图书馆当前迫切的电子资源利用统计分析和恶意下载监控需求,又实现了用户学术信息行为数据的成功采集,便于推广应用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈