首页 理论教育 数据预处理流程和结果分析

数据预处理流程和结果分析

时间:2023-08-08 理论教育 版权反馈
【摘要】:对前三类数据的预处理主要包括四个步骤,基本流程如图3-1所示。图3-1预处理流程图复旦大学图书馆集成系统数据:按照中图分类法的一级学科分类,将2005~2012年的流通数据进行数据清洗,得出理工科一级分类的各项数据,精确到小数后4位,如表3-1所示。表3-22005~2012年借阅数据用同样方法,得到各学科的2005~2012年采访数据,如表3-3所示。表3-52005~2012年出版数据

数据预处理流程和结果分析

研究对象和范围的选择跟现有复旦大学图书馆采访方针相关,采访的图书是为了“藏”还是为了“用”,直接决定了我们的对象选择。理工科、医科以及经济管理等应用性学科的图书有一定的时效性,图书采访的目的是为了更好地服务教学科研,满足相关学科师生的需求。所以,本章的研究对象为复旦大学理工科中文纸本图书的采访,聚焦理工科中文图书采访经费模型的构建,更具针对性和实用性。本章中所使用的数据包括以下四类:

(1)复旦大学图书馆2005~2012年的采访、流通数据,包括历年各学科大类新增图书量、各学科图书流通量(借阅量、预约量、续借量)。

(2)复旦大学各院系的师生人数,来源于2005~2012年的《复旦大学年鉴》[8][9][10][11][12][13][14][15]

(3)出版大环境的数据,即2005~2012年来源于新闻出版主管部门的全国新闻出版业基本情况[16]

(4)采集国外排名前10高校的馆藏数据。但需要说明的是,国外高校的数据主要以外文为主,与中文图书采访决策模型中的相关度较小,国外排名前10高校的馆藏数据主要用于本书第8章图书馆采访决策辅助支持系统的构建。

对前三类数据的预处理主要包括四个步骤,基本流程如图3-1所示。

图3-1 预处理流程图

(1)复旦大学图书馆集成系统数据:按照中图分类法的一级学科分类,将2005~2012年的流通数据进行数据清洗,得出理工科一级分类的各项数据,精确到小数后4位,如表3-1所示。需要说明的是,续借和预约以权重1∶2纳入借阅数据中,表中的借阅数据包含了续借和预约数据。

表3-1 2005~2012年借阅数据

然后对表3-1的数据进行归一化处理,如表3-2所示。(www.xing528.com)

表3-2 2005~2012年借阅数据(归一化处理)

用同样方法,得到各学科的2005~2012年采访数据,如表3-3所示。

表3-3 2005~2012年采访数据

(2)2005~2012年各院系的师生人数:首先将学科与院系进行映射,比如分类O数理科学化学包括数学系、物理系、现代物理研究所、化学系等院系的数据。其次对各院系的师生,根据在校的本科生、硕士生、博士生人数,以及正高、副高、中级及以下人数,统计得出各院系的人数,进而得出各院系师生数的归一化比例,如表3-4所示。

表3-4 2005~2012年各院系的师生人数(归一化处理)

(3)2005~2012年新闻出版主管部门发布的全国新闻出版业基本情况:首先剔除文史哲类学科的数据,得到理工科学科的出版数据,然后根据历年出版书目所占比重、初版比重,取两者的加权平均为各学科的出版比重,并归一化,如表3-5所示。

表3-5 2005~2012年出版数据(归一化处理)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈