数据预处理流程和结果分析

时间：2026-01-25 理论教育季夏版权反馈

【摘要】：对前三类数据的预处理主要包括四个步骤，基本流程如图3-1所示。图3-1预处理流程图复旦大学图书馆集成系统数据：按照中图分类法的一级学科分类，将2005～2012年的流通数据进行数据清洗，得出理工科一级分类的各项数据，精确到小数后4位，如表3-1所示。表3-22005～2012年借阅数据用同样方法，得到各学科的2005～2012年采访数据，如表3-3所示。表3-52005～2012年出版数据

研究对象和范围的选择跟现有复旦大学图书馆采访方针相关，采访的图书是为了“藏”还是为了“用”，直接决定了我们的对象选择。理工科、医科以及经济管理等应用性学科的图书有一定的时效性，图书采访的目的是为了更好地服务教学科研，满足相关学科师生的需求。所以，本章的研究对象为复旦大学理工科中文纸本图书的采访，聚焦理工科中文图书采访经费模型的构建，更具针对性和实用性。本章中所使用的数据包括以下四类：

（1）复旦大学图书馆2005～2012年的采访、流通数据，包括历年各学科大类新增图书量、各学科图书流通量（借阅量、预约量、续借量）。

（2）复旦大学各院系的师生人数，来源于2005～2012年的《复旦大学年鉴》^[8]^[9]^[10]^[11]^[12]^[13]^[14]^[15]。

（3）出版大环境的数据，即2005～2012年来源于新闻出版主管部门的全国新闻出版业基本情况^[16]。

（4）采集国外排名前10高校的馆藏数据。但需要说明的是，国外高校的数据主要以外文为主，与中文图书采访决策模型中的相关度较小，国外排名前10高校的馆藏数据主要用于本书第8章图书馆采访决策辅助支持系统的构建。

对前三类数据的预处理主要包括四个步骤，基本流程如图3-1所示。

图3-1　预处理流程图

（1）复旦大学图书馆集成系统数据：按照中图分类法的一级学科分类，将2005～2012年的流通数据进行数据清洗，得出理工科一级分类的各项数据，精确到小数后4位，如表3-1所示。需要说明的是，续借和预约以权重1∶2纳入借阅数据中，表中的借阅数据包含了续借和预约数据。

表3-1　2005～2012年借阅数据

然后对表3-1的数据进行归一化处理，如表3-2所示。(https://www.xing528.com)

表3-2　2005～2012年借阅数据（归一化处理）

用同样方法，得到各学科的2005～2012年采访数据，如表3-3所示。

表3-3　2005～2012年采访数据

（2）2005～2012年各院系的师生人数：首先将学科与院系进行映射，比如分类O数理科学和化学包括数学系、物理系、现代物理研究所、化学系等院系的数据。其次对各院系的师生，根据在校的本科生、硕士生、博士生人数，以及正高、副高、中级及以下人数，统计得出各院系的人数，进而得出各院系师生数的归一化比例，如表3-4所示。

表3-4　2005～2012年各院系的师生人数（归一化处理）

（3）2005～2012年新闻出版主管部门发布的全国新闻出版业基本情况：首先剔除文史哲类学科的数据，得到理工科学科的出版数据，然后根据历年出版书目所占比重、初版比重，取两者的加权平均为各学科的出版比重，并归一化，如表3-5所示。

表3-5　2005～2012年出版数据（归一化处理）

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

数据预处理流程和结果分析

相关推荐

数据预处理流程和结果分析

相关文章：

相关推荐