首页 理论教育 CADAL资源学科分类原型系统实现

CADAL资源学科分类原型系统实现

时间:2023-10-27 理论教育 版权反馈
【摘要】:利用这个基准库构建决策森林,对新添题目进行学科分类,这个准确度不仅与决策森林有关,还与学科标引库的准确度有很大的相关性。如果我们的学科标引库足够完善,那么在分词阶段该库完全可以代替普通的词典库来使用,这样将会取得更好的效果。利用题名、作者、出版社3个信息分别建立起4个学科标引库。

CADAL资源学科分类原型系统实现

原型系统的整体功能如图9-12所示。

图9-12 原型系统的整体功能

整个原型系统可以分为数据标准化处理系统、数据预处理系统、学科标引系统和数据访问接口

9.4.5.1 数据标准化处理系统

利用ETL工具提供的数据转换功能对dc.xml和Catalog.xml文件中的数据进行抽取(extract)、转换(transition)和清洗(cleansing),然后加载(loading)到DC元数据数据库,转化为符合本地数据库存储格式的一系列初始源数据。

9.4.5.2 数据预处理系统

根据已有的知识组织工具对转化后的源数据进行进一步处理,如中图类号转化为对应的学科分类号等。转化后的数据方便我们的进一步处理,步骤如下:

(1)对题目数据进行分词处理,去掉无意义的词,如谓词、形容词、数量词等。

(2)根据特征选择算法对分词结果进行降维处理。

(3)根据特征选择后的词赋予权重值。

9.4.5.3 学科标引系统(www.xing528.com)

根据数据预处理后的结果分别建立上面提到的4个学科标引库,作为学科标引的基准库。利用这个基准库构建决策森林,对新添题目进行学科分类,这个准确度不仅与决策森林有关,还与学科标引库的准确度有很大的相关性。如果我们的学科标引库足够完善,那么在分词阶段该库完全可以代替普通的词典库来使用,这样将会取得更好的效果。为了实现这个目标,我们的学科标引库需要具有可扩展性,即可以利用神经网络算法来对学科标引库进行不断的更新。具体的学科标引过程如下:

(1)从DC元数据数据库中取出元数据,元数据信息中包含有中图分类号,根据知识组织工具将其与学科代码对应,转化为三级学科代码结构。

(2)取出转化后需要的数据信息,包括题目、作者、出版社、学科代码等信息。

(3)对这些数据中的标题进行分词处理,并对结果值进行保存。

(4)对分词结果进行数据预处理,去掉无意义的词和经由特征选择算法处理后对学科分类无用的词。

(5)利用题名、作者、出版社3个信息分别建立起4个学科标引库。

(6)对未知学科类别的题目进行分词处理,若分词后词数量大于1,则在决策森林中对其学科类别进行判定,然后在词同现库中查找其可能的学科类别以及概率,对比两个结果做出初步判断。

(7)根据题目数据的作者和出版社信息,在作者和出版社同现标引库、出版社标引库和作者标引库中依次进行查找,如查找到结果,则分别对应属于该学科的权重,进行验证性判断。

(8)若两词判断还不能唯一断定学科类别则由(6)判断后的权重决定属于各个学科的概率大小。

9.4.5.4 数据访问接口

数据访问接口是为了实现各个模块之间的数据互通,提供可灵活的组织、扩充、维护共享和互操作数据的功能。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈