首页 理论教育 学科标引方案CADAL数字图书馆

学科标引方案CADAL数字图书馆

时间:2023-10-27 理论教育 版权反馈
【摘要】:学科标引的质量取决于选取样本数据的科学性、完整性及准确性,确保学科标引的准确性是该研究的关键性问题。图9-8题目数据处理流程9.4.3.1 数据预处理数据导入:馆藏数据导入MSSQL2008数据库。图9-9学科主题词表处理9.4.3.2 题目数据处理1.分词要实现对题目数据的自动学科分类就要对现有的题目样本数据中包含的隐藏信息进行挖掘,这是一部分数据挖掘的工作,在前面已有介绍。

学科标引方案CADAL数字图书馆

学科标引的质量取决于选取样本数据的科学性、完整性及准确性,确保学科标引的准确性是该研究的关键性问题。基于这些开展以下具体工作:首先,基于已有的基础数据选取对学科标引有用的信息,如题目、作者、出版社等信息,这些数据处理起来数据量小,而且可以很好地提供书目的学科信息;其次,为了确保学科标引的准确性,要对这些信息进行一定的处理,得到更为一般的学科标识,这样可以很好地缩小前面提到的学科主题词库的大小,而且可以提高标引准确性,其中最重要的就是对题目数据的处理,对作者和出版社来说可以通过对元数据的聚类得到相应的学科信息;最后,基于已有的题目数据,进行分词然后聚类等处理后得到对应的关键词与学科类别的关系,最终完成学科主题词库的建立,为自动学科分类提供参照。

对作者和出版社元数据的处理过程如图9-7所示。

图9-7 作者和出版社数据处理

对题目数据的处理过程如图9-8所示。

图9-8 题目数据处理流程

9.4.3.1 数据预处理

(1)数据导入:馆藏数据导入MSSQL2008数据库

(2)数据预处理:对元数据进行整理、清洗和转化。

(3)知识组织工具构建:学科门类与学科关系、学科代码,中图法与学科关系进行二维组织,并存储到数据库中。

(4)对中国分类主题词表进行数字化,并存储到数据库中,信息包括词、分类号、同类词、上层关系、下层关系等。

(5)元数据题名分词,并去除停用词。

(6)建立学科主题词表。

具体的学科主题词表可视化展示如图9-9所示。

图9-9 学科主题词表处理

9.4.3.2 题目数据处理

1.分词

要实现对题目数据的自动学科分类就要对现有的题目样本数据中包含的隐藏信息进行挖掘,这是一部分数据挖掘的工作,在前面已有介绍。但是如果直接对题目数据进行数据挖掘处理,就会发现基本上每个题目数据之间是没有什么共同特征的(仅仅是题目的话相同的概率很小)。因此,要把题目切分为更小的易于挖掘的数据信息。如果这样,会在一定程度上破坏题目中所包含的语义信息,所以选取合适的分词工具是极其重要的一项工作,这样才能保证切分后的词在最大程度上含有原题目中的语义信息。

我们对目前已有的一些开源分词软件进行了大量测试,包括中科院ICTCLAS分词系统、庖丁解牛分词系统、ANSJ分词系统等。考虑到分词效果和运行效率两方面因素,我们采用了ANSJ分词系统,分词结果中包含词性并且可以按照我们的要求进行最大切分,这样可以降低不同学科题目切分后的重复度,词性又可以很好地保存原题目的部分语义信息,这些都为自动学科标引的精度提供保障。

2.特征选择:互信息算法

对馆藏书目数据进行分词后形成一个词袋子(bag of words)集合,该集合就是候选特征向量集合。一个中等规模的书目数据集经过分词处理后,形成一个高达上万甚至几十万维的候选特征词集合。但是这个高维的候选特征词集合中的大部分词语对文本分类贡献很小,甚至有的词还会扰乱分类器的判断结果,最终影响分类结果的准确性。所以,要对词袋子中的词进行特征值的筛选,删除词袋子中相关干扰因素,保留最能代表文本内容的词,提高书目数据分类结果的准确性和高效性。特征选择就是从候选特征项中选择一组最能代表书目数据的词。特征选择的目的是降低文本表示的维度,提高分类器执行效率。[32]

在特征选择之前首先要建立一个评估函数,然后通过该评估函数对候选特征集合的特征项进行评估,按照一定的规则对评估结果进行筛选,选择满足条件的特征项,用作文本表示。

常用的特征选择评估函数有文档频率(document frequency)、互信息(mutual information)、信息增益(information gain)、χ2统计量、交叉熵(cross entropy)、Fisher判别式等方法。

结合我们处理的是题目数据且希望得出的是题目数据分词后的各个词对学科分类的重要度的考虑,由于题目数据本身的特征,即低频词往往比高频词能提供更多的学科分类信息,因此我们采用互信息作为特征提取算法。

互信息是衡量两个随机变量相关性的变量,它反映的是两个变量的依赖程度。设有随机变量X和Y,则有熵的定义如公式(9-12)所示:

由公式(9-12)得:

差值就是随机变量X和Y的互信息,差值表达式为:

其中,I(X,Y)就是已知其中一个变量X或Y对另外一个变量Y或X相互依赖程度所提供的信息量。

按照互信息的定义,可以将互信息的理念应用在特征词的选取中,用来确定特征词t所包含类别C的信息有多少。书目数据分类中的互信息公式如下:

其中,P(C,t)表示书目数据集中所含有的特征词t,同时表示书目数据属于类C的概率;P(C)表示类C是书目数据在书目数据集中出现的概率;P(t)表示包含特征词t的书目数据出现的概率。从公式(9-15)中可以看出,如果t与类别C无关,那么互信息值就为0。

互信息方法就是以计算特征词在书目数据中出现概率以及它在整个书目数据集中出现概率的比值作为取舍标准。互信息计算一般直接忽略特征词出现的频率,在同等概率相等的条件下,低频词比高频词的互信息值要高。

3.权重赋予

这里所说的权重即词对于该学科的重要程度的一个定量评价。一般某个学科中都有该学科特有的一些关键词或者是某几个词的组合,除了这些词以外还可能含有其他一些词,这些词较为普遍地出现在不同的学科里。那么如果出现了这些词,又如何区分它们的学科呢?在这里引入词对于学科分类的重要性评价,如“数据”这个词可能会出现在数据库和数理经济学等多个学科之中。那么如果单单出现了“数据”这个词,它更有可能属于哪个学科呢?这里我们通过给它在不同的学科上赋予权重来进行区分,权重越大,则出现这个词属于这个学科的可能性也就越大。

词权重的计算对于学科标引的准确性的影响也是巨大的,目前常用的权重计算方法有:TF-IDF算法、布尔权重、特征词频(term frequency,TF)、反文档频率(inverse document frequency,IDF)等方法。这些方法都有各自的局限性,结合我们的数据和具体应用,我们采用TF-GINI权重计算方法。

GINI表示的是基尼指数,在权重计算算法中TF-IDF算法被广泛采用,但它本身也存在着一定的缺陷,而且这些缺陷结合我们的应用表现得更为明显,如没有考虑词汇特征,没有引入已知的类别属性。在进行学科标引时,已知的类别属性是非常重要的信息。而GINI算法可以很好地表示学科类别信息。基尼指数是一种用于集合纯度评测的测度,可以描述特征项对于分类的作用程度。这些都符合我们对于词权重的要求。下面是具体的TFGINI算法的描述:

基尼指数是一种非纯度的属性分裂方法,它的基本思想是对每个属性特征项,遍历所有可能的分割方法后,某方法提供最小的基尼指数,选择此方法作为划分。具体在我们要求的权重计算中,添加词频因素作为衡量标准,因此称为TF-GINI算法。

纯度基尼指数应用在书目数据分类的特征权重值计算中,要考虑已知的类别属性,再来判定特征项的纯度,最后获得它对分类的重要程度。[33]包含类别属性的特征项纯度基尼指数公式如下:

其中,P(Ci|t)是特征项t在文本集中每个类的发生概率。采用TF-GINI的特征权重计算方法如下:

(www.xing528.com)

其中,w ik表示词条(特征项)t k在文本D i中的权重,tf ik表示特征项t k在文本D i中的词频,Gini(t k)是特征项t k的纯度基尼指数。

这样我们就可以得到一个对于纯度敏感的权重值,因为题目数据中本身就含有许多学科专有名词,所以选用一个对纯度敏感的算法是合适的,并且我们同时也加入了词频因素,对于较普遍存在的词由词频加以区分,这样既考虑了样本本身所包含的类别所提供的信息,也很好地对同一词对于不同学科的重要度进行了衡量。

4.语义分析

前面对于题目数据分词后的处理都是默认词间关系是相互独立的,但是这种假设在实际环境中是很难满足的。题目中出现的词跟文本中的词一样也会存在一定相关性,但是题目的语义信息对于整个文本的语义信息来说要相对简单,这里我们也同样采用一种简单的语义判别方法来对题目数据的潜在语义进行简单的处理。前面已经介绍过了潜在语义分析的一些相关概念,这里我们只描述下针对题目数据语义信息的描述。

大部分题目数据的句法结构都相对简单,因此我们这里简单地把其中的语义信息转化为多个词之间的同现关系。为了缩减这些同现规则的数量,考虑从同现频率来判定哪个同现规则是普遍存在的,作为判定标准。但是由于自然语言中存在着大量的同义词和多义词现象,语义的准确表达不仅取决于词汇本身的恰当使用,还取决于上下文对词义的限定,因此我们同样需要一些其他的外部辅助库来完成这个过程,如同义词表、近义词表。

9.4.3.3 作者和出版社数据处理

在根据学科标引库对题目进行标引后,可能存在多个可能的学科类别,希望通过其他信息来对题目所属学科进行区分,这里我们选用的是作者和出版社的数据,因为这两个数据都对题目的学科类别有一定的约束作用。

如上面所提到的那样,分别对作者和出版社在学科上进行聚类处理,找出作者和出版社分别与学科的对应关系,作为标引辅助库存放在数据库中。对于新添题目的学科判别,先匹配作者和出版社同现情况下的可能学科类别,再匹配出版社相同情况下的学科类别,最后再匹配作者相同情况下的学科类别。之所以这样考虑,是因为相对于出版社而言,作者和出版社信息更为精确,且作者可能存在同名现象,所以出版社的信息更为可靠。

9.4.3.4 学科标引实现

在前面对源数据处理的基础上,我们已经得到了每个词对于学科分类重要性的学科标引库。库中存放的是单个词对应于学科贡献的权重,还有其他3个辅助库:词同现频率与学科关系的标引库,作者、出版社出现次数与学科关系的标引库,以及作者和出版社同现频率与学科关系的标引库。

标引库的选择和所用语料的选择界面如图9-10所示。

图9-10 标引测试界面

基于这4个基础库,来对新添题目数据分词后的结果进行标引处理。

词同现标引库中包含了部分题目的语义信息,这部分信息知识从样本数据中得到,需要不断地进行扩充。这里采用神经网络的方法,对于出现次数较多的同现情况增加权值,而新出现的同现情况则赋予基础权值,加入同现标引库中。这里的同现标引库可以构造为决策森林使用,是一种基于规则的分类方法,是决策树的进一步改进和扩展。

对于题目数据分词后只有单个词的情况,直接在词对应学科的标引库中进行匹配,这个匹配会产生较多的可能学科类别,根据样本中该词对应学科类别的贡献度来初步衡量题目学科类别,然后通过辅助的作者和出版社信息,进一步确认学科类别。

相关知识介绍如下:

1.人工神经网络

人工神经网络(artificial neural networks,ANN)按照人脑运行机制进行模拟,它采用分布式并行处理模式,由无线信号通道相互连接构成。每个神经元都有输出连接,每个输出可分解成多个分支,每个神经元都可以独立处理局部信息。神经网络适合处理复杂的非线性数据映射问题,可以应用在语音、知识处理和决策系统等方面。目前,在文本分类领域,通常采用的是BP神经网络。BP神经网络采用的是BP(back propagation)算法进行训练的多层感知网络。BP神经网络至少有3个层:输入层、中间层(至少一个)和输出层。

2.决策树分类方法

决策树分类方法是一种递归的逐级分类方法,按照树的结构,运用递归的方式解决复杂的分类转化过程。决策树分类是通过建立一棵决策树,树的每一个非叶子节点都是文本特征向量的一个属性,叶子节点为类别。建立决策树的步骤如下:

(1)从特征词集合中选出一个最具分类能力的特征词作为根节点。

(2)根据根节点所选的特征词对训练集文本进行分类,从而得到不同的子类。

(3)对步骤(2)中的每个叶子节点重复步骤(1)和(2),一直到子类中所有样本都属于同一个类别为止,此时建立的树就为决策树。常见的决策树分类算法有C4.5,ID3等。

结合以上决策树分类和神经网络获得的最终标引如图9-11所示。

图9-11 自动标引结果

9.4.3.5 标引系统性能评估

标引系统的性能主要由处理后的标引库的准确度和采用的分类器的性能决定,不管采用何种分类器,其评估方式都相同,都分为闭测试和开测试两种方式。闭测试就是训练集的文本,即分类器的训练文本,也是训练集的测试文本。开测试就是测试集文本与训练集文本是相互独立的。常用的文本分类器性能评估参数有查准率(precision)、查全率(recall)、F值、宏平均(macro-averaging)、微平均(micro-averaging)等。数目数据经过分类器分类之后产生4种不同的结果,其分布情况见表9-2。

表9-2 类别列联表

对于某一类别c,其查准率和查全率公式如下:

根据公式(9-18)和(9-19),查准率反映的是分类器将判别数目数据分为某类,而该数目数据确实属于本类的概率。查全率反映的是书目数据属于该类,分类器则确定分类的概率。查全率和查准率都是针对分类器在单个类别上的评估参数,都只是反映分类器的局部性能。F值是综合衡量查全率和查准率的综合指标,其公式如下:

其中,β为调节因子,用来调节查全率和查准率的权重。β一般取值为1,即查全率和查准率同样重要。由此,得到下式:

除了F值外,还有宏平均和微平均两个综合评价指标来对分类的整体性能进行评估。宏平均的查全率和查准率公式如下:

其中,C为类的总个数,rc为类c的查全率,p c为类c的查准率。宏平均即所有类的查全率和查准率的平均。微平均的查全率和查准率公式如下:

宏平均是对类的平均,受小类影响较大;微平均是对文本的平均,受大类影响较大。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈