自动标引方法主要包括统计标引法、语言分析标引法、人工智能标引法、网页标引法、概率标引法、词典标引法等。下面对这些方法做一详细介绍。
1.3.2.1 统计标引法
在各类自动标引的方法中,出现最早且被广泛持续使用的是统计标引法。统计标引法的基本原理在于术语具有一些显著的统计特征,如共现、逆文档词频、熵、互信息等。[11]统计标引法包括词频统计法、加权统计法、N-Gram标引法、统计学习法和分类判别统计法。
1.词频统计法
词频统计法是指通过对文献中词的出现频率、共现频率等统计指标进行统计排序,找出处于临界域内、能真正表达文献主题内容的词,再根据情况选取适当数量的词作为标引词。[12]
2.加权统计法
加权统计法是在词频统计法的基础上引入了加权的概念,因为词频统计法虽然原理简单且使用方便,但标引词的选择范围较大,难以获得较理想的标引结果。由此,人们在词频统计标引的过程中,加入了不同的加权概念,由此形成了位置加权法、相对加权法等加权统计方法。
位置加权法是根据词在文献中所在的位置来对词取不同的权值后,再进行统计。例如,出现在文献标题中的词比出现在文献正文中的词更能代表文献的主题,所以出现在文献标题中的词的加权系数就比出现在正文中的大。
相对加权法主要建立在相对频率这一概念的基础之上。相对频率主要包括文内相对频率和文外相对频率两种类型,其中,文内相对频率是指某词的绝对频数与文献中所有词的绝对总频数之比,文外相对频率是指某词在一篇文献中的绝对频数与其在所有文献中的绝对总频数之比。文内相对频率和文外相对频率都可看作是权值,以此加权即可获得自动标引的抽词依据。[13]
3.N-Gram标引法
N-Gram标引法是指n(n>=1)个相邻字符序列,对文本进行N-Gram处理即可得到该文本所包括的长度为n的字符串的集合。因为一种语言的N-Gram是有限的且较稳定,所以这种标引方法几乎不受学科术语发展变化的影响。但是这种方法仅从形式上对N-Gram进行统计,会出现一定程度的标引词不准、标引短语中缺词等问题。[14]
4.统计学习法
统计学习法由学习和标引两个过程组成,通过一个学习过程建立标引与促进词和削弱词的关系,并在此基础上确定标引词的标引值。
5.分类判别统计法
分类判别统计法的主要特点是以词的频数或权值为基点,然后利用统计学中的数值分类法(如聚类分析、因子分析、多维排列或判别分析法)确定词在含义上的相近和疏远关系,同时也从统计的角度解决近义词、同形异义词、异形同义词等问题。这类方法在自动赋词标引中用得较多,在对标引文献进行语义分析时也有所应用。[15]
统计标引法不依赖标引词的领域特征,能够比较方便地在不同领域使用,有一定的使用效果,因而使用较普遍。但该方法只是对词频进行统计,忽略了词语的语义信息,所以要取得更高的标引质量,还需同其他方法结合起来使用。
1.3.2.2 语言分析标引法
文献是由自然语言构成的,标引对象自然也是语言,因而从语言学的角度去研究自动标引也是一种重要的方法。文献可分为词、句、语义、篇章等四个层次,语言分析标引法是对被标引的对象从这四个层次上来进行语法分析,以达到标引的目的。由此,语言分析标引法可以分为词法分析标引法、句法分析标引法、语义分析标引法和篇章分析标引法。
1.词法分析标引法
词法分析标引法是对自然语言进行切分,即自动分词,并对切分后的词标注上词性标记,然后从中提取出有意义的词作为关键词进行标引。此方法虽比较简单易行,但在词法分析过程中,会遇到未登录词的识别、切分出现歧义、兼类词词性的区分等问题,因此对词表的维护非常重要。
2.句法分析标引法
句法分析标引法是从语法角度来确定每个词在句子中的作用(如主语还是谓语),并通过找出词之间的相互关系(如是修饰还是被修饰)来实现标引。它一般通过与事先准备好的解析规则或语法相比较来实现。[16]
句法分析标引法又分为浅层句法分析标引法和深层句法分析标引法。浅层句法分析标引法只是将句子分解成词语,但并不揭示这些词之间的句法关系。深层句法分析标引法在把句子解析成词语后,还要分析整个句子的语法,从而能够最大限度地揭示出句子所包含的主题。
基于深层句法分析标引法主要有三种:
(1)DSIS系统。DSIS系统是由印度学者Devadason在1985年提出的基于深层结构的标引系统。它主要是以文献标题作为分析对象,从中归纳出可能反映主题内容的范围,再根据句法规则对标题进行语法分析,通过词表进行处理,最后实现标引。
(2)FASIT标引法。FASIT标引法是由Dillon及其同事于1983年提出的基于概念层次的标引方法。它通过选择出的概念来描述句子,提高了句法分析的准确性;通过概念归类有效地解决了相同概念的多种不同形式词语的聚类问题,减少了单纯由词语标引造成的查检的准确率高但全面率低的情况。
(3)COPSY标引法。COPSY标引法是由西门子公司在1988年提出的基于名词词语句法分析的标引方法。它将名词短语的中心词-限定语结构,构造为名词词语的从属树结构。这种从属树具有结构严谨、表现能力强、容易组织等特点,既可描述文献主题,也可描述提问要求,更便于进行检索匹配。[17]
通过实验,我们发现各类句法分析标引法在准确率上仍然不是很高。造成这一现象的原因是标引词的词义具有模糊性,而句法分析本身很难消除词义的模糊性,影响到了关键词的识别结果。Salon曾指出,所有的句法分析必须辅以语义分析,才能保证标引效果的准确性。
3.语义分析标引法
语义分析标引法是分析词在特定的上下文中的确切含义,并在此基础上选择出与主题含义相同的标引词。
常见的语义分析标引法主要有以下三种:
(1)潜在语义分析法。潜在语义分析法是由Deerwester等于1990年提出的基于单值分解方法的标引方法。它通过单值分解,把分散在不同文献中语义相关的词,以及主题语义接近的文献放置在相邻的位置,使得即使提问检索词与文献不匹配,也可以得到较准确的检索结果。
(2)相信函数模型。相信函数模型是由Silva和Milidiu于1993年提出的基于叙词在标引叙词表中出现频率的基本概率数为标准的标引方法。
(3)语义矢量空间模型。语义矢量空间模型是基于句法分析和格式语义结构的一种自动标引方法。它在矢量空间模型的基础上,加入了格式语义结构,通过标引词的语义矢量构造描述文献的语义矩阵,使文献的标引得以在语言的深层结构——语义层上实现。[18](www.xing528.com)
同句法分析相比,语义分析在自动标引中的使用范围和效果都强于前者。
4.篇章分析标引法
篇章分析标引法是通过计算机找出篇章中内容相关的片断(词、句、句群、段、篇等),并在它们之间建立各种索引,如超媒体和超文本结构中链接索引,以便用户能快速检索出所需要的内容,或者跳段浏览最感兴趣的部分。[19]
篇章分析标引法的方法有框架(frame)理论、基于规划的方法等。
总的来说,语言分析标引法都需要设定相应的关键词模式,而模式的建立都需要依赖人来完成,如果模式建立不健全,就会影响到识别的效率,同时在词间关系的识别上尚缺有力试验的验证。
1.3.2.3 人工智能标引法
人工智能是计算机科学的一个分支,它专门研究怎样用机器理解和模拟人类特有的智能系统的活动,探索人们如何运用已有的知识、经验和技能去解决问题。
人工智能标引法是指通过计算机模拟标引员来完成文献的标引。人工智能标引法运用于自动标引,可分为一般机器学习法、集成学习法和专家系统。
1.一般机器学习法
一般机器学习法是采用数值建模的方法,通过对训练数据进行训练获得参数,进行样本的自动标引。
2.集成学习法
集成学习法是通过构建多分类器来进行自动标引。
3.专家系统
专家系统是人工智能法应用于自动标引的具体体现。它将特定领域专家们的知识和经验等通过编程建成知识库,供他人在解决相应问题时借鉴和利用。[20]也就是说,专家系统是一个具有大量标引专门知识与经验的程序系统,它应用人工智能技术和计算机技术,根据标引专家提供的知识和经验进行推理与判断,模拟人类标引员的决策过程,以进行标引。
专家系统的标引方法主要有以下三种:
(1)MedIndEx系统。MedIndEx系统是由美国国家图书馆在1987年建立起来的医学标引专家系统。[21]在此系统中,对文献的描述,框架比关键词更加准确,适合于表示典型的概念和事件。
(2)JAKS系统。JAKS系统是由美国参谋长联席会议开发的自动抽取关键词专家系统。[22]它模拟人工抽取关键词,用来自动检索、自动分类和自动存储数据。
(3)Word Views系统。Word Views系统是由美国AT&T公司的贝尔实验室在1993年建立的基于语义网络表示法的人工智能标引系统。[23]
人工智能法进行标引的效果取决于人工智能研究自身进展。人工智能法实施的前提是建立数据量足够大的训练库或知识库,其效果的提升有赖于机器学习的能力与速度的提高。尽管人工智能法进行自动标引比其他方法要困难,但它能从标引员的角度去了解标引过程,模拟标引员的行为。因此,可以预见,随着技术的进步,人工智能标引法会有长足的发展空间。[24]
1.3.2.4 网页标引法
网页自动标引是指计算机自动从网页中提取出具有检索价值的信息,该方法以词频统计为基础。目前,几乎所有重要的搜索引擎都采用全文索引方式,分析网页的所有词汇,并依据词频、词汇在网页中出现的位置等确认词汇的权重,选择标引词。[25]
网页自动标引方法可分为三种,分别为基于知识库的网页自动标引、基于统一内容定位(uniform content locator,UCL)的网页自动标引和基于遗传算法的网页自动标引。
1.基于知识库的网页自动标引
基于知识库的网页自动标引是中文网页自动标引和分类的主要思想,是根据情报语言学的原理,用分类号控制主题词,用主题词控制关键词,构建以概念语义网络——《中图法》为基础的知识库,在知识库的基础上,能实现分类语言、主题语言和自然语言三者的标引与检索一体化,实现自动标引和自动分类。[26]
2.基于UCL的网页自动标引
基于UCL的网页自动标引主要是应用基于信息内容理解和智能实现的URL技术,提取网页中的标引信息。UCL是在信息源制作阶段对资源内容按照预先设定的标准进行自动归类并贴上标签,通过内容筛选机制,主动递交有用网页。它根据用户访问某类信息的频度或用户的定制,自动向用户提供相关的信息,从而改变用户对网页信息的获取方式,实现个性化服务,并极大地节省用户用于查找网页内容的时间。UCL通常是对资源内容的类别、主题、出处、作者、关键词等做出多维度的标引。[27]
3.基于遗传算法的网页自动标引
基于遗传算法的网页自动标引从标引词应反映文献主题内容这一原则出发,改进了加权词频统计法的标引源权值的设置,利用遗传算法在文档集上寻优得到网页标引源的最优权值设置,再将最优权值设置的模型应用于网页信息自动标引。对于网页信息自动标引的标引源,主要考虑词语的频率(term frequency-inverse document frequency,TF-IDF)、词串的长度、词语首次出现的位置以及词语是否出现在HTML控制标识符<TITLE>中。基于遗传算法的网页信息自动标引能达到较好的自动标引效果,有效地提高了标引源的权值设置的合理性、准确性。[28]
1.3.2.5 概率标引法
概率标引法是基于出现概率、相关概率和决策概率来标引文献的标引方法。出现概率论的应用是基于标引词在文献中出现频数的概率有规律可循,常用的有二值独立性标引模型;相关概率论的应用是基于标引词反映的文献主题内容在检索中可以通过概率表示,常用的有RPI模型;决策概率论的应用是基于某标引词赋予某文献这一决策事件正确的概率,常用的有DIA标引方法。
1.3.2.6 词典标引法
词典标引法的实现原理:文献根据设计的算法,匹配事先构造好的词典(如主题词词典、关键词词典、部件词典等),若匹配成功,则该词就被表示为标引词。
以上介绍的各种自动标引方法各有所长,但也都存在着不够完善的地方,因此我们在建立自动标引系统的时候,应根据实现情况,混合各种方法,取各方所长,综合运用,以期获得最准确的标引效果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。