1.聚类检索的概念
在对文献进行自动标引的基础上,构造文献的形式化表示——文献向量,然后通过一定的聚类方法,如计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在了一起,而主题或内容相异的则被区分开来。我们可以定义,聚类检索就是对集中在一起的内容相近的一类文献进行检索的一种检索技术。比较早地研究和建立实验性聚类检索系统的是SMART系统。
2.文献聚类的方式
一般来说,在某一主题领域的文献中词语同现的频率越高,这些词语的含义相关的可能性就越大。从显示每一个词对(从文献正文中抽取)同现强度的词语/词语矩阵中,可以生成各种类型的聚类(Salton,1975)。
(1)词团(Clique):每个成员均与其他成员一起出现的一组词。
(2)词串(String):每个链环系由一对密切相关的词组成的词链。如A→D→G→C→P→Y。
(3)词星(Star Orientation):所有的词都与某一特定的词同现的一组词。如图4.1所示:(www.xing528.com)
图4.1 文献聚类方式:词星形状
(4)词束(Clump):一组往往相互关联的词。词束的边界可以用多种标准定义,一般来说,超过一定的阈值时,各词都彼此相关,形成一个词组。如果两词同现的频率超过了人们期望它们随机同现的频率,那么它们就被认为是相关的。例如,在公式中,假设用R表示词a与词b的相关值,“a and b”是指a和b共现的文献数,“a or b”是指a和b单独出现或同现的文献数,那么,当R超出某些预定的数值,即认为此两词相关。
例如,当“信息经济”这个词出现在文献的标引词记录中时,那里也常常会出现“知识经济”这个词,而在出现“信息经济”的文献标引词中还频繁出现“情报产业化”这个词,那么可以推断,在“知识经济”和“情报产业化” 之间存在着密切的联系,从而在检索时,这两个词可以相互补充,以此扩大查全率。
3.聚类检索的特点
到目前为止,计算机信息检索基本上是以主题检索为主,但是,只采用字顺排列的主题检索系统并不能很好地控制整个学科领域文献及全面显示主题之间的关系,因而信息检索的查全率较难提高。在这一点上,分类检索途径所具有的体系性和良好的族性检索能力远远超过了主题途径。有鉴于此,聚类检索就吸收或借鉴了分类检索的思想。聚类检索也因此被公认为是在主题、分类一体化道路上迈出的重要一步。聚类检索按类的思想组织文献,按主题标引方式对文献进行标引,加上聚类处理由计算机完成,形式化程度较高,因而可使文献的分类属性和主题属性得到有机融合,分类与主题之间的差别被缩小了。因此,文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索两方面的功能。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。