向量空间模型将文献与检索请求都置于向量空间中,利用线性计算表示检索结果,从而克服了布尔模型过于严格的缺点。20世纪70年代中期,杰拉尔德·索顿(Salton)提出了检索系统的向量模型,定义了文献向量和提问向量,文献向量空间模型分为传统的向量空间模型和广义的向量空间模型。
1.传统的向量空间模型
向量空间模型通过对检出文献按相似度降序排列的方式来实现文献与查询的部分匹配。在传统向量空间模型中,每个文档被视为一个向量,其中每个维度为一个标引词出现的概率;同理,检索请求也可以视为一个向量,将两者做向量内积,其结果即为文档与检索结果的相似度:
相似度越大,说明文档越符合检索结果。
Salton(1927—1995年,康奈尔大学计算机系)在Smart系统中所建立的向量空间模型,是把词向量看作一组正交向量,又因为它们是标引词空间的生成向量,故这组向量可以看作是该空间的一组正交积向量,然后对各文献可按照其论述各标引词所反映主题的程度进行加权(例如用词在文献中的发生频率进行计算),使得标识词更加具有标识性。
2.广义向量空间模型
在传统的向量空间模型中,我们假定了标引词是相互独立的,在此前提下讨论词向量之间的相互关系显然不能令人满意。Wong(加拿大里贾纳大学计算机系)建立了一种新的方法,在没有假定标引词独立的前提下,把词向量用一组经适当挑选的正交基向量来表示。这样,词之间的关系可以直接由其向量表示给出较为精确的计算,此模型为广义向量空间模型。(www.xing528.com)
在广义向量空间模型中,文档被表示在一个广义向量空间中,其中每个词向量被表示成2n个基向量的线性叠加。
3.扩展布尔检索模型
通过对标引词加权重,Salton将向量模型和布尔检索模型结合起来,从而克服了传统布尔模型过于严格且无排序性的缺点。设文献向量Di=(wi1,wi2,...,win),qs,qt,表示t和s在用户查询中的权值,则
通过调节p值大小,此模型会在传统布尔模型和向量空间模型间变化。当p=∞且qs=qt=1时,此模型等价于传统布尔模型;当p=1时此模型等价于向量空间模型;当0<p<1时,此模型介于两者之间。
扩展布尔模型由于结合了向量空间模型的特点,对于复杂的检索请求有了很好的区分性。如果一个检索请求包含多个由and连接的标识词,传统布尔模型将会过滤掉所有只包含部分标识词的文档。而扩展布尔模型则会对包含标识词多的文档给出更高的检索结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。