词是表述资源最基本的方法,资源的创作者通过词的组织,将自己的思想和研究内容聚合成文档;在利用资源的信息组织和检索中,文档被赋予一系列的关键词或者受控的索引词,形成一个逻辑视图表达资源的信息和知识内容。词和资源之间的关系可以用最简单的二维发生矩阵来表示。假设存在一个资源集合,其中包含了n个资源,资源集中的所有词的集合中有m个词。资源集表示为R=(r1,r2,…,rn ),词集表示为T=(t1,t2,…,tm ),每个独立的资源ri∈R都可以被词集T的子集所表述,其形成的二维发生矩阵如表4-1所示。矩阵中每个位置的取值为0或1,表示资源中是否包含这个词。在这个基础矩阵中,作为行的各类资源也可以用其他资源所包含的实体来替代,例如资源的名称或摘要,甚至是资源的创作者等。然而,这种方式只是表现了有无特性,每个词对于资源的描述方面都是等同的,但是不同的词事实上在不同的资源中重要程度和标识能力并不一样。
表4-1 资源-词二维发生矩阵
(www.xing528.com)
词频是反映词重要性的一种简单而有效的方法,实际上分析资源所包含的高频词就是为了发现资源最主要的语义。但这种情况下0-1取值的方式就不再合适,因此各种计算权重的方法也被开发出来,其中Salton和McGill在1983年提出的“词频次-文档频次导数”(term frequency-inverse document frequency,简称tf-idf)方法[32],通过词频和文档频次决定词在资源中出现的词权重,即词i的权重随着出现频次的提升而增加,但是随着在拥有n个文档集中出现词i的文档数量k的提升而降低,其计算过程可以用如下公式表示:
然而上述的计算过程无论是0-1取值还是权重取值事实上都是十分粗糙的,只是根据评论来判断语义是不准确的。资源集中一词多义的现象十分普遍,即使是同一个词在不同的文档中所表达的真实语义也可能不同,因此需要考虑词所处的真实的知识环境来确定其所包含的语义信息。一种解决方案是利用词与词之间的共现关系来解析语义[33]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。