首页 理论教育 基于共词分析的语义分析技术的优化措施

基于共词分析的语义分析技术的优化措施

时间:2023-07-08 理论教育 版权反馈
【摘要】:举例来说,“信息搜寻”一词既可能归属于图书情报领域的用户信息服务研究,也可能表达了计算机领域的信息检索方法的知识,还可能表达了人机交互研究的内容。通过将“信息搜寻”和与它共现的词归结为一类,然后分析这个类中词所反映的整体内容,可以确定“信息搜寻”在分析对象集合中的具体含义,这就在较粗糙的语义层面解决了一词多义的问题。此外对于多词一义和相关词的问题,共词分析也可以挖掘出其中包含的语义。

基于共词分析的语义分析技术的优化措施

共词分析,是Callon等人1983年在传统的共被引的基础上提出的一种研究科技文档的语义结构的方法[34],其后也被应用到潜语义分析——“Latent Semantic Analysis”中[35]。荷兰计量学家Leydesdorff从早期开始对共词在语义方面的特性进行了关注[36],其基本假设是词与词之间的共同出现能够代表词所具有的语义信息。举例来说,“信息搜寻”一词既可能归属于图书情报领域的用户信息服务研究,也可能表达了计算机领域的信息检索方法的知识,还可能表达了人机交互研究的内容。然而,单独从词出发是无法判断其包含的具体语义的,需要纳入到其所属的文献中来判断,而通过共词分析可以从一定程度上解决这个问题。通过将“信息搜寻”和与它共现的词归结为一类,然后分析这个类中词所反映的整体内容,可以确定“信息搜寻”在分析对象集合中的具体含义,这就在较粗糙的语义层面解决了一词多义的问题。此外对于多词一义和相关词的问题,共词分析也可以挖掘出其中包含的语义。由于多词一义和相关词具有相同的语义内涵,很可能用来表达同样的主题内容,因此在共词当中也较容易聚成一类,从而通过多个词汇的综合判断抽取语义。

词-词共现只是一种简单的表现形式,需要通过其他的分析方法将其中的语义分析出来,例如采用因子分析方法将词进行聚类后进行因子解释,用因子来描述词集所包含的语义,这种降维过程本质上就是语义分析过程。然而这种方法也存在许多问题:

第一,分析基本单元的选择问题。正如上文提及的,共词分析对语义的揭示是通过和其他词之间的关系来进行判断的,因此词最终会划分到一个类中或者极为少量的主维度上,容易造成反映某些主题的语义无法识别和非重要的主题语义被识别的情况。

第二,词孤立的问题。对于某些概念含义较泛的词来说,比较容易出现的情况是这个词与许多出现频次较少、语义内涵较弱的词共现,就会造成该词所处的语义环境相对薄弱,将词进行分门别类的时候,很容易由于其语义环境的薄弱性而归入不是很相关的类别中。(www.xing528.com)

第三,词和词之间的距离问题。由于共现是以共同出现为基本分析假设,并没有考虑词和词之间是如何共现的,在同一个文档或资源集中,某些词之间是直接共现的,例如两个词直接在一起;某些则是间接共现的,例如出现在不同段落中,单纯的共现频率统计容易造成频次相同而实际的语义关联强度不同的问题,因此无法反映词所包含的真实语义内涵。

一个改进方案是,采用主题图等方式加强共词分析的语义性[37]。其基本思想是在抽取高频关键词对的基础上,对词对所包含的主题内涵进行分析,进一步将关键词集成为主题词,利用主题词表达语义。主题图与概念地图和思维导图在许多方面存在形似点,但其突出的一个特点是图中的节点主题都是标准化的,共包含了3个要素:主题、关联和信息源指引,即表达语义内涵的词、词与词之间的关系、与某一主题词相关的资源。主题图是语义技术的一类,相对而言,这种方法比单纯的词-词共现更接近真实的语义层面,但本质上并没有解决上面所提及的三个问题。且无论是基础的共词分析还是主题图,都将每个词所包含的语义用一个主题来反映,这与实际情况并不切合。但是主题图提供了一种良好的思想,即在词的维度基础上加入主题的维度,用主题来表达词的语义。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈