在语言学中,将上下文定义为语意、语境。所谓语意是指句子表达的意思,语意分析技术是指从一句话、一段话、甚至一篇文章中抽取出其表示的意思,该技术是自然语言处理中的关键技术之一,是让计算机理解人要表达的意思的关键;语境是语言表达的具体环境,同样一句话在不同的语言环境下其含义有本质区别,例如如果一篇文章介绍的均是水果、农产品,此时提到的“苹果”应该是水果,如果一篇文章介绍的是电子产品,此时提到的“苹果”应该是电脑、平板、手机等。标准不同,语境的分类不同,目前认可度比较高的是两种分类方法,分别是:情景语境和文化语境、语言语境和社会语境。
在实际文档中,同样一个词语当位于不同的上下文环境时(语境),其表达的意思也有所不同,甚至差异很大,例如“人们/发现/这座山/下面/有/金子”与“小花/有/一颗/金子/般/的/心”两句中的“金子”,很显然是不同的意思。如果采用传统的仅依据词语的语义扩展(同义词、本体词、相关词等),并不能区分出二者的不同,故基于上下文信息实现语义处理具有不可替代的价值。图4-2为在知网中输入“上下文”搜索到的主题相关文献,总量为82518篇,观察该图可以发现,该研究分支的热度趋势逐年递增,呈明显上升趋势。
图4-2 “上下文”主题相关文献统计图
词语的上下文(context)是词语在实际应用中的语言环境,它在自然语言处理中的价值主要体现在两个方面[105]:一方面,上下文本身就是知识,故上下文是知识获取的来源;另一方面,在自然语言处理过程中,上下文是解决问题所需信息和资源的重要提供者。
上下文的选取一般基于核心词前后一定范围内,这个范围被称为窗口。上下文选取的关键是窗口尺寸的确定,文献[105]指出,窗口尺寸的确定,需要基于以下三条标准:一是信息量足够大,二噪声足够小,三是有利于提高时间、空间效率。本章提出的基于上下文信息的特征选择也涉及窗口尺寸的确定,我们采用实证方法获得尺寸为多少时最为合理。(www.xing528.com)
随着上下文信息的重要性被认可,其已被成功应用于多个领域,除传统的词义消歧、词的逻辑聚类和词语搭配外,目前和深度学习结合,已经广泛应用到多个领域,表4-3给出了“上下文”相关文献主题排名前10的应用领域分布及相应占比,可以发现“上下文信息”在自然语言处理、推荐系统、图像检索中的应用已经得到广泛关注。话题识别与追踪属于典型的自然语言处理技术的应用,故理论上将其应用于话题特征选择可以更加有效地实现数据预处理。
表4-3 “上下文”主题相关文献主题分布及占比
续表
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。