文本表示模型是中文文本分类问题中的一个重要的技术问题,因为文本是由多个字符构成的字符串,没有标准的结构,计算机无法对它直接进行处理和加工,所以,在文本分类之前,首先要对无结构的文本进行结构化的处理。目前,把文本看作由一组正交词条(t 1,t 2,…,t n)所组成的向量空间,每个文本可看作空间中的一个向量:V(d)=(w 1,w 2,…w n),其中w i为词条t i的权值,代表这个词条在文本中的重要程度。w ij则代表第i个文本中第j个词条所拥有的权值。
根据特征加权方法的差异,文本表示模型可以分为布尔模型(Boolean Model)、概率模型(Probabilistic Model)和向量空间模型(Vector Space Model)3种数据模型。
4.4.1.1 布尔模型
布尔模型是一种基于布尔代数和集合论的简单数据模型。它的查询策略是根据二元判定标准(binary decision criterion),但由于缺少文档分级的概念,因此限制了文档的查询功能。基于此,布尔模型比较适合于利用用户给出的信息查询式进行逻辑比较,从而达到查询文档效果。布尔模型虽然具有清楚、简单的形式以及比较精确的语义,但要将用户具体需求高效地转换为布尔表达式还存在一些问题。在实际操作过程中,大多数查询用户发现很难把他们所需的查询信息转换为布尔形式,若要做到完全匹配,则会返回过少或过多的结果文本。总而言之,布尔模型的主要优点在于具有清楚及简单的形式,速度快,而主要的缺点在于不能体现特征词在文本中的重要程度。
4.4.1.2 概率模型
概率模型从多方面综合考虑与文本相关的因素,这些因素包括词频、文档长度、文档频率等,在文本查询过程中充分体现概率关系,在概率测度空间利用概率来度量两个文本之间的语义相似度。它的优点在于文本可以按照它们相关概率的递减顺序来计算文本的秩。但是在查询计算时,需要把文本集合分为相关和不相关两部分,实际上这种模型没有考虑索引术语在文本中的频率,而索引术语都是相互独立的。(www.xing528.com)
4.4.1.3 向量空间模型
目前,向量空间模型在文本挖掘和信息检索领域有着广泛的应用。该模型最早是为英文文本建立索引,以方便文本的检索,现在在中文文本的检索中也得到了广泛使用。它的基本思想是以向量来表示文本,多个文本向量组成文本集D的表示如下:
其中,d m为第m个文本行向量,t n为第n个特征项列向量,w mn为第n个特征值在第m个文本中的权重。
向量空间模型最著名的应用是Smart检索系统,它利用简洁的特征向量来表示文本,在进行特征选择时,不使用大量的句法、语法信息,也不用对文本进行复杂的语义处理,使问题的复杂性大大降低。基于这些优点,后文的应用示例将利用VSM模型表示文本及其特征。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。