首页 理论教育 高校图书馆知识产权信息服务研究中的文本挖掘与向量空间模型

高校图书馆知识产权信息服务研究中的文本挖掘与向量空间模型

时间:2023-08-04 理论教育 版权反馈
【摘要】:专利文本聚类通常会选取一个标签来代表各个聚类的主题。文本挖掘是一个集成性过程,分为多个阶段。其中,向量空间模型是最为经典的文本特征表示模型,它将文本以向量的形式表示。

高校图书馆知识产权信息服务研究中的文本挖掘与向量空间模型

3.1 文本挖掘方法

3.1.1 文本挖掘的目的

专利数据聚类分析,就是将一般的聚类分析方法应用于专利数据。分析的对象可以是和专利相关的各种数据,其中主要包括专利的文本信息(标题、摘要、权利要求书、说明书等)、引证信息,以及分类号、发明人、技术功效、共引共现情况等其他信息。

文本聚类(Text Clustering)分析是对专利的文本信息(标题、摘要、权利要求书、说明书等)进行聚类分析的方法,是最主要的专利数据聚类分析手段。文本聚类作为聚类分析的一个应用分支,同样是依据著名的聚类假设:同类的文档相似度较大,不同类的文档相似度较小。文本聚类可以采用聚类分析的经典算法,但是由于文本信息涉及分词等独特的问题,经典的聚类分析算法往往不能直接适用,需要进行调整和改进。

专利文本聚类通常会选取一个标签来代表各个聚类的主题。但是,需要注意的是,聚类得出的一级标签有可能并不能完整地概括这个聚类的特征,需要我们进一步地解读下面几级的标签。

由于专利文本聚类分析主要是对专利文本中的技术内容(如技术术语、技术特征等)的分析,是对专利的技术主题的挖掘,因此,通过专利文本聚类分析,可以实现以下目的:

(1)专利组合分析:了解专利技术布局。通过对某个企业的专利进行文本聚类分析 ,可以迅速了解该企业的专利技术布局,进一步可以实现不同企业之间的专利布局对比,发现各自的优势和劣势,从而进行相应的专利布局;通过对国家或地区的专利进行分析,有助于了解该区域产业的专利技术布局情况,明确产业发展方向。

(2)技术发展路线分析:掌握专利技术发展态势。通过对不同时期技术主题下的专利进行文本聚类分析,可以了解该技术的发展态势,探索技术路线,辅助制定研发策略。

(3)技术空白点分析:指导技术路线规划。文本聚类分析可以客观地表明技术领域热点,同时也可以发现某些技术领域新出现的技术主题。上述技术主题相对于该领域的技术热点,可称之为技术空白点,有可能是未来技术发展的趋势,需要引起关注并规划好技术路线。

3.1.2 文本挖掘概念及流程

由前文叙述可知,专利信息以文本为主要呈现方式,专利信息挖掘的重要途径即文本挖掘。文本挖掘是数据挖掘的一个分支,但文本挖掘与一般数据挖掘最重要的区别在于文本挖掘的处理对象往往是非结构化的或者半结构化的文本数据,发掘大量文本数据的关系,因此又被称为文本数据挖掘或者文本知识发现,以文本数据为分析对象,从中将潜在的知识挖掘出来。

文本挖掘是一个集成性过程,分为多个阶段。文本挖掘通常包括文件集的采集和整理过程、文本预处理、特征选择、数据挖掘与模式发现及资料的分析与数据的解释或评价五个步骤。

文件集的采集和整理过程是文本挖掘的第一步,其实质是从原始文件中抽取词汇并汇总,形成可进行文本挖掘的源数据。为增强文本挖掘的效果,需要收集大量的文本数据资料,不仅来自已有的数据库中,还应通过其他检索途径丰富文本数据资料。

文本预处理是将文本转化为可以直接分析的形式。由于文本数据多是以非结构化和半结构化的形式存在的,计算机难以对其进行识别,给数据分析处理带来了比较大的障碍,通过文本的预处理过程能够将文本表示为结构化的数据对象,从而保证能够利用数据挖掘技术对其进行运算和处理。

已经结构化的文本在运算和分析过程中仍然具有很大的障碍,由于语义的丰富性,导致结构化文本存在异常庞大的初始特征向量,这对文本的分析形成了非常大的障碍,需要对特征向量进行筛选和降维处理,以尽可能少的向量代表总体。数据挖掘和模式发现这一步骤需要依据一定的背景资料,依据文本挖掘目标和数据情况,确定所使用的相关算法,对语义内容进行知识模式识别。数据挖掘的算法种类非常多,使用不同的算法最终的结果也各不相同,需要通过分析推导,并结合实证确定最优算法。

文本挖掘对象的选取对于挖掘结果也有很大影响,而且所采用的方法不同最终所得到的结果也会有较大差异,因此需要对挖掘结果进行解释和评价,如果能够符合要求,则可以对此次挖掘结果进行存储或者使用,但如若没有达到所要求的目的和范围,则需要重新进行挖掘。

3.1.3 文本挖掘技术方法

前文已经提到过专利挖掘的相关技术,其中也对文本挖掘技术做了大致的阐述,由于文本挖掘是本文所涉及重要技术,因此对文本挖掘技术方法做进一步阐释。文本挖掘的关键技术主要包括信息抽取相关技术和信息挖掘相关技术。

信息抽取即文本的预处理过程,主要包括文本特征表示、文本特征抽取和文本特征选择三部分。

(1)文本特征表示。一般采用布尔模型、概率模型和向量空间模型等方式进行。其中,向量空间模型是最为经典的文本特征表示模型,它将文本以向量的形式表示。向量空间模型的各个特征项相互独立,两个文本1d和2d之间内容的相似度可以通过向量的相似性进行度量,为文本的相似度计算提供了一个理论框架,因此向量空间模型在文本特征表示的过程中获得了广泛的应用。

(2)文本特征抽取。即将文本中的信息进行筛选、分割和抽取。主要包括分词和消除停用词两个步骤。

分词的基本方法包括最大匹配法、最大概率分词法、最短路径分词法。最大匹配法有正向匹配和逆向匹配两种匹配方式,正向匹配即从左右截取词组并判断是否为一个词语,逆向匹配即自右向左截取词组并判断是否为词语。最大概率分词法是基于统计进行的分词方法,最大概率分词法是直接划分整个句子,计算当前句子每一种划分后出现词语的概率,取最大概率的划分结果。最短路径分词法是对所要切分的句子按照切分后词组最少的方法进行分割,但这种方法难以解决大部分的歧义问题。

消除停用词是指消除文本中出现频率较高但却没有实质意义的词汇,主要包括冠词、代词等,中文如“了、的”等,英文如“a、an、for ”等,这些词语是构成句子的重要部分,但对于理解文本的意义却不大,而且会对文本挖掘造成干扰,因此必须将其从文本中消除。

(3)文本特征选择。即对特征向量的筛选和降维。由于文本内涵的丰富性,用来表示文本的特征向量数量也极其庞大,但是这些特征项中存在大量的冗余特征,对于文本挖掘的意义不大,甚至会影响重要向量的表达。可以通过卡方统计(CHI)、文本频度、信息增益等方式进行文本特征的选择。机器学习是信息挖掘的重要术之一,在文本挖掘领域得到了广泛应用,主要包括文本分类、文本聚类、关联规则分析等。

文本分类:此处的文本分类是指通过计算机完成的自动文本分类,预先定义好分类标准,并根据文本内容自动标记文本类别。文本分类主要包括获取训练样本、建立文本表示模型、选择分类方法训练分类模型、通过分类模型进行分类四个步骤。其中训练样本集的选取应具有代表性,常用的文本表示模型包括向量空间模型、概率模型和布尔模型。

文本聚类:文本聚类根据文本特征的相似性通过计算机对文本集进行聚类。文本聚类的步骤为首先建立文本表示模型、选择聚类算法和进行聚类评估。聚类文本的表示模型建立时需要对文本进行预处理和特征选择,因为在后续聚类的过程中是依据选取的特征将相似性更高的文本聚为一类,若特征的选取不符合聚类的目的,则难以获得较好效果。

关联规则分析:关联规则分析是文本挖掘中非常重要的技术,关联规则是从事物的集合中,找出满足支持度和置信度最低阈值要求的所有关联规则,首先从事物集合中找出频繁项目集,再从频繁项目集合中生成满足最低置信度的关联规则。关联规则的阈值由用户指定。在关联规则分析中较常用的算法有Apriori算法、FP-growth算法等。

Apriori算法是基于频繁集的关联分析,首先根据预先设定的最小支持度找出所有的频繁项集,然后由频繁项集产生强关联规则,使用第一步所找到的频繁项集产生只包含集合项的所有规则。Apriori假设若某个项集是频繁的,那么其所对应的子集也是频繁的,若一个项集是非频繁的,那么它所对应的超集也全部是非频繁项集。因此Apriori算法能够过滤掉很多无关的集合,但是其通过迭代来进行,因此在大数据的计算时较为困难。FP-growth算法通过构造树结构来压缩数据,使得挖掘频繁项集只需要扫描两次数据记录,因此其运算速度远远高于Apriori,但当数据集中的频繁项集不存在公共项时,其需要的存储空间更大。

3.2 文本概念的本体表示(www.xing528.com)

3.2.1 本体的概念演变及组成要素

本体(Ontology)这一概念实是来源于哲学,是对实体、概念、事件、属性及其相互关系的抽象,以揭示一个系统的中事物的基本属性和相互关联,是对客观现实的抽象。后来,本体被广泛应用于其他领域,被赋予了新的内涵。在人工智能界,Neshes等人将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。Studer等学者认为本体是“共享概念模型的明确的形式化规范说明”,这一内涵包含了四方面含义:首先本体是一个概念模型,概念即对客观事实的抽象,本体是由大量概念构成的模型;第二,本体具有“明确”的特征,本体中的所有概念和约束都具有明确的定义;第三,本体是“形式化”的,本体是能够被计算机识别的模型;第四,本体是可“共享”的,本体是一个共同认知,并非个体意识。国内对本体较早进行研究的是陆汝钤院士,他提出了基于本体的领域建模思想,领域本体是这一领域内的概念及概念间关系的共识。目前在信息领域,本体成为一种知识表示和组织的方法,用于描述海量信息中隐含的语义和内容,作为某一特定领域中概念、属性和关系的集合,反映特定领域中的通用观点。

Perez等人通过分类法来组织本体,归纳出本体所包含的五大要素,分别是:类、关系、函数、公理和实例。类的含义非常广,它所代表的是对象的集合,其中的对象可以泛指任何事物,例如功能、行为,是一个概念、对象类型或者说是种类。关系是描述领域中概念之间的交互作用。在形式上为笛卡尔乘积的子集。函数是一种特殊的关系。在函数关系中,前1- n个元素可以唯一确定第n个元素。公理代表永真断言,如概念乙属于概念甲的范围。实例代表元素。从语义上讲实例表示的就是对象。

3.2.2 本体的分类

本体被广泛应用于各个领域之中,不同的研究主体对本体的应用都存在一定差异,对本体的分类也各具特色,并未形成统一的分类标准。目前可将本体按照领域依赖程度、本体细化程度、本体形式化程度、是否具备推理功能、描述对象、研究主题对本体进行分类。

(1)按照领域依赖程度可将本体分为顶层本体、领域本体、任务本体和应用本体。顶层本体是最为基础性的描述,揭示最基本的概念、属性及其之间的关系,如时间、空间、事件等独立于特定问题和领域的概念。领域本体是在某一特定领域内,能够反映该领域重要特征出现频率较高的概念、属性及其之间的关系。任务本体是在某一特定的任务或行为中的概念、属性及其之间的关系。应用本体是指依赖于特定领域及任务的具体应用实践过程中的概念、属性及其之间的关系。

(2)按照本体的细化程度可以分为较为详尽的参考本体和详细程度较低的共享本体。

(3)按照本体的形式化程度可以分为高度非形式化、结构非形式化、半形式化和严格形式化。形式化的程度主要区别在于本体的描述语言。高度形式化本体是指使用没有限制的自然语言表达的本体,呈现形式较为松散。结构非形式化是指使用了结构化的自然语言表达的本体,有一定的规律。半形式化是指用半形式化的语言表达的本体,半形式化的语言由人工定义。严格形式化是指所有术语都有形式化的语义,能够在某种程度上证明完全性和合理性。

(4)按照是否具备推理功能可将本体分为轻量级、中级和重量级。轻量级本体不具备逻辑推理功能,只是描述和表达含义,如叙词表。中级本体具有一定的逻辑推理能力,但停留在一阶推理阶段,系统能够识别一阶谓词的逻辑表达式。重量级本体具有超强的逻辑推理能力,系统能够实现二阶谓词及以上的逻辑表达式,完成复杂的逻辑推理功能。

(5)根据描述对象的差异,可将本体分为特殊领域本体、一般世界知识本体、问题求解本体和知识表示语言本体。

(6)根据不同的研究主题,可将本体分为知识表示本体、通用或常识本体、领域本体、语言学本体和任务本体。知识表示本体是以知识表示语言为描述对象的本体,如Stanford和Frame Ontology提出的Knowledge Interchange Format。通用或常识本体是以通用性知识或常识为描述对象的本体。领域本体是以某一领域知识为描述对象的本体,例如基因本体。语言学本体是以语言、词汇为描述对象的本体。任务本体是以任务和求解方法为描述对象的本体。目前所存在的各种本体的分类方式并未形成统一标准,Perez和Benjiamins也曾尝试对已有的本体进行归类,融合上述本体类别,将其归纳为表示本体、常识本体、顶级本体、元本体、领域本体、语言本体、任务本体、领域-任务本体、方法本体和应用本体,但这一分类方式自身之间存在一定的交叉重叠,并未得到广泛应用。

3.2.3 本体的描述语言与编辑工具

本体描述语言是本体构造的基础,基于预先设定的本体描述语言展现本体内容和架构体系,保证本体的存储和利用。因此,本体描述语言是一种具有语义和语法并且准确、客观、可推理的语言。不同的本体描述化语言所构造出的本体的形式化程度是不同的,根据上文本体的分类可知,根据本体形式化程度的不同可将本体分为非形式化、半非形式化、半形式化和形式化,因此本体描述性语言也相应为非形式化语言、半非形式化语言、半形式化语言及形式化语言。既可用自然语言来描述本体,也可以用框架、语义网或逻辑语言来描述本体。目前比较常用的语言有KIF、RDF、DAML等。

KIF语言是一种面向计算机,可以在不同系统之间完成知识交互的一阶语言。最早应用在知识表达中,通过不同的程序如框架、图表和语言等,以自身适当的方式将信息呈现给用户。Ontoligua是一种基于KIF的语言,是目前构造本体最普遍的语言之一,它通过提供统一的规范格式来构造本体。它所构造的本体能够轻松地在不同的知识表示和推理系统中转换,将对本体的维护与具体使用它的目标系统分离开,并且其自身能够转换为标准的KIF。这类一阶语言能够描述出与任意的一阶谓词相关的概念,并且能够通过相应的描述表达函数和恒定推理规则。

RDF即资源描述框架,本质为一个数据模型,是一个用于描述实体的统一的标准,其内容包括属性、资源和实体等要素。RDF 在本体构建中通过标注不同节点之间的弧度,代表不同资源的属性,从而描述属性、资源和实体以构建本体。DAML语言是美国多个研究机构和工业组织参与研究建立的一种描述语言,以XML 和RDF等web标准为基础,新增加面向对象并基于框架系统的本体原语及严格形式化的描述逻辑。由于其是以RDF三元组为基础,因此具有简洁的逻辑结构,但与RDF不同的是,它并非一种数据模型,而是用来限制和描述RDF数据模型的一种结构语言,包含类、公理等多种本体构造元素,但是其操作相对复杂。

本体的构造过程本身是一个需要清晰的逻辑、反复的迭代过程,可以通过各种工具和软件辅助实现。本体的构建已成为很多领域的研究内容,可使用的工具也非常丰富,其中较为常用的工具有Web ODE、Protégé等。Protégé是斯坦福大学基于JAVA 开发的本体编辑软件,是开放源代码软件。提供本体的各元素,如类、关系、属性和实例的编辑,其采用图形化界面,对各元素的编辑只需要通过选取相应的项目即可实现,用户不需要直接面对本体描述语言,只需在概念层次上完成本体构建。Protégé可转换的文本表示语言非常丰富,如XML、RDF、OIL、DAML、OWL等,是目前应用最为广泛的本体编辑软件。

Web ODE是基于ODE软件融合XML 技术的升级版,它通过定义实例,提供各式概念试图,为用户提供满足多样化需求的实例概念模型,应用之间的互操作性大大提升。但其并未开放源代码,因此服务范围仅限于注册用户,并未得到有效推广。

3.2.4 本体构建方法

由前文的叙述可知,领域本体是针对某一领域所构建的本体。领域本体在对领域的研究中往往有奠基作用,它是这一领域基本术语和基本内涵关系的描述,具有这一领域最鲜明的特征,领域本体是对这一特定领域的描述和阐释。领域本体让概念能够以多重继承的关系得以呈现,改善了以概念树为核心的知识组织体系,既能保证一个高层级的概念可以有多分支,也可以做到让一个概念同时属于两个及以上的类属,这是领域知识的组织的一个有效突破。领域本体可以视为以属性为关联标准的概念网络,概念、概念和属性之间的关系、属性与属性之间的关系构成了领域本体的基本框架,通过弧线相连能够表达树状、网状和递归等多种结构,将复杂无序的内容以清晰的方式呈现出来。

领域本体的构建过程中最为核心的内容在于获取概念及概念之间的联系。目前已有信息的提取方法,如自然语言处理,能够从非结构化的文本中抽取出所需概念,对于抽取出的概念基于统计方法进行人工判断,获取所需词汇。利用文本挖掘中的关联技术发现概念、属性之间的关系。并通过自动或半自动的本体构建工具基于本体各相关要素构建本体。骨架法是构建领域本体常用流程。骨架法本体构建首先要确定知识本体的应用目的和应用范围。领域本体的构建从表面看主要面向机器服务,但其实际服务对象还是用户,因此在本体构建的初期就应当了解其应用背景,考虑用户需求,以确定领域本体的广度和深度,以及本体内关系的复杂程度。不能够一味地扩大本体的范围,会大大提升所构建本体的复杂度及本体利用的低效。

在确定本体的范围之后需要对本体进行分析,获取领域知识,并对所获取的知识进行抽象和整理,定义类和关系,从而建立本体模型。本体建模是本体构建的核心步骤,对类和关系的定义是整个本体构建过程的核心。

本体表示步骤是将本体转换为计算机可识别的形式,需要对前一步所构建的本体模型进行准确、客观、完整的表达和阐述,为知识之间的推理打下坚实基础。对于表示出的本体进行评价,检验其是否符合应用目的和应用范围的要求,是否具有良好的关联和推理能力,以及本体的表达是否清晰合理和有效,若不符合检验条件则回到本体分析阶段,若通过则完成本体的构建。

语义网(semantic web)是允许将机器可解释的知识分布到万维网上的一种方法。网站可提供被计算机使用的信息,而不是仅能提供让人阅读的HTML页面。在最基本的层次上,XML(the Extensible Markup Language)提供了一个为机器的阅读而设计的句法,且该句法也可供人阅读。它是一个基于文本的语言,其中的项使用分层的方式来标注。XML的句法可以很复杂,但在最简单的层面上,标注或者以<tag…/>的形式存在,或者以<tag…)…(/tag>的形式存在。

URI(Uniform Resource Identifier)用来唯一标识一个资源。资源是可以被唯一标识的任何事物。一个URI是指示了一个资源的字符串,如一个网页、一个人或一个公司。URI通常使用网络地址的句法。

RDF(Resource Description Framework)是一个建立在XML上的语言,提供了个体-属性-值的三元组。RDF-S(RDF Schema)允许你使用其他资源(如使用subClass)来定义资源(也包括属性)。RDF-S也可以限制域和属性的范围,并提供了容器(集合、序列及可选项——其中必有一个为真)。

RDF允许句子使用其自己的语言具体化。这意味着它可以表示任意的逻辑公式,因此通常不可判定。不可判定未必是一件坏事,它只是意味着你不能确定计算可能需要的时间。带有函数符号的简单逻辑程序及几乎所有的编程语言都是不可判定的。OWL(Web Ontology Language)是万维网的本体语言。它定义了具有固定解释属性,这些类和属性可用于描述类、属性和个体。它有内置的判定个体、类和属性等的等价机制,另外还有对域、属性范围和其他的属性约束的限制(如传递性和基数性)。

人们已对构建大型的通用本体作出了一些努力,不过建立语义网的目标是将各个团体聚拢到本体上来。任何人都可以建立一个本体。想要建立一个库的人可以使用现有的本体,也可开发他们自己的本体——通常都是建立在现存本体基础上。因为获得语义互操作性是知识库建立者的意愿,所以公司和个体应该尽可能为领域采用标准的本体,或者开发一个从它们的本体到其他本体之间的映射。本体具有语义推理的功能,特别是可以通过设定规则进行推理。这里的推理规则包括上下位关系推理、相似关系推理等。RDF和RDFS经常被用来描述数据及其关系。RDF在描述数据类型时,是以三元组的方式进行陈述。而RDFS中包含了一系列框架,可以用来描述概念之间的关系。由RDF和RDFS定义的规则都具有传递性、继承性等特性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈